腾讯AI Lab全解读：3大核心领导人物，8篇代表论文全梳理

文章正文

发布时间：2024-08-08 03:27

昨天（3.23日）腾讯官方发布正式公告，任命人工智能领域顶尖科学家张潼博士担任腾讯AI Lab（腾讯人工智能实验室）主任，腾讯迎来其人工智能发展的新阶段。

雷锋网获悉，腾讯 AI Lab 于2016年成立，专注于人工智能的基础研究及应用探索，不断提升AI的决策、理解及创造能力，同时为腾讯各产品业务提供AI技术支撑。AI Lab的愿景是打造全面AI能力，“让AI未来无处不在”（Make AI Everywhere）。

张潼博士作为腾讯AI Lab第一负责人，将带领50余位AI科学家及200多位AI应用工程师团队，聚焦于四大基础研究领域看，包括计算机视觉、语音识别、自然语言处理和机器学习，并根据腾讯业务提出游戏、内容、社交及工具平台型AI四个应用方向。下面，我们就从核心领导层、代表论文和研发领域三个方面，全面解读腾讯AI Lab。

腾讯AI Lab三大核心领导人物

根据腾讯AI Lab官方资料显示，实验室领导层目前包括：张潼、俞栋和刘威。

腾讯AI Lab全解读：3大核心领导人物，8篇代表论文全梳理

张潼

AI Lab 执行主任

张潼博士是中央组织部“”特聘专家，拥有美国康奈尔大学数学系和计算机系学士，以及斯坦福大学计算机系硕士和博士学位。加入腾讯前，张潼博士曾经担任美国新泽西州立大学教授、IBM研究院研究员、雅虎研究院主任研究员，百度研究院副院长和大数据实验室负责人，期间参与和领导开发过多项机器学习算法和应用系统。

张潼博士曾参加美国国家科学院大数据专家委员会，并负责过多个美国国家科学基金（National Science Foundation）资助的大数据研究项目。此外，张潼博士是美国统计学会和国际数理统计学会Fellow，并担任NIPS（神经信息处理系统进展大会）、ICML（国际机器学习大会）、COLT（学习理论大会）等国际顶级机器学习会议主席或领域主席，以及JMLR（机器学习研究期刊）和Machine Learning Journal（机器学习期刊）等国际一流人工智能期刊编委。

腾讯AI Lab全解读：3大核心领导人物，8篇代表论文全梳理

俞栋

AI Lab副总经理

俞栋博士于2017年加入腾讯，现任腾讯人工智能实验室杰出科学家和副总经理。加入腾讯前，他在微软公司工作了19年并任职微软研究院首席研究员。他是语音识别和深度学习方向的资深专家，出版了两本专著和160多篇论文，是50余项已授权专利和10余项待审批专利的发明人、及深度学习开源软件CNTK的发起人和主要作者之一。

他的工作已被引1万余次，h-index达到50多。他在基于深度学习的语音识别技术上的开创性工作，带来了语音识别研究方向的转变，极大的推动了语音识别领域的发展，并获得2013年和2016年IEEE 信号处理协会最佳论文奖。俞栋博士现担任IEEE语音语言处理专业委员会委员，IEEE西雅图分会副主席，及APSIPA杰出讲师，曾担任IEEE/ACM音频、语音及语言处理汇刊、和IEEE信号处理杂志等期刊的副编辑，以及多个国际会议的技术委员会和组织委员会成员。

腾讯AI Lab全解读：3大核心领导人物，8篇代表论文全梳理

刘威

计算机视觉中心总监

刘威担任 AI Lab 计算机视觉中心总监，负责图像视频数据相关的AI研究。

刘威博士长期从事计算机视觉、机器学习、数据挖掘、信息检索等领域的基础研究和产品开发，迄今发表和录用论文100+篇，总引用次数为3600+次。刘威博士多次担任国际权威期刊的客座编委与审稿人，自2007年起一直担任国际顶级会议NIPS、CVPR、ICCV等的程序委员成员，担任第四届自然语言处理与汉语计算会议 NLPCC 2015的领域主席，并自2014年起担任美国自然科学基金信息与智能系统分部（NSF IIS Division）的研究项目评审。

刘威于2012年获得美国哥伦比亚大学计算机科学与电子工程博士学位，曾任IBM沃森研究中心研究科学家。曾获得2011年底 Facebook 博士研究生奖学金，2013年度哥伦比亚大学优秀博士论文奖，2014年度计算机视觉与模式识别国际会议（CVPR）青年研究者奖，2016年度国际信息检索大会（SIGIR）最优论文荣誉奖。

腾讯AI Lab 8 篇代表论文

腾讯AI Lab关注于基础研发，其官方所列的8大代表性论文分别被IEEE、ICML等期刊、大会收录。下面是雷锋网对这8大论文简要介绍，更多内容请访问：。

1、多媒体哈希算法和网络（Multimedia Hashing and Networking）

作者：Wei Liu and Tongtao Zhang

摘要：我们总结了基于浅度学习的哈希算法和基于深度学习的哈希算法。通过成功利用浅度学习算法，先进的哈希算法技术已经成功广泛用于高效的多媒体存储、索引、检索，尤其在智能手机设备上的搜索应用效果很好。我们引入了Multimedia Information Networks (MINets)，提出利用MINets的范式，同时整合视觉和文本信息来达到合理的事件指代消解。

2、深度学习促进从单一图像的视觉路径预测（Deep Learning Driven Visual Path Prediction from a Single Image）

作者：Siyu Huang, Xi Li, Zhongfei Zhang, Zhouzhou He, Fei Wu, Wei Liu, Jinhui Tang, and Yueting Zhuang

摘要：我们提出一个深度学习框架，能够对视觉表征进行深度特征学习，同时进行时空背景建模。然后，使用一个联合的路径规划机制，基于深度背景模型返回的分析结果来精准预测路径。高度有效的视觉表征和深度背景模型，确保我们的框架对场景和运动模式进行深度语义理解。

3、基于话题浏览视频搜索结果的分层可视化（Hierarchical Visualization of Video Search Results for Topic-based Browsing）

作者：Yu-Gang Jiang, Jiajun Wang, Qiang Wang, Wei Liu, and Chong-Wah Ngo

摘要：这篇论文里，我们介绍了一种分层可视化方法进行视频搜索结果浏览，这可以帮助用户以一种组织良好的方式，快速理解一个查询话题的多面内容。对于一个查询语句，系统对其文本描述进行分层，这通常可以在维基百科获得，然后通过分析视频信息调整分层结构，来反映出搜索结果的话题结构。之后，这就形成了一个优化问题，根据三个重要的指标建立视频到点（video-to-node）的关联。此外，挖掘跟多的话题面以补充现有的语义层次机构中的内容。

4、稳定随机梯度：大型优化里的流形传播方法（Stochastic Gradient Made Stable: A Manifold Propagation Approach for Large-Scale Optimization）

作者：Yadong Mu, Wei Liu, and Wei Fan

摘要：这篇论文里，我们提出一种创新的分层半随机梯度下降法(S3GD) ，加速大型复合凸函数的优化。虽然之前的半随机算法理论上收敛更快，但它具有很高的迭代复杂性，这使得它在实际很多数据库中比SGD的速度还要慢。在我们的S3GD方法中，半随机梯度基于有效的流形传播进行计算，可以进行大量的稀疏矩阵乘法。S3GD能够在大大减少计算法复杂度的情况下，从每一个mini-batch里生成高度精确的梯度估测。

5、使用复合迭代量化锚图哈希方法进行可扩展的乳房x光照片检索（Scalable Mammogram Retrieval Using Composite Anchor Graph Hashing with Iterative Quantization）

作者：Jingjing Liu, Shaoting Zhang, Wei Liu, Cheng Deng, Yuanjie Zheng, and Dimitris N. Metaxas

摘要：这篇论文里，我们旨在为一个大型乳房x光照片库开发出一种可扩展的CBIR（基于内容的图像检索）方法。为此，我们扩展了原有的锚图哈希 (AGH)，并提出一个新的非监督哈希算法，命名为“复合迭代量化锚图哈希”（Composite Anchor Graph Hashing with Iterative Quantization，CAGH- ITQ），能够压缩乳房X光照片的ROIs至简洁的二进制代码，使得能够实时搜索汉明空间。多模型特征和不同的距离度量整合在其中，基于一个复合锚图运行。为了提升哈希代码的效率，我们通过引入一个正交旋转矩阵来反复缩小量化误差。

6、高效多类别图片选择性取样（Efficient Multi-Class Selective Sampling on Graphs）

作者：Peng Yang, Peilin Zhao, Zhen Hai, Wei Liu, Steven C.H. Hoi, and Xiao-Li Li

摘要：基于图的多类别分类问题总是会通过one-vs.-all策略，而转换为二元分类任务集合，最后应用适当的二元分类算法来解决。我们提出了一个统一的架构，并不使用one-vs.-all策略，可以直接在多类别分类问题上直接运行，不需要将其拆分为一系列二元分类集合。另外，这个框架使得多类问题的积极学习变得实际可行，而这是one-vs.-all策略达不到的。

7、基于Pairwise排序学习的无参考重定向图像质量评估（No-Reference Retargeted Image Quality Assessment Based on Pairwise Rank Learning）

作者：Lin Ma, Long Xu, Yichi Zhang, Yihua Yan, and King Ngi Ngan

摘要：在这篇论文里，我们为重定向图像，提出一种基于pairwise排序学习的无参考图像质量评估方法。每一个重定向图像需要以特征向量的形式进行表征，不仅需要捕捉图片的特征，也要对重定向过程中的变形保持敏感。因此，我们针对不同的图片表征，调查和检测了其描述重定向图片感知质量的能力。基于图片表征，我们使用了pairwise排序学习方法，来判别每一对重定向图片的感知质量。

8、自动语音识别领域里的残差卷积CTC网络（Residual Convolutional CTC Networks for Automatic Speech Recognition）

作者：Yisen Wang, Xuejiao Deng, Songbai Pu, Zhiheng Huang

摘要：这篇论文里，我们提出了一种新的既深又宽的CNN架构，名为RCNN-CTC，具有残差关系和CTC损失函数（ Connectionist Temporal Classification loss function）。RCNN-CTC是一种端到端的系统，可以同时开发语音信号的时间和光谱结构。另外，我们引入了一个基于CTC的联合系统，与传统基于senone的framewise系统有很大不同。这个联合系统里的基本子系统有不同类型，因此可以相互补充。实验结果显示，与几个自动语音识别领域广泛使用的神经网络系统相比，我们一个RCNN-CTC 系统在WSJ和Tencent Chat数据库里，达到了最低单词错误率（WER）。

腾讯AI Lab关注4大垂直领域

腾讯AI Lab聚焦四大领域的基础研究，包括：计算机视觉、语音识别、自然语言处理与机器学习，力求全面覆盖并深层次拓展AI的前沿技术能力。同时发展AI在具有腾讯特色的四大业务场景中的应用能力：内容 AI、社交AI、游戏AI和平台工具AI。

腾讯AI Lab全解读：3大核心领导人物，8篇代表论文全梳理

计算机视觉

追踪和研究最前沿的计算机视觉理论与算法，依托人工智能和大数据的支持，赋予计算机接近乃至超越人类视觉系统的能力，提升计算机完成各类视觉任务的水平，探索计算机在最新领域中的应用。

主要研究分支：图像视频的分析、理解与编辑，人脸的检测与识别，物体的检测、跟踪与分类，3D视觉，基于视觉的增强学习等。

语音识别

基于声学模型和语言模型, 创建一个智能的"机器听觉系统" 和"机器会话系统", 让机器能"听懂"人类语言, 并理解语言中包含的信息从而达到真正的人机"对话"。

主要研究分支：语言前端处理、声学模型/语言模型的建立、语言解码和语音合成等。

自然语言处理

赋予计算机系统以自然语言文本方式与外界交互的能力(即让计算机能够"读懂"自然语言文本，并能够用自然语言文本的方式"表达"自己的"思想")，追踪和研究最前沿的自然语言文本理解和生成技术，孵化下一代自然语言处理技术与商业应用场景。

主要研究分支：语义分析、知识推理、智能问答、机器翻译等。

机器学习

研究前沿的机器学习理论及算法，研发和部署大规模机器学习/深度学习系统。在大数据和互联网背景下，探索机器学习算法在社交网络、广告推荐，行业大数据，智能游戏，以及基于感知和决策的AI等方向的应用。

主要研究分支：机器学习理论，优化算法，大规模分布式计算，异构平台，以及创新监督，半监督，和增强机器学习算法的研究。

更多雷锋网文章：

张亚勤出任百度美研发董事长，吸引人才是关键

他们做的通用人工智能，要让所有产品都具备“智能”大脑

雷峰网原创文章，未经授权禁止转载。详情见转载须知。