回到主页

智源社区AI周刊#018 (2020.04.20)

为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第18期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况),数据(数据集),工具(新工具和应用推荐),求职(职场研究报告等)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。

过去一周(2020/04/13~2020/04/19),值得关注的内容有以下3方面:

  • 近日,来自CMU、谷歌研究院和DeepMind的科学家们提出了覆盖四十种语言的大规模多语言多任务基准 XTREME。该研究覆盖了40种类型不同的语言(跨12个语系),并包含了9项需要对不同句法或语义层面进行推理的任务。在XTREME大规模多语言多任务基准上选择40种不同类型的语言,这是为了实现语言多样性、现有任务覆盖以及训练数据可用性的最大化。(详情参见本周报“数据”栏目)
  • 日前,OpenAI发布神经网络可视化库Microscope。机器学习算法通常被称为“黑箱”,人类并不知道AI是怎么决策的,算法从输入到输出的过程就像变魔术一样。由于缺乏可解释性,ML可能会导致很多不可控的后果。Microscope可以像实验室中的显微镜一样工作,帮助AI研究人员更好地理解具有成千上万个神经元的神经网络的结构和行为。(详情参见本周报“新工具”栏目)
  • 北京邮电大学石川教授最近针对图神经网络研究的重要挑战——传统采用的是同质图数据,无法满足业界交互系统对异质图的实际需求,介绍了自己对于解决方案的一系列相关研究工作,包括:异质信息网络的表示学习、浅层模型、深层模型、元路径的选择等关键技术以及它们在电子商务问题中的应用等。(详情参见本周报“教程”栏目)

下面是各个要点的详情介绍。

▋ 论文推荐

扩展架构的高效视频识别
X3D: Expanding Architectures for Efficient Video Recognition

本文提出了一类高效的视频网络——X3D,它在空间、时间、宽度和深度等多个网络轴上逐步扩展了一个微小的二维图像分类体系结构。受机器学习中特征选择方法的启发,提出了一种简单的分步网络扩展方法,该方法在每一步中扩展一条轴,从而达到了较好的精度和复杂度平衡。为了将X3D扩展到特定的目标复杂性,作者执行前向扩展和后向收缩。X3D实现了最先进的性能,同时可以减少4.8倍和5.5倍的乘法和参数,以达到与以前的工作类似的精度。本文最令人惊讶的发现是,具有高时空分辨率的网络可以表现得很好,而在网络宽度和参数方面则非常轻。在视频分类和检测基准上,本文的方法具有竞争力的准确性和前所未有的效率。

状态标签对抗主动学习
State-Relabeling Adversarial Active Learning

主动学习是通过对最有代表性的样本进行抽样,设计标签有效的算法。本文提出了一种状态重新标记对抗主动学习模型(SRAAL),该模型利用标注和标记/未标记的状态信息来获得信息量最大的未标记样本。SRAAL由一个表示生成器和一个状态鉴别器组成。该生成器利用补充标注信息与传统重建信息生成样本的统一表示,将语义嵌入到整个数据表示中。然后,本文在鉴别器中设计了一个在线不确定度指标,使未标记样本具有不同的重要性。因此,本文可以根据鉴别器的预测状态来选择信息最丰富的样本。本文还设计了一个算法来初始化标记池,这使得后续的采样更加有效。在各种数据集上进行的实验表明,本文的模型优于现有的主动学习方法。

预训练Transformer提高分布外鲁棒性
Pretrained Transformers Improve Out-of-Distribution Robustness

深度和大型的预训练语言模型是各种自然语言处理任务的最新技术。然而,这些模型的巨大尺寸可能会阻碍在实践中使用它们。最近的一些并行工作使用知识蒸馏来将这些庞大的模型压缩成小型模型。在这项工作中,作者以多语言命名实体识别(NER)为重点来研究知识蒸馏。作者研究了几种蒸馏策略,并提出了一种利用教师内部表征的阶段性优化方案,该方案不考虑教师体系结构,并证明其优于以往工作中所采用的策略。此外,作者还研究了几个因素的作用,比如未标记数据的数量、注释资源、模型架构和推理延迟等等。本文证明,该方法可以将类mbert教师模型的参数压缩高达35倍,批量推理的延迟压缩51倍。

PLATO:大规模隐变量对话模型
PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable

对于复杂的一对多的模式,神经网络拟合起来往往非常棘手。在学习这样一对多的数据的时候,会因为模型能力和数据匮乏导致最终学习的效果趋向于平庸。为了解决这些问题,本文提出了一个新的对话生成框架——带离散隐变量的对话生成预训练模型“柏拉图”(PLATO)。隐变量较为普遍地在VAE、CVAE等技术中使用,但在论文中,作者们首次提出将离散的隐变量结合Transformer结构,应用到通用的对话领域。通过引入离散隐变量,可以对上文与回复之间的“一对多”关系进行有效建模。同时,文章中通过利用大规模的与人人对话类似的语料,包括Reddit和Twitter,进行了生成模型的预训练,后续在有限的人人对话语料上进行微调,即可以取得高质量的生成效果。

预训练模型权重攻击
Weight Poisoning Attacks on Pre-trained Models

最近,NLP见证了大型预训练模型使用的激增。用户下载在大型数据集上预先训练的模型的权重,然后在他们选择的任务上微调权重。这就提出了一个问题:下载未经训练的不可信的权重是否会造成安全威胁。在这篇论文中,本文证明了构造“权重中毒”攻击是可能的,即预先训练的权重被注入漏洞,在微调后暴露“后门”,使攻击者能够通过注入任意关键字来操纵模型预测。本文证明,通过应用正则化方法和初始化过程,即使对数据集和微调过程的了解有限,这种攻击也是可能的。本文在情感分类、垃圾邮件检测等方面的实验表明,该攻击具有广泛的适用性和严重的威胁。最后,本文了针对此类攻击的实际防御。
▋ 观点

高文院士:企业所做研究一定是应用研究

本文对高文院士进行了采访。伴随着当下企业做人工智能研发进入深水区,高文院士指出,不能天真地认为企业会做基础研究,企业所做研究一定是应用研究,一定是为其产品服务的;所不同的是,这些应用研究面向的是未来五年、十年还是二十年的产品。
▋ 行业与政策

京东AI研究院对视觉与语言的思考:从自洽、交互到共生

本文纵观视觉与语言在这六年间的飞速发展史,它就仿佛是两种不同文化的碰撞与交融。这里每一种文化最初的进化都是自洽的,即各自地演化形成一套完备的视觉理解或语言建模体系;演化至今,当前所迎来的则是两种文化间的交互,自此视觉理解和语言建模不再是简单串联的两个模块,而是通过互相的信息传递成为共同促进的一个整体;对于视觉与语言的未来,则一定是聚焦于两者更为本质和紧密的共生,它所渴望的,将是挣脱开数据标注的桎梏,在海量的弱监督甚至于无监督数据上找寻两者间最为本质的联系。

MSR解读AI在高等教育中应用的四大机遇与思考

人工智能为教育带来的益处意义深远,例如,针对不同学生的喜好实现个性化学习,帮助他们适应节奏、调整进度,掌握课程主旨等。在与《泰晤士高等教育》联合进行的一项调查中,高校领导者们表示AI的好处在于它们将能够像人一样对学生进行评估、提供反馈,以及提出和验证科学假设。本文讨论了AI在高等教育中应用的现状,以微软的高等教育数字化转型框架透视AI在教育中的应用和案例,并探讨这些创新背后的AI技术。

晓多科技连续完成B+、C两轮融资,总金额超2亿元

苏州思必驰信息科技有限公司于近日完成E轮4.1亿元人民币融资,本轮融资由和利资本领投,北汽产投、中信金石等跟投。思必驰历经十余年基础技术研发,拥有近1200项知识产权,其中专利700余项。思必驰主要业务是研发全链路智能语音交互关键技术,包括声学信号处理、语音识别、语音合成、自然语言理解、声纹识别、情绪识别、知识图谱、智能交互决策等。
▋ 数据

XTREME:Google发布多语言、多任务NLP新基准

自然语言权威数据集GLUE一直是衡量各机构NLP预训练技术水平最重要的指标之一。近年来在其榜单之上实现更好的成绩,也成为了科技公司技术提升的体现。不过现有的大多数NLP基准仅限于英文任务,无法评价NLP模型在其他语言上的能力。近日,来自CMU、谷歌研究院和DeepMind的科学家们提出了覆盖四十种语言的大规模多语言多任务基准 XTREME,希望一举解决这个问题。该研究覆盖了40种类型不同的语言(跨12个语系),并包含了9项需要对不同句法或语义层面进行推理的任务。在XTREME大规模多语言多任务基准上选择40种不同类型的语言,这是为了实现语言多样性、现有任务覆盖以及训练数据可用性的最大化。

KdConv:多领域知识驱动的中文多轮对话数据集

由于包含知识标注的多轮对话数据集的缺乏,知识驱动对话系统的研究在很大程度上受到了限制。为了进一步推动多领域的知识驱动的多轮对话研究并且弥补中文语料的缺乏,该项目提出了一个中文的多领域的知识驱动的对话数据集KdConv(Knowledge-driven Conversation),其使用知识图谱为多轮对话中使用的知识进行标注。该语料库包含了来自三个领域(电影、音乐和旅游)的4.5K个对话,86K个句子,平均轮数为19.0。这些对话包含了相关话题的深度讨论,以及多个话题之间的自然过渡。

FUSS:Google发布通用声音分割数据集

录音通常包含各种不同的声源。以前,声音分离工作着重于分离少量声音类型,例如“语音”与“非语音”,或相同类型声音的不同实例,例如扬声器1与扬声器2。通常在这样的工作中,还假设声音类型数量是先验的。FUSS数据集将重点转移到了一个更普遍的问题上,即将可变数量的任意声音彼此分开。
▋ 代码

PyTorch版EfficientDet

去年11月份,谷歌大脑提出兼顾准确率和模型效率的新型目标检测器EfficientDet,实现了新的SOTA结果。前不久,该团队开源了EfficientDet的TensorFlow实现代码。最近,有开发者在GitHub上开源了“PyTorch版本的EfficientDet”。该版本的性能接近原版,但速度是官方TensorFlow实现的近26倍。

TensorFlow模型优化工具包——训练时量化

本文介绍了tensorflow训练时量化(QAT)API,这也是TensorFlow模型优化工具包中的一部分。借助QAT,开发者能够利用量化在性能和大小上的优势训练和部署模型,同时保持与最初接近的准确率。这项工作是tensorflow发展蓝图中的一部分,旨在支持开发更小、更快的机器学习模型。

用TensorFlow Extended实现可扩展、快速且高效的BERT部署

Transformer模型(尤其是BERT模型)为NLP带来巨大的变革,并且在情感分析、实体提取和问答问题等任务的处理上也均有新的突破。BERT模型让数据科学家站在了巨人的肩膀上。各公司已经通过大型语料库对模型进行预训练,数据科学家可以对这些经过训练的多用途Transformer模型应用迁移学习,针对其所在领域的特定问题达成突破性解决方案。本文将为读者简单介绍如何通过TensorFlow的生态系统实现可扩展、快速且高效的BERT部署。
▋ 教程

北邮教授石川:图神经网络需要解决的几个关键问题

本次讲座中,石川针对图神经网络研究的重要挑战——传统采用的是同质图数据,无法满足业界交互系统对异质图的实际需求,介绍了自己对于解决方案的一系列相关研究工作,包括:异质信息网络的表示学习、浅层模型、深层模型、元路径的选择等关键技术以及它们在电子商务问题中的应用等。

周志华:Boosting学习理论的探索

这篇文章尝试用通俗故事的方式讲述一个机器学习理论中重要问题(Boosting学习理论)的探索历程。读者或能从中感受到机器学习理论探索的曲折艰辛,体会到理论进展对算法设计的指引意义。整体脉络从1998年AdaBoost间隔理论体系萌生,到几经论争跌宕得到2013年结果,经过了15年。再经6年得到该结果的定论。如果从故事开头的1989年算起,整整经历了30年。

多模态信息抽取简述

现实世界中的信息一般以多模态的形式出现,而由于技术问题,多模态研究进展缓慢。而近年来深度学习的发展以及算力的支持,使得图片、音频等多媒体数据可以和文本采用相同的深度学习框架分析,这为多模态研究提供了便利。例如,可以采用现有的ResNet等模型的输出向量作为图片表示。于是很多研究者采用了深度学习方法从多模态数据中抽取信息,在实体挖掘、关系挖掘、实体消歧等任务上对比传统的仅仅基于文本的方法取得了效果的提升,也从侧面证明了多模态信息抽取研究的必要性。本文介绍了多模态信息处理的一般方法,以及三个多模态信息抽取任务。
▋ 新工具

Microscope:OpenAI发布神经网络可视化库

机器学习算法(ML)通常被称为“黑箱”,人类并不知道AI是怎么决策的,算法从输入到输出的过程就像变魔术一样。由于缺乏可解释性,ML可能会导致很多不可控的后果。日前,OpenAI发布神经网络可视化库Microscope。Microscope可以像实验室中的显微镜一样工作,帮助AI研究人员更好地理解具有成千上万个神经元的神经网络的结构和行为。

Neural Tangents:简单快速训练无限宽度神经网络的开源库

近日,Google一项研究成果在社区引发了关注,该研究宣称可通过神经正切核(Neural Tangent Kernel)使用贝叶斯推理或梯度下降分析式地训练无限宽度的神经网络。使用谷歌开源的软件库Neural Tangents,这个过程不仅简单且快速,而且效果非常好,甚至只需5行代码就能一步到位地构建并训练这种无限宽度网络的集成模型。

TexSmart:腾讯AI Lab开放文本理解系统

腾讯AI Lab宣布开放自然语言理解系统TexSmart,用以对中文和英文两种语言的文本进行词法、句法和语义分析。除了支持分词、词性标注、命名实体识别(NER)、句法分析、语义角色标注等常见功能外,TexSmart还提供细粒度命名实体识别、语义联想、深度语义表达等特色功能。文本理解技术广泛应用于搜索、个性化推荐、广告匹配、智能对话等场景,用来对自然语言文本进行结构化分析与处理。
▋ 应用

弗吉尼亚理工大学团队用AI赋予老照片3D效果

来自弗吉尼亚理工大学、台湾清华大学和Facebook的研究者提出了一种将单个RGB-D输入图像转换为3D照片的方法,利用多层表示合成新视图,且新视图包含原始视图中遮挡区域的hallucinated颜色和深度结构。具体而言,研究人员使用具有显式像素连通性的分层深度图像(Layered Depth Image,LDI)作为基础表示,并提出了一种基于学习(learning-based)的修复模型,该模型以空间语境感知的方式,为遮挡区域迭代地合成局部新的颜色和深度信息。在使用标准图形引擎的情况下,该方法可以高效地渲染生成3D照片。

伯克利团队用AI优化机器人导航系统

大多数移动机器人纯粹是根据几何学来思考的,从语义理解的角度出发,使用人类提供的可穿越性或路面标签上训练出来的计算机视觉方法来实现,但是,可遍历性、颠簸性等和移动性相关的属性是自然环境的物理特征,机器人是否能直接从图像中推断出自主导航能力?并像人一样选择最合适的路径规划到达目标?来自加州大学伯克利分校的AI研究人员开发了一种方案,这是一种完全自主,可自我改进的基于端到端学习的移动机器人导航系统,移动机器人可通过自身在现实世界中的经验来自主学习环境的物理属性,而无需任何模拟或人工监督。

微软团队用AI最小化背景噪音

为方便用户云办公,微软与Skype合作发布了一组日常聊天新功能:比如,用户可以使用举手示意功能来请求发言;以及,在离线和低网速状态下,用户也能阅读和回复聊天消息。但在这其中,最引人瞩目的却是“实时噪音抑制”功能。发布会上,微软演示了AI在通话时最小化背景噪音的场景,当即引起了参会者的关注。事实上,多数人都有过在上网课或开云会议时,耳机里忽然出现噪音的尴尬经历。实时噪音抑制功能成为这个问题的克星,它能过滤掉人们在键盘上打字的声音、电脑主机运行的嗡嗡声甚至是家里吸尘器的声音。AI将实时消除背景噪音,这样用户就能将注意力完全集中在通话中的语音上。本文将介绍其工作原理。
▋ 会议

论文不公开代码,应该被直接拒稿?

上周,图灵奖得主Yann LeCun公开质疑谷歌大脑的论文无法复现,引起了社区热议。Lecun表示,即使是NLP的一些研究人员也无法复现谷歌大脑的语言模型Transformer-XL所得到的结果。此外,有人还面向广大研发人员发出了“江湖悬赏令”,称成功复现者将获得“酬劳”。 迄今为止,行业内仍有相当数量的优质研究未能复现,这也使得后来的研究工作多多少少受到影响。但由于各项研究的本质各不相同,所以这类问题需要多维度地去看待。例如,一篇偏理论的论文其算法可能不是核心,又或者由于研究所用数据涉及所有权问题,因此代码无法公开,从而导致可复现性受到阻碍。那么研究论文的代码是否应该“开源”?本文罗列了几种开发者们的观点。
▋ 经验
 

北京大学研究员施柏鑫:解读计算机视觉论文投稿到接收

▋ 经验
本次报告,施柏鑫从作者、审稿人、期刊编委等视角,围绕计算机视觉领域,为我们讲述了该领域顶会论文从写文章、投文章(包括Rebuttal)、审文章、扩期刊各环节的经验心得和关键注意事项。可以说,这个报告提供了覆盖整个论文写作闭环的精彩干货。

做机器学习项目的checklist

避免混淆,用这个简单的清单可以计划AI项目。对许多人来说,机器学习仍然是一项新技术,这可能会让它难以管理。项目经理通常不知道如何与数据科学家谈论他们的想法。通过规划30多个机器学习项目获得的经验,本文提炼出了一个简单有效的checklist。

以上是《智源社区AI周刊》第18期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请不吝赐教发至:editor@baai.ac.cn。谢谢大家。

特约编辑:刘布楼 常政 刘沂喆

所有文章
×

还剩一步!

确认邮件已发至你的邮箱。 请点击邮件中的确认链接,完成订阅。

好的