回到主页

智源社区AI周刊#022 (2020.05.18)

为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第22期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况),数据(数据集),工具(新工具和应用推荐),求职(职场研究报告等)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。

过去一周(2020/05/11~2020/05/17),值得关注的内容有以下3方面:

  • 近日,Facebook AI 和 Cornell Tech 的研究人员近期发表研究论文预览文稿,声称近十三年深度度量学习领域的目前研究进展和十三年前的基线方法比较并无实质提高,近期发表论文中的性能提高主要来自于不公平的实验比较, 泄露测试集标签,以及不合理的评价指标。FB和康奈尔科技此论无疑是对深度度量学习过去十三年研究成果盖棺定论,斩钉截铁表示,虽然深度度量学习非常重要,但是学界这些年一直在灌水。(详情参见本周报“观点”栏目)  
  • 5月12日,推特公告宣布,任命斯坦福大学计算机科学教授、前谷歌副总裁李飞飞为董事会董事。(详情参见本周报“人物”栏目)  
  • 最近,图卷积网络的作者 Thomas Kipf 公开了自己的博士论文,主题是“使用图结构表示的深度学习”,涵盖从图神经网络到结构发现等一系列深度学习热门话题,是他过去几年图神经网络方向研究的深度汇总。(详情参见本周报“教程”栏目)

下面是各个要点的详情介绍。

▋ 论文推荐 

TAPAS:扩展型的BERT架构

TAPAS: Weakly Supervised Table Parsing via Pre-training

谷歌在本文中提出了一种扩展型的BERT架构。该架构可对问题与表格数据结构进行联合编码,最终得到的模型可直接指向问题答案。并且,这种新方法所创建的模型适用于多个领域的表格。要想得到优良的模型,优质的数据自然是不可或缺的。谷歌首先使用了数百万个维基百科表格对模型进行预训练,然后又在三个学术级表格问答数据集上进行实验,结果表明新方法的准确度表现极具竞争力。不仅如此,谷歌开源了模型训练和测试代码,还公开分享了他们在维基百科数据上得到的预训练模型。

边做边思考:谷歌大脑提出并发RL算法

Thinking While Moving: Deep Reinforcement Learning with Concurrent Control

RL算法通常假设,在获取观测值、计算动作并执行期间环境状态不发生变化。这一假设在仿真环境中很容易实现,然而在真实机器人控制当中并不成立,很可能导致控制策略运行缓慢甚至失效。为缓解以上问题,最近谷歌大脑与UC伯克利、X实验室共同提出一种并发RL算法,使机器人能够像人一样“边做边思考”。目前,该论文已被ICLR 2020接收。

基于拓展搜索空间的网络结构搜索方法

Learning Architectures from an Extended Search Space for Language Modeling

网络结构搜索技术近些年获得了广泛的关注,但是其搜索空间往往被限缩在元结构内部(循环单元或卷积单元等),缺乏对模型整体架构的学习。针对此问题,来自东北大学自然语言处理实验室和小牛技术创新中心的研究者提出一种能够同时对元结构内以及元结构之间连接进行搜索的方法(ESS),从而获得更适用于当前任务的模型结构。本文旨在拓展网络结构搜索的搜索空间。实验部分以循环神经网络为例,在语言模型的 PTB、WikiText-103 集合中取得了优异的成绩,其中 PTB 数据上达到了目前业内最优的结果。此外,研究者将语言模型任务中搜索到的模型结构迁移到 NER、Chunking 等任务中同样获得了突出的性能,这使得大规模预搜索网络结构成为了可能。

BLEURT:一种基于迁移学习的自然语言生成度量

BLEURT: Learning Robust Metrics for Text Generation

本文发表于ACL 2020。文本生成在过去几年中取得了重大进展。然而,评估指标却落后了,因为最流行的选择(如BLEU 和ROUGE)可能与人类的判断关系不大。本文提出了BLEURT,一种基于BERT的学习评价指标,它可以用几千个可能有偏见的训练例子来模拟人类的判断。本文的方法的一个关键方面是一个新的预训练方案,它使用了数百万的综合例子来帮助模型泛化。BLEURT提供了过去三年WMT指标共享任务和WebNLG竞赛数据集的最先进的结果。与基于普通BERT的方法相比,即使在训练数据稀少且分布不均匀的情况下,它也能产生更好的结果。

ZSTAD:零样本时序活动检测

ZSTAD: Zero-Shot Temporal Activity Detection

时序活动检测是视频分析和监控的一个关键步骤,其旨在同时识别和定位未剪辑视频中的一些有意义活动。目前的时序活动检测方法都是一些基于深度的方法,这类方法通常在大规模带时间标注信息的视频上训练性能良好。但是,由于某些活动类的视频数据缺乏,难以获取,而且视频数据标注工作代价昂贵,导致传统基于深度的方法在实际应用中受到限制。

为了解决这个具有挑战性的问题,来自西安交通大学、蒙纳士大学和卡耐基梅隆大学的研究者们联合提出一种新的任务场景,称为零样本时序活动检测(Zero-Shot Temporal Activity Detection,ZSTAD)。该任务重点解决如何在测试过程中检测训练中从未见过的一些视频活动的问题。为此,研究者们设计了一个基于R-C3D端到端的深度网络,通过考虑活动标签及其超类的语义嵌入,挖掘已见和未见活动的公共语义信息,进而实现对未见活动样本的检测任务。

▋ 观点 

Facebook AI研究:深度度量学习领域13年来并无进展

近日,Facebook AI 和 Cornell Tech 的研究人员近期发表研究论文预览文稿,声称近十三年深度度量学习领域的目前研究进展和十三年前的基线方法比较并无实质提高,近期发表论文中的性能提高主要来自于不公平的实验比较, 泄露测试集标签,以及不合理的评价指标。FB和康奈尔科技此论无疑是对深度度量学习过去十三年研究成果盖棺定论,斩钉截铁表示,虽然深度度量学习非常重要,但是学界这些年一直在灌水。

▋ 行业与政策 

中科院自动化所徐波:人工智能发展趋势和我国人工智能健康发展的正确路径

以深度学习为代表的新一代人工智能正在深刻影响着一个国家的国际竞争力和国际产业竞争格局。在全球竞争压力下,本文站在人工智能新时代的悬崖顶端发问:人工智能到底是什么?人工智能如何改变社会?中国的人工智能应该做怎样的探索?在本文中,全国政协委员、自动化所所长徐波将从专业角度解析人工智能,洞察人工智能发展趋势,探索我国人工智能健康发展的正确路径。

50位全球专家畅谈人工智能治理进程,并发布《全球人工智能治理年度观察》

上海市科学学研究所联合国际合作伙伴,以“2019年度全球人工智能治理进展”为主题,邀请全球政产学研界具有重要话语权的代表人士共50位,共同对2019年全球人工智能治理的重要进展进行回顾。这份报告的英文版在4月30日正式向全球发布,包括清华大学战略与安全研究中心主任傅莹女士、图灵奖获得者John Hopcroft教授、诺贝尔和平奖获得者Irakli Beridze先生、欧洲议会议员Eva Kaili女士、AAAI2021 chair 杨强教授和AAAI2020 chair Francesca Rossi女士等50位(44组)专家撰稿参与。

参与报告撰写的专家来自科技部新一代人工智能发展研究中心、中国科学技术发展战略研究院、联合国人工智能和机器人中心、欧洲议会、欧盟人工智能高级别专家组、OECD人工智能专家组、IEEE标准化协会、OPEN AI、加州大学伯克利分校人类兼容人工智能中心、牛津大学未来人类研究所人工智能治理中心、剑桥大学未来智能研究中心和生存风险研究中心、中国社科院、清华大学、复旦大学、上海市科学学研究所等业内重要国际组织和机构。 报告梳理了这些重量级专家学者的分析预判及意见建议,认为当前全球人工智能治理体系正处于成型的关键时期,其普遍性与共识性的发展特征与趋势尤其值得全球高度关注并积极回应。希望通过这份《全球人工智能治理年度观察》,能够与全球同行一起,寻求各方在此领域所取得的进展,从而为彼此都需要的交流和合作奠定基础。

▋ 人物 

李飞飞出任推特董事会成员:将利用AI技术持续推动变革

5月12日,推特公告宣布,任命斯坦福大学计算机科学教授、前谷歌副总裁李飞飞为董事会董事,立即生效。推特执行董事长Omid Kordestani提到:“李飞飞博士拥有深厚的技术经验和AI专业知识,将为推特董事会带来工程、计算机科学和人工智能方面的专业经验和相关洞见。推特将持续利用技术力量来提升服务质量,实现我们的长期目标。我们将共同促进推特的积极变革。” 李飞飞表示:“推特是科技连接世界的一个重要平台,我很荣幸在推特公司历史上如此重要的时刻成为董事会的一员。AI和机器学习将对技术及其用户产生巨大的影响,希望能在此奉献我的经验,让所有使用这项服务的人受益。”

▋ 数据 

ReClor:一个需要逻辑推理的阅读理解数据集

语言预训练模型在现有流行的阅读理解数据集上取得了惊人的效果,因此,现在是时候引入更复杂的数据集来推动该领域朝着更复杂推理的方向发展了。 新加坡国立大学冯佳时团队最近在ICLR 2020上发表的论文《ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning》,正是在这方面的工作。

Manga109:面向多媒体应用的漫画标注数据集

Manga109是面向多媒体应用的漫画标注数据集,包括109本日本漫画,作者对文字框、话语文字、人脸和人身进行了标注。

▋ 代码 

矩阵相乘在GPU上的优化:深度解析Maxas汇编器工作原理

Nervana有一个称为Maxas的汇编代码生成器项目,可以生成性能超过nVidia官方版本的矩阵相乘的GPU机器码。其作者Scott Gray在代码外提供了详细的文档,值得说明的是Maxas使用的算法完全依赖于Maxwell架构的一些特性, 随着新一代GPU的架构的演进这个项目本身已经完全过时了,但其解决问题的思路仍然值得借鉴。

深度解析MegEngine亚线性显存优化技术

基于梯度检查点的亚线性显存优化方法[1]由于较高的计算/显存性价比受到关注。MegEngine经过工程扩展和优化,发展出一套行之有效的加强版亚线性显存优化技术,既可在计算存储资源受限的条件下,轻松训练更深的模型,又可使用更大batch size,进一步提升模型性能,稳定batchwise算子。使用MegEngine训练ResNet18/ResNet50,显存占用分别最高降低23%/40%;在更大的Bert模型上,降幅更是高达75%,而额外的计算开销几乎不变。

使用TFLite在移动设备上优化与部署风格转化模型

风格转化(Style Transfer)是一种优化技术,用于采集两张图像,一张内容图像(如建筑物),一张风格图像(如著名画家的作品),并将其融合交织在一起,使输出图像看起来就像是以参考风格图像中的风格“画出”了内容图像。

本文和读者分享一个用TensorFlow Lite针对移动设备优化的预训练风格转化模型,以及在Android和iOS上的示例应用,可用来为任何图像转换风格。作者将介绍如何优化大型TensorFlow模型以进行移动部署,以及如何通过TensorFlow Lite在移动应用中高效使用该模型。

▋ 教程 

图卷积网络作者Thomas Kipf博士论文:四年图神经网络研究精华

最近,图卷积网络(GCN)的作者 Thomas Kipf 公开了自己的博士论文,主题是“使用图结构表示的深度学习”,涵盖从图神经网络到结构发现等一系列深度学习热门话题,是他过去几年图神经网络方向研究的深度汇总。

斯坦福大学:《图机器学习》综述论文

近年来,人们对学习图结构数据表示的兴趣大增。基于标记数据的可用性,图表示学习方法一般分为三大类。第一种是网络嵌入(如浅层图嵌入或图自动编码器),它侧重于学习关系结构的无监督表示。第二种是图正则化神经网络,它利用图来增加半监督学习的正则化目标的神经网络损失。第三种是图神经网络,目的是学习具有任意结构的离散拓扑上的可微函数。然而,尽管这些领域很受欢迎,但在统一这三种范式方面的工作却少得惊人。在这里,本文的目标是弥合图神经网络、网络嵌入和图正则化模型之间的差距。本文提出了图结构数据表示学习方法的一个综合分类,旨在统一几个不同的工作主体。具体来说,本文提出了一个图编码解码器模型(GRAPHEDM),它将目前流行的图半监督学习算法(如GraphSage、Graph Convolutional Networks、Graph Attention Networks)和图表示的非监督学习(如DeepWalk、node2vec等)归纳为一个统一的方法。为了说明这种方法的一般性,本文将30多个现有方法放入这个框架中。作者相信,这种统一的观点既为理解这些方法背后的直觉提供了坚实的基础,也使该领域的未来研究成为可能。

知识图谱最新研究综述

本文对知识图谱进行了全面的综述,涵盖了知识表示学习、知识获取与补全、时序知识图、知识感知的应用等方面的研究课题,并总结了最近的一些突破和未来的研究方向。 本文阐述采用全视图分类和新的分类法,知识图嵌入从表示空间、得分函数、编码模型和辅助信息四个方面进行组织。对知识获取,特别是知识图的补全、嵌入方法、路径推理和逻辑规则推理进行了综述。本文进一步探讨了几个新兴的主题,包括元关系学习、常识推理和时序知识图谱。为了方便未来对知识图谱的研究,还提供了关于不同任务的数据集和开源库的管理集合。最后,对几个有前景的研究方向进行了深入的展望。

▋ 新工具 

深度学习训练工具Determined AI

这款深度学习训练平台,是由多年从事实践领域的专家,耗费三年时间构建完成的,他们的目标是帮助深度学习团队更快地训练模型,轻松共享GPU资源并有效协作。 Determined使深度学习工程师可以集中精力大规模构建和训练模型,而无需担心DevOps,或者为常见任务(如容错或实验跟踪)编写代码。

TensorFlow全球下载量破1亿

4年半,全球下载量突破1个亿,仅过去1个月,便有超过1000万的下载。这就是TensorFlow提交的最新成绩单。谷歌AI负责人Jeff Dean非常激动:“当我们在2015年11月,将TensorFlow作为一个开源项目发布时,我们希望外界机器学习研究人员在使用它时,和我们在Google AI的体验一样。看到它的下载量突破1亿,我感到非常自豪。”Keras作者、谷歌深度学习专家François Chollet也发推文表示:“仅过去的一个月,就有超过1000万次的下载量,它正在加速发展。”
 

量子位  |  参与讨论

Keras vs PyTorch,哪一个更适合做深度学习?

如何选择工具对深度学习初学者是个难题。本文作者以Keras和Pytorch库为例,提供了解决该问题的思路。

▋ 应用 

 

100年前的北京:用人工智能修复的100年前的北京影像

源视频来自人民日报四年前发布的资料影片,由加拿大摄影师在1920-1929年间拍摄。作者使用人工智能技术,对民国初年的一段影像进行了上色、修复帧率和扩大分辨率的改动,从而彻底改变了这段100年前老旧影片,让人们能够更为细致地观看100年前人们的生活。AI工作流是:补帧使用DAIN,分辨率倍增部分使用ESRGAN,上色应用了DeOldify,此外用VirtualDub做了一些老电影降噪处理。

SIGGRAPH论文提出RigNet帮动画师做骨架绑定

最近,来自马萨诸塞大学阿默斯特分校和多伦多大学的研究者提出了一种基于输入角色模型生成动画骨架绑定结果的端到端自动化方法RigNet。 给出表示某个铰接式角色的3D模型作为输入,RigNet能够预测角色的骨架,且骨架的关节位置和拓扑结构与动画师的预期相匹配。此外,RigNet还可以基于预测的骨架估计蒙皮权重。该方法基于深度架构构建而成,此架构可以直接在蒙皮表征上运行,无需对形状类别和结构进行假设。该架构的训练数据包含大量不同的骨架绑定模型,及其蒙皮、骨架和对应的蒙皮权重。

基于计算机视觉技术的改进版“百发百中”篮板

在上个月发布的一个YouTube视频中,一位名叫Shane Wighton的小哥展示了一款特殊的篮板。与普通的平面篮板不同,这个篮板是曲面的,每个位置的弧度都经过了周密计算。整个过程利用了蒙特卡罗法和最小二乘法,极大地提高了进球率,视频的播放量也超过了400万。但是,作者本人好像并没有很满意,因为他发现如果你投的球是平飞球(击出之球又直又快),还是很难保证球落到篮筐里。于是作者进行了改进,当球打在篮板上的时候,篮板会自己调整角度,“想法设法”把球弹到篮筐里。它知道你的球从哪里来、何时来、轨迹是什么样的,因为整个房间都在它的“监控”之下。

▋ 经验 

高产来自“长期主义”:智源学者朱军谈ICLR 2020全球发文第二的经验法则

在刚刚闭幕的人工智能顶会ICLR 2020上,华人学者的崛起令世人眼前一亮:华人作者参与论文数占比近60%。其中,智源学者、清华大学计算机系朱军教授团队发表了7篇论文,论文数位列ICLR 2020全球第二。那么,朱军团队在ICLR上硕果累累的背后,有哪些成功经验值得大家学习借鉴呢?同时在朱军看来,这次刚刚闭幕的ICLR,研究者们能看到哪些值得关注的AI研究新趋势呢?

斯坦福前校长、图灵奖得主约翰·汉尼斯:惧怕失败,就不可能有所创新

斯坦福前校长、图灵奖得主、谷歌母公司董事长约翰·汉尼斯先生进行了“算法替代不了的要领”线上直播分享。汉尼斯先生以自己“在事上磨”的真实案例现身说法,和清华大学经管学院领导力研究中心主任杨斌教授、湛庐文化创始人韩焱女士在线对谈,总结他在“满脸污泥、汗水和血迹”地在竞技场中拼搏的习得,和大家分享了归真求是的“领导要义”。

智源学者赵鑫:本科生一定要做科研吗

赵鑫老师写这篇文章的初衷,是与本科生的接触过程中看到了一些对于科研的困惑或者误区,所以想大概介绍一下本科生的科研之路第一脚该从哪里走起。所以本篇文章的定位不是侧重学术性,也不会侧重于教育性,而是一些个人经验的分享。由于是个人的经验,希望大家带着批判的角度去读,但是兼听则明,很愿意和各位本科生做进一步的交流。全文写的比较口语,尽量不包含学术名词。

以上是《智源社区AI周刊》第22期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请不吝赐教发至:editor@baai.ac.cn。谢谢大家。

特约编辑:刘布楼 常政 刘沂喆

所有文章
×

还剩一步!

确认邮件已发至你的邮箱。 请点击邮件中的确认链接,完成订阅。

好的