回到主页

智源社区AI周刊#012(2020.03.09)

为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第12期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况),数据(数据集),工具(新工具和应用推荐),求职(职场研究报告等)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。

过去一周(2020/03/02~2020/03/08),值得关注的内容有以下3方面:

  • 近日,深度学习先驱Yoshua Bengio在个人博客反思,顶会论文的Dealine让人疲于应对,对于提升研究质量来说弊大于利,机器学习研究的发表模式是时候来点变革了。他提出了两点建议:1. 推荐首先将论文提交给一个快速流转的期刊(比如JMLR、arXiv),然后让各个大会的程序委员会从中选取论文,使该领域的研究者能够同步共享这些信息;2. 用一个隐式的软截止时间(implicit soft deadline)来替代Deadline,研究者就会有动力继续改进自己的工作,直到这项工作被打磨得更好。(详情参见本周报「观点」栏目)
  • 3月3日,教育部官方网站更新了《关于公布2019年度普通高等学校本科专业备案和审批结果的通知》。其中,新增人工智能专业的高校达到了180所,也是本次新增备案专业数量较多的学科。新增数据科学与大数据技术专业的学校也占到了100多所;智能制造、机器人工程、智能科学与技术等专业也都有数十所学校通过审批。(详情参见本周报「行业与政策」栏目)
  • DeepMind在最新的博文中表示,他们用AlohaFold生成了六种可能与新冠病毒有关的蛋白质结构预测结果,而且已经开放下载。这一结果可能对新冠病毒疫苗研发等工作起到推动作用。(详情参见本周报「应用」栏目)

下面是各个要点的详情介绍。

▌ 论文推荐

图神经网络预训练的策略
Strategies for Pre-trained Graph Neural Network

机器学习的许多应用都需要一个模型来对测试样本做出准确的预测,这些测试样本在分布上与训练示例不同,而在训练期间,特定于任务的标签很少。应对这一挑战的有效方法是,在数据丰富的相关任务上对模型进行预训练,然后在下游任务上对其进行微调。尽管预训练在许多语言和视觉领域都是有效的,但是如何在图数据集上有效地使用预训练仍是一个有待解决的问题。本文提出了一种新的图神经网络训练策略和自监督方法。我们的策略成功的关键是在单个节点以及整个图的层次上预训练一个具有强表示能力的GNN,以便GNN能够同时学习有用的局部和全局表示。我们系统地研究了多类图分类数据集的预处理问题。我们发现,在整个图或单个节点级别上对GNN进行预训练的朴素策略改进有限,甚至可能导致许多下游任务的负迁移。相比之下,我们的策略避免了负迁移,显著提高了下游任务的泛化能力,使得ROC-AUC相对于未经训练的模型提高了9.4%,实现了分子特性预测和蛋白质功能预测的最好性能。
来源:ICLR 2020 | 论文下载

图神经网络基准化
Benchmarking Graph Neural Networks

图神经网络已经成为分析和学习图数据的标准工具。它们已经成功地应用于无数的领域,包括化学、物理、社会科学、知识图谱、推荐和神经科学。随着这个领域的发展,识别架构和关键机制变得至关重要,这些架构和关键机制可以泛化图的大小,使我们能够处理更大、更复杂的数据集和域。不幸的是,在缺乏具有一致的实验设置和大型数据集的标准基准的情况下,评估新GNN的有效性和比较模型变得越来越困难。在这篇论文中,作者提出了一个可复制的GNN基准测试框架,为研究人员方便地添加新的数据集和模型提供了便利。我们将该基准测试框架应用于数学建模、计算机视觉、化学和组合问题等新型中型图数据集,以建立设计有效GNNs时的关键操作。准确地说,图卷积、各向异性扩散、剩余连接和归一化层是开发健壮的、可伸缩的GNN的通用构件。
来源:南洋理工大学 | 论文下载

针对视频字幕任务的对象关系图
Object Relational Graph with Teacher-Recommended Learning for Video Captioning

充分利用视觉和语言的信息对于视频字幕任务至关重要。现有的模型由于忽视了目标之间的交互而缺乏足够的视觉表示,并且由于长尾问题而对与内容相关的词缺乏足够的训练。在本文中,作者提出了一个完整的视频字幕系统,包括一种新的模型和一种有效的训练策略。具体地说,本文提出了一种基于目标关系图(ORG)的编码器,该编码器捕获了更详细的交互特征,以丰富视觉表示。同时,本文设计了一种老师推荐学习(Teacher-Recommended Learning, TRL)的方法,充分利用成功的外部语言模型(ELM)将丰富的语言知识整合到字幕模型中。ELM生成了在语义上更相似的单词,这些单词扩展了用于训练的真实单词,以解决长尾问题。 对三个基准MSVD,MSR-VTT和VATEX进行的实验评估表明,所提出的ORG-TRL系统达到了最先进的性能。广泛的消去研究和可视化说明了本文系统的有效性。
来源:CVPR 2020 | 论文下载

通过知识迁移的图小样本学习
Graph Few-shot Learning via Knowledge Transfer

对于具有挑战性的半监督节点分类问题,已有广泛的研究。图神经网络作为一个前沿领域,近年来引起了人们极大的兴趣。然而,大多数GNN具有较浅的层,接收域有限,并且可能无法获得令人满意的性能,特别是在标记节点数量很少的情况下。为了解决这一问题,本文创新性地提出了一种基于辅助图的先验知识的图小样本学习算法,以提高目标图的分类精度。具体来说,辅助图与目标之间共享一个可转移的度量空间,该空间以节点嵌入和特定于图的原型嵌入函数为特征,便于结构知识的传递。对四个真实世界图形数据集的大量实验和消融研究证明了本文提出的模型的有效性。
来源:The Pennsylvania State University | 论文下载

从学习速率中解开自适应梯度法
Disentangling Adaptive Gradient from Learning Rates

作者研究了深度学习优化算法评估中的几个混合因素。首先,作者深入研究自适应梯度方法如何与学习速率调整相互作用,这是一个众所周知的难以调整的超参数,它对神经网络训练的收敛和推广具有显着影响。作者引入了一个“嫁接”实验,该实验将更新的大小与其方向解耦,发现文献中的许多现有信念可能是由于对步长的隐式时间表的隔离不足而产生的。除了这一贡献之外,作者还对自适应梯度方法的推广进行了一些实证和理论回顾,旨在为这一空间带来更清晰的视角。
来源:Google AI Princeton | 论文下载

▌ 观点

深度学习先驱Bengio:AI顶会论文的Deadline是时候取消了

对于机器学习界的研究者来说,一年的进度条几乎是靠数着顶会deadline来过的。“投稿→rebuttal→接收/被拒→继续(斐波那契式)投稿”是很多研究者的日常。这种疲于赶场的论文发表方式真的能提高ML领域的科研水平吗?近日,深度学习先驱Yoshua Bengio在个人博客反思,顶会论文的Dealine让人疲于应对,对于提升研究质量来说弊大于利,机器学习研究的发表模式是时候来点变革了。他提出了两点建议:1. 推荐首先将论文提交给一个快速流转的期刊(比如JMLR、arXiv),然后让各个大会的程序委员会从中选取论文,使该领域的研究者能够同步共享这些信息;2. 用一个隐式的软截止时间(implicit soft deadline)来替代Deadline,研究者就会有动力继续改进自己的工作,直到这项工作被打磨得更好。
▌ 人物

沈向洋任清华大学双聘教授

2020年3月5日,“沈向洋双聘教授聘任仪式暨春风讲堂第四讲”在清华大学工字厅举行,清华大学校长邱勇向沈向洋教授颁发了聘书。这意味着,自去年11月13日宣布离开微软后,大家一直关注的这位计算机视觉和图形学专家、硅谷职位最高的华人高管、微软全球执行副总裁的去向,终于有了进展。而根据清华大学春风讲堂的讲座信息,主讲人沈向洋的职位为清华大学高等研究院双聘教授,讲座题目为“Engineering Responsible AI”。
来源:学术头条

▌ 行业与政策

180所高校获批新增人工智能专业


3月3日,教育部官方网站更新了《关于公布2019年度普通高等学校本科专业备案和审批结果的通知》。各高校新增备案专业1672个、审批专业181个(含130个国家控制布点专业和51个目录外新专业),调整学位授予门类或修业年限专业47个,撤销专业367个。其中,新增人工智能专业的高校达到了180所,也是本次新增备案专业数量较多的学科。新增数据科学与大数据技术专业的学校也占到了100多所;智能制造、机器人工程、智能科学与技术等专业也都有数十所学校通过审批。

来源:机器之心

欧盟发布《人工智能白皮书》

欧盟委员会在布鲁塞尔发布《人工智能白皮书》,目的在于协助欧洲各国同美国在人工智能与科技领域和中国相抗衡。欧洲委员会已根据“数字欧洲计划”提出了超过40亿欧元的建议,以支持高性能和量子计算,包括边缘计算和人工智能,数据和云基础设施。在过去三年中,欧盟在人工智能研究与创新方面提供的资金增至15亿,即较上年同期增长70%。根据白皮书,在接下来的五年中,欧盟委员会将专注于数字化的三个关键目标:为人民服务的技术;公平竞争的经济;开放、民主和可持续的社会。并能够促进欧洲在人工智能领域的创新能力,推动道德和可信赖人工智能的发展。白皮书提出一系列人工智能研发和监管的政策措施,并提出建立"可信赖的人工智能框架"。
来源:欧盟委员会 | 白皮书下载

CB Insights年度AI 100全球榜单发布

作为全球人工智能领域最权威榜单之一,CB Insights遴选出了2020年全球100家最具潜力的人工智能初创企业。从2017年CB Insights首次发布,AI 100已经连续进行到第4届。2020年的AI 100榜单同样颇具亮点,榜上有名的公司涵盖了语音合成、量子机器学习、蛋白质建模等方向的重要玩家。以这4年的入选结果来看,中国公司在AI领域的崛起已经成为了一个明显的趋势。在AI 100 2017年名单上,来自中国的公司仅有4家(碳云智能、出门问问、Rokid、优必选),这一数字在2018年增加到了7家(今日头条、商汤、旷视、英语流利说、出门问问、寒武纪、优必选),2019年有6家中国公司上榜(商汤、依图、旷视、第四范式、Momenta、地平线)。最新的2020 AI 100,中国公司上榜数量与去年持平,同时也出现了新面孔,上榜公司分别是:创新奇智、禾多科技、追一科技、第四范式、松鼠AI、蓝胖子机器人。
来源:DeepTech

谷歌旗下自动驾驶公司Waymo获外部融资22.5亿美元

谷歌旗下自动驾驶公司Waymo,首次获得来自外部的融资,共22.5亿美。投资方包括三家投资公司:银湖资本、加拿大养老金基金和阿布扎比的主权财富基金Mubalada。此外还有汽车零部件供应商Magna、Andreessen Horowitz、汽车零售巨头AutoNation以及谷歌母公司Alphabet自己。该公司第一轮融资已初步结束,但是谷歌没有对外公布融资后的公司估值。

来源:量子位

 

 数据
 

CLUE Dataset Search:中文NLP数据集线上搜索

研究者总会发现大多数先进算法与优质示例代码都是用英文数据集。把模型迁移到中文世界时,缺少公开的优质数据集简直就是天堑。比如说最简单的语言模型与词嵌入模型,只需要一段段自然的中文文本就行了,然而实际上会发现好用的公开大型语料真的很少。研究者需要在GitHub等平台上收集中文NLP数据集的各种项目,再根据需求进行选择。值得注意的是,很多国内中文数据集已经非常老了,它们的使用会比较麻烦。该项目是一项新的中文NLP数据搜索项目,收集了一百多条中文NLP数据信息,并以搜索的形式展示结果。只要键入关键词,或者数据集所属的领域等信息,就能找到对应的数据集。

CoVoST:Facebook多语种语音-文本翻译语料库

由于端到端模型的发展和新语料库的建立,口语翻译最近已重新流行。现有数据集主要涉及以英语为源语言的语言对,限定于非常特定的领域,存在资源不足的问题。Facebook发布CoVoST,这是一种包括11种语言的多语言语音到文本翻译语料库,拥有超过11000名发言人和60多种口音。本文描述了数据集创建方法,并提供了保证数据质量的证据。本文还提供初始基准,据作者所知,包括第一个端到端多对多语言翻译的口头翻译模型。CoVoST不需付费使用。
来源:Facebook | 论文下载 | 项目地址

KaoKore:日本传统绘画人脸表情数据集

对于历史人文领域来说,借助机器学习的自动化能力对浩如烟海的史料进行分析和理解,具有十分重要的意义。社会文化领域的数据集可以有效驱动历史、艺术、社会、人类学等方面的发展。虽然针对古代书法,人们已经收集了丰富的数据集来促使对史料的理解和分析,但对于绘画这样的作品还没有完善的数据集。为此,来自Google Brain、日本人文科学开放数据研究中心、剑桥大学和蒙特利尔大学的研究人员们收集了名为KaoKore的日本近代艺术作品中人脸表情的数据集,并构建了基于数据集的分类和生成艺术模型,为艺术、艺术史和社会人类学等研究领域提出了新的研究思路。
来源:Google Brain | 论文下载 | 项目地址

▌ 代码

TensorFlow 性能优化

本节主要介绍TensorFlow模型开发和训练中的一些原则和经验,使得读者能够编写出更加高效的TensorFlow程序,包括以下章节:1. 关于计算性能的若干重要事实;2. 模型开发:拥抱张量运算;3. 模型训练:数据预处理和预载入;4. 模型类型与加速潜力的关系;5. 使用针对特定CPU指令集优化的TensorFlow;6. 性能优化策略。
来源:Tensorflow

YOLK:keras目标检测API

每年都会有新发表的目标检测模型,但是到目前为止,即使复现最简单的模型也带来了很大的麻烦。YOLK是Keras的一站式对象检测API。它与创建Keras的目的相同:能够以最小的延迟将想法实现,帮助进行科学研究。使用几行代码,使用者可以设置性能最佳的模型并将其应用于自己的数据集,以帮助每个人轻松地训练自己的目标检测模型。
来源:Github

不平衡分类的成本敏感决策树

决策树算法对平衡分类是有效的,但在不平衡数据集上却表现不佳。决策树分裂点是为了能够在最小混淆的情况下将所有实例分成两组。当两个组别分别都由其中一个类别的实例占主导,那么用于选择分裂点设置的标准即为合理,而事实上,少数类中的实例将会被忽略。通过修改评估分裂点的标准并将每一类别的重要性均纳入考虑,即可解决这一问题,通常指的是加权的分裂点或者加权的决策树。本文将讲解加权决策树的实现。
 教程
 

BERT技术体系综述:分析探究BERT如何工作

自2017年推出以来,Transformers掀起了NLP的风暴,提供了增强的并行化和更好的长依赖建模。最著名的基于Transformers的模型是BERT,他们在许多基准测试中获得了最先进的结果,并集成在谷歌搜索中,提升了10%的查询准确率。虽然很明显BERT和其他基于Transformer的模型工作得非常好,但是不太清楚为什么,这限制了架构的进一步假设驱动的改进。与CNNs不同,Transformer几乎没有认知动机,而且这些模型的大小限制了我们进行预训练实验和消融研究的能力。这解释了过去一年里大量的研究试图理解BERT表现背后的原因。本文概述了迄今为止所了解到的情况,并强调了仍未解决的问题。本文重点研究BERT学习的知识的类型,这些知识在哪里体现、,如何学习,以及提出的改进方法。
来源:University of Massachusetts Lowell | 论文下载

从GNN的角度看待Transformer的架构

有的工程师会问这个问题:图深度学习听起来不错,但是有没有商业上的成功案例?它是否已经在实际应用中使用过了?除了一些以下企业中的推荐系统,如Pinterest、阿里巴巴和推特,实际上在商业中已经取得成功的案例是Transformer,它极大地改变了NLP业界。通过这篇博文,现为南洋理工大学助理研究员的Chaitanya Joshi将为读者介绍图神经网络和Transformer之间的内在联系。具体而言,作者首先介绍NLP和GNN中模型架构的基本原理,然后讨论怎样能够推动这方面的进步。

Early Phase of NN Training

最近的研究表明,神经网络学习的许多重要方面都发生在训练的最早阶段。例如,稀疏的、可训练的子网络出现,梯度下降移动到一个小的子空间,网络经历一个关键时期。本文检查了深层神经网络在早期训练阶段所经历的变化。在这些早期的训练迭代中,作者对网络状态进行了广泛的测量,并利用Frankle等人的框架来定量探测权重分布及其对数据集各个方面的依赖。本文发现,在这个框架中,深度网络在保持符号的同时,对随机权值的重新初始化不够健壮,并且即使经过几百次迭代,权值的分布仍然是相关的。尽管存在这种行为,使用模糊输入或辅助自监督任务的预训练可以近似监督网络中的变化,这表明这些变化并不是固有的标签依赖,尽管标签显著地加速了这一过程。综上所述,这些结果有助于阐明在学习的关键初始阶段所发生的网络变化。
来源:Facebook AI

基于图的对抗式攻击和防御

深度神经网络在各项任务上都取得了不俗的表现。然而,最近的研究表明通过对输入进行很小的扰动就可以轻易的骗过DNNs,这被称作对抗式攻击。作为DNNs在图上的扩展,图神经网络也继承了这一缺陷。对手通过修改图中的一些边等操作来改变图的结构可以误导GNNs作出错误的预测。这一漏洞已经引起了人们对在安全领域关键应用中采用GNNs的极大关注,并在近年来引起了越来越多的人的研究兴趣。因此,对目前的图对抗式攻击和反制措施进行一个全面的梳理和回顾是相当有必要的。在这篇综述中,作者对目前的攻击和防御进行了分类,以及回顾了相关表现优异的模型。最后,作者开发了一个具有代表性算法的知识库,该知识库可以使研究人员进行相关的研究来加深我们对基于图的攻击和防御的理解。
来源:Michigan State University | 论文下载

▌ 新工具

TextBrewer:知识蒸馏工具

众多预训练模型体积庞大,难以满足运行时要求,为技术落地提出了新的挑战。为此,哈工大SCIR推出基于PyTorch框架的知识蒸馏工具包TextBrewer,提供更加方便快捷的知识蒸馏框架。主要特点包括:1. 模型无关:适用于多种模型结构(主要面向Transfomer结构);2. 方便灵活:可自由组合多种蒸馏方法,支持增加自定义损失等模块;3. 非侵入式:无需对教师与学生模型本身结构进行修改;4. 适用面广:支持典型NLP任务,如文本分类、阅读理解、序列标注等。
来源:哈工大SCIR | 论文地址 | 工具地址

Jiagu:深度学习自然语言处理工具

Jiagu以BiLSTM等模型为基础,使用大规模语料训练而成。将提供中文分词、词性标注、命名实体识别、情感分析、知识图谱关系抽取、关键词抽取、文本摘要、新词发现、情感分析、文本聚类等常用自然语言处理功能。
来源:ownthink(思知) | Github

Lingua:准确的语音自然语言检测库

该库试图解决非常短的单词和短语的语音检测,其主要利用统计方法和基于规则的方法,在60多种语言的性能优于Apache Tika,Apache OpenNLP和Optimaize Language Detector。并且适用于每个Java 6+应用程序以及Android,无需额外的语言模型训练,可以离线使用而无需连接到外部服务或API。
▌ 应用

DeepMind公布六种新冠病毒蛋白质结构预测结果

DeepMind在最新的博文中表示,他们用AlohaFold生成了六种可能与新冠病毒有关的蛋白质结构预测结果,而且已经开放下载。这一结果可能对新冠病毒疫苗研发等工作起到推动作用。
来源:Deepmind

Google AI:机器人识别透明物体

让机器更有效地感知透明物体的表面,不仅有助于提升安全性,还能在复杂的实际应用中实现一系列新的互动操作,如让机器人整理厨具、分捡可回收塑料、进行室内环境导航或在玻璃桌面上生成AR可视化效果等(电影常见特效)。为解决这一问题,Google AI研究人员开发了ClearGrasp机器学习算法,能从RGB-D图像中估算透明物体的高精度3D数据。ClearGrasp对任何一部标准RGB-D相机提供的输入图像均有效,它能通过深度学习准确重建透明物体的深度信息,并泛化到训练期间从未出现的新物体上。这与总是需要预先了解透明物体的信息(例如其物体的3D模型),有时通常还需结合使用背景照明图和相机位置的旧方法(基于位置-法线一致的三维物体重建)明显不同。在这项研究中,研究者将ClearGrasp集成到分拣机器人的控制系统中,观察到机器人抓取透明塑料物体的成功率得到了显著提升。
来源:Tensorflow

基于Unity ML-Agents用自我竞赛训练“聪明”对手

在最新版的ML-Agents工具包(v0.14)中,开发者添加了一项自我竞赛特征,该特征提供了在对抗学习过程中训练具有竞争性的代理。在此博客文章中,作者提供了自我竞赛的概述,并演示了它如何在ML-Agents Toolkit中的足球演示环境上实现稳定有效的训练。
来源:Unity Blog

Google机器人自己学会走路

最近,Google研究人员的一项新研究取得了重大进展,机器人可以在没有人工干预的情况下学习走路。在几个小时内,仅仅依靠对当前最先进算法的微调,它们成功地让一个四条腿的机器人学会了完全自主地向前走和向后走,以及左右转弯。研究人员从一开始就决定通过在真实世界中训练来避免困难的环境建模。他们设计了一种更高效的算法,可以使学习的试验次数变少一点,并在两个小时内让机器人站起来行走。由于实际环境中会有自然变化,机器人也能够快速适应其他相似的环境,如斜坡、台阶以及有障碍的平地。
 经验

吴恩达专访:我的人工智能科研之路

近日,MIT的AI科学家Lex Fridman对吴恩达进行了专访,在接受采访的时候,吴恩达从在线教育平台Coursera谈到了初学者如何进入AI领域,并讲解了他认为的最高效的“学习姿势”是什么样的。另外,吴还回忆了他的第一个博士生,并简单介绍了当时研究直升机的项目。
来源:Youtube

Google:从琐事中抽身,提升工作效率

在Google,站点可靠性工程师(SRE)们将工作时间分配作为验证工作效率的关键指标之一。工程师们希望有足够的时间投入到长期的工程项目中,但仍肩负着保证Google服务持续且良好运行的重任,并且偶尔还需要做一些手动工作。所以,我们的目标是控制每日消耗在日常琐事上的时间。那么什么是琐事呢?应当如何阻止它干扰我们,降低我们的工程效率呢?本文中将探讨这两个问题。
▌ 求职

Google八年高级工程师面试经验

春招来临,“如何拿到大厂offer”成了每个求职者最关心的问题。在本文中,Google Brain高级软件工程研究员、强化学习框架“多巴胺”(Dopamine)的作者Pablo Samuel Castro分享了他拿到Google offer的经验。这份面经不仅适用于Google的软件工程师职位,对申请其他公司的软件工程师及其他职位(如研究科学家)也有帮助。
来源:Psc

以上是《智源社区AI周刊》第12期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请不吝赐教发至:editor@baai.ac.cn。谢谢大家。

特约编辑:刘布楼 常政 刘沂喆

所有文章
×

还剩一步!

确认邮件已发至你的邮箱。 请点击邮件中的确认链接,完成订阅。

好的