回到主页

智源社区AI周刊#020 (2020.05.04)

为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第20期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况),数据(数据集),工具(新工具和应用推荐),求职(职场研究报告等)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。

过去一周(2020/04/27~2020/05/03),值得关注的内容有以下3方面:

  • 在本周的2020 ICLR 大会上,图灵奖得主Yoshua Bengio针对AI和机器学习的未来阐述了他的最新见解。他讲到未来机器学习完全有可能超越无意识,向全意识迈进。而注意力机制正是实现这一过程的关键要素。(详情参见本周报“观点”栏目)  
  • 4月30日,中国科学院院士、清华大学人工智能研究院院长张钹为分享了关于清华大学计算机系人工智能专业建设的经验与思考。(详情参见本周报“经验”栏目)  
  • 近日,计算机视觉先驱黄煦涛Thomas Huang教授去世。黄教授不仅在学术上成果斐然(H-Index世界排名12),更重要的是投入了大量精力培养后辈人才,华人计算机视觉领域学者几乎都多多少少与他有合作关系。其为人为学,都将长存回响。(详情参见本周报“人物”栏目)

下面是各个要点的详情介绍。  

▋ 论文推荐 

用于加速卷积神经网络训练过程INT8训练技术

Towards Unified INT8 Training for Convolutional Neural Network

在CVPR 2020上,商汤研究院链接与编译团队、高性能计算团队和北航刘祥龙老师团队合作提出了用于加速卷积神经网络训练过程的INT8训练技术。该工作通过将网络的输入、权重和梯度量化到8比特来加速网络的前向传播和反向传播过程,缩短卷积神经网络训练时间。论文观察到梯度的独特分布给量化训练带来了极大挑战,为了解决梯度量化带来的精度损失和不稳定问题,该论文进行了量化训练收敛稳定性的理论分析并基于此提出了误差敏感的学习率调节和基于方向自适应的梯度截断方法。同时为了保证更高的加速比,该论文还提出使用周期更新、量化卷积融合等技术来减少量化操作带来的时间开销。应用了上述方法之后,INT8训练在图像分类任务和检测任务上都仅仅损失微小的精度,且训练过程相比浮点训练加速了22%。

基于贪心超网络的One-Shot NAS

GreedyNAS: Towards Fast One-Shot NAS with Greedy Supernet

在CVPR 2020上,商汤移动智能事业群-3DAR-身份认证与视频感知组提出了基于贪心超网络的One-Shot NAS方法,显著提升了超网络直接在大规模数据集上的搜索训练效率,并在标准ImageNet数据集上取得了300M FLOPs量级的SOTA。GreedyNAS论文通过提出一种贪心的超网络结构采样训练方法,改善了训练得到的超网络对结构的评估能力,进而帮助搜索算法得到精度更高的结构。

图像识别中的自注意力探索

Exploring Self-attention for Image Recognition

本文为香港中文大学发表于CVPR 2020的成果。最近的研究表明,自注意力可以作为图像识别模型的基本构件。本文探讨了自注意力的变化,并评估了它们在图像识别中的有效性。作者认为自注意力有两种形式。一种是成对的自注意力,它概括了标准的点积注意,本质上是一个集合算子。另一种是拼凑式的自注意力,严格来说,它比卷积更强大。本文的成对自注意力网络匹配或优于卷积网络,补丁式网络的性能大大优于卷积基线。本文还进行了实验,探讨了学习表征的鲁棒性,并得出结论,自注意力网络在鲁棒性和泛化方面可能具有显著的优势。

ColBERT:新的BERT类信息检索模型

ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT

本文由斯坦福大学发表。自然语言理解的最新进展正在推动信息检索的快速发展,这在很大程度上要归功于对文档排序的深层语言模型(LM)的微调。虽然非常有效,但是基于这些LM的排序模型比以前的方法增加了几个数量级的计算成本,特别是因为它们必须通过一个庞大的神经网络来为每个查询文档对提供数据,从而计算单个相关分数。为了解决这个问题,本文提出了一种新的排序模型ColBERT,它采用深度LM来进行有效的检索。ColBERT引入了一种后期交互体系结构,该体系结构使用BERT对查询和文档进行编码,然后使用一种低廉但功能强大的交互步骤来建模它们的细粒度相似性。通过延迟并保留这种细粒度交互,ColBERT可以利用深度LM的表达能力,同时获得离线预先计算文档表示的能力,这大大加快了查询处理的速度。除了降低通过传统模型检索的文档重新排序的成本外,ColBERT的修剪友好交互机制还支持利用向量相似度索引来直接从大型文档集合进行端到端检索。作者使用两个最近的文章搜索数据集对ColBERT进行了广泛的评估。结果表明,ColBERT的有效性与现有的基于bert的模型相比是有竞争力的。

异构图神经网络的文档摘要提取

Heterogeneous Graph Neural Networks for Extractive Document Summarization

 

本文由复旦大学发表于ACL 2020。学习跨句关系是文档摘要提取的关键步骤,目前已有多种研究方法。一种直观的方法是将它们放入基于图的神经网络中,这种神经网络具有更复杂的结构来捕获句子之间的关系。本文提出了一种基于异构图的提取摘要神经网络,该网络包含除句子外的不同粒度的语义节点。这些额外的节点充当句子之间的中介,丰富了跨句关系。此外,通过引入文档节点,本文的图结构在从单文档设置到多文档设置的自然扩展方面具有灵活性。本文是第一篇将不同类型的节点引入到基于图的神经网络中进行提取文档摘要,并对其进行全面的定性分析来研究其好处的文章。

▋ 观点 

Bengio:未来机器学习核心是注意力机制

人工智能是时候该觉醒了吗?在本周的2020 ICLR 大会上,图灵奖得主Yoshua Bengio针对AI和机器学习的未来阐述了他的最新见解。他讲到未来机器学习完全有可能超越无意识,向全意识迈进。而注意力机制正是实现这一过程的关键要素。

▋ 行业与政策 

AI芯片走下神坛,企业发展何去何从?

5年前的“AI芯片热”还历历在目,五年以后,尽管AI芯片的市场规模稳步上升,相关调研称,整体AI市场规模将在2022年达到596.2亿美元,但蛋糕日益向巨头们倾斜。而那些曾试图在这一波热潮中崛起的创业公司,正在变得愈发尴尬。

Google研究发现,实验室表现神勇的医疗AI,实际落地却不容易

Google Health的用户体验研究者Emma Beede发表了一篇博客,介绍2018-2019年在泰国11家医院部署基于深度学习的糖尿病性视网膜病变(DR)诊断系统的实际使用情况。这套系统在实验室环境下达到了专家水平(准确率>90%),但在实际应用中遇到了各种困难:

1. 护士非常忙碌,加之光线不好,拍的片子有1/5被系统拒绝,只能再找大夫,可能要再来一次,而其中护士自己就能看出很多没有问题;

2. 片子要上传云端,网速慢,影响诊断速度;

3. 病人并不关心是不是AI在看病,他们对体验更重视,如果更麻烦,他们就不愿意接受。

大数据安全标准现状和思考

数据已成为国家基础性战略资源,建立健全大数据安全保障体系,对大数据平台及大数据服务进行安全评估是推进我国大数据产业化工作的重要基础任务。

本文对大数据安全标准的现状进行了总结,探讨了当下大数据安全的内涵、挑战与目标,针对大数据安全技术与机制存在的问题,以及潜在的解决方案进行了分析和讨论,并对未来我国大数据安全标准的建设提出了展望。

AI代码补全工具公司Codota获1200万美元融资

Codota是一款提供智能代码补全、代码搜索能力的工具。通过对海量开源项目的AI学习,最终能根据程序上下文提示并补全代码,帮助开发者减少失误,提升工作效率,使得开发者能更快、更聪明地编程;同时,使用AI技术,通过IntelliJ直接从数百万个程序中更快、更智能进行代码检索。并且,它还无须付费。近日,该公司宣布融资了1200万美元。据首席执行官兼联合创始人Dror Weiss称,大部分资金将用于产品研发和销售增长。这笔资金将用于进一步扩大其业务范围,并吸引更多客户。

▋ 人物 

计算机视觉先驱黄煦涛Thomas Huang教授去世

黄教授不仅在学术上成果斐然(H-Index世界排名12),更重要的是投入了大量精力培养后辈人才,华人计算机视觉领域学者几乎都多多少少与他有合作关系。其为人为学,都将长存回响。

曹颖和杨丽笙,两位从事视觉研究的华裔女科学家入选美国科学院

44岁的曹颖(Doris Y. Tsao)出生于常州,4岁随父母移民美国。她是加州理工学院教授,主要成就是通过分析fMRI初步揭示了灵长类动物大脑识别人脸的机制。78岁的杨丽笙(Lai-Sang Young)1952年生于香港。纽约大学柯朗数学研究所教授。研究方向是动力系统。近年来关注理论神经科学,通过数学建模来研究视觉机理。她与合作者“提出了一种单一的数学模型,解释了大脑如何根据少量神经元的数据生成绚烂多彩的图像”。此外,本次入选美国科学院的还有计算机界大家熟知的数据库、数据挖掘专家Jeffrey Ullman(Stanford)和网络专家Jennifer Rexford(Princeton)。

▋ 数据 

MIT、DeepMind等联合发布CLEVRER数据集,推动视频理解的因果逻辑推理

大多数视频推理数据集的侧重点是从复杂的视觉和语言输入中进行模式识别,而不是基于因果结构。在这篇ICLR 2020论文中,麻省理工、DeepMind的研究者提出了一种针对时间和因果推理问题的数据集,包含20000个关于碰撞物体的合成视频以及300000多个问题和答案,从互补的角度研究了视频中的时间和因果推理问题。

CovidQA:评估COVID-19聊天机器人和搜索引擎的数据集

来自Facebook,纽约大学以及滑铁卢大学的研究人员详细介绍了问答数据集CovidQA,其中包括了COVID-19开放研究数据集挑战赛的论文,基于与世界卫生组织以及美国国家科学院,工程学和医学科学院共同开发的科学问题的一系列任务。研究人员表示,正在开发的CovidQA可以帮助评估回答有关新型冠状病毒主题的聊天机器人和搜索引擎的准确性。

Holopix50k:超大规模立体数据集

随着配备双目摄像头的智能手机逐步增加,利用计算机视觉处理立体信息的需求也变得越来越重要。但现有的立体视觉数据集无论在数量和多样性上都不足以支持丰富场景的双目立体应用。为了解决这一问题,来自Leia公司的研究人员们构建了一个包含49368对图像的立体视觉数据集Holopix50k,这一数据集从大小和多样性上都超过了现有的公开数据集,在立体图像超分辨、单目深度估计等任务上都取得了非常大的性能提升。

▋ 代码 

YOLO v4发布

研究者对比了YOLO v4与EfficientDet,同等性能的情况下,速度是EfficientDet的2倍。此外,与YOLO v3相比,新版本的AP和FPS分别提高了10%和12%。

Quant-Noise: 来自Facebook的新的模型量化压缩技术

对于神经网络来说,参数量越大、层数越多,就代表着输出的结果越精细。当然,这也意味着许多性能优越的神经网络体积会非常庞大。比如当前的标准机器翻译架构Transformer,一层就可能包含数百万个参数。即使是一些优化过性能和参数效率的模型(比如EfficientNet),也仍然需要几十到几百MB。这就使得它们的应用范围限制在机器人或者虚拟助手等领域。所以在应用部署之前,必须面对一个问题:如何对模型进行压缩?剪枝和蒸馏是模型压缩中常用的两种方法,通过减少网络权重的数量来删减参数。还有一种方法就是“量化”,不同的是,它是通过减少每个权重的比特数来压缩原始网络。标量量化(scalar quantization)等流行的后处理量化方法是让训练网络的浮点权重以一个低精度表征去表示,比如说定宽整数。这些后处理量化方法的好处在于压缩效率很高,并且能够加速支持硬件上的推理。但缺点在于,这些近似值造成的误差会在前向传播的计算过程中不断累积,最终导致性能显著下降。现在,来自Facebook的研究者提出了一种新的模型量化压缩技术Quant-Noise,可对模型进行极致压缩,同时在实际应用部署时保持高性能。

Riptide:OctoML提出克服二值网络瓶颈新方法

OctoML公司官方博客介绍了一种快速端到端二值神经网络——Riptide,使用TVM进行优化时可以实现最高12倍的端到端加速。Riptide是一种新的模型量化方法,可以将模型量化至1、2位。研究团队今年三月在MLSys上介绍了Riptide,这篇文章主要讲一下为什么要构建Riptide,并快速了解它的幕后工作原理。团队计划来年将Automatic ultra low-bit功能添加到Octomizer中。在此之前,读者可以使用开源Riptide项目和MLSys论文中的信息来进行模型优化。

▋ 教程 

认知推理:从图表示学习和图神经网络的最新理论看AI的未来

近年来,图表示学习(Graph Embedding)和图神经网络(Graph Neural Network)成为网络数据分析与应用的热点研究问题,其特点是将深度神经网络技术用于网络结构的建模与计算,诞生了以DeepWalk、LINE和node2vec为代表的图表示学习技术,以GCN为代表的图神经网络,能够利用分布式表示方案实现对网络中的节点、边及其附带的标签、属性和文本等信息的建模,从而更好地利用网络结构进行精细建模和深度推理,相关技术已经被广泛用于数据挖掘、社会网络分析、推荐系统、自然语言处理、知识图谱等领域。

本次报告中,唐杰结合AI算法近几十年的发展历程,介绍了网络表示学习、图神经网络理论的主要进展,以及他团队在这些领域所做的一系列工作,包括基于稀疏图理论的高效学习算法ProNE,基于双通道认知理论的认知图谱Cognitive Graph等。唐杰认为,顺应第三代AI算法的潮流,图神经网络研究的重要趋势将是面向推理和认知。

知识图谱中的实体摘要:算法、评价和应用

该教程为南京大学在WWW 2020发表的Tutorial。知识图谱封装了实体和关系。知识图谱的简洁表示格式和图的特性使得许多新的Web应用程序得以创建,并增强了现有的应用性能。然而,在一个知识图谱中,描述一个实体的几十个或几百个事实可能会超出一个典型用户界面的能力,并使用户超载过多的信息。这激发了对实体摘要的富有成果的研究——为实体自动生成紧凑的摘要,以高效和有效地满足用户的信息需求。例如,在其搜索结果页面右侧,谷歌通过选择和显示用户可能正在搜索的特定实体的一些事实,为其知识图中的实体提供“最佳摘要”。

近年来,研究人员通过提出从纯粹的排序和挖掘技术到机器和深度学习技术等各种方法,对这个问题做出了贡献。技术水平不断提高,同时也使社区和新来者很难跟上该领域最近和过去的贡献。此外,尽管知识图谱在学术界和产业界越来越流行,但迄今为止还没有对该问题领域的最新趋势和基本构件进行教育和讨论。本教程的目的就是填补这一空白。

图神经网络的局限性

作者是机器学习研究科学家Sergei Ivanov,他从《图神经网络有多强大》(How Powerful are Graph Neural Networks)这篇论文开始谈起,该工作引发了许多关于关GNN理论解释的大量研究。特别是,将GNN与研究成熟的图同构算法——Weisfelier-Lehman(WL)算法进行了比较,进而讨论GNN的局限性:并不能保证能够收敛到像WL算法一样强大的状态,尽管一般情况下,当图神经网络变得同样强大时,通常会有一组参数。

▋ 新工具 

TurboTransformers:加速推理工具

近日,腾讯开源了一个叫TurboTransformers的工具,对Transformer推理过程起到了加速作用,让推理引擎变得更加强大。这个工具已经在微信、腾讯云、QQ看点等产品中广泛应用,在线上预测场景中可以说是“身经百战”。Turbo具有如下三大特性:

1. 优异的CPU/GPU性能表现。

2. 为NLP推理任务特点量身定制。

3. 简单的使用方式。

复旦大学邱锡鹏教授的实验室推出“炼丹”神器:fitlog

fitlog是一款集成了自动版本管理和自动日志记录两种功能的Python包,由复旦大学计算机科学技术学院自然语言处理与深度学习组的fastNLP团队开发的。它可以帮助你在进行实验时方便地保存当前的代码、参数和结果。根据邱锡鹏老师的介绍,fitlog有很多非常实用的功能,如用Tabular显示实验结果;在后台自动git commit代码;超参数可视化;架构无关,TensorFlow、Pytorch都支持。

Facebook开源聊天机器人Blender

最近,Facebook开源了一个新的聊天机器人Blender,称其擅长所有领域的聊天,并且更有人情味。Blender不仅帮助虚拟助手解决了许多聊天机器人的缺点,也标志着人工智能的新进展: 可复制的智能。Facebook的研究人员介绍,这次的改进包括最新的对话生成策略,混合技巧,以及94亿个参数的神经网络模型,这比现有最大的系统大了3.6倍。作为多年来人工智能对话研究的顶峰,这将是第一个把不同的对话技能(包括同理心、知识和个性)融合在一起的聊天机器人。

▋ 应用 

CMU用AI让一部手机实现高精度人脸建模

通常情况下,对某个人的脸进行精确的三维重建需要昂贵的设备和专业知识技能,比如要用摄影棚、相机、3D扫描仪等等,各种各样的工作都集中在使用光度学立体或多视图立体技术来进行面部结构重建。现在,卡内基梅隆大学(CMU)的研究人员使用普通智能手机录制的视频完成了这项壮举。用智能手机拍摄脸部正面和侧面的连续视频,在深度学习算法的帮助下分析这些数据,成功对多个面部进行了数字重建,实验结果表明,他们的方法可以达到亚毫米精度,堪比专业化的处理。
 

DeepTech深科技 |  参与讨论

苏黎世大学:AI助力4D核磁共振扫描,数据处理速度提高30倍

四维(4D)核磁共振扫描(MRI)可以用来重建心血管血流随时间的变化,对于一系列心血管疾病的诊断具有重要意义。然而,这些扫描通常需要20分钟的处理时间,意味着扫描过程中无法对进一步成像评估做出决定。加速这类扫描,就能在患者接受扫描的同时完成实时评估,不仅能节省临床医师的时间,还能减少患者的不适。近日,来自苏黎世大学生物医学工程学院Valery Vishnevskiy教授的研究团队,成功开发了一种深度学习网络,可以显著加速4D flow MRI数据处理。这个深度学习模型有望让临床医师在患者接受核磁共振扫描的同时,实时观察血流变化,从而优化诊断工作流。

法国推出AI语音助手以帮助冠状病毒患者

法国研究人员周一启动了语音助手,该助手可以帮助患有潜在冠状病毒症状的呼叫者,并使用人工智能将他们定向到急救服务或医生那里。该组织表示,法国任何人现在都可以使用由法国研究所Inserm,巴黎大学和法国铁路公司SNCF开发的“AlloCovid”服务。虚拟AI语音助手将会要求呼叫者提供其邮政编码(无需姓名)。语音助手会根据呼叫者的症状和现有状况,将他们定向到合适的专业人员。该系统一次可以处理1000个呼叫。来电者的信息将会发送给卫生当局,并保存7天,然后销毁。

▋ 经验 

院士张钹:关于清华大学计算机系人工智能专业建设的经验与思考

在上一个十年里,我们见证了人工智能的“复兴”,见证了人工智能技术对于众多行业的颠覆性变革,也感受到了人工智能对每个人生活的深刻影响。随之而来的,人工智能专业也成为了当前高校中最热门的专业之一。 2020年3月,教育部公布的新增备案本科专业名单中,约180所高校通过了新增人工智能专业的审批,其中既包括理工类、综合类高校,也包括语言类、医药类等专业性较强的高校。 有人说,人工智能是当前最好的计算机专业。但作为新兴专业,如何办好还需要教育者们的大量探索。4月30日,中国科学院院士、清华大学人工智能研究院院长张钹为分享了关于清华大学计算机系人工智能专业建设的经验与思考。

▋ 趣闻 

 

动物森友会首届workshop ACAI 2020即将召开

▋ 趣闻 

动物森友会首届workshop ACAI 2020即将召开

众所周知,因为疫情的原因,ICML、ICLR、CVPR等人工智能顶会都已经改为了线上举办。自从AAAI 2020之后,今年内大概率不会再有线下举办的AI会议了。比如这几天正在举办的ICLR 2020,原本打算远赴非洲参会的人们,现在只能是网络一线牵。 网络虚拟环境成为了人们持续交流的最重要途径。继网友在《我的世界》里盖学校、举办毕业典礼之后,AI学术会议也挪到了游戏里。这次,他们看中的是Switch的“动物森友会”。这是个没有固定剧情的开放游戏,非常注重沟通,玩家可以在里面独自生活,不受默认的剧情、任务限制。目前,动物森友会中的首届workshop ACAI 2020已经开始筹备,这一新生会议将在三个月后正式举行。

以上是《智源社区AI周刊》第20期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请不吝赐教发至:editor@baai.ac.cn。谢谢大家。

特约编辑:刘布楼 常政 刘沂喆

所有文章
×

还剩一步!

确认邮件已发至你的邮箱。 请点击邮件中的确认链接,完成订阅。

好的