回到主页

智源社区AI周刊#011 (2020.03.02)

为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第11期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况),数据(数据集),工具(新工具和应用推荐),求职(职场研究报告等)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。

过去一周(2020/02/24~2020/03/01),值得关注的内容有以下3方面:

  • CVPR 2020公布结果,6656篇有效投稿中最终有1470篇论文被录用,接收率为22%左右。据悉,本届CVPR的评审阵容包括198位领域Chair和3664位审稿人。虽然在近三年来,CVPR的论文投稿量都在持续大涨(CVPR 2018有3300篇有效投稿、CVPR 2019有5160篇有效投稿、CVPR 2020有效投稿达6656),然而在接收率方面,已是“二连降”(CVPR 2018收录论文979篇、接收率为29%左右;CVPR 2019收录论文1300篇,接收率为25%左右;CVPR 2020收录论文1470篇、接收率为22%左右)。(详情参见本周报「会议」栏目)
  • AI研究的道德问题越来越凸显。上周,YOLO之父Redmon宣布退出CV研究,因为不想看到自己研发的技术被用于军事和隐私窥探。AI学术会议NeurIPS组织方在最新公告中表示,今年向大会提交论文的学者必须陈述其研究潜在的更广泛的影响,以及自己的研究是否存在财务利益冲突。社会影响力声明将要求AI研究人员说明其工作的正面和负面潜在结果,而财务披露要求阐明行业和大型科技公司在该领域中发挥的作用、以及与提交的研究直接相关的潜在利益冲突。(详情参见本周报「行业与政策」栏目)
  • 据IEEE官方报道,阿里平头哥首席科学家、阿里达摩院计算技术实验室负责人谢源被授予IEEE计算机学会2020年度奖项:J. McCluskey Technical Achievement Award。这是继2019年南京大学周志华之后,华人再次摘得此桂冠。该奖设立于1985年,颁发给世界范围内在计算机和信息科学与工程领域做出了卓越创新贡献从而显著推动了技术进步的杰出学者。而这一届之所以颁给谢源,是为了表彰其对实现和评估计算机体系结构的设计技术和工具做出的贡献。(详情参见本周报「人物」栏目)

下面是各个要点的详情介绍。

▌ 论文推荐

T5:文本到文本的迁移Transformer
Exploring the Limits of Transfer Learning with a Unified Text-To-Text Transformer

迁移学习在2018年出现的GPT、ULMFiT、ELMo以及BERT等成果上初露锋芒,之后又在2019年大显身手,推动了领域内多种新方法的发展。随着NLP领域的发展迅猛,评估其中的哪些发展成果最具有意义以及这些成果结合起来会发挥出怎样的效果,已不是易事。Google研究者本文中,提出了一个大规模的实证评估,以确定哪些迁移学习技术效果最好,并大规模应用这些迁移学习技术来创建一个新模型,作者将这个新模型称之为文本到文本的迁移Transformer(Text-To-Text Transfer Transformer,T5)。与此同时,他们还引入了一个新的开源预训练数据集——Colossal Clean Crawled Corpus(C4)。作者在C4数据集上对T5模型进行预训练,让模型在许多NLP基准上都实现了最佳结果,与此同时还拥有足够的灵活性,进行微调后可应用到多个重要的下游任务上。
来源:Google AI | 论文下载

神经架构搜索方法评估
NAS evaluation is frustratingly hard

近年来Neural Architecture Search(NAS)发展迅速,但是关于哪个算法最好、哪个搜索方法最好,其实一直没有定论。不同的论文之间很难在相同的参数设置下进行公平比较。有些论文可能是加入了一些trick,人工调参&精心设计过拟合,从而在某个数据集上面看起来准确率更高。作者找了8个有开源代码的NAS方法,在5个不同的数据集上进行对比。这8个NAS方法是DARTS,StacNAS,PDARTS,MANAS,CNAS,NSGANET,ENAS,NAO。这5个数据集是Cifar 10,Cifar 100,Sport 8,MIT 67,Flowers 102。选5个数据集是因为大多数paper的结论都是基于Cifar 10得到的,有过拟合Cifar 10的嫌疑。有些方法表现出色可能是因为人工设计了一个好的搜索空间,训练调参,而不是因为好的搜索策略。为了避免这个问题,作者在这8个方法的搜索空间里面随机采样得到网络结构,遵循相同的训练参数,和这8个方法进行比较。
来源:ICLR 2020 | 代码链接 | 论文下载

多任务视觉和语言表示学习
12-in-1: Multi-task Vision and Language Representation learning

许多视觉和语言的研究集中在一组小而多样的单一任务和支持的数据集上,这些数据集通常是单独研究的;然而,成功完成这些任务所需的视觉语言理解技能有很大的重叠。在这项工作中,作者通过开发一个大规模的、多任务的训练机制来研究视觉和语言任务之间的关系。作者的方法最终在12个数据集上建立了一个模型,这些数据集来自4大类任务,包括可视化问题回答、基于标题的图像检索、基础引用表达式和多模态验证。与各自训练的单任务模型相比,这意味着从大约30亿个参数减少到2.7亿个参数,同时在各个任务中平均提高性能2.05个百分点。作者使用这个多任务框架来深入分析联合训练不同任务的效果。此外,本文还展示了从单一的多任务模型中细化特定任务模型可以带来进一步的改进,达到或超过最先进的性能。
来源:CVPR 2020 | 论文下载

多关系图神经网络CompGCN
Composition-based Multi-Relational Graph Convolutional Networks

图神经网络已经成为图数据分析领域的经典算法了,各大顶会上相关的论文也层出不穷。但是,这些工作主要关注点都在如何在简单无向图上设计一个更新颖更复杂的模型,而没有从图数据的复杂程度来考虑。实际生活中的图往往更加复杂。比如,知识图谱上的有向多关系图。多关系图的建模是更符合实际也具有更高的应用价值。本文作者从实际的图数据特点出发,设计了一种针对多关系有向图的图神经网络CompGCN来同时学习节点和关系的表示。同时,为了降低大量不同类型关系带来的参数,这里作者设计了一种分解操作composition operation,将所有关系都用一组基的加权组合来表示。这样用于描述关系的参数只和基的个数有关。
来源:ICLR 2020 | 代码地址 | 论文下载

预训练模型ProphetNet:根据未来文本信息进行自然语言生成
ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training

传统自回归语言模型通过估计文本语料概率分布被广泛用于文本建模,序列到序列的建模(seq2seq),以及预训练语言模型中(如GPT等)。这类模型通常使用teacher-forcing的方法训练,即每一时刻通过给定之前时刻的所有字符以预测下一个时刻的字符。然而,这种方式可能会让模型偏向于依赖最近的字符,而非通过捕捉长依赖的信息去预测下一个字符。针对上述问题,本文提出了一个新的seq2seq预训练模型,称之为ProphetNet。该模型带有一个新颖的自监督学习目标函数,即预测未来的N元组(Predicting Future N-gram)。与传统seq2seq的Teacher-forcing每一时刻只预测下一个字符不同,ProphetNet每一时刻将学习去同时预测未来的N个字符。预测未来N元组这一自监督学习目标在训练过程中显式地鼓励模型在预测下一个字符时考虑未来更远的字符,做到对未来字符的规划,以防止模型对强局部相关(strong local correlation)过拟合。
来源:MSRA | 论文下载

 观点

于剑、高新波:“顶会顶刊模式”如今却成为科学原创性的阻碍

基于包云岗老师发表在CCCF 2020年第1期卷首语上的《伯克利科研模式的启发》,北京交通大学于剑老师、西安电子科技大学高新波老师于《中国计算机学会通讯》发表观点:"顶会顶刊模式"是当今中国大陆流行的科研模式。该模式曾推动了中国科学技术的进步和发展,但如今却成为科学原创性的阻碍。我们需要科研评估体制的改革,特别是科研人员评估体制的改革,希望能有一批人不以短期目标为主,能够追求更长远的目标。
▌ 人物

谢源获Edward J. McCluskey技术成就奖

据IEEE官方报道,阿里平头哥首席科学家,阿里达摩院计算技术实验室负责人谢源被授予IEEE 计算机学会2020年度奖项:J. McCluskey Technical Achievement Award。这是继2019年南京大学周志华之后,中国华人再次摘得此桂冠。该奖设立于1985年,颁发给世界范围内在计算机和信息科学与工程领域做出了卓越创新贡献从而显著推动了技术进步的杰出学者。而这一届之所以颁给谢源,是为了表彰其对实现和评估计算机体系结构的设计技术和工具做出贡献。

贾佳亚离开腾讯优图实验室,创立AI公司思谋科技获Pre-A轮融资

原腾讯杰出科学家、优图实验室X-Lab负责人贾佳亚离职创立了一家新的AI公司——思谋科技。贾佳亚在计算机视觉AI领域前沿技术探索20年,是目前视觉领域高清图像视频处理、修复、增强最权威的科学家之一。目前,思谋科技已获Pre-A轮融资,在深圳和香港设立了研发中心,并在上海设有商务代表处。公司将致力于深度学习和计算机视觉等科技在坚持行业差异化的情况下持续创新,并为不同的领域的企业创造满足自身需求的商业价值。
来源:机器之心

NeurIPS今年将加入道德评审,论文作者还需声明财务资助

AI研究的道德问题越来越凸显。上周,YOLO之父Redmon宣布退出CV研究,因为不想看到自己研发的技术被用于军事和隐私窥探。有人说,Redmon很难以一己之力改变学术界。然而事实上,Redmon的做法正是因为学术界开始重视AI的道德伦理,他这一激进的决定来自于与其他学者之间的争论。AI学术会议NeurIPS组织方在最新公告中表示,今年向大会提交论文的学者必须陈述其研究潜在的更广泛的影响,以及自己的研究是否存在任何财务利益冲突。社会影响力声明将要求AI研究人员说明其工作的正面和负面潜在结果,而财务披露要求阐明行业和大型科技公司在该领域中发挥的作用,以及与提交的研究直接相关的潜在利益冲突。
来源:NeurIPS

CB Insights 2020 AI趋势报告

CB Insights发布2020 AI趋势报告,主要观点包括:1. 商业假货将使名人复活,改变零售业并改变媒体;2. AutoML:AI的未来是自动设计;3. 联合学习将带来一个新的数据合作伙伴生态系统;4. 事半功倍:解决AI中的小数据问题将是重点;5. 自然语言处理将帮助我们理解生活的组成部分。
来源:CB Insights

LSTM之父Jürgen Schmidhuber:我眼中的深度学习十年简史

作为LSTM发明人、深度学习元老,Jürgen Schmidhuber发表了一篇博文,着重介绍了近十年来基于作者研究工作最重要的开发和应用,最后对2020年代进行了展望,也提及到了数据隐私和市场。下面是本篇文章的目录:1. 长短期记忆网络的十年;2. 前馈神经网络的十年;3. LSTM和FNN/CNN,LSTM与FNN的对比;4. GAN,基于好奇心产生的技术;5. 2010-2020十年其他的热门话题:深度强化学习、元学习、世界模型、蒸馏网络、神经架构搜索、注意力学习、快速权重、自发明问题;6. 数据市场和隐私的未来;7. 2010年代与2020年代,虚拟AI还是现实AI?

英国AI芯片公司Graphcore获得新增融资1.5亿美元

2月25日下午,英国AI芯片公司Graphcore正式宣布获得新增融资1.5亿美元。至此,Graphcore的总融资已超过4.5亿美元,公司整体估值为19.5亿美元。据官方消息,此次私募由领先的金融资产管理公司、成长型股票基金和投资信托基金完成,除了现有投资者如Merian Chrysalis,Ahren Innovation Capital,Amadeus Capital Partners和Sofina以外,还包括新增投资者Baillie Gifford,Mayfair Equity Partners以及M&G Investment。在此前,公司还曾获DeepMind联合创始人Demis Hassabis、ARM创始人、三星集团、博世、红杉的投资。Graphcore表示,最新这笔资金使Graphcore拥有3亿美元的现金储备来扩展其产品。Graphcore是一家专注于机器智能的AI芯片公司,总部位于英国。Graphcore将其开发的人工智能芯片称之为IPU(intelligent processing unit/智能处理器),可用以加速AI应用计算。与此同时,他们还开发了一套可以帮助用户无缝使用TensorFlow和MXNet等机器学习框架的接口,并提供了AI开源软件框架Poplar。
▌ 竞赛

CVPR第三届学习图像压缩挑战赛

第三届学习图像压缩挑战赛将继续在CVPR 2020上举办。此次研讨会将向各位研究人员发起挑战,要求使用机器学习、神经网络和其他计算机视觉方法来提高图像质量的同时降低多媒体传输所需的带宽。今年的研讨会将包含两条赛道:与往届相同,第一条是“低码率图像压缩”赛道,另一条是P-Frame视频压缩赛道。与前几年的挑战相似,低码率图像压缩的目标是将给定的一套图像数据集压缩至0.15 bits per pixel,同时尽可能高的保持图像质量。比赛将用PSNR和MS-SSIM评估指标衡量各位选手的表现,从而决出入围决赛的选手。然后将由人工评估评分任务确定最终排名。今年还将推出P-Frame压缩赛道,这是历届来第一次采用视频压缩任务。在此项挑战中,参赛者必须先在两个相邻的视频帧之间生成一个转换。然后在任务的解压缩环节,参赛者通过第一帧及压缩后的表征来重构第二帧。这项挑战将根据MS-SSIM性能分数来确定排名。
来源:CVPR 2020 | 比赛地址

▌ 数据

Open Images V6最新发布:以局部化叙事为特色

谷歌的900万注释图像数据集Open Images,再次进化。这一次的V6版本,不仅增加1400种视觉关系注释类型,新增2350万个经过人工验证的图像级标签,包含250万个人类动作注释,还更新了新特性局部叙事(localized narratives)。所谓局部叙事,是一种全新的多模式注释形式,包括所描述对象的同步语音、文本和鼠标轨迹。在Open Images V6中,有50万图像适用这一模式。同时,谷歌也发布COCO数据集的完整12.3万图像的局部叙事。
来源:Google AI

▌ 代码

Google Brain Trax代码库:深度学习进阶路径

对于最前沿的一些实现,包括Transformer或其它强化学习,使用者通常都需要看原作者开源的代码,或者阅读大厂的复现。出于速度等方面的考虑,这些实现通常会显得比较“隐晦”,理解起来不是那么直白。这个时候,读者可以使用Google Brain维护的Trax,它是ML开发者进阶高级DL模型的路径。Trax是一个开源项目,它的目的在于帮助我们挖掘并理解高一阶的深度学习模型。Google Brain开发者表示,该项目希望Trax代码做到非常整洁与直观,并同时令Reformer这类高阶深度学习达到最好的效果。
来源:Google Brain

Tiramisu Neural network的Pytorch实现

本文是Tiramisu Neural network的Pytorch实现,并具有以下新功能:1. 高效内存版本(在内存和速度之间进行权衡);2. 不同类型的上采样(解卷积,上采样和像素混洗);3. 不同类型的池化(最大池化,平均池化,模糊池化);4. Tiramisu的深度和宽度是完全可配置的;5. 输入图像较大时,可以启用提前转换;6. 可以禁用或修改最后一层的激活功能。
来源:Github

三种文本分类方法实践

文本分类作为NLP领域最经典的使用场景之一,已经积淀了许多方法,大致可以分为三类。第一种是最早的专家规则(Pattern)方法,这种方法可以短平快的解决top问题,但覆盖的范围和准确率都非常有限。第二种就是统计学习方法。在线文本数量增长和机器学习的兴起,一套“人工特征工程+浅层分类模型”的方式逐渐形成,用来解决大规模文本分类问题。第三种就是深度学习方法,目的为了解决文本表示高纬度、高稀疏的特征表达能力弱,文本上下文依赖问题。基于此,本文将浅探SVM,fastText,GDBT三个常见文本分类模型在产业互联网内容审核业务中的实践效果。
来源:AINLP

▌ 教程

【书籍】TinyML-微型化机器学习

深度学习网络正变得越来越小。Google Assistant团队可以检测到只有14千字节大小的单词——小到可以在微控制器上运行。有了这本书,读者将进入TinyML领域,在这里,深度学习和嵌入式系统结合在一起,用微小的设备创造出惊人的东西。作者Pete Warden和Daniel Situnayake解释了如何训练足够小的模型以适应任何环境。对于希望使用机器学习构建嵌入式系统的软件和硬件开发人员来说,这是理想的选择。
来源:Google | 书籍地址

【书籍】Data Mining: Theories, Algorithms and Examples

新技术使我们能够在许多领域收集大量数据。然而,从这些数据中发现有用信息和知识的速度远远落后于收集数据的速度。《数据挖掘:理论、算法和示例》介绍和解释了来自各种数据挖掘领域的一套全面的数据挖掘算法。本书回顾了数据挖掘算法的理论基础和过程细节,包括在文献中常见的算法。这本书还给出了一个软件包的清单,包含数据挖掘算法、数据挖掘应用、参考资料、练习、解决方案手册和幻灯片。
来源:Arizona State University | 书籍地址

【入门】Adversarial Machine Learning – Industry Perspectives

基于对28个组织的采访,本文作者发现行业从业者没有配备战术和战略工具来保护、检测和响应对他们的机器学习系统的攻击。他们利用了访谈中的见解,并列举了在传统软件安全开发环境下保护机器学习系统的视角上的差距。本文从两个角色的角度撰写本文:开发人员/ML工程师和安全事件响应人员,他们的任务是在设计、开发和部署ML系统时保护ML系统。本文的研究目的是为了使研究者们能够在激烈竞争的ML时代对工业级软件的安全开发生命周期进行修订和修正。
来源:微软研究院 | 论文下载

【深度】A Hierarchy of Limitations in Machine Learning

机器学习专注于概率模型在社会系统中进行预测的有用性,但是直到现在才掌握了这些模型错误的方式以及这些缺点的后果。本文尝试对机器学习模型在应用于社会时的特定概念,过程和统计局限性进行全面,结构化的概述。机器学习建模者本身可以使用所描述的层次结构来识别可能的故障点,并思考如何解决这些故障点,并且机器学习模型的使用者在面对有关是否,在何处以及如何应用机器学习的决策时可以知道要问什么。局限性从量化本身固有的承诺到显示未建模的依存关系如何导致交叉验证作为评估模型性能的方式过于乐观的局限性。
来源:哈佛大学 | 论文下载

▌ 新工具

JAX:新的科学计算库和神经网络库

JAX是机器学习框架领域的新生力量,它具有更快的高阶渐变,它建立在XLA之上,具有其他有趣的转换和更好的TPU支持,它的官方文档是这样解释的:“JAX是CPU、GPU和TPU上的NumPy,具有出色的自动差异化功能,可用于高性能机器学习研究。”
来源:新智元

PlaidML:支持所有品牌GPU的深度学习工具

众所周知,深度学习是因为2010年代英伟达GPU算力提升而快速发展起来的,不过如今市面上还有多种品牌的显卡,它们同样拥有不错的性能,后者能不能成为AI模型算力的基础呢?特别是MacBookPro。MacBookPro在科技圈覆盖面颇广,质量也不错,不能拿来做深度学习实在可惜。在选购MacBook的过程中,有些人会为了独显而多花点钱,但到了做深度学习的时候却发现这钱花得很冤枉,因为长期以来,多数机器学习模型只能通过通用GPU库CUDA使用英伟达的GPU。一款名为PlaidML的深度学习框架可以破解这个困境。
来源:Vertex.AI

TaTk:面向任务对话框系统工具包

TaTk是由THU-coai实验室开发的面向任务的开源对话系统工具包。该项目为对话框系统中的每个模块提供了几种模型,以及一些联合模型和端到端模型。使用组合模块可以构建对话框系统,并且可以使用自己的模块替换一些模块在系统级别评估它们的性能。此外,该工具为系统策略训练提供了用户模拟器(用户代理策略)。项目的统一代理定义还支持用于协商对话框的对称代理和用于多方对话的多个代理。
来源:清华大学 | 代码链接

▌ 应用

Face X-Ray:鉴别人脸图像、视频的真假

如今在人工智能技术的影响下,各种视频里的人都可以被换脸,人工智能技术的突飞猛进,让人们意识到我们必须警惕AI技术被滥用的问题。此前DeepFake事件已经给了人们一次提醒,人类必须正确地掌控AI技术,而这将关系到整个人类社会的未来。微软亚洲研究院计算机视觉组一直试图从技术角度去鉴别人脸图像、视频的真假Face X-Ray便是微软亚洲研究院在这一领域的最新突破。
来源:MSRA

Modiface用TensorFlow.js实现浏览器里的实时AR虚拟试妆

十多年来,ModiFace一直在为美容行业开发人工智能技术,并在“增强现实”成为家喻户晓的术语之前开始进行AR体验。随着智能手机进入市场,ModiFace迅速利用了平台的优势,从虚拟尝试2D图像切换为虚拟实时3D视频尝试。在2018年,ModiFace被欧莱雅集团收购,从那时起,他们通过使用TensorFlow.js扩展了网络覆盖范围,扩大了实时虚拟尝试的范围,使其更加易于访问。用户可以直接访问欧莱雅品牌的产品页面,不仅仅可以浏览产品图片,还可以在购买产品之前实际看到产品的外观。这个过程使找到合适的口红更加有趣,用户可以在家中体验。
▌ 会议

CVPR 2020接收论文公布:录用1470篇,接收率仅22%

CVPR 2020公布结果,6656篇有效投稿中最终有1470篇论文被录用,接收率为22%左右。据悉,本届CVPR的评审阵容包括198位领域Chair和3664位审稿人。虽然在近三年来,CVPR的论文投稿量都在持续大涨(CVPR 2018有3300篇有效投稿、CVPR 2019有5160篇有效投稿、CVPR 2020有效投稿达6656),然而在接收率方面,已是“二连降”(CVPR 2018收录论文979篇、接收率为29%左右;CVPR 2019收录论文1300篇,接收率为25%左右;CVPR 2020收录论文1470篇、接收率为22%左右)。
来源:CVPR 2020 | 会议网址

▌ 经验

建立四个研究部分的一致性以提高研究计划和报告的质量

当谈到在组织里执行机器学习项目时,数据科学家、项目经理和业务主管需要一起工作来部署最好的模型,从而满足特定的业务目标。这一步的中心目标就是识别出需要在分析中预测的关键业务变量。自动机器学习团队将这些变量看成模型的目标,然后使用和它们相关的指标来确保项目的成功。这篇文章将会向读者展示自动机器学习的用例,此外,本文还介绍了数据科学家、项目经理和业务主管各自如何使用自动机器学习来改进团队合作和学习,并促进数据科学新方案的成功实现。
来源:数据派THU

▌求职

TalentSeer 2020 AI人才报告

2019年AI技术以惊人的速度发展,2020年这些技术将持续走向成熟。无论是哪个行业,可持续性AI人才生态系统是2020年及以后实现AI产品和商业化的关键。TalentSeer网站通过对500多家AI公司和15000名AI人才的调查和分析,汇总出了一份2020 AI人才报告。该报告深入讨论了当前AI人才的前景和市场趋势,并为AI人才和人才领导在生态系统中蓬勃发展提供了一份实用指南。
来源:TalentSeer

以上是《智源社区AI周刊》第11期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请不吝赐教发至:editor@baai.ac.cn。谢谢大家。

特约编辑:刘布楼 常政 刘沂喆

所有文章
×

还剩一步!

确认邮件已发至你的邮箱。 请点击邮件中的确认链接,完成订阅。

好的