回到主页

智源社区AI周刊#015 (2020.03.30)

为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第15期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况),数据(数据集),工具(新工具和应用推荐),求职(职场研究报告等)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。

过去一周(2020/03/23~2020/03/29),值得关注的内容有以下3方面:

  • 受疫情的影响,诸多学术会议转为线上或宣布延期。近日,原定7月在奥地利维也纳举行的ICML 2020决定改为线上会议,同时将延长审稿过程,允许一稿双投和审稿期撤稿。(详情参见本周报“会议”栏目)
  • 近日,旷视向全球开发者开源其AI生产力平台Brain++的核心组件——天元(MegEngine)。天元也成为首个由中国AI公司研发的国产深度学习框架。旷视天元架构上具体分为计算接口、图表示、优化与编译、运行时管理和计算内核五层。在顶层的计算接口上,天元配置了C++和Python接口,解决框架学习接口各异,模型难以复现的问题;在图表示层,天元内置动静态转换功能,支持开发者混合使用动态图和静态图模式进行编程。(详情参见本周报“新工具”栏目)
  • 为了有效防止COVID-19新型冠状病毒的传播,在冠状病毒流行期间,几乎每个人都戴着口罩。因此,迫切需要提高在口罩遮挡下的人脸识别的性能技术。但是,目前尚没有公开可用的口罩遮挡人脸识别数据集。为此,武汉大学发布了口罩遮挡人脸数据集。这些数据集可供工业界和学术界自由使用,基于这些数据集,可以开发口罩遮挡人脸的各种应用。(详情参见本周报“数据”栏目)

下面是各个要点的详情介绍。

▋ 论文推荐

学习用于语义分割的动态路由
Learning Dynamic Routing for Semantic Segmentation

近年来,许多手工设计和搜索的网络被应用于语义分割。然而,以前的工作打算在预定义的静态架构中处理各种规模的输入,如FCN、U-Net和DeepLab系列。本文研究了一种概念上的新方法来缓解语义表示中的尺度差异,即动态路由。该框架根据图像的尺度分布,生成与数据相关的路径。为此,提出了一种可微选通函数——软条件门,用于动态选择尺度变换路径。此外,通过对门控函数进行预算约束,可以通过端到端方式进一步降低计算成本。作者进一步放宽了网络级路由空间,以支持多路径传播和跳转连接,带来了可观的网络容量。为了证明动态特性的优越性,作者比较了几种静态架构,它们可以作为路由空间中的特殊情况进行建模。作者在Cityscapes和PASCAL VOC 2012上进行了大量的实验证明了动态框架的有效性。
来源:CVPR 2020 | 论文下载

细粒度行为识别的多模态域适应
Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

粒度行为识别数据集存在环境偏差,因为多个视频序列是从不同的环境中捕获的。在一个环境中训练模型并在另一个环境中部署会由于不可避免的域转换而导致性能下降。无监督域适应(UDA)方法经常利用源域和目标域之间进行对抗性训练。然而,这些方法并没有探索视频在每个域中的多模式特性。在这项工作中,除了对抗性域对齐之外,作者还利用模态之间的对应关系作为UDA的一种自监督域对齐方法。作者在大规模数据集EPIC-Kitchens中的三个kitchens上使用行为识别的两种模式:RGB和光学流(Optical Flow)以测试本文的方法。结果显示,仅多模态自监督比仅进行源训练的性能平均提高了2.4%。然后,作者将对抗训练与多模态自监督相结合,表明本文的方法比其他UDA方法要好3%。
来源:CVPR 2020 | 论文下载

元人脸识别
Learning Meta Face Recognition in Unseen Domains

人脸识别系统在实际应用中往往由于其泛化能力较差而导致性能不佳。例如,一个训练有素的webface数据模型不能处理监视场景中的ID和Spot任务。在本文中,作者的目标是学习一个不需要任何模型更新就可以直接处理新的未知域的广义模型。为此,作者提出了一种新的基于元学习的人脸识别方法——元人脸识别(Meta face recognition, MFR)。MFR以元优化目标综合源/目标域移位,这要求模型不仅要在综合的源域上学习有效的表示,还要在综合的目标域上学习有效的表示。具体来说,作者通过域级抽样策略构建域移位批次,并通过优化多域分布得到合成源/目标域上的反向传播梯度/元梯度。进一步结合梯度和元梯度对模型进行更新,提高了模型的泛化能力。此外,作者提出了两种评估广义人脸识别的benchmark。在该benchmark上进行的实验验证了作者的方法与其他先进技术比较具有优越性。
来源:CVPR 2020 | 论文下载

为新闻故事生成具有代表性的标题
Generating Representative Headlines for News Stories

每天都有数以百万计的新闻文章在网上发布,将报道同一事件的文章分组是帮助读者进行新闻消费的一种常见方式。然而,如何高效、有效地为每一个故事生成一个有代表性的标题仍然是一个具有挑战性的研究问题。文档集自动摘要的研究已经有几十年的历史了,但是很少有研究关注于为一组文章生成具有代表性的标题。摘要的目的是用最少的冗余捕获最多的信息,而标题的目的是短篇幅捕获文章共享的信息,并排除对每一篇文章过于具体的信息。在这项工作中,作者研究的问题是如何产生具有代表性的新闻故事标题。
本文开发了一种远监督方法来训练大规模的没有任何人工标注的生成模型。这种方法集中在两个技术组件上。首先,作者提出了一个多层次的预训练框架,该框架融合了大量不同质量的未标记语料库。实验证明,在这个框架内训练的模型比那些使用纯人类策展语料库训练的模型表现得更好。其次,作者提出了一种新的基于自投票的文章注意层来提取多篇文章共享的显著信息。实验证明了该层模型对新闻中潜在的干扰具有较强的鲁棒性,无论是否存在干扰,其性能都优于已有的基线。
来源:CVPR 2020 | 论文下载

通过归纳总结的统一知识图谱表征
What is Normal, What is Strange, and What is Missing in a Knowledge Graph: Unified Characterization via Inductive Summarization

知识图谱(KGs)在图的结构中存储了关于世界的高度异构的信息,对于回答问题和推理等任务非常有用。然而,它们经常包含错误和丢失信息。KG精化的研究已经解决了这些问题,裁剪技术可以检测特定类型的错误。本文引入了一个统一的解决方案来描述KG的特性,通过用一组归纳的软规则将问题化为无监督的KG总结,这些规则描述了KG中的正常值,从而可以用来识别异常值,不管是错误的还是缺失的。与一阶逻辑规则不同,本文的规则被标记为有根图,即根据节点的类型和KG中的信息,描述一个节点周围的预期邻域的模式。在传统的基于支持/信任的规则挖掘技术的基础上,本文提出了KGist,即知识图谱归纳摘要,它学习归纳规则的摘要,根据最小描述长度原则对KG进行最佳压缩——这是在KG规则挖掘上下文中首次使用的公式。作者将规则应用于三个大型KGs(NELL、DBpedia和Yago),以及诸如压缩、各种类型的错误检测和不完整信息标识等任务。作者证明了KGist在错误检测和不完全性识别方面优于有监督的和无监督的baseline,同时对于大型知识图谱也是有效的。
来源:WWW 2020 | 论文下载

▋ 观点

乔姆斯基:深度学习并没有探寻世界本质

乔姆斯基是一位开创性的人物,尤其是他那本《句法结构》被认为是20世纪理论语言学研究上最伟大的贡献。不光《句法结构》,还有《现代希伯莱语语素音位学》、《转换分析》等一系列语言学著作传达了对多种正规语言的洞见,也对计算机科学与自然语言处理产生了重要的影响。近日,MIT的AI科学家Lex Fridman对乔姆斯基进行了专访,在接受采访的时候,他表示,深度学习当前都在学习大量的例子,没有对本质进行探寻。
来源:数据派THU

▋ 行业与政策

国家重点实验室体系讨论

近日,中国科学院院长白春礼在院机关会见了科学技术部副部长黄卫一行,就重组国家重点实验室体系相关工作进行了沟通交流。白春礼对重组国家重点实验室体系方案提出建议:1. 在方案中应充分肯定国家重点实验室已经取得的成就,指出在新的发展时期面临的挑战;2. 建议此项工作与国家实验室建设做好统筹协调,加强顶层设计,突出重点、优势互补,并与科学中心、科创中心形成良性互动,理顺体制机制;3. 针对这次新冠肺炎疫情暴露出的问题,建议在传染病领域基础研究方面做好长远规划布局,并搭建好基础和临床应用之间的桥梁。
来源:学术头条

CB insight自动驾驶公司解读

随着一众汽车主机厂、科技巨头的入场,自动驾驶领域已不再只是特斯拉和谷歌的战斗。汽车技术日渐成为资本青睐的热门,融资额度屡创纪录,自动驾驶又是其中的佼佼者。除去早期的创业公司、VC和其他投资方,大公司同样希望在自动驾驶领域分走一块蛋糕。CB Insights通过数据,梳理出了超过40家研发自动驾驶技术的公司,其中包括汽车行业参与者、科技企业和通讯公司。值得注意的是,这份名单关注的是成熟的企业而非早期公司,另外,工业级自动驾驶技术相关企业并不包括在内。本文对该榜单进行了梳理。

Fritz AI获500万美元种子轮融资

Fritz AI是面向iOS和Android开发人员的机器学习平台,赋予移动应用程序视觉,听觉,感知和思考的能力。该公司于3月25日获500万美元种子轮融资,目前共融资700万美元。
来源:crunchbase

▋ 数据

RMFRD:最大的口罩遮挡人脸数据集

为了有效防止COVID-19新型冠状病毒的传播,在冠状病毒流行期间,几乎每个人都戴着口罩。这使传统的人脸识别技术在许多情况下无效,例如人脸考勤,火车站的人脸安全检查等。因此,迫切需要提高在口罩遮挡上的人脸识别的性能技术。当前大多数高级人脸识别方法都是基于深度学习而设计的,深度学习取决于大量人脸样本。但是,目前尚没有公开可用的口罩遮挡人脸识别数据集。为此,这项工作提出了三种类型的口罩遮挡人脸数据集,包括口罩遮挡人脸检测数据集(MFDD),真实口罩遮挡人脸识别数据集(RMFRD)和模拟口罩遮挡人脸识别数据集(SMFRD)。其中,RMFRD目前是世界上最大的真实口罩遮挡人脸数据集。这些数据集可供工业界和学术界自由使用,基于这些数据集,可以开发口罩遮挡人脸的各种应用。本项目开发的多粒度口罩遮挡人脸识别模型可达到95%的准确性。
来源:武汉大学

X-Stance:大规模多语言多目标立场检测数据集

本文从瑞士选举候选人的评论中提取了大规模的立场检测数据集。该数据集由德语,法语和意大利语组成,可以在多语言场景下检测立场。它包含关于150多个政治问题的67000条评论。与具有特定目标问题的立场检测模型不同,本文使用的数据集针对所有问题训练单个模型。为了使跨目标的学习成为可能,作者在每个实例前都添加了代表目标的问题。

Toronto-3D:面向城市道路语义分割的大型移动激光雷达数据集

大规模室外点云的语义分割对于了解各种应用中的城市场景至关重要,特别是自动驾驶和城市高清(HD)映射。随着移动激光扫描(MLS)或移动光检测与测距(LiDAR)系统的飞速发展,大量的点云可用于场景理解,此时可公开访问的大规模标记数据集对于开发深度学习方法不可或缺。本文介绍了Toronto-3D,这是一个大型的城市户外点云数据集,该数据集是由加拿大多伦多的MLS系统获取的,用于语义分割。该数据集覆盖约1km的点云,由约7830万个点和8个标记的对象类组成。作者进行了语义分割的baseline实验,结果证实了该数据集有效训练深度学习模型的能力。
 代码

 

开源C++跨平台人脸检测项目

人脸检测可广泛应用于人机交互、安防监控、社交娱乐等领域,具有很强的实用价值,因此受到广泛关注与研究。在众多人脸检测方法中,使用卷积神经网络进行检测是目前较为流行的方法之一。然而在人们使用别人开源的项目时,经常需要安装各种各样的依赖环境。不同的依赖环境在不同硬件平台或操作系统中支持程度不一样,增加了项目跨平台迁移的难度。本文介绍的是一个使用卷积神经网络进行人脸检测的开源项目,它最大的亮点是能够在所有支持C/C++的平台上编译运行。作者将预训练的CNN模型转换为静态变量后储存到了C文件里,使得该项目不需要任何其他依赖项(当然OpenCV还是需要的),仅仅只需要一个C++编译器,就能在任何一个平台甚至嵌入式系统上编译并运行该项目。
来源: 机器之心

Distributed PPO训练AI学习飞车类游戏

PPO(Proximal Policy Optimization)是OpenAI在2016年NIPS上提出的一个基于Actor-Critic框架的强化学习方法。该方法主要的创新点是在更新Actor时借鉴了TRPO,确保在每次优化策略时,在一个可信任的范围内进行,从而保证策略可以单调改进。在2017年,DeepMind提出了Distributed PPO,将PPO进行类似于A3C的分布式部署,提高了训练速度。之后,OpenAI又优化了PPO中的代理损失函数,提高了PPO的训练效果。本文主要介绍如何用TensorFlow让AI在24分钟内学会玩飞车类游戏。作者使用Distributed PPO训练AI,在短时间内可以取得不错的训练效果。
来源: Tensorflow

通过Transformer实现场景文本识别

由于文本形状,字体,颜色,背景等诸多变化,场景文本识别非常具有挑战性。大多数最新算法将输入图像校正为归一化图像,然后将识别视为序列预测任务。本文提出了一种基于变压器的简单但极为有效的场景文本识别方法。与先前基于变压器的模型不同,后者仅使用变压器的解码器对卷积注意力进行解码,本文的方法使用卷积特征图作为词输入到变压器中。该方法能够充分利用变压器强大的注意力机制。大量的实验结果表明,该方法在常规和非常规文本数据集上都大大优于最新方法。在最具挑战性的CUTE数据集之一上,其最新的预测准确性为89.6%,本文的方法达到了99.3%。

来源:哈尔滨工业大学 | 论文下载 | 代码链接

 

▋ 教程
 

面向任务的对话系统的最新进展和挑战

任务型对话系统在人机交互和自然语言处理中的重要意义和价值越来越受到学术界和工业界的重视。在这篇综述中,作者以一个具体问题的方式综述了最近的进展和挑战。作者讨论三个面向任务对话框系统的关键主题:1. 提高数据效率促进对话系统建模在资源匮乏的设置;2. 建模多轮动态对话框策略学习获得更好的完成任务的性能;3. 将领域本体知识集成到模型在管道和端到端模型所示的对话框。本文还综述了近年来对话评价的研究进展和一些被广泛使用的语料库,相信这项综述可以为未来面向任务的对话系统的研究提供一些启示。
来源: 清华大学

低功耗深度学习和计算机视觉方法综述

深度神经网络(DNNs)在许多计算机视觉任务中是成功的。然而,最精确的DNN需要数以百万计的参数和操作,这使得它们需要大量的能量、计算和内存。这就阻碍了大型DNN在计算资源有限的低功耗设备中的部署。最近的研究改进了DNN模型,在不显著降低精度的前提下,降低了内存需求、能耗和操作次数。本文综述了低功耗深度学习和计算机视觉在推理方面的研究进展,讨论了压缩和加速DNN模型的方法。这些技术可以分为四大类:1. 参数量化和剪枝;2. 压缩卷积滤波器和矩阵分解;3. 网络结构搜索4. 知识提取。作者分析了每一类技术的准确性、优点、缺点和潜在的问题解决方案,并讨论了新的评价指标。

融合零样本学习和小样本学习的弱监督机器学习方法综述

近年来,深度学习模型在图像、语音、文本识别等领域内取得了显著成就。然而,深度学习模型严重依赖于大量标签数据,使得其在数据缺乏的特殊领域内应用严重受限。面对数据缺乏等现实挑战,很多学者针对数据依赖小的弱监督机器学习方法开展研究,出现了很多典型研究方向,如小样本学习、零样本学习等。针对弱监督机器学习方法,系统阐述了小样本学习、零样本学习、零—小样本学习的问题定义、当前主要方法以及主流实验设计,最后基于当前研究中出现的问题,对下一阶段研究方向进行了总结展望。
▋ 新工具
 

天元(MegEngine):旷视深度学习框架

近日,旷视向全球开发者开源其AI生产力平台Brain++的核心组件——天元(MegEngine)。天元也成为首个由中国AI公司研发的国产深度学习框架。旷视天元架构上具体分为计算接口、图表示、优化与编译、运行时管理和计算内核五层。在顶层的计算接口上,天元配置了C++和Python接口,解决框架学习接口各异,模型难以复现的问题;在图表示层,天元内置动静态转换功能,支持开发者混合使用动态图和静态图模式进行编程。
来源:旷视

Stanza:斯坦福发布涵盖66种语言的Python版NLP库

近日,Christopher Manning所在的斯坦福NLP组开源了Python版的工具包——Stanza。该库有60多种语言的模型,可进行命名实体识别等NLP任务。

Captum:Facebook的(PyTorch)模型可解释性库

AI的可解释性是用人类可以理解的术语描述AI模型的能力。通过更好地了解AI模型以及它们为什么做出某些预测,人们可以开始解决有关模型内部理解程度、可信程度和公平性的难题。Captum是PyTorch的模型可解释性库,目前提供许多归因算法,使使用者能够了解输入以及隐藏的神经元和层的重要性。
来源:Facebook | 代码链接 | 项目介绍

SEED RL:Google分布式强化学习框架

强化学习本质上是由异构任务组成的,即便是目前最先进的分布式算法也无法有效地使用已有的计算资源来完成任务。大量的数据,和对资源的低效利用,使得实验的成本高得令人望而却步。由此一来,现在强化学习技术越来越多地被用来训练系统玩简单的游戏,这无疑与强化学习领域的上升发展是“背道而驰”的。一种解决之道,便是采用分布式方法,将计算任务分散到不同的机器上。目前最为优秀的分布式强化学习是DeepMind于2018年推出的IMPALA架构,然而IMPALA存在着一系列的缺点,例如资源利用率低、无法大规模扩展等。针对这些问题,Google提出了一个能够扩展到数千台机器的强化学习架构——SEED RL,同时该架构还能够以每秒数百万帧的速度进行训练,计算效率显著提高。
来源:Google AI

▋ 应用
 

WHO总结AI抗击疫情在医疗、分子、社会三个层面的应用

随着新冠疫情的持续发展,全世界的研究者都在致力于疫情的缓解,其研究重点包括:追踪病毒传播、促进病毒检测、开发疫苗、寻找新的治疗方法、了解疫情的社会经济影响等。在这篇综述文章中,来自杜伦大学、蒙特利尔大学、WHO等机构的研究者探讨了AI相关技术在疫情中发挥的作用,总结出了AI在医疗、分子、社会三个层面的应用。具体来说,分子层面包括药物挖掘等相关研究;医疗层面包括个体病人的诊断和治疗;社会层面包括流行病学和信息医学研究等。此外,论文还综述了当前可用的开源数据集和其他资源。
来源:机器之心

斯坦福团队使用机器学习实现无创早期肺癌筛查

来自斯坦福大学的Maximilian Diehn及其同事,优化了一种现有的评估循环肿瘤DNA(ctDNA)的测序方法。他们改善了DNA的提取,鉴定出有望作为有效疾病标记的变化。研究人员发现,尽管ctDNA在早期肺癌患者体内水平很低,却是一个很有力的预后指标。他们随后用这些数据改进了一种机器学习方法,将其用来预测血样中存在的肺癌源性DNA。在由104例早期非小细胞肺癌患者和56例匹配对照组成的初期样本中,这种方法可以区分早期肺癌患者与风险匹配的对照;在另一个由46例病例和48例对照组成的验证队列中,研究人员确认了以上结果。
来源:学术头条

苏黎世大学让AI无人机主动躲闪移动障碍物

当下市面上的无人机已经可以承担很多工作,但是躲避障碍物并不是它们的强项——尤其是在无人机快速移动时。尽管许多飞行机器人都配备了可以检测障碍物的摄像头,但通常它们都需要20~40毫秒的时间来处理图像并做出反应。这个时间看似很快,但当无人机自身以较高的速度飞行时,20~40毫秒的反应时间对于避开飞鸟或者另一架无人机,甚至是静态障碍物来说,都是不够的。尤其是当无人机在一个不可预测的环境中使用时,或者有多架无人机在同一片区域飞行时,这会是个棘手的问题。苏黎世大学的研究人员将一种类似运动传感器的“事件摄像头”整合在一起,并设计了新的算法,从而将无人机的反应时间缩短到了几毫秒。这个近乎一个数量级的提升,足以让无人机在空中躲开短距离内向其砸来的球或其他物品。
▋ 会议

ICML改为线上会议

ICML是International Conference on Machine Learning的缩写,即国际机器学习大会。受疫情的影响,诸多学术会议转为线上或宣布延期。近日,原定7月在奥地利维也纳举行的ICML 2020决定改为线上会议,同时将延长审稿过程,允许一稿双投和审稿期撤稿。
来源:NLPCC 2020

▋ 经验

数据科学团队高效远程工作指南

随着新冠疫情的爆发,让人们愈发感受到远程办公的重要性。这篇文章分享了一些远程办公最佳实践的经验,既包含针对一般工作的,也有特定于数据科学工作的,以帮助数据科学家和团队在远程工作时保持生产力、联系感和幸福感。

来源:Towards Data Science

 

▋ 求职
 

Google面试指南

一位从1997年就入行的Web工程师,立志要成为Google软件工程师,他在3年前写下了一篇超完整学习和面试教程,以此作为自己的奋斗计划。这位名叫John Washam的工程师,在换了好几份工作以后,阴差阳错在2017年成为了亚马逊AWS的技术专家,但这并不妨碍他的教程成为热门。这份教程在GitHub上线以来,已收获近10万星的好评。他在网上收集了各类计算机专业知识,以及进入谷歌工作的员工分享的资源,并系统地整理了这些资料。Washam强调,想去Google工作首先不要妄自菲薄。Google的工程师都是才智过人的,但是,就算是工作在Google的他们,仍然会因为觉得自己不够聪明而感到不安。
来源:Github

以上是《智源社区AI周刊》第15期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请不吝赐教发至:editor@baai.ac.cn。谢谢大家。

特约编辑:刘布楼 常政 刘沂喆

所有文章
×

还剩一步!

确认邮件已发至你的邮箱。 请点击邮件中的确认链接,完成订阅。

好的