回到主页

智源社区AI周刊#017 (2020.04.13)

为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第17期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况),数据(数据集),工具(新工具和应用推荐),求职(职场研究报告等)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。

过去一周(2020/04/06~2020/04/12),值得关注的内容有以下3方面:

  • 2020年4月7日,北京智源人工智能研究院数据开放研究中心联合清华大学、联合中国工程科技知识中心、清华大学附属北京长庚医院、阿里巴巴智能计算实验室、搜狗搜索、智谱.AI宣布“新冠肺炎(COVID-19)开放数据源”正式上线。针对蔓延全球的新冠肺炎疫情,开放而全面的数据资源可以帮助研究者、政策制定者、医疗工作者和普通民众更深入地了解病毒和疫情。(详情参见本周报“数据”栏目)
  • 根据EMNLP 2020官网消息,EMNLP 2020将完全在线举行,取消了在多米尼加共和国举行的现场会议。为了避免国际旅行的需要和COVID-19进一步传播的风险,会议组织者将采取措施确保尽可能多的虚拟社交互动。论文提交截止日期已延至2020年6月1日。(详情参见本周报“会议”栏目)
  • 近日CMU和Google Brain联合提出了压缩和加速BERT模型的MobileBERT,目前的预训练语言模型模型存在模型大小过大和延迟时间长等问题,因此无法部署到资源有限的移动设备上。MobileBERT的提出是为了适应移动设备的部署,论文已被ACL 2020接收。(详情参见本周报“论文推荐”栏目)

下面是各个要点的详情介绍。

▋ 论文推荐

MobileBERT:用于资源受限设备的任务无关BERT
MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices

自然语言处理最近取得了巨大的成功,它使用了带有数亿个参数的巨大的预先训练的模型。然而,这些模型存在模型大小过大和延迟时间长等问题,因此无法部署到资源有限的移动设备上。在本文中,作者提出了压缩和加速BERT模型的MobileBERT。与最初的BERT一样,MobileBERT是与任务无关的,也就是说,它可以通过简单的微调应用于各种下游NLP任务。MobileBERT配备了瓶颈结构和精心设计的自注意力机制和前馈网络之间的平衡。为了训练MobileBERT,作者首先训练一个特别设计的teacher模型,然后把teacher的知识传递给MobileBERT。实证研究表明,MobileBERT比BERT_BASE小4.3倍,快5.5倍,同时在著名的基准上都取得了有竞争力的结果。
来源:ACL 2020 | 论文下载

大规模无监督跨语言表示学习
Unsupervised Cross-lingual Representation Learning at Scale

本文表明,在大规模的多语言预训练模型,可以显著地提高跨语言迁移任务的性能。作者使用超过2TB的过滤Common Crawl数据,在100种语言上训练一个基于Transformer的掩码语言模型。该模型称为XLM-R,在多种跨语言基准测试中显著优于多语言BERT (mBERT),在低资源语言上表现特别好。本文还对实现这些提升所需的关键因素进行了详细的实证评估,包括1. 积极迁移和能力稀释之间的权衡;2. 大规模高资源语言和低资源语言的性能。最后,本文首次展示了在不牺牲每种语言性能的情况下进行多语言建模的可能性。
来源:ACL 2020 | 论文下载

MSG-GAN:用于稳定图像合成的多尺度梯度GAN
MSG-GAN: Multi-Scale Gradient GAN for Stable Image Synthesis

虽然生成对抗网络在图像合成任务中取得了巨大的成功,但众所周知,它们很难适应不同的数据集,部分原因是训练过程中的不稳定性和对超参数的敏感性。这种不稳定性的一个普遍接受的原因是,当真实和虚假分布的支持没有足够的重叠时,从判别器到生成器的梯度变得不具信息性。本文提出了多尺度梯度生成对抗网络(MSG-GAN),这是一种简单而有效的技术,通过允许梯度流从鉴别器到发生器在多个尺度上流动来解决这个问题。该技术为高分辨率图像合成提供了一种稳定的方法,并作为常用的渐进生长技术的替代。结果表明,MSG-GAN在不同大小、分辨率和域的多种图像数据集上,以及不同类型的损失函数和结构上都稳定收敛。与最先进的GAN相比,在作者尝试的大多数情况下,本文的方法都能与之媲美或超越其性能。
来源:CVPR 2020 | 论文下载

多模态GNN:在视觉信息和场景文字上联合推理
Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

即使有可靠的OCR模型,要回答需要在图片中阅读文字的问题,也对现有模型构成了一个挑战。其中最困难的是图片中经常有罕见字,多义字。为了克服这个困难,本文的模型利用了图片中多个模态的丰富信息来推测图片中文字的语义。有了这样的直观感受,本文设计了一个新的VQA模型——多模态图神经网络(MM-GNN)。它会首先构建一个具有三个子图的特征节点图,分别描述视觉,文字,和数字模态。此后,本文设计了三个融合子,在子图间或子图内进行信息传递。增强过后的节点特征被证明可以很好地帮助下游任务,该模型在ST-VQA和Facebook的Text-VQA上都取得了SOTA的成绩。
来源:CVPR 2020 | 论文下载

预训练语言模型中的无监督域聚类
Unsupervised Domain Clusters in Pretrained Language Models

在NLP中,“域内数据”的概念常常过于简单和模糊,因为文本数据在许多细微的语言方面存在差异,比如主题、风格或正式程度。此外,域标签很多时候是不可用的,这使得构建特定于域的系统变得很困难。本文证明了大量的预先训练的语言模型隐式地学习句子表示,这些句子表示在没有监督的情况下由域进行聚类。作者利用这一特性,提出了基于这些模型的域数据选择方法,这些方法只需要少量的域内单语数据。本文在五个不同的领域评估了神经机器翻译的数据选择方法,在这些领域中,本文方法的表现优于现有的方法,包括BLEU和句子选择的精确度以及对oracle的召回率。
来源:ACL 2020 | 论文下载

▋ 观点

一流科技袁进辉:深度学习框架的灵魂在于概念一致性

在刚刚过去的2020年第3个月,多个深度学习框架相继开源,包括清华Jittor、旷视MegEngine、华为Mindspore,再加上国内首个开源深度学习框架PaddlePaddle。“百花齐放”之后,是否会发展出具有世界影响力的深度学习框架?近日,原微软亚洲研究院数据科学家、现一流科技创始人袁进辉给出了自己的看法:指出了分析框架品质的三个方面:创新性,工程质量,各个模块的技术实现,并提出深度学习框架的灵魂在于概念一致性。
来源:机器之心

▋ 行业与政策

计算所山世光:AI方法论需升级,疫后AI将如何发展?

步入新的十年后,如今AI可能已经到了一个拐点时刻。那么接下来,AI技术将如何发展、应用?随着国内疫情的结束,这逐渐成为领域内众多研究者和从业者亟需回答的一个关键问题。中科院计算所研究员、中科视拓创始人山世光从两方面对该问题进行了探讨:先是从研究的角度,他认为AI方法论将从“数据驱动”转向“知识+数据联合驱动”;在后一部分,他从行业发展的层面提出了五大观点和建议。

清华大学孙家广院士:大数据软件的机遇与挑战

大数据、人工智能与产业深度融合,在交通运输、电子商务、金融服务、医疗健康、科学研究等领域展现出广阔的应用前景。“数字化转型”是大数据技术应用的驱动力,是要让企业真正成为“数据驱动”的企业,使得企业生产更加绿色、智能。大数据已经逐渐成为企业升级转型发展的有力引擎,在提升产业竞争力和推动商业模式创新方面发挥越来越重要的作用。本文介绍了大数据软件未来应用的机遇和挑战。
来源:数据派THU

思必驰完成4.1亿元E轮融资

苏州思必驰信息科技有限公司于近日完成E轮4.1亿元人民币融资,本轮融资由和利资本领投,北汽产投、中信金石等跟投。思必驰历经十余年基础技术研发,拥有近1200项知识产权,其中专利700余项。思必驰主要业务是研发全链路智能语音交互关键技术,包括声学信号处理、语音识别、语音合成、自然语言理解、声纹识别、情绪识别、知识图谱、智能交互决策等。
▋ 人物

CMU女教授Nina Balcan获ACM Grace Murray Hopper奖

Grace Murray Hopper是ACM的青年奖,奖给35岁以前做出突出学术贡献的学者。奖金35000美元,由微软赞助。 Nina Balcan因为在最小监督学习上基础性和突破性的贡献而荣获此奖。 历史上获得这一奖项的知名学者和技术人员包括Donald Knuth、Steve Wozniak、Bill Joy、John Ousterhout、Richard Stallman、许峰雄、Bjarne Stroustrup、胡文美等。

著名数学家John Conway感染新冠去世,享年82岁

他在普林斯顿大学的同事Sam Wang确认了这一消息。 Conway是一位多才多艺的数学家。1981年当选英国皇家学会院士的时候的评语是: 他是一位多才多艺的数学家,他将深厚的组合学洞察力与代数技巧结合在一起,尤其是在构建和处理 “非主流 “代数结构方面,以完全出乎意料的方式阐明了各种问题。他在有限群理论、结子理论、数理逻辑(包括集合论和自变量理论)和博弈论(也包括博弈论的实践)方面做出了杰出的贡献。 他还非常热衷科普,与Martin Gardner有很好的合作,发明了很多数学游戏,代表作是Game of Life,一种元胞自动机。
▋ 数据

智源研究院联合多家权威机构上线“新冠肺炎(COVID-19)开放数据源”

2020年4月7日,北京智源人工智能研究院数据开放研究中心联合清华大学、联合中国工程科技知识中心、清华大学附属北京长庚医院、阿里巴巴智能计算实验室、搜狗搜索、智谱.AI宣布“新冠肺炎(COVID-19)开放数据源”正式上线。针对蔓延全球的新冠肺炎疫情,开放而全面的数据资源可以帮助研究者、政策制定者、医疗工作者和普通民众更深入地了解病毒和疫情。新冠肺炎(COVID-19)开放数据源旨在汇集世界上最全面的新冠肺炎开放数据源,自疫情发端即致力于收集来自世界各地各种类型的相关开放数据,并保持持续更新。目前,数据集的范围已经涵盖疫情、科研、知识、媒体和政策等五个方面。接下来,研发团队还将发布新冠肺炎(COVID-19)知识图谱和新冠肺炎(COVID-19)FTR系统,力图基于知识驱动以及全球疫情统计数据和预测模型对世界各地的疫情发展及风险状况进行量化评估和预测(Forecasting);跟踪(Tracing)最新各方面疫情进展,包括科学研究、政府动态和社会舆论等各方面;面向地区、机构和个体提供复工复产(Recovering)各方面的辅助决策支持,包括地区疫情风险评估、政府政策推荐、个人生理和心理健康自测评估等。

Google发布图片配对数据和基准

从一组图像重建3D对象和建筑物是计算机视觉中的一个广为人知的问题。它在摄影和文化遗产保护中具有多种应用。为了加快对此主题的研究以及更好地利用已经公开可用的数据,Google提出了该数据集和评估3D重建方法的新公共基准。该项目现在包括超过25k图像,每个图像都包含准确的位置和方向信息。
来源: Google AI

新冠疫情Twitter数据集

由于COVID-19全球大流行的相关性,作者将发布从Twitter中获取的与COVID-19聊天相关的推文数据集。随着对病毒的了解,人们可以看到其急剧地传播。从3月11日开始,每天产生超过400万条推文。收集的数据可以包括所有语言,较为流行的是英语,西班牙语和法语。作者发布的整个数据集包括所有推文和转推,以及没有转推的纯净版本。对于NLP任务,作者提供了前1000个常用术语,前1000个双元组和前1000个三元组。
▋ 代码

利用TFX实现分布式PCA

TensorFlow Extended(TFX)是一个无须付费的开源平台,用于创建预生产端到端机器学习流水线。Core Engine最初是基于资产优化平台的基础构建而成,现在开发者可单独使用此工具来管理自己的深度学习工作负载。Core Engine中包含多种数据预处理提供了多种机制,其中包括对输入的海量数据应用PCA以实现可视化和学习。本文向大家展示如何使用 TFX 来对数据集进行分布式PCA。
来源: TensorFlow

使用MediaPipe和TensorFlow.js在浏览器中追踪面部和手部

近日TensorFlow发布了两个新包:Facemesh和Handpose,分别用于追踪面部和手部关键特征点。Facemesh包可以找到图像中的面部边界和特征点,而Handpose则可用于查找手部边界和特征点。这些包体积小、速度快,并且可以完全在浏览器中运行,因此数据永远不会离开用户设备,从而保障用户的隐私。
来源: TensorFlow

神经网络在协同过滤中的应用

本文首先介绍了传统基于相似度的协同过滤算法,然后引申出基于矩阵分解的广义协同过滤,现在推荐系统用到的协同过滤算法几乎都是基于矩阵分解进行的各种优化和扩展。本文重点介绍了目前学术界一些比较好的深度协同过滤算法,介绍了实施这些算法的评估方法、负采样、优化器的选择等方面,然后针对每个算法,都从模型的构建过程,损失函数的选择,模型的结构,以及模型的求解等方面作了简单介绍,为了方便读者尝试和实践,本文都用TensorFlow描述了算法的基本结构。
来源:TensorFlow

 教程

关系抽取综述

关系事实是人类知识的一个重要组成部分,它隐藏在大量的文本中。为了从文本中提取这些事实,人们多年来一直致力于关系提取(RE)。从早期的模式匹配到目前的神经网络,已有的重建方法取得了显著的进展。然而,随着网络文本的爆炸式增长和新关系的出现,人类的知识急剧增加,因此研究者需要从RE中得到“更多”:一个更强大的RE系统,它可以可靠地利用更多的数据,有效地学习更多的关系,轻松地处理更复杂的上下文,并灵活地推广到更开放的领域。本文回顾了现有的RE方法,分析了当前面临的关键挑战,为更强大的RE指明了希望的方向。
来源: 清华大学

图卷积神经网络中的池化综述

图卷积神经网络是深度学习技术在图结构数据问题上的一种强大的扩展。本文对GCNNs的几种池方法进行了实证评估,并将这些图池化方法与三种不同架构(GCN、TAGCN和GraphSAGE)进行了组合。本文证实,图池化,特别是DiffPool,提高了流行的图分类数据集的分类精度,并发现,平均而言,TAGCN达到了可比或更好的精度比GCN和GraphSAGE,特别是对数据集较大和稀疏的图结构。
来源:CMU

三维深度学习医学图像处理综述

随着机器学习、图形处理技术和医学成像数据的迅速发展,机器学习模型在医学领域的使用也迅速增加。基于卷积神经网络架构的快速发展加剧了这一问题,医学成像社区采用这种架构来帮助临床医生进行疾病诊断。自2012年AlexNet取得巨大成功以来,CNNs越来越多地被用于医学图像分析,以提高临床医生的工作效率。近年来,三维CNNs已被用于医学图像分析。在这篇教程中,作者追溯了3D CNN的发展历史,从它的机器学习的根源,简单的数学描述和医学图像在输入到3D CNNs之前的预处理步骤。作者回顾了在不同医学领域,如分类、分割、检测和定位,使用三维CNNs进行三维医学成像分析的重要研究。最后,作者讨论了在医学成像领域使用3D CNNs的挑战(以及使用深度学习模型)和该领域可能的未来趋势。
来源:NTU

▋ 新工具

DGL-KE:亚马逊AI开源知识图谱嵌入表示框架

随着社交网络、推荐系统等典型图数据场景的发展,知识图谱的规模也在不断地增长。在工业界真实的场景中,技术人员常常需要面对千万级,甚至是亿万级节点的大规模图数据。如何快速、高效地在大规模知识图谱上进行嵌入表示的训练是当前的一个挑战。近日,亚马逊AI团队开源了一款专门针对大规模知识图谱嵌入表示的新训练框架DGL-KE,旨在能让研究人员和工业界用户方便、快速地在大规模知识图谱数据集上进行机器学习训练任务。
来源:亚马逊

PaddleSlim:基于PaddlePaddle的模型压缩工具库

PaddleSlim是一个模型压缩工具库,包含模型剪裁、定点量化、知识蒸馏、超参搜索和模型结构搜索等一系列模型压缩策略。对于业务用户,PaddleSlim提供完整的模型压缩解决方案,可用于图像分类、检测、分割等各种类型的视觉场景。同时也在持续探索NLP领域模型的压缩方案。另外,PaddleSlim提供且在不断完善各种压缩策略在经典开源任务的benchmark, 以便业务用户参考。对于模型压缩算法研究者或开发者,PaddleSlim提供各种压缩策略的底层辅助接口,方便用户复现、调研和使用最新论文方法。PaddleSlim会从底层能力、技术咨询合作和业务场景等角度支持开发者进行模型压缩策略相关的创新工作。
来源:百度

AutoDL-Projects:自动深度学习库

自动深度学习库(AutoDL-Projects)是一个开源的,轻量级的,功能强大的项目。该项目目前实现了多种网络结构搜索(NAS)和超参数优化(HPO)算法。该项目适合1. 想尝试不同AutoDL算法的初学者;2. 想调研AutoDL在特定问题上的有效性的工程师;3. 想轻松实现和实验新AutoDL算法的研究员。
来源:Github

▋ 应用

俄亥俄州立大学使用机器学习寻找越南战争中未爆炸的炸弹

未爆炸炸弹对冲突后社区构成了重大威胁,目前定位炸弹的工作依赖于时间密集和危险的现场查找。超高分辨率亚米卫星图像可以提供一种低成本、高效率的方法,来自动检测弹坑并估算未爆炸炸弹的密度。由于炸弹坑比流星陨石坑要小,并且由于炸弹坑复杂的地形环境和外观变化,所以利用以往寻找流星陨石坑的机器学习方法并不适合寻找炸弹坑。俄亥俄州立大学政治学助理教授Erin Lin创建了一个基于机器学习的两阶段框架来尝试应对这些挑战。该研究所提出的方法,将炸弹坑检测率提高了160%以上。对比分析表明,该方法明显优于典型的物体识别算法,可用于广域炸弹坑检测。
来源:学术头条

华盛顿大学使用AI实现视频抠图换背景

绿幕是影视剧中抠图、换背景的利器,但如果不在绿幕前拍摄,使用者还能完美地转换背景吗?华盛顿大学的研究者最近就上传了这样一份论文,不在绿幕前拍摄也能完美转换视频背景,让整个世界都变成绿幕。在论文中,研究者提出了一种创建蒙版(matting)的新方法。多数现有的蒙版方法都需要以绿幕为背景,或者手工创建一个三元图(trimap)。当然,也有些自动方法不需要三元图,但效果会很差。本文提出的这个蒙版方法也不需要三元图,但抠图、换背景效果要更好。

Suphx:微软亚洲研究院研发麻将AI

继围棋、德州扑克、Dota、星际争霸之后,微软亚洲研究院的Suphx创造了AI在游戏领域的另一跨越性突破——麻将。一直以来,麻将都因其复杂的出牌、得分规则和丰富的隐含信息,被视为AI研究中极具挑战性的领域。微软亚洲研究院副院长刘铁岩曾表示:可以说Dota这类游戏更游戏,而麻将这类棋牌游戏更AI。Suphx代表着AI系统在麻将领域取得的最好成绩,它也是首个在国际知名专业麻将平台天凤上荣升十段的AI系统,其实力超越了该平台与之对战过的99.9%的人类选手。
来源:机器之心

▋ 会议

EMNLP 2020截稿日期延至6月1日

根据EMNLP 2020官网消息,EMNLP 2020将完全在线举行,取消了在多米尼加共和国举行的现场会议。为了避免国际旅行的需要和COVID-19进一步传播的风险,会议组织者将采取措施确保尽可能多的虚拟社交互动。论文提交截止日期已延至2020年6月1日。
来源:EMNLP 2020

▋ 经验

中国人民大学副教授赵鑫:如何以初学者的身份写好一篇国际学术论文

本次报告中,赵鑫从一篇国际学术论文的通常逻辑布局入手:引言、相关工作、模型、实验、参考文献等,通过大量的实战示例,详细解析了它们的写作方法、技巧和注意事项等,此外还分享了他本人对于一些国际期刊的投稿经验。

如何写论文的讨论部分

本文作者认为,讨论应按以下顺序组织内容:1. 主要研究结果说明;2. 研究的优缺点;3. 与其他研究相比的优缺点,重点讨论结果间的差异;4. 研究的意义: 可能的机制和影响;5. 未回答的问题和未来研究。
来源:SciELO

▋ 求职

在大厂和小厂做算法有什么不同?

本文作者给出了在不同平台的算法岗工作体验,给正在纠结的大家一些决策参考。包括成长期的初创公司、上升期的行业独角兽、成熟期的上市大厂、成熟期的外企、成熟期的半互联网公司。要强调的是,选择没有好坏,只是不同的方向而已,不要觉得没进入大家眼中的好公司起点就低了,工作之后根据所做的具体项目和业务,会再细分大家的赛道。而且不同性格也适合不同的平台,舒舒服服地上进才是最重要的。
来源:CVer

以上是《智源社区AI周刊》第17期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请不吝赐教发至:editor@baai.ac.cn。谢谢大家。

特约编辑:刘布楼 常政 刘沂喆

所有文章
×

还剩一步!

确认邮件已发至你的邮箱。 请点击邮件中的确认链接,完成订阅。

好的