回到主页

智源社区AI周刊#025 (2020.06.08)

为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第25期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况),数据(数据集),工具(新工具和应用推荐),求职(职场研究报告等)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。

过去一周(2020/06/01~2020/06/07),值得关注的内容有以下3方面:

  • 在近期两会中刚刚表决通过的《中华人民共和国民法典》中,第四编人格权中的第四章肖像权,明确提出了以信息技术手段,对于他人肖像、声音等权益的侵害认定。《民法典》(草案)对这部分做了具体解释:针对利用信息技术手段“深度伪造”他人的肖像、声音,侵害他人人格权益,甚至危害社会公共利益等问题,规定禁止任何组织或者个人利用信息技术手段伪造等方式侵害他人的肖像权。(详情参见本周报“行业与政策”栏目)
  • 近日,美国参议院Chuck Schumer提出了《无尽前沿法案》(Endless Frontiers Act)。该提案在未来5年拟向美国国家科学基金会投资1000亿美元(约合人民币7177亿元),涉及人工智能、量子计算、机器人技术、先进通信和先进制造业等10个关键技术领域。这项投资可能会用于高校研究支出,设立新的奖学金,研究基金和培训项目,以及与州和地方经济发展利益相关者进行协调等等。(详情参见本周报“行业与政策”栏目)
  •  ICML 2020官方于6.1日发布接收论文,共计4990篇论文投稿,1088篇接受,接受率21.8%。根据统计,本次来自Google的论文被接收了125篇(289人次参与),位居所有企业与科研机构之首。ICML官方发布了一篇“组织者的来信”,表示受COVID-19影响, ICML 2020将完全以虚拟方式进行。(详情参见本周报“会议”栏目)

下面是各个要点的详情介绍。

|论文推荐

 

情感预训练模型SKEP

SKEP: Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis

本文发表于ACL 2020。近年来,基于预训练的语义理解获得了迅猛的发展,显著提升了各类自然语言处理任务的效果。相比于通用预训练中主要关注事实型文本(如新闻、百科等),情感分析更侧重于分析主观型文本中蕴涵的情感和观点,因此有必要专门面向情感分析研发情感预训练模型。为此,百度研究团队提出了基于情感知识增强的情感预训练算法SKEP。此算法采用了无监督方法自动挖掘情感知识,然后利用情感知识构建预训练目标,从而让机器学会理解情感语义。

DRConv:区域感知动态卷积

Dynamic Region-Aware Convolution

本文由旷视发表于CVPR 2020。目前主流的卷积操作都在空间域进行权值共享,而如果想得到更丰富的信息,只能通过增加卷积的数量来实现,这样不仅计算低效,也会带来网络优化困难。与主流卷积不同,local conv在不同的像素位置使用不同的权值,这样能够高效地提取丰富的信息,主要应用在人脸识别领域,但local conv不仅会带来与特征图大小相关的参数量,还会破坏平移不变性。考虑到以上两种卷积的优劣,论文提出了DRConv,首先通过标准卷积来生成guided feature,根据guided feature将空间维度分成多个区域,卷积核生成模块根据输入图片动态生成每个区域对应的卷积核。DRConv能够可学习地为不同的像素位置匹配不同的卷积核,不仅具有强大的特征表达能力,还可以保持平移不变性。由于卷积核是动态生成的,能比local conv减少大量的参数,而整体计算量几乎和标准卷积一致。

用于高效自然语言处理的硬件感知Transformer

HAT: Hardware-Aware Transformers for Efficient Natural Language Processing

本文由MIT发表于ACL 2020。Transformers 在自然语言处理任务中是普遍存在的,但由于计算量大,很难部署到硬件上。为了在资源受限的硬件平台上实现低延迟推理,本文提出使用神经架构搜索设计硬件感知转换器HAT。作者首先构造了一个具有任意编码-解码器关注和异构层的大设计空间。然后作者训练一个超级Transformers,它能覆盖设计空间中的所有候选Transformers,并有效地产生许多具有重量共享的次级Transformers。最后,执行作者带有硬件延迟约束的进化搜索,以找到专用于在目标硬件上快速运行的专用子转换器。对四种机器翻译任务的大量实验表明,HAT可以发现不同硬件的有效模型。

用于冷启动推荐的内容感知神经哈希

Content-aware Neural Hashing for Cold-start Recommendation

本文发表于SIGIR 2020。内容感知的推荐方法对于向新用户提供有意义的推荐是必不可少的。本文提出了一种基于内容感知神经哈希的协同过滤方法,它为用户和项生成二进制哈希码,这样就可以利用高效的汉明距离估计用户项相关性。NeuHash-CF被建模为一个自动编码器架构,由两个用于生成用户和项哈希码的联合哈希组件组成。受语义哈希的启发,项目哈希组件直接从项目的内容信息(即,它以相同的方式生成冷启动和可见项哈希码)。这与现有的最先进的模型形成了对比,后者分别处理两个项目的情况。用户哈希码是通过学习用户嵌入矩阵,直接基于用户id生成的。作者通过实验证明,在冷启动推荐设置中,NeuHash-CF的性能显著优于最先进的基线,最高可达12%的NDCG和13%的MRR,而在所有项目都在训练时出现的标准设置中,NeuHash-CF和MRR的性能均可达4%。本文的方法使用2-4倍的更短的哈希码,同时获得与现有技术相同或更好的性能,因此也可以显著减少存储空间。

利用弱标记数据对声音进行大规模的视听学习

Large Scale Audiovisual Learning of Sounds with Weakly Labeled Data

本文由Facebook发表于IJCAI 2020。识别声音是计算音频场景分析和机器感知的一个关键方面。在本文中,作者主张声音识别本质上是一个多模态的视听任务,因为它更容易区分声音使用音频和视觉模态,而不是一个或另一个。本文提出了一种视听融合模型,该模型能够从弱标记的视频记录中识别声音。所提出的融合模型利用注意力机制,将单个音频和视频模型的输出动态地结合起来。在大型音频事件数据集AudioSet上进行的实验证明了该模型的有效性,其性能优于单模态模型、最先进的融合和多模态模型。作者在Audioset上实现了46.16的平均精度(mAP),比之前的技术水平高出大约4.35个mAP(相对:10.4%)。

|观点

美国播客节目《指数视角》专访李飞飞:关于疫情、AI伦理、人才培养的观点

李飞飞近日参与了由《哈佛商业评论》出品的播客节目《Exponential View 指数视角》,作为嘉宾接受了科技媒体人Azeem Azhar的访问,介绍了HAI实验室近期在医疗AI方面的研究,并探讨了人工智能在隐私、道德伦理上的问题。主要包括以下观点:1. 人工智能技术能够帮助老年人更自立、更健康地生活,提早发现 COVID-19 感染迹象;2. 技术发展的同时,要顾及隐私尊重与保护;3. 在学生学习代码与算法之前,让他们先融入生活;4. 机器的价值观反映了人类的价值观,因此人类负有道德责任;5. ImageNet的诞生源于正确的方法与路径;6. AGI(强人工智能)的到来自然而然,与人类相互促进。

|行业与政策

AI换脸、声音篡改等,明确写入新版《民法典》

在近期两会中刚刚表决通过的《中华人民共和国民法典》中,第四编人格权中的第四章肖像权,明确提出了以信息技术手段,对于他人肖像、声音等权益的侵害认定。《民法典》(草案)对这部分做了具体解释:针对利用信息技术手段“深度伪造”他人的肖像、声音,侵害他人人格权益,甚至危害社会公共利益等问题,规定禁止任何组织或者个人利用信息技术手段伪造等方式侵害他人的肖像权。

清华大学发布《人工智能之机器学习》报告

清华大学人工智能研究院发布了《人工智能之机器学习》的研究报告,对机器学习发展历程、代表性专业技术、学者概况、发展趋势及应用现状等内容进行深入的梳理和概括。该报告以AMiner科技信息大数据挖掘服务平台为基础,聘请领域内专业学者为顾问,采用人工智能自动生成技术,以严谨、,严肃、,负责的态度,提供深刻的科技洞察报告。

美国提出“无尽前沿法案”:拟5年内向AI、量子计算等投资千亿美元

近日,美国参议院Chuck Schumer提出了《无尽前沿法案》(Endless Frontiers Act)。该提案在未来5年拟向美国国家科学基金会投资1000亿美元(约合人民币7177亿元),涉及人工智能、量子计算、机器人技术、先进通信和先进制造业等10个关键技术领域。这项投资可能会用于高校研究支出,设立新的奖学金,、研究基金和培训项目,以及与州和地方经济发展利益相关者进行协调等等。该提案具体内容包括重构美国国家科学基金会(NSF),拟将其更名为国家科学技术基金会(NSTF),并增加一个类似于“美国国防部高级研究计划局”的技术理事会。该机构计划在4年内经费增加四倍到350亿美元,目前有83亿美元的预算。该提案还计划另外投资100亿美元,用于在美国建设至少10个区域技术中心,希望美国成为“全球关键性技术的研究、开发和制造中心”。

|代码

自适应聚合网络AANet:更高效的立体匹配

本文发表于CVPR 2020。在基于深度学习的立体匹配方法中,以GC-Net为代表的基于3D卷积的方法逐渐成为主流,它是由左右图的特征经过concat得到一个4D的cost volume,之后利用3D卷积进行代价聚合得到最终的视差图。近两年来以此框架为基础的模型在KITTI等数据集上成为新的 state-of-the-art,例如PSMNet,GA-Net等。这些方法估计的视差虽然准确率高,但是存在两个参数量和内存占用量高的地方:1. cost volume是一个H×W×D×C的4D张量,具有较高的参数量;2. 利用3D卷积进行代价聚合,计算量较大。AANet主要用来解决上述两个方面,从而提升深度立体匹配网络的效率。

XIV-ReID:基于X模态的跨模态行人重识别

本项目关注的任务是红外(infrared)-可见光(visible)跨模态行人重识别(IV-ReID)。此任务难点在于可见光图像与红外图像之间显著的gap,因此,开发者引入了一个辅助的X modality,并将infrared-visible双模态任务重新表述为X-Infrared-Visible三模态学习任务,即XIV学习框架。该框架由两个主要部分组成:一个是通过自监督学习生成X模态的轻量型X模态生成器,一个是权重共享的XIV跨模态特征学习器,并设计了跨模态的约束。在X模态的辅助下将可见光与红外光图像连接起来,使跨模态的图像更容易匹配,得到更好的效果。

飞桨实战笔记:自编写模型如何在服务器和移动端部署

这篇文章详细记录了如何使用百度深度学习平台——飞桨进行SSD目标检测模型的训练、以及如何将模型部署到服务器和移动端。SSD大体上来说是将图片分为6种不同大小的网格,找到目标中心的落点,确定物体的位置。在分成不同网格之后,会在此之上取到不同数目的先验框,对先验框进行回归、分类预测。文末给出了笔者认为非常有用的资料链接。本文的代码基于百度AI Studio官方示例代码,并能够在飞桨 1.7.1上跑通,Python版本是3.7。
 

飞桨PaddlePaddle|参与讨论

|教程

Google最新教程:《机器学习系统芯片设计》

机器学习和系统芯片互相促进发展,近年来机器学习算法深刻改变了计算硬件资源的发展。最近谷歌发布了强化学习用于芯片布局的论文。在加州理工的《数据驱动算法设计》课程上,Google两位研究人员Azalia Mirhoseini和Anna Goldie做了《机器学习在系统和芯片设计》的报告,讲述了机器学习芯片设计技术,并受到Jeff Dean的推荐。本报告内容包括:1. 学习优化器件放置;2. 学习配分图;3. 学习优化芯片布局。
 

专知|参与讨论

斯坦福大学:计算机时代的统计推断算法、证据和数据科学

在二十一世纪,统计方法的范围和影响都有了惊人的扩大。“大数据”、“数据科学”和“机器学习”已经成为新闻中常见的术语,讨论了一系列有影响力的主题:生存分析,逻辑回归,经验贝叶斯,jackknife和bootstrap,随机森林,神经网络,马尔科夫链蒙特卡罗,模型选择后的推论等等。本书将方法论和算法与统计推断相结合,并以对统计和数据科学未来方向的推测作为结尾。
 

斯坦福大学|参与讨论

深度学习模型压缩和加速简介

本文介绍了深度学习模型压缩和加速的基础知识。近年来深度学习模型在计算机视觉、自然语言处理、搜索推荐广告等各种领域,不断刷新传统模型性能,并得到了广泛应用。随着移动端设备计算能力的不断提升,移动端AI落地也成为了可能。模型压缩和加速不仅仅可以提升移动端模型性能,在服务端也可以大大加快推理响应速度,并减少服务器资源消耗,大大降低成本。结合移动端AI模型和服务端模型,实现云端一体化,是目前越来越广泛采用的方案。模型压缩和加速是两个不同的话题,有时候压缩并不一定能带来加速的效果,有时候又是相辅相成的。压缩重点在于减少网络参数量,加速则侧重在降低计算复杂度、提升并行能力等。模型压缩和加速可以从多个角度来优化。本文从算法层、框架层和硬件层三个方面进行介绍。
 

人工智能前沿讲习|参与讨论

东北大学:《机器翻译》新书,477页开源电子书+598页课件

近期,东北大学由国内著名机器翻译学者朱靖波领衔的小牛翻译团队发表了新书《机器翻译——统计建模与深度学习方法》(477 页电子书+598页课件)。这套教程对机器翻译的统计建模和深度学习方法进行较为系统地介绍,不仅有相应的原理介绍和实现代码,还提供了实战案例,并通过图例对一些形式化定义和算法进行解释(共320张插图)。本书目前已开源:https://github.com/NiuTrans/MTBook
 

来源|参与讨论

|新工具

Amazon SageMaker:AWS宣布机器学习平台服务在中国开始正式开放

近日,AWS宣布机器学习平台服务Amazon SageMaker在国内开始正式开放。这标志着AWS人工智能、机器学习平台服务的关键技术已全面进入中国。云计算逐渐向着Serverless方向发展,今后云计算平台向开发者提供的是“服务”而不仅是“服务器”。Amazon SageMaker就是这样一项完全托管的服务,可以大幅度降低构建机器学习模型的门槛。

Textshot:超实用OCR开源小工具

在办公时,是不是经常遇到图片内容转文字的需求?本文为大家介绍一款GitHub用户ianzhao05刚发布的小工具——textshot,只需要截屏就能实时生成文字。读者也可以通过此项目大致了解如何对图像中的文本进行识别。

dair.ai和manim:两款开源的机器学习画图工具

现在学习机器学习的成本越来越低了,熟悉了Python和sklearn、Keras、Pytorch等机器学习框架,就能搭建自己的模型了,可是模型建好后如何解释给别人听,难倒了不少人。本文介绍两款开源的机器学习画图工具,让使用者分分钟做出精美的可视化。这两款工具各有优劣,可以满足不同场景的需求。

|应用

央视网联合百度智能云打造的AI主播亮相全国两会

为了向公众普及两会知识,百度智能云携手央视网,共同推出了两会“智”通车,依托百度成熟的人工智能技术,以AI主播“小智”主持发问的形式带领参与者回答问题、了解国事,在主持过程中,“小智”不仅能介绍题目、识别参与者的语音回答,还会对答题时间和答案内容进行提醒,新鲜的形式和流畅的互动获得了网友们高涨的参与热情和一致好评。

Facebook最新P图AI:自适应换装调表情

现在的互联网信息呈爆炸式增长,而图片和视频表达的东西更丰富更直接,所以Facebook一直在加码图片和视觉AI领域。近日在Arxiv.org发表的一篇论文中,Facebook AI Research和特拉维夫大学的科学家提出了一种新的技术,可将人以照片级的分辨率插入现有图像中。该技术利用AI来创建人的语义图并估计给定图片中其他人的姿势,然后渲染该人的像素并生成与目标人脸相匹配的脸。

Facebook言论监督AI防诈骗、拉黑不良发言人

疫情期间,为了遏制诈骗行为,Facebook挑起了重任——他们不仅要维持政治信息脱敏,而且要保护孩子们的言论环境,要做到这一点意味着更强力度的数据筛选系统。于是专属的Facebook Messenger言论监督AI应运而生。它在专门为未成年人开辟的Messenger KIDS实时监察,过滤掉一切惊悚、色情、政治不正确的段子、图像、视频等,发表上述信息的人这回真的会被“踢出群聊”。在推出Messenger AI之前,Facebook还对不良信息进行限流,可尽管Facebook发起了抗击COVID-19谣言的运动,平台上的误导性内容仍被分享和浏览了数亿次之多。在这段特殊时期,美国联邦贸易委员会记录了超过2万个虚假诈骗信息,也给以Facebook为首的大型社交平台施加了重压。

ICML 2020论文出炉,1088篇上榜

ICML 2020官方于6.1日发布接收论文,共计4990篇论文投稿,1088篇接受,接受率21.8%。根据统计,本次来自于Google的论文被接收了125篇(289人次参与),位居所有企业与科研机构之首。ICML官方发布了一篇“组织者的来信”,表示受COVID-19影响,ICML 2020将完全以虚拟方式进行。

太极(Taichi)二作李子懋获ACM SIGGRAPH 2020年最佳博士论文奖,为新兴的可微计算图形学奠定了基础

本周,TOP计算图形学机构 ACM SIGGRAPH 颁发了2020年最佳博士论文奖。MIT CSAIL 博士后研究员、太极(Taichi)论文第二作者李子懋(Tzu-Mao Li)获得该奖项。SIGGRAPH 颁奖词中称他的博士论文「为新兴的可微计算图形学奠定了基础」。

在这篇 148 页的博士论文中,李子懋探讨了视觉计算、编程系统和统计学习之间的关系。他将经典计算图形学和图像处理算法与现代数据驱动方法相结合,从而增强了物理理解。李子懋利用统计学中的数学工具和机器学习开发能够解决图形和视觉问题的新算法。此外,他开发的编程系统简化了可学得视觉计算算法的高效实现和数学推导。

|经验

DeepMind科学家Sebastian Ruder提出十条实用读博建议

鉴于Sebastian Ruder博士期间主要研究机器学习和自然语言处理,因此他给出的建议也更适用于这两个研究方向的同学。Sebastian Ruder一共给出了十条建议,均来自其源于自身实践,他认为这十条建议对长期发展也有好处1. 广泛阅读;2. 同时做两个项目;3. 要有雄心壮志;4. 有合作意识;5. 积极主动;6. 写博客;7. 维护科研能量;8. 发挥长处;9. 实习或访问大学;10. 放长线钓大鱼。

|求职

2020年底新基建人才缺口将达417万,其中AI、5G技术岗位需求大

BOSS直聘研究院数据显示,人工智能、5G、工业互联网、物联网等“新基建”热门产业的应届生招聘力度普遍提升,面向应届生的岗位规模较去年同期均有1-5个百分点的提高。智联招聘日前也发布了《2020年新基建产业人才发展报告》,报告更给出了更具体的数字,我国新基建核心技术人才缺口预期年底将达417万人。核心技术岗位平均月薪过万,AI、5G收入更高。

以上是《智源社区AI周刊》第25期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请不吝赐教发至:editor@baai.ac.cn。谢谢大家。

特约编辑:刘布楼 常政 贾伟 刘沂喆 付建振

所有文章
×

还剩一步!

确认邮件已发至你的邮箱。 请点击邮件中的确认链接,完成订阅。

好的