回到主页

智源社区AI周刊#023 (2020.05.25)

为了帮助中国人工智能科研、从业者更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理了第23期《智源社区AI周刊》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况),数据(数据集),工具(新工具和应用推荐),求职(职场研究报告等)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。

过去一周(2020/05/18~2020/05/24),值得关注的内容有以下3方面:

  • 华为诺亚方舟实验室开源了Dropout的替换方案Disout。该方法通过研究特征图扰动来增强深度神经网络的泛化能力。根据网络中间层的Rademacher复杂度,确定给定深度神经网络的泛化误差上界。将扰动引入特征图来降低网络的Rademacher复杂度,从而提高其泛化能力。该技术不但在传统视觉任务上表现优异,超越谷歌Dropout性能,在自然语言处理任务以及语音处理任务上同样具备有效性。(详情参见本周报“代码”栏目)  
  • 为了促进人工智能成为推动“健康社会”形成的使能技术之一,推动人工智能应用于全球可持续发展,北京智源人工智能研究院人工智能伦理与安全研究中心联合中国科学院自动化研究所中英人工智能伦理与治理研究中心共同发起 “人工智能与健康社会系列调研”。本报告聚焦人脸识别与公共卫生。希望通过问卷调查与分析反映公众对这一主题的关注与思考。促进人脸识别在公共卫生领域相关研发、应用、部署、使用环节对科技伦理与治理的关注。(详情参见本周报“行业与政策”栏目)  
  • 在2022年北京冬奥会来临之际,为助推花样滑冰运动的普及与发展,北京智源人工智能研究院正式发布花样滑冰数据集Figure Skating Dataset(FSD-10),旨在解决目前视频研究数据集缺乏人体运动特性、深度视频学习模型正确率低等问题。数据集项目由大连理工大学刘胜蓝副教授和智源青年科学家、清华大学助理教授黄高主持完成。(详情参见本周报“数据”栏目)

下面是各个要点的详情介绍。 

▋ 论文推荐 

MAML-Tracker:小样本目标跟踪器

Tracking by Instance Detection: A Meta-Learning Approach

目标检测与目标跟踪这两个任务有着密切的联系。它们均以图片(或者视频帧)作为模型的输入,经过处理后,输出一堆代表目标物体位置的矩形框。它们之间最大的区别体现在对“目标物体”的定义上。对于检测任务来说,目标物体属于预先定义好的某几个类别;而对于跟踪任务来说,目标物体指的是在第一帧中所指定的跟踪个体。针对目标跟踪任务,微软亚洲研究院提出了一种通过目标检测技术来解决的新视角,采用简洁、统一而高效的“目标检测+小样本学习”框架,在多个主流数据集上均取得了杰出性能。

DenseNAS:让结构搜索更灵活

Densely Connected Search Space for More Flexible Neural Architecture Search

近年来,网络结构搜索(NAS)在自动化设计神经网络结构上发挥了巨大作用,并逐步成为深度学习的重要发展方向。虽然NAS算法取得了比较卓越的性能,但其搜索空间的设计依旧需要比较强的人为先验。在探索如何构建更加灵活、自动化程度更高的搜索方法上,地平线联合华中科技大学在原有的DenseNAS解决方案上,提出全新的链式代价估计(Chained Cost Estimation)算法,能够更加准确地估计密集连接搜索空间中结构的代价(FLOPs/latency),同时带来更好的优化效果。

语言和视觉推理的跨模态关联

Cross-Modality Relevance for Reasoning on Language and Vision

本文由密歇根州立大学发表于ACL 2020,用于处理学习和推理语言和视觉数据的相关下游任务的挑战,如视觉问题回答(VQA)和自然语言的视觉推理(NLVR)。作者设计了一个新颖的跨模态关联模块,用端到端框架在目标任务的监督下学习各种输入模态组件之间的关联表示,这比仅仅重塑原始表示空间更易于推广到未观测的数据。除了对文本实体和视觉实体之间的相关性进行建模外,作者还对文本中的实体关系和图像中的对象关系之间的高阶相关性进行建模。本文提出的方法使用公共基准,在两个不同的语言和视觉任务上显示出具有竞争力的性能,并改进了最新发布的结果。NLVR任务学习的输入空间对齐及其相关表示提高了VQA任务的训练效率。

图神经网络预测结构化实体交互

GoGNN: Graph of Graphs Neural Network for Predicting Structured Entity Interactions

本文发表于IJCAI 2020。实体交互预测在许多重要的应用如化学、生物、材料科学和医学中是必不可少的。当每个实体由一个复杂的结构(即结构化实体)表示时,这个问题就变得非常具有挑战性,因为涉及到两种类型的图:用于结构化实体的局部图和用于捕获结构化实体之间交互的全局图。作者注意到,现有的结构化实体交互预测工作不能很好地利用图的唯一图模型。在本文中,作者提出了一个图的神经网络图,即GoGNN,它以分层的方式提取了结构化实体图和实体交互图中的特征。作者还提出了双重注意力机制,使模型在图的两个层次上都能保持相邻的重要性。在真实数据集上的大量实验表明,GoGNN在两个有代表性的结构化实体交互作用预测任务上的表现优于最先进的方法。

基于图卷积的骨架动作识别

Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition

本文发表于CVPR 2020。基于骨架的动作识别算法广泛使用时空图对人体动作动态进行建模。为了从这些图中捕获鲁棒的运动模式,长范围和多尺度的上下文聚合与时空依赖建模是一个强大的特征提取器的关键方面。然而,现有的方法在实现多尺度算子下的无偏差长范围联合关系建模和用于捕捉复杂时空依赖的通畅的跨时空信息流方面存在局限性。在这项工作中,作者提出了1. 一种简单的分解(disentangle)多尺度图卷积的方法;2. 一种统一的时空图卷积算子G3D。所提出的多尺度聚合方法理清了不同邻域中节点对于有效的远程建模的重要性。所提出的G3D模块利用密集的跨时空边作为跳过连接(skip connections),用于在时空图中直接传播信息。通过耦合上述提议,本文开发了一个名为MS-G3D的强大的特征提取器,在此基础上,本文的模型在三个大规模数据集NTU RGB+D60,NTU RGB+D120和Kinetics Skeleton 400上的性能优于以前的最先进方法。

▋ 观点 

俄罗斯数据科学家Alexander Veysov:语音领域的“ImageNet时刻”迟迟不来源于研究的不可复现性

目前在计算机视觉领域已经有了一个普遍认识,那就是ImageNet预训练对于下游任务的有效性,来自silero.ai的俄罗斯数据科学家Alexander Veysov将这一现状称为实现了“ImageNet 时刻”。那么它在语音领域是否存在呢?在本文中Alexander Veysov给出了否定的回答,并讨论了目前语音领域业界和学界存在的弊病。 在业界的问题主要包括:

1. 在私有数据上实现解决方案,并且没有进行如实表述;

2. 框架和工具包过于复杂;

3. 解决现实中不存在的问题;

4. 研究结果不可复现。

学界的问题主要包括:

1. 如果有大量研究人员集中精力追求某个度量指标下的顶尖结果,则这些指标失去了意义;

2. 理想情况下,论文应该有足够的细节,从而使研究者也能实现论文至少95%的结果;

3. 实际上,从研究者的真实目的和现实应用的角度来看,论文的内容和结构都是有问题的。

▋ 行业与政策 

智源发布人脸识别与公共卫生调研报告

为了促进人工智能成为推动“健康社会”形成的使能技术之一,推动人工智能应用于全球可持续发展,北京智源人工智能研究院人工智能伦理与安全研究中心联合中国科学院自动化研究所中英人工智能伦理与治理研究中心共同发起 “人工智能与健康社会系列调研”。本报告为系列调研第一期,聚焦人脸识别与公共卫生。希望通过问卷调查与分析反映公众对这一主题的关注与思考。促进人脸识别在公共卫生领域相关研发、应用、部署、使用环节对科技伦理与治理的关注。

智能客服公司乐言科技完成1.5亿人民币C1轮融资

本轮由蓝湖资本、钟鼎资本领投,昆仑万维与老股东云锋基金、众为资本、常春藤资本跟投,华兴资本担任本轮融资独家财务顾问。 公司成立于2016年4月。

团队情况:

1. CEO沈李斌是宾州大学博士,WikiCFP创建者、ACL 2008最佳Paper作者,曾在IBM Watson工作,出门问问Mobvoi自然语言处理负责人。

2. CMO赵兴斌曾是阿里巴巴金牌销售。

3. CTO李波是上海交通大学计算机硕士,前IBM全球服务部资深技术专家、高级架构师。曾为两家规模数百人软件公司的技术创始人。

4. VP吴海华,上海交通大学计算机硕士,曾在Intel负责Intel GPGPU 4K codec/NN的核心开发,在猎豹移动担任资深研发总监,负责内容推荐系统技术。 核心产品是基于自然语言处理、全栈式电商知识图谱、智能推荐、机器学习等核心AI平台技术研发的第四代客服机器人系统“乐语助人”,专注电商领域,已服务两万多家电商客户。

达观数据获深创投2.7亿元B+轮融资

近日达观数据对外宣布完成B+轮融资,本轮由深创投领投,软银赛富、宽带旗下基金晨山资本、众麟资本等跟投,融资额合计2.7亿元。达观数据专门从事自然语言处理技术和RPA相结合的自动化软件研发,本轮融资将进一步扩大其在产品技术和市场领先优势,强化技术和产品能力。
 

▋ 人物 

全球首所人工智能大学——默罕默德·本·扎伊德AI大学任命邵岭为常务副校长兼教务长

近日,坐落于阿联酋首都阿布扎比,全球首家人工智能大学——默罕默德·本·扎伊德AI大学(Mohammad Bin Zayed University of Artificial Intelligence,MBZUAI)——正式宣布,任命华人学者邵岭教授为常务副校长兼教务长(Executive Vice President & Provost)。
 

▋ 数据 

北京智源人工智能研究院发布花样滑冰数据集Figure Skating Dataset

在2022年北京冬奥会来临之际,为助推花样滑冰运动的普及与发展,北京智源人工智能研究院正式发布花样滑冰数据集Figure Skating Dataset(FSD-10),旨在解决目前视频研究数据集缺乏人体运动特性、深度视频学习模型正确率低等问题。数据集项目由大连理工大学刘胜蓝副教授和智源青年科学家、清华大学助理教授黄高主持完成。

Google推出针对少样本学习的Meta数据集

大量样本标签是大部分有监督学习为了达到良好的训练结果所需的必要条件,然而,这一特性,往往使得其在现实世界中的应用中有较大的局限性。因此,越来越多的人选择研究人员选择进行少样本(Few-Shot)学习的研究。而在此领域中,一个很成熟的例子就是少样本图片分类问题:从一少部分有代表性的图片中学习新的类别。将人类学习与机器学习进行对比,人可以从少量样本中快速学习到新的信息和知识,而这对于机器来说却很难,我们可以使用理论的角度来分析这一明显的差距。

除此之外,从应用角度出发,少样本学习也是一件非常重要的事情。因为在现实世界中,人们并不能总是得到拥有大量标注样本的数据集,因此,如果人们可以解决这一问题,就可以让人们以更快的速度来根据的需求,进行模型的自定义和实现。

事实上,目前针对少样本学习的研究已经成爆炸速度增长,但是前人的基准测试并不能可靠地评估不同模型的相对优点,因此阻碍了研究的进展。而Google在ICLR2020就发布了他们在少样本学习的新成果Meta-Dataset。

▋ 代码 

华为诺亚方舟实验室开源Disout:突破谷歌Dropout专利封锁

Nervana有一个称为Maxas的汇编代码生成器项目,可以生成性能超过nVidia官方版本的矩阵相乘的GPU机器码。其作者Scott Gray在代码外提供了详细的文档,值得说明的是Maxas使用的算法完全依赖于Maxwell架构的一些特性, 随着新一代GPU的架构的演进这个项目本身已经完全过时了,但其解决问题的思路仍然值得借鉴。

深度解析MegEngine亚线性显存优化技术

此前,谷歌申请Dropout专利,引起了业界震动与恐慌。Dropout作为近年来深度学习重要突破之一,被广泛应用到现有的各种深度学习模型与框架当中,使用Dropout方法能够在计算机视觉、自然语言处理、语音处理等多种任务产生正面效果,提升任务性能。因此,谷歌针对这样一项广泛使用并且十分有效的技术申请专利,无疑对众多科技公司带来了巨大的影响。

该项目针对Dropout,提出一种新型可替换方案Disout。该方法通过研究特征图扰动来增强深度神经网络的泛化能力。根据网络中间层的Rademacher复杂度(ERC),确定给定深度神经网络的泛化误差上界。将扰动引入特征图来降低网络的Rademacher复杂度,从而提高其泛化能力。该技术不但在传统视觉任务上表现优异,超越谷歌Dropout性能,在自然语言处理任务以及语音处理任务上同样具备有效性。

商汤提出Anchor-free目标检测新网络SEPC

在CVPR 2020上,为了更好的解决物体检测中的尺度问题,商汤团队重新设计了经典的单阶段检测器的FPN以及HEAD结构,通过构造更具等变性的特征金子塔,以提高检测器应对尺度变化的鲁棒性,可以使单阶段检测器在coco上提升~4mAP,完整代码已开源。
 

商汤科技  |  参与讨论

谷歌提出新算法STAC:一个用于对象检测的简单半监督学习模型

谷歌提出新算法STAC,使用在无标签的图像上检测到的目标的伪标签训练更新模型,在VOC07数据集上改进了AP0.5从76.3到79.8,在COCO数据集上仅使用5%标签数据实现 24.38mAP(相对比,监督方法使用10%标签数据达到23.86 mAP)。

▋ 教程 

多方对话研究简述

人机对话技术是人工智能领域的一个重要研究方向,从手机智能助手,到闲聊陪护型聊天机器人,再到各种面向场景的任务型对话系统平台和智能家居,人机对话系统渐渐融入人类社会的日常运行中,促进了将来人机共融社会的发展。

然而,目前的人机对话系统大多是在人机双方参与的假设下进行设计,而更具挑战的人机多方混合对话的任务在研究和应用上鲜有涉及。

本文将从人机对话角度出发,对近几年多方对话的主要数据集和研究任务进行梳理分类,并介绍几个主要任务的已有方法,最后本文也将简述其他与多方对话相关的研究任务。

小样本分割综述

深度卷积神经网络在图像分类、目标检测、语义分割等许多视觉理解任务上都取得了重大突破。一个关键的原因是大规模数据集的可用性,比如ImageNet,这些数据集支持对深度模型的培训。然而,数据标记是昂贵的,特别是对于密集的预测任务,如语义分割和实例分割。 此外,在对模型进行训练之后,很难将模型应用于新类的预测。与机器学习算法不同的是,人类只看到几个例子就能很容易地从图像中分割出一个新概念。 人类和机器学习算法之间的差距激发了对小样本学习的研究,其目的是学习一个模型,可以很好地推广到具有稀缺标记的训练数据的新类别。 小样本分割的终极目的是利用支持集中的K个训练图像对来“学习”一个模型,使得该模型能对训练图像对中出现的类别的新样本能够实现分割。

社区发现的深度学习方法:进展、挑战、机遇

社区发现(Community Detection)是网络科学领域中一个经久不衰的重要问题。随着深度学习的发展,研究者们逐渐从传统的统计推断和谱聚类等方法中解放了出来。那么,深度学习时代的社区发现工作有哪些特点,研究者们遇到了哪些挑战,有哪些前景光明的研究方向呢?近日,IJCAI 2020上发表的一篇Survey文章,完整阐释了这一研究方向的方法、挑战和机遇。论文来自数据挖掘领域大牛Philip S. Yu团队。

▋ 新工具 

微软推出WhiteNoise等多个机器学习工具包

Build大会上微软宣布将开源多个机器学习工具包,包括WhiteNoise、Fairlearn、InterpretML,这些工具跟以往的相比,更关注机器学习的隐私和公平性。WhiteNoise是一个使用差分隐私的工具包,不久就可以通过Azure和GitHub上的开放源码来使用了。它加入了新的人工智能可解释性和公平性工具,以及新的数据、模型和访问控制,还新增了工作流溯源文档等。Fairlearn则为开发人员和数据科学家提供了评估机器学习模型公平性和缓解不公平的能力。针对不同的人群,Fairlearn会在模型性能和公平性之间做一个取舍,争取到最佳平衡点。InterpretML包含了许多机器学习的可解释性技术,通过可视化模型的行为和预测背后的推理来帮助解释模型。

TensorFlow性能分析工具——TensorFlow Profiler

性能是机器学习 (ML) 研究和生产解决方案成功与否的关键因素。提升模型训练的速度可加快迭代并减少开销。有时候,这也是实现特定机器学习解决方案的一项基本要求。 为帮助解答这类问题,作者开发了一套用于TensorFlow的综合性能分析工具:TensorFlow Profiler。这套工具除了能捕捉多方面的细节信息辅助分析,还能提供解决性能瓶颈(例如,输入受限程序)的一些建议。

ML Visuals:帮研究者快速画出漂亮的模型图

现在搞AI研究写论文,其中论文里的框架图模型图很是考验研究者画图的能力,不费一番心思功夫,怎能画出一个入得Reviewer法眼的图,论文也不大好中,很是发愁。ML Visuals是一个新的协作项目,通过使用更专业、更吸引人、更充分的图块来帮助机器学习社区改进科学传播。

▋ 应用 

亚利桑那州立大学用AI生成表情包

表情包除了自制,还可以由AI生成。meme自动生成一直是深度学习领域的课题之一。以往的生成方法要么是从一堆meme字幕中选择最适合的一个,要么是基于给定图片和模版来生成meme字幕,似乎有点不够便捷。近日,来自美国亚利桑那州立大学的研究者对meme图生成方法进行了改进提升。在这篇论文中,研究者提出了一种根据给定的输入语句来生成匹配图片的方法。这是一项很有挑战性但有趣的NLP任务。

​索尼推出全球首款AI图像传感器

索尼近日宣布即将推出两款AI图像传感器,代号IMX500,号称具备智能视觉的“全球首款AI图像传感器”。AI图像传感器兼具运算能力和内存,能够在没有额外硬件辅助的情况下执行机器学习驱动的计算机视觉任务,使得很多依赖机器学习算法的图像处理技术能够在本地运行,衍生出更简化、高效和安全的解决方案。索尼业务与创新副总裁马克·汉森认为,相比将数据发送到云端的解决方案,IMX500的应用潜力巨大,成本效益更高,尤其是在未来的边缘计算领域。它支持1200万像素图像,以每秒60帧的速度捕获4K视频,或者不捕获任何图像,仅提供所见内容的元数据。

Adobe新研究用AI让画中人像说话

最近马萨诸塞大学阿默斯特分校、Adobe研究院等机构提出了一种叫做MakeItTalk的新方法,不仅能让真人头像说话,还可以让卡通、油画、素描、日漫中的人像说话。这项研究提出的方法将输入音频信号中的内容和说话人身份信息分离开来:音频内容用来稳健地控制嘴唇及周围区域的运动;说话人信息则决定面部表情的细节和人物的头部动态。该方法的另一个重要组件是预测能够反映说话人动态的面部特征点。基于该中间表征,该方法能够为真人头部图像合成说话状态视频。此方法还可用于艺术作品、素描、2D卡通人物、日漫、随手涂鸦等图像。

▋ 会议 

ACL 2020接受论文列表公布,571篇长文208篇短文

自然语言处理顶会ACL 2020公布了接受论文列表,共有571篇长论文和208篇短论文被录用。The 58th Annual Meeting of the Association for Computational Linguistics将于2020年7月5日至10日在美国华盛顿州西雅图举行,不过今年因新冠将在线举办。ACL年会是计算语言学和自然语言处理领域最重要的顶会,CCF A类会议,由计算语言学协会主办,每年举办一次。其接收的论文覆盖了对话交互系统、语义分析、摘要生成、信息抽取、问答系统、文本挖掘、机器翻译、语篇语用学、情感分析和意见挖掘、社会计算等自然语言处理领域众多研究方向。该会议的论文基本代表自然语言处理领域最新研究进展和最高研究水平,受到学术界和产业界的高度关注。

▋ 经验 

 

算法工程师也会遇到35岁这道坎么?

▋ 经验 

这个问题其实对于大多数程序员都是适用的,国内的互联网公司,始终奋斗在一线写代码、跑算法模型的工程师实在是太少了。每年的高校毕业生,持续不断地在为这个行业输入更年轻更新鲜的血液,对比25岁刚入职更会加班更能吃苦,关键是薪资更便宜的年轻人,35岁的算法工程师如果只是工龄更长资历更老,将全方位处于劣势。想要跨过这道坎,要做的就是努力提升自己的相对不可替代性,从初级渐渐往高级的方向走,个人觉得大体可以分3个阶段:1. 高效执行机器;2. 算法选型和改造能力;3. 业务抽象能力。

以上是《智源社区AI周刊》第23期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请不吝赐教发至:editor@baai.ac.cn。谢谢大家。

所有文章
×

还剩一步!

确认邮件已发至你的邮箱。 请点击邮件中的确认链接,完成订阅。

好的