回到主页

智源社区AI周刊#005 (2020.01.13)

——智源社区AI周刊 发布于 2020/01/13

为了帮助中国人工智能科研、从业者们更好地了解全球人工智能领域的最新资讯,智源研究院编辑团队本周整理、编辑了第5期《智源社区AI周刊》,从学术(论文和新思想分享、最新学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人士变动和获奖情况)、数据(数据集分享),产品(新工具和应用推荐),求职(职场研究报告等)等诸多角度,鸟瞰过去一周内在人工智能领域值得关注的新思想、新动向和新成果等,以飨大家。

在过去一周(2020/01/06~2020/01/12)左右时间,首先值得推荐的内容有以下3方面:

  • 国内陷入了某些科研模式上的思维定势。如何打破?伯克利给了我们一些启发:科研模式也是多元化的,“科研轻工业模式”发表大量高水平论文能产生影响力,而“科研重工业模式”做出高水平原型系统,可能产生更大的影响力。(详情参见本周报“观点”栏目)

  • 本周IBM 研究院发布2020年人工智能的五大预测:(1)人工智能的理解能力会有所提高,其应用范围将会扩大;(2)人工智能不会抢夺工作,但会改变工作方式;(3)人工智能将会设计值得信赖的人工智能;(4)人工智能对能源的需求,要求我们采用更环保的技术;(5)基于人工智能的实验室助手,将会发现新材料。(详情参见本周报“行业与政策”栏目)

  • 视频与动作理解在开源社区中找到一个简洁、高效、易于修改的视频理解代码库仍不是一件简单的事情。FAIR 推出了他们的视频理解代码库:PySlowFast。PySlowfast 是一个基于 PyTorch 的代码库,让研究者可以轻而易举地复现从基础至前沿的视频识别和行为检测算法。不但如此,PySlowFast 代码库同时开源了大量预训练模型,让研究者省去了反复训练模型的烦恼,可以直接使用 FAIR 预训练的前沿模型。(详情参见本周报“新工具”栏目)

下面,是上一周(2020/01/06~2020/01/12)左右时间内,在AI领域值得关注的各个要点的详情介绍。

- 论文推荐 -

一种镜像生成式机器翻译模型:MGNMT

Mirror-Generative Neural Machine Translation

常规的神经机器翻译(NMT)需要大量平行语料,这对于很多语种来说真是太难了。所幸的是,原始的非平行语料极易获得。但即便如此,现有基于非平行语料的方法仍旧未将非平行语料在训练和解码中发挥得淋漓尽致。为此,本文提出一种镜像生成式机器翻译模型:MGNMT(mirror-generative NMT)。MGNMT是一个统一的框架,该框架同时集成了source-target和target-source的翻译模型及其各自语种的语言模型。MGNMT中的翻译模型和语言模型共享隐语义空间,所以能够从非平行语料中更有效地学习两个方向上的翻译。此外,翻译模型和语言模型还能够联合协作解码,提升翻译质量。实验表明本文方法确实有效,MGNMT在各种场景和语言(包括resource rich和 low-resource语言)中始终优于现有方法。
 

来源:ICLR 2020 | 论文下载

用于学习人与对象的交互的图解析神经网络

Learning Human-Object Interactions by Graph Parsing Neural Networks

为了解决在图像与视频上的人-对象交互(Human-Object Interactions ,HOI)的检测与识别任务。文中引入了图解析神经网络(GPNN),迭代地计算邻接矩阵和节点标签。给定一个场景,GPNN可以推断一个解析图,包括:1)通过一个邻接矩阵表示的 HOI图结构。2)节点标签。在图像和视频的三个HOI检测基准上对的模型的评估结果表明GPNN明显优于最先进的方法,验证了GPNN可扩展到大型数据集,并适用于时空设置。这篇文章有以下三个主要的贡献:1)文中提出了融合结构知识的GPNN和用于学习和推理的DNN。2)GPNN通过定义一组模块化函数,通过联合执行图结构推理和消息传递来解决HOI问题。3)GPNN提供了一种可伸缩的通用HOI表示,适用于静态和动态设置。
 

来源:洛杉矶大学 | 代码链接 | 论文下载 

图像去噪的深度学习最新综述论文

Deep Learning on Image Denoising

深度学习技术在图像降噪方面获得了极大的关注。但是,处理噪声的不同类型的学习方法有很大的差异。具体来说,基于深度学习的判别式学习可以很好地解决高斯噪声。基于深度学习的优化模型方法对真实噪声的估计有很好的效果。迄今为止,很少有相关研究来总结用于图像去噪的不同深度学习技术。在本文中,作者对图像去噪中不同深度技术进行了比较研究。本文首先对(1)用于加白噪声图像的深卷积神经网络(CNN),(2)用于真实噪声图像的深CNN,(3)用于盲目去噪的深CNN和(4)用于混合噪声图像的深CNN进行分类,这是噪声,模糊和低分辨率图像的组合。然后,又分析了不同类型的深度学习方法的动机和原理。接下来,将在定量和定性分析方面比较和验证公共去噪数据集的最新方法。最后,论文指出了一些潜在的挑战和未来研究的方向。

来源:哈尔滨工业大学 | 论文下载

利用多头注意力机制生成多样性翻译

Generating Diverse Translation by Manipulating Multi-Head Attention

当下的神经机器翻译(Neural Machine Translation, NMT)已经拥有很强的翻译性能,在诸多模型之中,Transformer模型取得了最好的效果。其区别于传统模型之处在两个方面:自注意力机制(Self-Attention)以及多头注意力机制(Multi-Head Attention)。本文主要针对后者,传统的单头注意力机制已经有了比较多的研究,广泛的结论是注意力代表了词对齐。但多头注意力机制代表了什么还缺乏研究。本文基于一项对Transformer多头注意力的观察展开:解码器(Decoder)的最后一层对于编码器(Encoder)的多头注意力机制,代表了多重词对齐。并利用该现象,生成多样化翻译。更进一步,利用多样化翻译,辅助利用逆向翻译技术(back translation),增强翻译模型性能。最后一项有关问答任务的实验也证明了性能的提升。
 

来源: AAAI 2020 | 论文下载 

零样本学习,来扩充知识图谱

Generative Adversarial Zero-Shot Relational Learning for Knowledge Graphs

大规模知识图谱在当前的信息系统中具有非常重要的角色。为了扩充知识图谱的规模,之前的工作需要对新增关系标注充足的训练数据集,但这种方式成本昂贵不符合实际要求。 本文考虑采用零样本学习方式来解决这个问题。当给定一个新的关系类别,本文尝试直接通过关系类别的文本描述编码类别相关信息。为了完成这个目标,本文采用生成对抗学习思路完成文本信息和知识图谱信息的知识转换。具体来讲,本文希望生成对抗网络的生成器可以有效的通过关系类别文本描述生成关系类别向量表征。在这个前提下,对于新增关系类别的样本预测就转化为监督学习分类任务。

来源:AAAI 2020 | 论文下载 

- 观点 -

伯克利科研模式的启发

国内陷入了某些科研模式上的思维定势。如何打破?伯克利给了我们一些启发:科研模式也是多元化的,“科研轻工业模式”发表大量高水平论文能产生影响力,而“科研重工业模式”做出高水平原型系统,可能产生更大的影响力。

来源:中国计算机学会 | 报道链接  

VentureBeat采访:2020年的AI领域值得关注的趋势

在新年以及新的十年开启之际,VentureBeat 采访了人工智能领域最杰出的头脑,来回顾人工智能在 2019 年的进展,展望机器学习在 2020 年的前景。其中包括PyTorch 负责人、首席工程师和创造者Chintala认为框架之争的下一战是编译器;谷歌 AI 负责人 Jeff Dean认为2019 年最显著的机器学习趋势之一是基于 Transformer 的自然语言模型的发展和壮大;IBM 研究主管 Dario Gil认为2019 年机器学习领域的重要进展包括生成模型和语言模型的进步。

来源:机器之心 | 报道链接  

- 行业和政策 -

IBM研究院发布2020年人工智能发展五大预测

近几年,人工智能(AI)领域实现了重大科技进步,不仅处理能力和计算效率显著提升,还出现了许多关于对象识别、语言和深度学习的新洞察。

本周IBM 研究院发布2020年人工智能的五大预测:

(1)人工智能的理解能力会有所提高,其应用范围将会扩大;

(2)人工智能不会抢夺工作,但会改变工作方式;

(3)人工智能将会设计值得信赖的人工智能;

(4)人工智能对能源的需求,要求我们采用更环保的技术;

(5)基于人工智能的实验室助手,将会发现新材料。

来源:IBM研究院 | 报道链接 | 报道链接

美国推出AI十原则

美国政府为了促进AI发展,美国最新发布了10条原则。美国首席技术官员表示,这套原则意图是消除阻碍私营部门AI创新和增长的障碍。

这十条原则包括以下要点:

1.公众对AI的信任。

2.公众参与。

3.科学的完整性和信息质量。

4.风险评估和管理。

5.收益和成本。

6.灵活性。

7.公平与非歧视。

8. 公开和透明。

9. 安全与保障。

10. 机构间协调。
 

来源:whitehouse | 报道链接 | 文件下载  

旷视科技5亿美元IPO申请获港交所批准

1 月 6 日晚间消息,路透社报道,旷视科技的 5 亿美元香港首次公开募股计划获香港证券交易所批准,意味着经历了去年年底的波折后,旷视 IPO 重回正轨。旷视科技的年度收入由 2016 年的 6780 万元增至 2017 年的 3.13 亿元,再增至 2018 年的 14.27 亿元,2016 年至 2018 年的复合年增长率为 358.8%。经粗略统计,旷视科技的收入水平在两年中增长逾 20 倍。旷视自 2013 年成立至今,总共进行了九轮融资,总融资金额约为 13.51 亿美元。据坊间消息传闻,旷视科技估值已经高达百亿美元。如果旷视能够成功上市,将成为国内首家上市的人工智能企业。

来源:机器之心 | 报道链接 

- 数据 -

最新识车数据集The Car Connection Picture Dataset

这份数据集由一位叫Nicolas Gervais小哥制作,该数据集有6.4万张的汽车图片。不仅图片来自专业网站,而且每一张都经过详细标注,从品牌价格到发动机参数。这个数据集能帮助AI实现许多强大的功能,交通监测车辆识别,二手车买卖查询参数……此外,还可以借助该数据集和AI算法生成自己期望的汽车图片。

来源:Github | 项目地址 | 中文报道

置信学习解决ImageNet错误

尽管大量的研究都在使用ImageNet,但却没有发现数据集存在如此多的标签错误。原因在于,想从海量数据中寻找并描述标签错误很难;即使有相关的方法,应用范围也极其有限。如何去识别标签错误,并表征标签噪声,是一项重要的、但却鲜少研究的工作。在这篇文章中,将讨论一种新兴的基本框架,它可用于识别标签错误、表征标签噪声,并使用称作置信学习(Confident Learning ,CL)的噪声标签进行学习。这个框架可以识别 ImageNet 和 CIFAR 中的许多标签问题,并通过在干净的数据集上进行训练来提高标准 ResNet 的性能。

来源:Github | 项目地址 | 博文链接

- 代码 -

Keras 中的时间分布层使用

长短期网络(LSTM)是一种流行且功能强大的递归神经网络(RNN)。即使使用像Python的Keras深度学习库中提供的那样定义明确且“易于使用”的接口,它们也很难配置并应用于任意序列预测问题。Keras中出现此困难的原因之一是使用了TimeDistributed包装器层,并且需要一些LSTM层返回序列而不是单个值。在本文中,您将发现配置LSTM网络进行序列预测的不同方法,TimeDistributed层扮演的角色以及确切的使用方法。具体包括:1.如何设计一对一的LSTM进行序列预测;2.如何设计没有时间分布层的多对一LSTM序列预测;3.如何设计多对多LSTM以便使用TimeDistributed Layer进行序列预测。
 

来源:Python中文社区 | 博文链接 

利用OpenCV和深度学习来实现人类活动识别

在本文的第一部分,我们先来讨论下Kinetics数据集,该数据集用来训练人类活动识别模型。在那之后我们可以聊聊如何来扩展ResNet, 该网络通常使用2D核函数,而我们将采用3D核函数,这样就引入了活动识别模型可利用的时空维度成分。接下来我们将会实现两种版本的人类活动识别,使用的都是OpenCV库和Python编程语言。最后,我们应用人类活动识别模型到几个视频样例上,并看一下验证结果。

来源:数据派THU | 博文链接 

Spark NLP如何使用Annotator和Transformer

在机器学习中,常见的一种做法是运行一系列的算法来处理和学习数据。这种算法序列常被称作做Pipeline。Pipeline具体来说是一个多阶段的序列,每个阶段由一个Transformer或者Estimator组成。各个阶段按顺序执行,并将输入的DataFrame转换和传递给下一个阶段,数据如此按序的在pipeline中传递。每个阶段的transform()方法函数更新这组数据集并传递到下一阶段。因为有了pipeline,训练数据和测试数据会通过确保一致的特征处理环节。Spark NLP LightPipelines 是把 Spark ML pipelines转换成了一个单机但多线程的任务,在少量的数据上速度提升可达到10倍。本文讨论了如何将Spark Pipelines转换成Spark NLP Light Pipelines,以便在小数据上获得更快的响应。这也是Spark NLP的最酷的特征之一。我们可以享受Spark强大的数据处理和训练功能,然而在单机运行时使用Light Pipelines来获得更快的预测速度。

来源:kdnuggets | 原始报道 | 中文报道

PyTorch的C++ extension写法

本文关于pytorch如何自定义一个扩展,这里主要是说C++扩展。首先为什么需要扩展?python调用C++的库也是可行的啊。刚开始我也在思考这个问题,觉得没有必要。但是后来深入了解了以后发现还是有必要的。举个栗子,调用始终是使用的是别人的东西,但是扩展则是通过他人的帮助来完成一个属于自己的东西。pytorch的C++ extension和python的c/c++ extension其实原理差不多,本质上都是为了扩展各自的功能,当然也为了使程序运行更加有效率,差别在于pytorch的C++ extension实施步骤较python的c/c++ extension的要简化一些。

来源:知乎 | 博文链接 

使用Ray和Analytics Zoo将自动机器学习(AutoML)应用于时间序列预测

时间序列简单来讲是指一系列在时间轴上有序的数据,而时序预测是根据过去时间点的数值来预测将来时间点上的数值。现实中,时间序列预测除了在电信运营商中的网络质量分析、面向数据中心运营的日志分析、面向高价值设备的预测性维护等多有应用之外,还可用作异常检测的第一步,以帮助在实际值偏离预测值过多时触发警报。然而,为时间序列预测构建机器学习应用是一项费力且对专业知识要求较高的工作。为提供易于使用的时间序列预测工具套件,本文将自动化机器学习 (AutoML) 应用于时间序列预测,并对特征生成、模型选择和超参数调优等流程进行了自动化。该工具套件基于 Ray*(面向高级 AI 应用的开源分布式框架,由 UC Berkeley RISELab 提供)搭建,是 Analytic Zoo——由英特尔提供的统一数据分析和 AI 开源平台的一部分。

来源:机器之心 | 博文链接

- 教程 -

【课程】cs224n:自然语言处理与深度学习

自然语言处理(NLP)是信息时代最重要的技术之一,也是人工智能的重要组成部分。NLP的应用无处不在,因为人们几乎用语言交流一切:网络搜索、广告、电子邮件、客户服务、语言翻译、虚拟代理、医疗报告等。近年来,深度学习方法在许多不同的NLP任务中获得了非常高的性能,使用不需要传统的、特定于任务的特征工程的单个端到端神经模型。在本课程中,学生将深入了解NLP深度学习的前沿研究。通过讲座、作业和期末专题,学生将学习设计、实施和理解自己的神经网络模型所需的必要技能。作为去年的试点,CS224n将在今年使用Pytorch进行教学。

来源:斯坦福大学 | 课程链接  

【书籍】图深度学习导论

图数据处理是一个长期存在的研究课题,近年来又被深度学习领域广泛关注。相关研究在数量和广度上飞速增长,但这也导致了知识系统化的缺失和对早期文献关注的缺失。《A Gentle Introduction to Deep Learning for Graphs》是图深度学习领域的教程导论,它倾向于对主流概念和架构的一致和渐进的介绍,而不是对最新文献的阐述。教程在介绍概念和想法时采用了自上而下的方法并保留了清晰的历史观点,为此,导论在第2节中提供了图表示学习的泛化形式,将图表示学习泛化为一种基于局部和迭代的结构化信息处理过程。同时,介绍了架构路线图,整个导论也是围绕该路线图进行开展的。导论聚焦于面向局部和迭代的信息处理过程,因为这些过程与神经网络的体系更为一致。因此,导论会淡化那些基于图谱理论的全局方法(假设有一个固定的邻接矩阵)。

来源:专知 | PDF下载 

【课程】如何加速NVIDIA GPU上的训练、推理和机器学习应用?

Maggie Zhang,Nathan Luehr,Josh Romero,Pooya Davoodi和Davide Onofrio深入研究了用于加速深度学习训练和推理的通用深度学习和机器学习工作负载的技术。 通过本教程将了解DALI如何消除现实应用中的I/O和数据处理瓶颈,以及自动混合精度(AMP)如何轻松地在Volta GPU上的训练性能提高3倍。 您将看到使用Horovod进行多GPU和多节点扩展的最佳实践。 他们使用深度学习探查器来可视化TensorFlow操作并确定优化机会。 本教程将教读者学习使用TensorRT(TRT)中的INT8量化来部署这些训练过的模型,所有这些都将在TensorFlow框架的新型便捷API中进行。
 

来源:英伟达 | 课程链接 

【书籍】深度学习高级应用:卷积神经网络和目标检测

利用先进的架构来开发和优化你的深度学习模型。这本书将使你了解卷积神经网络的核心,以及其中的复杂的细节和微妙的算法。在本书中,你将学习CNN的进阶知识,并掌握使用Keras和TensorFlow来进行对象检测的能力。在此过程中,您将了解CNN中的基本操作,如卷积和池化,然后了解更高级的体系结构,如先Inception Net、ResNets等。在本书不仅讨论理论知识,你还将学习到能够高效地使用Keras的各种技巧,包括如何自定义回调类、自定义日志、eager execution模式等等。最后,你将学习如何进行目标检测,并利用Keras和TensorFlow中构建一个经典的目标检测模型:YOLO(You only Look Once)。在这本书的最后,你将在Keras中实现各种各样的模型,并学习到许多将你的技能带到下一个层次的高级技巧。

来源:allitebooks | 书籍链接

【入门】目标检测算法之常见评价指标(mAP)的详细计算方法及代码解析

这篇文章从概念性的角度来阐述了常见的评价标准如Acc,Precision,Recall,AP等。并从Faster-RCNN中对VOC数据集计算每个类别AP值的代码分析具体的计算过程,这一篇推文的目的就是结合代码再次详细的解释目标检测算法中的常见评价标准如Precision,Recall,AP,mAP的具体计算过程。

来源:CVer | 课程链接

【深度】模型剪枝,剪掉了什么?

深度学习模型运行需要大量的计算、内存和功耗,为了解决模型模型运行的瓶颈,研究者提出了一系列模型压缩方法,其中包括模型剪枝,能够有效地减小内存、功耗,提高计算效率。然而,「每一枚硬币都有正反两面」,模型剪枝在获得诸多益处的同时,势必也会造成一定的「舍」(损失)。这些损失到底是什么呢?针对不同的模型以及在不同的场景下,模型剪枝产生的影响又有何不同呢?对此,谷歌受「脑损伤」的启发,在最新的研究工作《SELECTIVE BRAIN DAMAGE: MEASURING THE DISPARATE IMPACT OF MODEL PRUNING》中提出了有效的测量方法。本文对该思路进行了介绍。

来源:AI科技评论 | 博文链接

- 新工具 -

Facebook开源算法代码库PySlowFast

视频与动作理解俨然已成为当今最火热的研究方向之一,然而在开源社区中找到一个简洁、高效、易于修改的视频理解代码库仍不是一件简单的事情。更重要的是,复现当今前沿的 (state-of-the-art) 的深度学习模型一直是一件令研究者头疼的事情。这些视频理解模型往往动辄几十 GFlops,需要训练数天,而复现出一个模型需要反复的实验调参,让每个细节都正确。这往往会耗费大量的时间和资源,让很多研究者望而却步。Facebook AI Research 在 CVPR、ICCV 等国际会议发布了众多研究工作,并赢得了 CVPR 2019 行为检测挑战赛的冠军。而后,在今年的 ICCV 上,FAIR 推出了他们的视频理解代码库:PySlowFast。PySlowfast 是一个基于 PyTorch 的代码库,让研究者可以轻而易举地复现从基础至前沿的视频识别 (Video Classification) 和行为检测 (Action Detection) 算法。不但如此,PySlowFast 代码库同时开源了大量预训练模型 (pretrain models),让研究者省去了反复训练模型的烦恼,可以直接使用 FAIR 预训练的前沿 (cutting edge performance) 模型。

来源:Facebook AI Research | 项目地址 | Tutorial 地址

数据导向的编程语言——Taichi

MIT和伯克利的研究人员近期提出了一种数据导向的编程语言——Taichi(太极),以对稀疏的数据结构实现高效的编程、接入和维护。它提供了高级的编程结构,用户可以不受限于特定的数据结构编写计算代码;同时提供了不同稀疏特性的元素构件,可以被任意组合与复用到非常广泛的多层级的稀疏数据结构中去。通过数据结构与计算的解耦(decoupling),使用户可以在无需改变代码的情况下应用多种不同的数据结构进行便捷的实验,并且让用户可以像面对稠密数据一样进行计算编程。此外编译器还可以更具数据结构的语义和索引分析自动的优化局部性、移除冗余操作、维持稀疏性和内存分配、为GPU和CPU生成高效并行化、矢量化的指令。实验表明,这种语言在数值模板、邻近查找、粒子散射等常用的计算核上具有优异的表现,在物质点法、有限元分析、多重网格泊松求解器、体积路径追踪和稀疏栅格三维卷积等等仿真、渲染和视觉任务上验证了这种新型语言的性能。总之,利用更少的代码(1/10)能达到更高的性能(4.55x)。

来源:MIT | 项目地址 | 论文地址

大规模实时动态认知图谱平台——AbutionGraph

AbutionGraph实时数据分析平台以此为背景进行设计与构建。其实现结合了实时数据流、实时指标计算、数据仓库的大吞吐等优势为一体,其端到端的架构可以直接从输入到输出进行映射,相当于一个纯经验的事物,流经数据库时,AbutionGraph内部自动做了关联计算、指标汇总等,即查即用,从而绕开数据直接解决问题,充分发挥了用大数据解决问题的作用。

来源:北京图特摩斯科技 | 报道链接 

Det3D:首个通用 3D 目标检测框架

应用于自动驾驶、室内导航等领域的 3D 检测是近一段时间比较热门的一个研究方向。其数据格式包括 image、point cloud、RGBD、mesh 等。作为对比,2D 检测目前是一个非常成熟的领域,各种优秀的框架(Detectron2 / mmDetection等)不计其数,研究人员基于某一个框架,可以快速验证想法,而不需要去关心如何适配某种数据集、如何做增强、如何给数据加速等等,大大节省了做 research 的工程成本。为了使 3D 检测领域能够有一个像 mmDetection 等相对完备的检测框架,减少研究人员在数据和其他工程问题上耗费的经历,也为了能够让大家的方法能像 2D 检测领域一样够快速的复现、分享,本文介绍了开源了 Det3D。
 

来源:Github | 项目地址 

纯文本自动学习预测代码速度新工具Ithemal

为了让代码尽可能快地运行,开发人员和编译器(将编程语言转换为机器可读代码的程序)通常使用性能模型,通过模拟给定的芯片体系结构来运行代码。编译器使用这些信息来自动优化代码,开发人员使用这些信息来解决运行这些代码的微处理器的性能瓶颈问题。但是,机器代码的性能模型是由少数专家团队写的,未经过合适的验证。其结果是,模拟出的性能标准通常与实际结果有偏差。现在,MIT的研究人员开始着手解决这个问题,他们在去年6月的国际机器学习大会上提出了一种新的机器学习pipeline,可以将上面的模拟过程自动执行,使这个过程更便捷,更快速,更准确。据研究人员介绍,Ithemal是一种神经网络模型,它以“基本块”(计算指令的基本摘要)的形式训练标记数据,以自动预测给定芯片执行以前看不见的基本块需要多长时间。Ithemal的性能要比传统的手动调整模型精确得多。

来源:SciTechDaily | 中文报道 | 原始报道 

- 应用 -

MIT新技术可根据影子还原你的原始画面

近日,MIT 的研究人员借助一台摄像机,录下视频或人的动作在墙角杂物堆里投下的影子,就能大致还原出原始画面。具体来说,MIT 的一个研究团队七年前创造了一种新的成像系统,可使用地板、门和墙作为「镜子」来理解不在视线范围内的场景。使用特殊的激光来生成可识别的 3D 图像,该研究开启了新的可能性,让我们可以更好地理解视线范围之外的东西。最近,MIT 计算机科学与人工智能实验室(CSAIL)的一组科学家团队在这项研究上更进了一步,不过这一次他们没有使用任何特殊装备。他们开发了一种可通过观察乱物堆上的微妙影子和反射影像重建视频的方法。这意味着,只需房间中有一个开着的摄像机,就可以重建出房间中看不见的角落的视频,即使这个区域在相机视野之外也无妨。
 

来源:MIT news | 中文报道 | 原始报道 

深圳使用AI加持的精准天气预报

美国宾夕法尼亚州立大学等机构组成的研究小组开发出了一种用于识别潜在风暴的新模型,基于机器学习算法,可以从卫星图像中识别云的旋转运动。研究人员发现,基于 AI 的方法可以有效地检测出逗点云型,准确率高达 99%,且平均每次预测仅需 40 秒。这种方法可以有效地预测出 64% 的恶劣天气事件,优于大多数其他现有的预测方法。1 月 6 日,华为云与深圳市气象局签署深度合作协议,双方将就云计算、5G、人工智能等创新技术在气象领域行业的应用和推进、未来技术趋势研究展开合作,共同推动气象精准预报、智慧城市气象服务等业务创新。这意味着,深圳市民将率先享受到由 AI 带来的先进天气预报服务。

来源:机器之心 | 报道链接

北大微软优化AI换脸

换脸是非常吸引人的一种应用,开发者可以用 VAE 或 GAN 做出非常炫酷的效果。一般而言,换脸会将 A 脸特征换到 B 脸上,同时保留 B 脸的神情或动态。像 FaceSwap 这样开源项目已经能生成非常真实的假脸视频,不过仔细看看仍然会发现有的地方存在模糊,有的地方转换不太自然。而研究者此次提出了一种新型的两段式框架——FaceShifter。这个框架可以完成高保真的换脸过程,在面部有遮挡时依然可以很好地工作。不像那些只利用有限信息就完成换脸任务的框架,该框架中的第一部分就自适应地整合了目标图像的所有属性以生成高保真的换脸图片。

来源:CVer | 报道链接 

联影智能放疗轮廓勾画软件正式推向临床

近日,联影智能放疗轮廓勾画软件经国家药品监督管理局(NMPA)批复,获得三类医疗器械注册证。联影医疗董事长兼CEO薛敏曾在世界人工智能大会上表示,在图像后处理环节,运用AI的智能渲染技术,可以得到高清的器官影像,帮助医生更好地进行诊断和手术计划。目前AI很少应用到治疗环节,但这个领域,对AI同样有巨大的需求。因此,除了在设备端本身发力之外,联影智能也利用AI更好地帮助放疗科的临床医生。uAI放疗轮廓勾画软件基于联影智能自主研发的分割算法,支持74个主要危及器官和靶区的全自动分割,也可对肺癌、直肠癌、肝癌、前列腺癌等病灶及106个脑区进行亚秒级分割。
 

来源:雷锋网 | 报道链接

- 竞赛 -

中国人工智能大赛·语言与知识技术竞赛

人工智能是引领未来的战略性技术,推动经济社会各领域从数字化、网络化向智能化加速跃升,对国家和城市的未来发展至关重要。2019年3月到8月,首届中国人工智能·多媒体信息识别技术竞赛在厦门的成功举办,发现一批先进技术、促成了多个企业合作、搭建了人工智能人才交流平台,为人工智能同传统行业深度融合与跨界应用注入了新动能。在此基础之上,为持续推动和引领人工智能领域的创新发展,将中国人工智能竞赛打造成中国第一、国际领先的赛事,不断提升人工智能产业集聚高地影响力,由中央网信办、工业和信息化部、公安部、科技部指导,厦门市政府作为主办,举办“中国人工智能大赛分赛·语言与知识技术竞赛”。

来源:中央网信办 | 比赛链接

- 经验 -

经验&教训分享:我的第一个机器学习项目

在这片博客中,作者将介绍队友(Aron,Ashish,Gabriel)和作者如何完成第一个机器学习项目。写这篇博客的目的是为了记录——记录下作者作为一名有抱负的数据科学家的旅程。同时,这篇博客也是为了写下逐步完善预测模型背后的思维和推理过程。由于作者的目的是建立一个可以快速使用的通用工作流程,所以作者将尽可能的简化推理过程。作者的最终目标是当某一天再次回顾这个数据集时,可以应用更好的预测模型,看到自己原本可以做出哪些改进,并且能看到自己作为一个数据科学家的成长。

来源:nycdatascience | 原始博文 | 中文博文

- 求职 -

【面试】深度学习500问

近年来,深度学习技术在计算机视觉(CV)、自然语言处理(NLP)等热门领域都取得了非常大的进展。深度学习的资料也层出不穷。相信很多入门深度学习的读者面对海量资源的时候,很容易陷入到一种迷茫的状态。简单来说,就是选择越多,越容易让人陷入无从选择的困境。针对该问题,github有一个项目,名称是 DeepLearning-500-questions,作者是川大的一名优秀毕业生谈继勇。该项目以深度学习面试问答形式,收集了 500 个问题和答案。内容涉及了常用的概率知识、线性代数、机器学习、深度学习、计算机视觉等热点问题。目前该项目总共获得了 2.1w stars。

来源:github | 项目地址 

 

以上是《智源社区AI周刊》第5期的内容,智源研究院编辑团队将本着“提供真正内行的AI资讯”的目标,不断优化和完善我们的内容服务,各位读者们如有批评意见,或者好的建议,请不吝赐教发至:editor@baai.ac.cn。谢谢大家。

特约编辑:刘布楼 常政 刘沂喆

所有文章
×

还剩一步!

确认邮件已发至你的邮箱。 请点击邮件中的确认链接,完成订阅。

好的