白宫再发人工智能报告

| 收藏本文 下载本文 作者:泊川

下面小编给大家整理了白宫再发人工智能报告(共含4篇),供大家阅读参考。同时,但愿您也能像本文投稿人“泊川”一样,积极向本站投稿分享好文章。

白宫再发人工智能报告

篇1:白宫再发人工智能报告

白宫再发人工智能报告

继10月份发布两份关于人工智能的重要报告后,当地时间12月20日,美国白宫又跟进发布了一份关于人工智能的报告——《人工智能、自动化与经济》(Artificial Intelligence, Automation, and the Economy)。

这份报告由美国政府经济顾问委员会、国内政策委员会、国家经济委员会、管理和预算办公室、科学和技术政策办公室的工作人员编制。

最新的报告认为:应对人工智能驱动的自动化经济,是后续政府将要面临的重大政策挑战。下一届政府应该制定政策,推动人工智能发展并释放企业和工人的创造潜力,确保美国在人工智能的创造和使用中的领导地。

美国白宫对外联络部主任和高级政策顾问克里斯汀·李(Kristin Lee)表示,“人工智能技术的加速进步,将使一些长期以来需要人力劳动的任务实现自动化。这些转变将为个人、经济以及社会带来新的机会,但同时也将瓦解数百万美国人目前的生计。这份新的报告调查了人工智能驱动的自动化对经济的预期影响,并提出发挥人工智能的优势并降低其成本的广泛战略。”

为应对人工智能影响,报告给政策制定者提出了3个重要建议

在最新的第三份报告中,白宫阐述了人工智能发展带来生产效率的提升,自动化水平的进步。这些进步能给社会创造更多的价值,也会带来一些改变。例如一些工作会被机器取代,工人面临再就业等问题。

报告认为政策制定者需要做好改变的准备,尤其是以下5个方面:

1,人工智能会对生产率增长带来积极影响;

2,就业市场需求技能发生变化,包括对更高层次技术技能的`需求加大;

3,影响的分布不均衡,对不同部门、薪资水平、教育水平、工作类型和地区的影响不同;

4,由于一些工作职位消失,新的工作类型出现,劳动力市场将被搅乱;

5,一些工人将短期失业,失业时间可能更长,取决于政策的回应。

在报告中,人工智能专家根据人工智能的技术特性,现有职业的特点与各职业现状之间的关系,进行了评估。研究认为,47%的美国职位在这一时期有被人工智能技术和计算机化取代的风险。然而,经济合作与发展组织(OECD)的研究人员强调,自动化目标是提高效率,而不是代替职业,它本质上会形成新类型的任务。在未来,许多职业都可能发生改变,因为它们的一些相关任务将变得可自动化,因此OECD分析认为,很少有工作将会完全自动化,估计只有9%的就业机有完全消失的风险。如果这些预测成真,数以百万计美国人的生计将受到影响,短期和中期的经济发展将会受到冲击。

除了对工作类型有影响外,报告还指出了人工智能对于美国工人工资的影响。研究发现,相比每小时工资在40美元以上只有4%和20美元到40美元之间只有31%工作受到影响,每小时工资低于20美元却高达 83%工作将受到自动化的压力(下图 3a)。此外,OECD研究估计,受教育程度较低的工人比受过高等教育的工人更可能被自动化取代(下图 3b)。事实上,OECD 研究的作者估计,44%的低于高中学历的美国工作者的工作很可能会被自动化,而只有1%本科或更高学历的人拥有这样的工作。在一定程度上教育和工资与技能相关,这意味着对低级技术的需求大幅下降,对高技能工人的需求几乎没有下降。这些估计表明短期内的科技更迭技能偏见将持续存在。

人工智能促使一些工作改变的同时,也将创造一些新工作。报告指出,有4类工作在未来可能直接由人工智能驱动。分别是人类与现有人工智能技术的合作、开发新的人工智能技术、在实际中监督人工智能技术、伴随着人工智能技术促进社会转变,这些领域的就业都将会增长。

基于这些改变,报告还给政策制定者提出了3个重要建议:

1,为人工智能的众多优势进行投资和开发;

2,针对未来的工作类型进行教育并培训公众;

3,为转型期间的工人提供帮助,并确保广泛共享的经济增长赋予工人权利。

技术进步是GDP增长的主要动力。人工智能发展能带来自动化效率的提升,在全球范围内美国政府是较早持续关注人工智能发展的。从今年5月份开始,白宫联合4所美国大学在2个月时间里,召开了4场讲座。内容涉及人工智能的法律和政策、社会福利、安全和控制以及社会和经济影响。

讲座结束后,美国白宫在10月份公布了两份人工智能报告,分别是《为人工智能的未来做好准备》(Preparing for the Future of Artificial Intelligence)和《国家人工智能研究与发展战略计划》(National Artificial Intelligence Research and Development Strategic Plan)。

在12月初,美国还召开了一场关于人工智能的听证会。来自各个领域的专家证词涉及人工智能发展对隐私安全需求的增加,如何与中国和俄罗斯等国家展开竞争,政府如何与研究部门和私营公司展开合作。同时,专家还回答了议员们有关如何处理新技术与伦理和法规的关系等问题。

人工智能的国际竞争愈发激烈

除了美国外,越来越多的国家也开始把人工智能放上政策制定的议程中,包括中国。

5月23日,国家发改委、科技部、工信部和网信办联合印发《“互联网+”人工智能三年行动实施方案》(下称《方案》)。《方案》表示,到,中国将基本建立人工智能产业体系、创新服务体系和标准化体系,培育若干全球领先的人工智能骨干企业,形成千亿级的人工智能市场应用规模。

除了提出市场规模和目标外,中国政府还在《方案》中提出,为降低人工智能创新成本,中国将建设面向社会开放的文献、语音、图像、视频、地图及行业应用数据等多类型人工智能海量训练资源库和标准测试数据集。国家还将建设满足深度学习等智能计算需求的基础资源服务平台,包括新型计算集群共享平台、云端智能分析处理服务平台、算法与技术开放平台等。

在软硬件开发方面,《方案》提出,将支持人工智能领域的芯片、传感器、操作系统、存储系统、高端服务器、关键网络设备、网络安全技术设备、中间件等基础软硬件技术开发,支持开源软硬件平台及生态建设。

值得一提的是,根据SCI收录的数据,从到,“深度学习”的文章增长了约六倍。到20,无论是文章数量还是有效引用数据,中国都超过了美国,居于领跑位置。

除了中国外,英国政府科学办公室(The Government Office for Science)在今年11月份也发布了一份人工智能的报告,提出要用人工智能创新优势提升英国国力。英国数字化和文化部长马特·汉考克(Matt Hancock)在报告中指出,人工智能已经让我们与我们的智能手机对话、向我们推荐音乐、为视力受损的人描述照片,以及预警城市中可能发生的火险。英国政府也在研究这项技术提供公共服务的潜在应用。

在亚洲,日本也在积极备战人工智能竞赛。据日媒报道,日本政府计划截至3月,斥资40亿日元(约人民币2.5亿)推动农耕自动化,并协助企业开发20种不同类型的机器人。

篇2:苹果公布首份人工智能报告

苹果公布首份人工智能报告

苹果公司(以下简称“苹果”)近日终于不再遮遮掩掩,发布了自己的首份人工智能研究报告。业内人士称,这对苹果将来推广自己的人工智能应用大有裨益。

苹果本月初曾表示,将发布自己的人工智能研究报告。不到一个月的时间,苹果就兑现了承诺。近日,苹果发布了第一份关于人工智能的学术论文。这篇报告阐述了一项新技术,即如何通过计算机生成图像、而非真实图像来训练一种算法的图像识别能力。

苹果在报告中称,在机器学习研究中,使用合成图像(例如,来自一款视频游戏)来训练神经网络要比使用真实图像更有效。因为合成图像数据已经被标记和注释,而真实的图像数据需要有人耗费巨大的精力去标记计算机看到的每件事物,如一棵树、一条狗或一辆自行车。

当然,使用合成图像也存在一定的弊端,导致一种算法所了解的内容与真实世界中的场景有所不同。苹果在报告中称:“有时,合成图像数据不够真实,导致神经网络只能了解到合成图像中所呈现的细节,而对真实图像的认识有所不足。”

为解决该问题,提高合成图像数据的训练效果,苹果研究人员推出了“模拟+无监督”的学习方法,以提高模拟图像的真实感。苹果研究人员使用一种经过修改的新型机器学习技术,被称为“生成对抗网络”(GAN),让两个神经网络彼此对抗,从而生成更逼真的图像。

这篇报告的第一作者是苹果研究员阿希什·什里瓦斯特瓦(Ashish Shrivastava),拥有马里兰大学帕克分校计算机视觉博士学位。有业内人士称,对于苹果而言,此次公开其首份人工智能研究报告也是一大进步。多年来,苹果对其在人工智能领域的研究一直守口如瓶,这遭到了人工智能研究社区的批评。同时,这也影响了苹果招募人工智能人才。

此外,此次公开自己的人工智能研究也有助于将来普及自己的人工智能软件。如今,人工智能软件正被应用到几乎所有应用中,如iPhone 7的拍照功能,以及各种互联网服务。

以下是报告全文:

摘要

随着图形技术不断进步,利用合成图像训练机器学习模型变得越来越容易,这可以帮助避免注释图像的昂贵支出。然而,通过合成图像训练机器学习模型可能无法达到令人满意的效果,因为合成图像与真实图像之间毕竟存在区别。为了减少这种差异,苹果公司提出“模拟+无监督”学习方法,即通过计算机生成图像或合成图像来训练算法的图像识别能力。

事实上,这种“模拟+无监督”学习需要将无标注的真实图像数据与已经注释的合成图像相结合。在很大程度上,它需要依赖生成式对抗网络(GAN)的新机器学习技术,它可通过两个神经网络相互对抗以生成更加真实的图像。苹果公司对标准GAN算法进行了多处关键性修改,以保留注释、避免伪影以及稳定性训练:自正则化(self-regularization)-局部对抗性损失-使用精炼图像升级鉴别器。

苹果公司发现,这个过程可以产生高度逼真的图像,在质量上和用户研究方面都已经获得证实。苹果公司已经通过训练模型评估视线水平和手势姿态,对计算机生成图像进行定量评估。通过使用合成图像,苹果公司的图像识别算法已经取得了巨大进步。在没有使用任何标准真实数据的情况下,苹果公司在MPIIGaze数据集中获得了最高水平的结果。

引言

随着最近高容量深度神经学习网络的崛起,大规模标注训练数据集正变得日益重要。可是,标准数量庞大的数据集成本非常高,而且相当耗费时间。为此,使用合成图像而非真实图像训练算法的想法开始出现,因为注释已经可实现自动化。利用XBOX360外设Kinect评估人体姿势以及其他任务,都是使用合成数据完成的。

(图1:“模拟+无监督”学习:通过计算机生成图像或合成图像来训练算法的图像识别能力)

然而,由于合成图像与真实图像之间存在差距,使用合成图像训练算法可能产生很多问题。因为合成图像通常不够真实,导致神经网络学习仅仅能够了解到合成图像中的细节,并不能完整地识别出真实图像,进而也无法为算法提供精确的学习。一种解决方案就是改进模拟器,可是增加真实性的计算往往非常昂贵,渲染器的设计也更加困难。此外,即使最顶级的渲染器可能也无法模仿真实图像中的所有特征。因此,缺少真实性可能导致算法过度拟合合成图像中不真实的细节。

在这篇论文中,苹果公司提出“模拟+无监督”学习的方法,其目的就是使用未标注真实数据的模拟器提高合成图像的真实性。提高真实性可更好地帮助训练机器学习模型,而且无需收集任何数据,也无需人类继续标注图像。除了增加真实性,“模拟+无监督”学习还应该保留注释信息以用于训练机器学习模型,比如图一中的注视方向应被保留下来。此外,由于机器学习模型对合成数据中的伪影非常敏感,“模拟+无监督”学习也应该产生没有伪影的图像。

苹果公司为“模拟+无监督”学习开发出新的方法,称之为SimGAN,它可以利用称之为“精炼器网络(refiner network)”的神经网络从模拟器中提炼合成图像。图二中展示了这种方法的概述:第一,黑盒子模拟器中生成合成图像,然后利用“精炼器网络”对其进行提炼。为了增加真实性,也就是“模拟+无监督”学习算法的首要需求,我们需要利用类似生成式对抗网络(GAN)来训练“精炼器网络”,进而产生判别网络无法区分真假的精炼图像。

第二,为了保留合成图像上的注释信息,苹果公司需要利用“自正则化损失”弥补对抗性损失,在合成图像和精炼图像之间进行修改。此外,我们还利用完全卷积神经网络,在像素水平方面进行操作,并保留全局结构,而非整体修改图像的内容。

第三,GAN框架要求训练2个神经网络进行对抗,它们的目标往往不够稳定,倾向于产生伪影。为了避免漂移和产生更强的伪影,导致甄别更困难,我们需要限定鉴别器的接收区域为局部接收,而非整张图片接收,这导致每张图像都会产生多个局部对抗性损失。此外,苹果公司还引入提高训练稳定性的方法,即通过使用精炼图像而非当前“精炼器网络”中的现有图像升级鉴别器。

1.1相关工作

GAN框架需要2个神经网络竞争损失,即生成器与鉴别器。其中,生成器网络的目标是在真实图像上绘制随机向量,而鉴别器网络的目标则是区分生成图像与真实图像。GAN网络是由古德弗罗(I. Goodfellow)等人首先引入的,它可以帮助生成逼真的视觉图像。自从那以来,GAN已经有了许多改进,并被投入到有趣的应用中。

(图2:SimGAN概观:我们利用“精炼器网络”提炼模拟器产生的输出图像,并最大限度地减少局部对抗性损失,并进行自正则化。

对抗性损失可以欺骗鉴别器网络,从而令其将合成图像误认为真实图像。而自正则化则会最大限度减少合成图像与真实图像的差异,包括保留注释信息,并让精炼图像被用于训练机器学习模型。“精炼器网络”与鉴别器网络也会交替升级。)

王(X. Wang)与古普塔(A. Gupta)利用结构化GAN学习表面法线,然后将其与Style GAN相结合,以生成天然的室内场景。我们提议使用对抗性训练进行递归生成模型(recurrent generative model)训练。此外,最近推出的iGAN能够帮助用户以交互模式改变图像。刘(M.-Y. Liu)等人开发的CoGAN结合GAN可多模态联合分布图像,无需要求应对图像的元组,这有利于开发出联合发布解决方案。而陈(X. Chen)等人开发的InfoGAN是GAN信息理论的扩展,允许有意义的陈述学习。

恩杰尔路图泽尔(Oncel Tuzel)等人利用GAN解决人脸图像超高分辨率问题。李(C. Li)和王(M. Wand)提议MarKOvian GAN进行有效的纹理合成。洛特尔(W. Lotter)等人在LSTM网络中利用对抗性损失进行视觉序列预测。于(L. Yu)等人提议SeqGAN框架,利用GAN强化学习。许多近来的问题都显示出与生成模型领域相关的问题,比如PixelRNN可利用RNN的softmax损失预测像素顺序。生成网络侧重于使用随机噪声矢量生成图像,与我们的模型相比,其生成的图像没有任何标注信息,因此也无法用于训练机器学习模型。

许多努力都在探索使用合成数据进行各种预测任务,包括视线评估、RGB图像文本检测与分类、字体识别、对象检测、深度图像中手部姿态评估、RGB-D场景识别、城市场景语义分割以及人体姿态评估等。盖伊登(A. Gaidon)等人的研究表明,利用合成数据训练深度神经网络,可以提高其表现。我们的工作是对这些方法的补充,我们使用未标记真实数据提高了模拟器的真实性。

嘉宁(Y. Ganin)与莱姆皮茨基(V. Lempitsky)在数据域适应设置中利用合成数据,了解合成图像与真实图像域的变化过程中保持不变的特征。王(Z. Wang)等人利用合成和真实数据训练层叠卷积码自动编码器,以便了解其字体检测器ConvNet的低级表示形式。张(X. Zhang)等人学习多通道编码,以便减少真实数据与合成数据的域的转变。与经典域适应方法相反,它采用与特定的特征以便适应具体的预测任务,而我们可通过对抗性训练,弥合图像分布之间的差距。这种方法使我们能够生成非常逼真的图像,可以用于训练任何机器学习模型,并执行潜在的更多任务。

2“模拟+无监督”学习

模拟+无监督学习的目标是使用一组未标记的真实图像yi ∈ Y,学习可提炼合成图像X的refiner Rθ(x),其中θ属于函数参数。让我们用X?表示精炼图像,然后会得出X?:θ= R(X)。在“模拟+无监督”学习中,最关键的要求就是精炼图像X?,以便于其看起来更像真实图像,同时保留来自模拟器的注释信息。为此,我们建议通过最大化减少两个损失的组合来学习:

其中,xi是e ith合成训练图像,X是相应的精炼图像。第一部分是真实性成本,即向合成图像中增加真实性的成本。第二部分则代表着通过最小化合成图像精炼图像的差异保存注释信息的成本。在下面的章节中,我们会展开这个公式,并提供优化θ的算法。

2.1对抗性损失

为了向合成图像中添加真实性,苹果公司需要在合成图形和真实图像的分部之间建立起联系。在理想情况下,精炼机可能无法将给定的图像分类为真实图像还是高度精炼图像。这就需要使用对抗性的鉴频器,网络Dφ,它可训练分辨图像到底是真实图像还是精炼图像,而φ是鉴别器网络参数。对抗性损失训练refiner networkR,它负责欺骗D网络,令其将精炼图像误认为是真实图像。利用GAN方法,苹果公司建造了2个神经网络参与的极限博弈模型,并升级“精炼器网络”Rθ和鉴别器网络Dφ。接下来,苹果公司更精确地描述这种模型。鉴别器网络通过最大限度地减少以下损失来更新参数:

这相当于两级分类问题产生的交叉熵误差,其中Dφ(.)输入的是合成图像,而1 ? Dφ(.)则是真实图像。至此,我们实现了Dφ作为ConvNet的最后输出层,样本很可能是精炼图像。为了训练这个网络,每个小批量随机抽取的样本都由精炼合成图像和真实图像组成。对于每个yj来说,交叉熵的目标标签损耗层为0,而每个x?i都对应1。然后通过随机梯度下降(SGD)方式,φ会随着小批量梯度损失而升级。在苹果公司的实践中,真实性损失函数使用训练有素的鉴别器网路D如下:

通过最小化减小损失函数,“精炼器网络”的力量促使鉴别器无法分辨出精炼图像就是合成图像。除了产生逼真的图像外,“精炼器网络”应该保存模拟器的注释信息。举例来说,用于评估视线的学习转变不该改变凝视的方向,手部姿势评估不应该改变肘部的位置。这是训练机器学习模型使用配有模拟器注释信息的精炼图像的必要组成部分。为了实现这个目标,苹果公司建议使用自正则化,它可以最大限度地减少合成图像与精炼图像之间的差异。

(算法1)

(图3:局部对抗性损失的图示。鉴别器网络输出wxh概率图。对抗损失函数是局部块上的交叉熵损失的总和。)

因此在苹果公司的执行中,整体精炼损失函数(1)为:

(4)在||.||1是L1常模时,将Rθ作为一个完全卷积的神经网络,而无需跃进或池化。在像素级别上修改合成图像,而不是整体地修改图像内容。例如在完全连接地编码器网络中便会如此,保留全局结构合注释。苹果公司通过交替地最小化LR(θ) 和LD(φ)来学习精化器和鉴别器参数。在更新Rθ的参数时,保持φ固定不变,而在更新Dφ时,则要保持θ不变。我们在算法1中描述了整个训练过程。

(图4:使用精细图像历史示意图。相关信息请参阅文本描述。)

2.2本地对抗损失

精炼网络另一个关键要求是,它应该学习模拟实际图像特性,而不引入任何伪影。当训练强鉴别器网络时,精炼网络倾向于过度强调某些图像特征以欺骗当前鉴别器网络,导致偏差和产生伪影。关键是任何我们从精化图像中采样的本地补丁都应该具有与真实图像相类似的统计。由此可以定制本地鉴别器网络对本地图像补丁进行分类,而不是定义全局鉴别器网络。

这不仅限制了接受域,还因此限制了鉴别器器网络的容量,并且为每个图像提供更多样本以供学习鉴别器网络。同时由于每个图像由多个实际损失值,它还改善了精炼网络的训练。

在执行中,将鉴别器器D设计成一个完全卷积网络,输出伪类w × h概率图。在后者中w × h是图像中本地补丁的数量。在训练精炼网络时,将w×h本地补丁的交叉熵损失值求和,如图3所示。

2.3使用精化图像的历史记录更新鉴别器器

对抗训练的对抗训练的另一个问题是鉴别器器网络只关注最新的精细图像。 这可能导致(i)与对抗训练分歧,以及(ii)精炼网络重新引入鉴别器已经忘记的工件。在整个训练过程中的任何时间由精炼网络生成的任何精细图像对于鉴别器器来说都是伪造的图像。因此,鉴别器应该有能力将这些图像识别为假。基于这一观察,我们引入了一种方法,通过使用精细图像的历史来提高对抗训练的稳定性,而不仅仅是在当前小批次中小修小改。我们对算法1稍作改进,增加对先前网络产生的精细图像的缓冲。设B为此缓冲的大小,设b为算法1中使用的迷你批次大小。

(图5:SimGAN输出的图像示例。左为MPIIGaze采集的实拍图像,右为优化后的UnityEye合成图像。从图中可以看出精细合成图像中的皮肤纹理和虹膜区都更近似真实而非合成图像。)

(图6:带有两个nxn卷积层的ResNet块,每个都都具有f特征图。)

在鉴别器器训练的每次迭代中,通过对来自当前精炼网络的b/2图像进行采样,以及从缓冲区采集额外b/2图像,从而更新参数φ。保持缓冲区B大小固定,在每次迭代之后,苹果公司使用新产生的精细图像随机替换缓冲区中的b/2样本。该过程在图4中标示出。

3.实验

我们使用MPIIGaze [40,43]上的外貌估计数据集和纽约大学的手势数据集 [35]来评估我们的方法。我们在所有实验中使用完全卷积的精炼网络与ResNet块(图6)。

3.1基于外貌的注视估计

注视估计是许多人机交互(HCI)任务的关键因素。然而,直接由眼睛图像进行估计是有挑战性的,特别是在图像质量不佳时。例如智能手机或笔记本电脑前置摄像头采集到的眼睛图像。因此,为了生成大量注释数据,最近几次方法[40,43]用大量合成数据训练它们的模型。在这里,我们展示使用SimGAN生成的精细合成图像训练显著提高了任务的表现。

注视估计数据集包括使用眼睛注视合成器UnityEyes生成的1200万样本,以及来自MPIIGaze数据集的21,000实拍样本。MPIIGaze的图像样本都是在各种照明条件不理想情况下捕捉到的图像。而UnityEyes图像都是在同一渲染环境下生成。

定性结果:图5展示了合成生成的眼睛注视图像以及经过处理的实拍图像。如图所示,我们观察到合成图像的显著质量改进:SimGAN成功捕获皮肤纹理,传感器噪点以及虹膜区的外观。请注意,我们的方法在改善真实性的同时保留了注释信息(注视方向)。

‘视觉图灵测试’:为了定量评估精细图像的视觉质量,我们设计了一个简单的用户研究,要求受试者对图像是属于实拍或是合成进行区分。每个受试者被展示50张实拍图像和50张合成图像。在试验中,受试者不断观看20个真假混杂的图像,最终受试者很难分辨真实图像和精细图像之间的差异。在我们的总体分析中,10个受试者在1000次试验中正确率只有517次(p=0.148),跟随机选差不多。表1展示了混淆矩阵。相比之下,当使用原始图像和实拍图像进行测试时,我们给每个受试者展示10个实拍和10个合成图像,这种情况下受试者在200此实验中选对了162次(p≤10-8),结果明显优于随机选择。

(表1:采用真实图像和合成图像进行的“视觉图灵测试”。平均人类分类精度为51.7%,表明自动生成的精细图像在视觉上已经达到以假乱真的程度。)

(图7:使用MPIIGaze实拍样本进行的眼睛注视估计的定量结果。曲线描述了不同测试数量下系统预估的误差。图示中使用精细图像而不是合成图像能显著提高系统表现。)

定量结果:我们训练了一个与[43]类似的简单的卷积神经网络(CNN)来对眼睛的注视方向进行预测。我们在UnityEyes上训练,并在MPIIGaze上进行测试。图7和表2比较了CNN分别使用合成数据以及SimGAN生成的精细数据的不同表现。我们观察到SimGAN输出训练的表现有很大的提高,绝对百分比提高了22.3%。我们还发现训练结果和训练数据呈正相关——此处的4x指的是培训数据集的100%。定量评估证实了图5中观察到的定性改进的价值,并且表明使用SimGAN能使机器学习模型有更好的表现。表3展示了同现有技术的比较,在精细图像上训练CNN的表现优于MPIGaze上的现有技术,相对改善了21%。这个巨大的改进显示了我们的方法在许多HCI任务中的实际价值。

实施细节:精炼网络Rθ是一个残差网络 (ResNet) 。每个ResNet块由两个卷积层组成,包含63个特征图,如图6所示。大小为55x35的输入图像和3x3的过滤器进行卷积,输出64个特征图。输出通过4个ResNet块传递。最后ResNet块的输出被传递到1x1卷积层,产生对应于精细合成图像的1个特征图。

(表2: 使用合成数据和SimGAN输出进行训练的比较。在无需监督真实数据的情况下,使用SimGAN输出的图像进行训练表现出22.3%的优势。)

(表3: SimGAN与MPIIGaze现有技术进行比较。R=真实图像,S=合成图像。误差是以度为单位的平均眼睛注视估计误差。对精细图像的'训练带来了2.1度的改进,相对现有技术提高了21%。)

鉴别器器网络Dφ包含5个扩展层和2个最大合并层,分别为:(1)Conv3x3,stride = 2,特征映射= 96,(2)Conv3x3,stride = 2,特征映射= 64,( 3)MAXPool3x3,stride = 1,(4)Conv3x3,stride = 1,特征映射= 32,(5)Conv1x1,stride = 1,特征映射= 32,(6)Conv1x1,stride = 2,(7)Softmax。

对抗网络是完全卷积的,并且已经被设计为使Rθ和Dφ中的最后层神经元的接受域是相似的。我们首先对Rθ网络进行1000步的自正则化损失训练,Dφ为200步。然后对于Dφ的每次更新,对应在算法中更新Rθ两次。即Kd被设置为1,Kg被设置为50。

眼睛注视估计网络同[43]类似,不过略作修改以使其更好地利用我们的大型合成数据集。输入是35x55的灰度图,通过5个卷积层,然后是3个完全连接的层,最后一个编码三维注视向量:(1)Conv3x3,特征图= 32,(2)Conv3x3 ,特征映射= 32,(3)Conv3×3,特征映射= 64,(4)Max- Pool3x3,stride = 2,(5)Conv3x3,特征映射= 80,(6)Conv3x3, MaxPool2x2,stride = 2,(8)FC9600,(9)FC1000,(10)FC3,(11)Eu- clidean loss。所有网络都使用恒定的0.001学习速率和512批量大小进行训练,直到验证错误收敛。

3.2关于深度图像的手势图像模拟

下一步,苹果公司将用这宗方法对各种手势的深度图像进行模拟。在研究中,主要使用了纽约大学所提供的NYU手势数据库,其中包含72757个训练样本以及使用3台Kinect相机所采集的8251个测试样本,其中每个测试样本包括一个正面手势图像以及两个侧面手势图像。而每一个深度图像样本都对手势信息进行了标记,从而生成了合成图像。图10展示了手势数据库中的一个样本。对数据库样本进行了预处理,利用合成图像从真实图像中提取了相应的像素点位。在使用深度学习网络ConvNet进行处理之前,每个图像样本的分辨率大小被统一调整为224*224,背景值设置为零,前景值设置为原始深度值减。(此时假设背景分辨率为2000)。

图10:NYU手势数据库。左图为深度图像样本;右图为处理后的合成图像。

定性描述:图11显示了“生成对抗网络”( SimGAN)对手势数据库的计算结果。由图可知,真实深度图像的噪声已经边缘化,且分布不连续。SimGAN能够有效对原有图像噪声进行学习并模拟,从而产生出更加真实精细的合成图像,且不需要在真实图像上做出任何标记或注释。

图11: NYU手势数据库的精细测试图像示例。左图为真实图像实像,右图上为合成图像,右图下为来自苹果生成对抗网络的相应精细化输出图像。

实际图像中的主要噪声源是非平滑的边缘噪声。 学习网络能够学习模拟真实图像中存在的噪声,重要的是不需要任何标记和注释。

定量分析:

苹果公司采用一种类似于Stacked Hourglass人体姿态算法的CNN仿真算法应用于真实图像、合成图像以及精细化合成图像处理,与NYU手势数据库中的测试样本进行对比。通过对其中14个手关节变换进行算法训练。为了避免偏差,我们用单层神经网络来分析算法对合成图像的改进效果。图12和表4显示了关于算法对手势数据库进行处理的定量结果。其中由SimGAN输出的精细化合成图像显著优于基于真实图像进行训练而产生的图像,其更为逼真,比标准合成图像高出了8.8%,其中仿真 模拟输出的注释成本为零。同时要注意的是,3X代表图像训练选取了所有角度。

图12:手势估计的定量结果,关于NYU手势测试集的真实深度图像。

图表显示图像与背景之间函数的累积曲线。可见,SimGAN输出的精细化合成图像显著优于基于真实图像进行训练而产生的图像,其更为逼真,比标准合成图像高出了8.8%。 重要的是,我们的学习网络不需要对真实图像进行标记。

表4:通过训练生成各种手势图像的相似度。

Synthetic Data为一般网络训练产生的合成图像,Real Data为真实图像,Refined Synthetic Data为生成对抗网络SimGAN输出的精细化合成图像。3X表示对真实图像进行多角度模拟。

实现细节:关于手势图像判别的架构与眼睛图像相同,但输入图像分辨率为224*224,滤波器大小为7*7,残差网络值为10。判别网络D如下:(1)Conv7x7,

stride=4, feature maps=96, (2) Conv5x5, stride=2, feature maps=64, (3) MaxPool3x3, stride=2, (4) Conv3x3,stride=2, feature maps=32, (5) Conv1x1, stride=1, feature maps=32, (6) Conv1x1, stride=1, feature maps=2,(7) Softmax。

首先,会对R网络进行自我规则化训练500次,随后引入D网络训练200次;随后,每更新一次D网络,就相应将R网络进行两次更新。在手势估计中,我们采用Stacked Hourglass Net人体姿态算法输出大小为64*64的热点图。我们在网络学习中引入[-20,20]的随机数据集来对不同角度的图像进行训练。直至验证误差有效收敛时,网络训练结束。

3.3对抗训练的修正分析

首先苹果公司比较了本地化对抗训练以及全局对抗训练的图像偏差。在全局对抗中,判别网络使用了完全连接层,从而使整个图像相对于更加精细。而本地化对抗训练则使得生成的图像更为真实,如图8所示。

图8:左为全局对抗训练结果,右为本地化对抗训练结果。

显示了全局对抗训练与本地化对抗训练的结果偏差。左图生成的图像更精细但不真实,右图生成的图像相对真实度更高。

接下来,在图9中,显示了使用反复训练的历史精细化图像对判别网络进行更新,并将其与标准对抗生成的合成图像进行比较的结果。如图所示,使用反复训练的历史精细化图像刻产生更为真实的阴影,譬如在标准对抗训练中,眼睛角落里没有阴影。

图9:使用历史精细图像对判别网络进行更新的结果。

左图: 标准合成图像;中图:使用历史数据对判别网络进行更新后的图像结果;右图:使用近期历史数据对判别网络进行更新的图像结果。如图所示,使用反复训练的历史精细化图像刻产生更为真实的阴影。

4.结论以及下一步工作

在文中,苹果公司提出了一种“模拟+无监督”的机器学习方法,能够有效提高模拟图像的真实感。并描述了一种新的生成对抗网络SimGAN,并将其应用于未经标注的真实图像,获得了最好的结果。下一步,苹果公司将继续探索为合成图像建立更为逼真的精细图像,同时研究如何对视频进行处理。

篇3:长江商学院发布中国人工智能指数报告

长江商学院发布中国人工智能指数报告

人民网北京3月21日电(记者魏艳)长江商学院首届人工智能论坛暨中国人工智能指数报告发布会昨日在京举办。该报告由长江商学院人工智能与制度研究中心主任许成钢和武汉大学大数据与云计算实验室主任崔晓晖团队共同研究制作。报告从学术、产业、开源软件包使用、公众认知及媒体等方面,进行中美对比,以此度量中国的人工智能在最近十几年里的发展及影响。

报告表明,从学术领域的角度看,虽然美国在人工智能领域发表的论文数量整体来说超过中国,但是中国的增长速度较快;在学术会议参与方面,中美两国学者参加学术会议呈不断增长趋势,而美国每年都要高出中国。从人工智能各个子领域对比发现,参会人次和论文被引次数上美国均高于中国,但是在个别领域中国的增长速度在个别年份有超过美国,如虚拟代理、群体智能、机器人流程自动化等,表明在这几个领域中国得到了较快的发展速度;从产业领域的角度看,中国活跃的人工智能创业公司在之前要多于美国,但是在20以后美国超过中国,且增长速度大幅度提升,而中国在以后开始下降。而人才分布方面,中国在智能交通、自动驾驶,智能、精准营销,硬件、GPU、智能芯片需求比例要多于美国,而中美两国在算法、机器学习的需求量上要远高于其他领域;从开源软件包使用的角度看,对于开源软件包,TensorFlow被中美两国开发者使用情况远高于其他软件包。以前美国开发者关注人工智能软件包数量要高于中国,20以后中国开始超过美国;从公共认知及媒体报道的角度看,中美两国对于人工智能的报道正面情感要高于负面情感,而中国的正面情感比例相对更高一些。

在崔晓晖看来,人工智能本身的定义非常广泛,在学术领域,人工智能分为强人工智能和弱人工智能的定义,“强人工智能是指那种真正能推理和解决问题的智能机器,并且,这样的机器能被认为是拥自我意识的。而我们现在普遍应用的'则是弱人工智能,它们只是用于解决特定的具体类的任务问题而存在,大都是统计数据,以此从中归纳出模型。”

科技日报总编辑刘亚东则给出了另一个看待人工智能的视角:“我们应该对人工智能有清醒的认识,如果用人的一生来比喻人工智能,现在人工智能可能还没满月。因为与人工智能相关的基础学科还没有大规模突破,我们不应该人云亦云。任何一个产业、一种产品,包括人工智能产业、产品,只有企业家最有资格、最有能力也最有意愿对它的发展前景做出判断,别人不能越俎代庖”。

篇4:世界经济论坛报告:人工智能将新增5800万个新岗位

世界经济论坛报告:2022年人工智能将新增5800万个新岗位

正在天津举办的世界经济论坛发布的一份报告认为,尽管到2025年机器将取代人类负责更多工作,但在未来五年内人工智能的发展仍会净增加5800万个新工作岗位。

18日到20日,第十二届夏季达沃斯论坛在天津举行。本届论坛主题为“在第四次工业革命中打造创新型社会”,这也是迄今为止规模最大的以第四次工业革命为主题的世界经济论坛峰会。

根据世界经济论坛发布的《2018未来就业》报告,自动化技术和智能科技的发展将取代7500万份工作。但该报告指出,随着公司重新规划机器与人类的分工,另有1.33亿份新工作将应运而生,也就是说到2022年净增的新工作岗位多达5800万份。

世界经济论坛的报告涉及对来自全球300多家公司、各个行业的人力资源官员、战略主管和首席执行官的调查。受访者代表了1500多万名员工和20多个总计占到全球经济70%的发达国家与新兴经济体。

与此同时,报告认为,新工作的质量、地点和形式将发生“重大改变”,世界经济论坛的报告认为稳定的`全职工作将越来越少。越来越多公司可能会选择使用自由职业者或专业承包商。随着机器与人类之间的劳动分工不断发展,员工也将需要不断学习新技能。

接受世界经济论坛调查的公司表示,目前机器可以完成的任务占到当前工作的29%,但到2022年,预计机器可以完成的任务将多达42%。

世界经济论坛新经济与社会中心主任阿迪亚・扎赫迪表示,虽然自动化可以提高公司生产力,但他们也需要在员工身上做投资以保持竞争力,“这既是道德要求也是经济要求。”他认为,如果不积极主动,企业和员工可能会在第四次工业革命中失去潜在经济价值。

全球会计师事务所普华永道的一份分析也给出了相似的预测。分析指出,人工智能、机器人技术和其他形式的智能自动化可以促进生产力,创造出更高的产品和服务。虽然不少工作在未来将被取代或发生实质性改变,但新的就业机会也会随之出现,为整个经济带来积极影响。

人工智能论文

人工智能 影评

人工智能学习心得

人工智能心得体会

人工智能观后感电影

关于《人工智能》观后感

人工智能培训心得体会

科幻电影人工智能观后感

全球人工智能会议

人工智能心得体会范文

白宫再发人工智能报告(精选4篇)

欢迎下载DOC格式的白宫再发人工智能报告,但愿能给您带来参考作用!
推荐度: 推荐 推荐 推荐 推荐 推荐
点击下载文档 文档为doc格式

猜你喜欢

NEW
点击下载本文文档