发布时间:2016-05-11
人工智能AI之趋势
The Trend of Artificial Intelligence
芮勇
微软亚洲研究院常务副院长
以下是芮勇的演讲实录:
尊敬的诸位领导、诸位嘉宾和诸位朋友,非常高兴今天有这个机会参加全球人工智能大会,今天很高兴想跟大家交流一个话题,就是人工智能AI今后发展的几个趋势。
刚才李院士介绍了,今年是一个很特殊的年份,2016年是“人工智能”这个词被正式创造出来的第60年。我们中国人一般称每60年是一个甲子,一个轮回。但这次不仅仅是一个轮回,而是一个升华,有很多事情都会发生。60年以前人工智能这个词被创造出来了,那60年过去了我们人工智能有哪些属性,有哪些大的发展趋势?我们看一下。也很有意思,有另外几个也是用A和I开头的词。第一个叫做聚合的智能,我想给大家举个例子,用微软云的智能API。第二个词也是AI开头的,叫做自适应的智能,我也给大家举两个例子。第三个是更先进的智能,叫做隐形的智能,隐于环境的智能,人不用考虑它,它就能帮你把事做了。
下面先聊第一个聚合的智能。我给大家用一个例子,就是微软发布微软认知服务。这个基于云平台的智能API能做什么呢?我们把一批API放在云上,希望第三方的开发者能够很容易的调用这些API,使得你写出来的程序、应用可以像我们人类一样看到世界、听到世界、理解世界,所以我写了几个字叫做像人类一样理解世界的智能API。它包括五个大的方向,第一个是视觉,第二个是语音,包括TTS。语言处理,自然语言的理解。第四个是知识的挖掘,第五个是搜索。下面我给大家举个例子。
今年4月份,我们发布了这个微软认知服务,有人脸的识别、检测、视频、图片、声文等等。我给大家举个例子大家就能想起来,这个智能的云认知服务它能做的事情。这是去年4月份一款红遍全球的应用,叫How-Old.net(微软颜领及其认)。不仅在美国很红,在中国也很红,其实在全球的各个国家有很多人都在玩这款应用。这款应用花了多长时间去开发呢?其实很简单,你们看就是用左边这20几行代码去调用微软认知服务中的API,就可以写出来这样很智能的应用。之后也有很多人上传了不少的图片,我相信在座的可能也有很多人上传过图片。也有把奥巴马一家图片给上传的,我相信这里面最高兴的是奥巴马的太太,看起来有36岁,比先生年轻了不少。右边这张图是微软公司刚创立的时候,今天微软全球有11万多员工,40多年前刚成立的时候只有11个员工,左下角是比尔盖茨,很年轻的小伙子。这位其实是微软公司刚成立的时候的另一位联合创始人艾伦,艾伦其实比比尔盖茨就大几岁,但是他留了很多的胡子,所以他看上去像50多岁的。所以这不仅是猜你的实际年龄,还猜你现在看上去有多大,这是用20几行的代码调用API就可以做到。之后对人脸的检测、人脸的跟踪、人脸的识别,除了这些之外我们更想知道他当时的表情怎么样,他的喜怒哀乐。所以去年有更新的一版把喜怒哀乐这些表情也加进去了,吃惊、高兴、生气等等。
人脸说完了,那么比人脸更难的一点是我看到的所有的图片,计算机有没有能力像人一样去理解它所看到的图片。在计算机领域,如果在座的已经在这个领域的话,一定知道有一个很重要的比赛叫ImageNet,它包括1000个类别,有120万个训练样本,有10万个测试图片。这里面包括很多的类型,文字、车辆、动物、教堂等等。要让计算机看一幅它没有看到过的图片,能告诉你这是属于这一千类的哪一类,非常难的一个问题。在过去的七八年过程当中,深度学习使计算机视觉的分类问题得到了一个飞跃性的发展。大家可以看到在深度学习没有进入计算机之前,比如2011年的时候错误率是25.8%,因为很难,你让计算机看一个图片,它要告诉你这是一千类中间的哪一类。到了2012年的时候深度学习第一次被应用到ImageNet计算机视觉的分类当中去,一下子把错误率从20%多降到16.4%,之后2013年和2014年错误率慢慢的往下走,到了6%点多。2014年的时候我们人类也想说,我们人类在一千类物体识别中我们能做得多好?斯坦福的一个博士他自告奋勇,他好好看看这一千类当中都有哪些,我相信在座的各位包括我都很难达到这个水平,因为这一千类里面光狗就有60多种,还有很多的植物,很多的运动,看起来很相似。所以这位博士把自己关在小屋子里面好好学习了几个月,他去参加这个比赛,他的错误率是5.1%,这是我们人类里比较杰出的代表。但是在去年年底的时候我们微软用深度学习的算法,把错误率降到3.5%。这都是得益于深度学习在过去四、五年的发展。
深度学习在2012年的时候大家用的更多是有九个隐含层,叫做深层网络。我们看看过去四五年由深往更深发展,有多深。2014年的时候有19层网络出来,在2015年的时候我们做了一个比人类5.1%的错误率还要高的深层学习网络。有152层,这是所有机构从来没有做到过的这么深效果的网络,因为大家可能知道想把它做得很深,并不是很容易的事情。因为要是有偏差,很多很多次以后就很不稳定了,超过22层就是一件很难的事情。我们的研究员做了152层,中间的结构也很有意思,就像人类的脑神经连接一样,不仅仅有一层一层接下来的连接,还有直接往前的连接,这是残差学习的问题。因为这个残差学习的算法使得我们能够做到152层这么深,这么深的话我们就把错误率降到3.5%,这是一个很核心的技术。同时我们也在去年ImageNet的几个主要项目中得到了第一名。
除了图片的分类,比图片的分类更加难的一件事情是说物体的检测。图片的分类你只需要告诉我这张图片里面是一张桌子,那个图是一个凳子。物体检测不仅要告诉我这张图片里有一张桌子,你要告诉我桌子在哪儿,所以比这更难的就是物体检测,所以这个也是基于深度学习的算法,做出了很好的成绩,大家可以看到这是其中的一个例子。对我们人来说这似乎没什么了不起的,都能认识,但是我们知道计算机看到的东西就两个,除了零就是一,他们在零和一之间能够理解这里面有一个小朋友,有一个吃晚餐的桌子,有喝葡萄酒的杯子等等,这是一件非常非常难的事情。
那从图片的分类到图片里面物体的检测,比这个更难的是什么呢?就是像素级的精确分类,任何一张图片都是由像素来组成的。我们不仅想知道这张桌子在图片的哪一个位置,我们还想知道这一个像素是属于桌子还是属于椅子的。中间更难的事情就是像素级的精确识别,我们希望每一个像素都能知道,是一个人,一个自行车,一个大楼,或者是一个别的东西。给大家放一段简短的视频看一下,今天像素级的精准识别可以做到一种什么样的程度。每一个像素都可以很精确的识别,它是属于哪一个物体的,这就是第一个聚合的智能。聚合的智能就是我们人类很多的智慧聚合在一起,由机器去学习,这是第一个。
比这个更难一点的就是自适应的智能,我怎么让这个机器在不同的环境下能够自适应的帮助人类。我想给大家举两个例子,一个是微软自拍。上线一个月就有100万用户在里面。它有很多的核心技术,比如说我拍张照片的时候不用考虑光线怎么样,它会自己去帮你把这些噪声去除、光线都补偿好。同时它知道你拍摄的这个人的性别、年龄、肤色。做一些很智能的自然美颜,这个是很重要的。比如说是一个二三十岁的女士,可能你需要把她美颜的更加漂亮一点,但是如果是一个四五十岁的像我这样的男士,你把我弄得太漂亮我反而不高兴了。所以你要知道你看到的这个人的性别、年龄、肤色等等。但是我们不希望让拍摄的这个人来考虑这么多的事情,我们希望由这个APP很智能的自己去适应我现在拍的这个人是什么样的人,我给大家看段视频。有的时候光线不好拍出来的效果不是很好,但是APP有办法能把得弄得更强,有的时候背景光线太亮,我们也有办法弄清晰。很小的一个APP,建议大家去试试,很有意思,因为它包含了很多人工智能的最核心的技术。
第二个我想跟大家聊聊Skype Translator实时语音翻译技术的自适应的智能。这也是一个很有意思的技术,最早有一点像科幻电影的感觉,我相信在座的朋友很多看过《星际迷航》,这里面有一个电话,你拿起这个电话跟别的星球的任何人说任何的语言都能相互交流。不管他来自哪个国家或者哪个星球,说任何语言都能实时交流。在1966年的时候,这还是一个科幻,没有办法做到。但是我们希望通过人工智能的技术发展,把科幻变成现实。在2010年的时候我们语音处理的团队第一次在微软内部的技术节上展示了这个技术,当时我们可以做到实时的英语和德语的翻译。在2012年的时候微软研究院的创始人Rick博士在天津的大会上做了演示。这个技术很难,如果我只会说中文,我们台下这位巴基斯坦的女士只会说英文,我想跟她交流要通过几个过程,首先要把我的中文音频信号变成文字,最好不要错,然后再实时翻译成英文的文字,然后再用我说英文的方式发出声音来,让她能听懂。第一要实时,第二不能错,因为这三个环节每一个错一点,后面就会有很大的偏差,就完全错误了。所以在2012年的时候我们在天津有一个公开的演示。去年的时候我们已经把这个实时的语音翻译技术放进了大家都可以使用的产品Skype里。下面我们来看看Rick博士在天津举行的大会上做的实时演示,他不会说中文,他在做演讲的时候用英文,说着说着突然之间他开始说中文了,观众很吃惊,我们看看。
其实他并不知道那个翻译的是对还是错,因为他完全不懂中文,也不会说中文,但是观众听到的是实时的他的发音方式说出来的中文,这是在2012年的时候。当然能做到这一点也是需要20几年科研的积累,要把所有的技术都做得很好才可以做到这点。这是我提到的第二个AI,自适应的智能。
第三个是隐形的智能,可能是一种更高境界的智能。我们今天都谈智能家居、智能环境。如果今后有一天这个会场里面有很多很智能的设备和硬件,我们可能不用太去考虑我是不是得一直站在那个讲台那儿,我一走动大家就拍不到我了,我走到这边太亮了,是不是曝光就不对了,人就不用考虑了。我们有很智能的硬件设备自动的就做好的,这是隐于环境的一种智能。
如果隐于环境的这些智能设备放在环境里也好,戴在我们人的身上也很好,比如说可以变成眼镜,甚至可以在我们衣服的布料里面,我们看两个例子。如果让我们智能硬件做到隐于环境的智能,它们一定要有智能,如果是视频摄像头的话我们希望这个摄像头能看到外面的世界,并且能够理解外面的世界。比如说它看到了一个人在玩滑板,对我们人来说根本就不是个事,就是有个人在跳滑板。但是你让计算机去看,计算机很难,第一步它要先知道这里面有人有滑板,更重要的是说它能够真正去理解人在哪里,滑板在哪里,整个的场景什么样,它能说出来一句,用人类的自然语言说出一句人能听懂的话,比如一名男子正腾空而起表演滑板特技。这就不是计算机视觉一个方向做的事情,有自然语言处理,有各种东西要结合在一起才能够做到这一点。如果我们真能做到这一点,其实我们的生活会变得更好。一个例子就是如果有一个盲人看不见外面的世界,但是因为他戴了一个设备,这个设备能帮他看到外面的世界,同时用声音的方式告诉他,这是一件非常好的事情。我们来看看另外一段小片。这是微软的一个同事,他在七岁以前能看见,七岁的时候他的眼睛失明了,他是十年前加入微软的,他现在还在写程序,我很佩服他。他希望通过人工智能帮助他看到,比如说他的眼镜会告诉他面前的场景是什么样的,过马路的时候什么时候走,什么时候不要走。所以他一直有这么一个梦想,所以他和另外一些做人工智能的研究员一起开发出这款产品。在开会的时候也是一样,有时候他在说话,但是他不知道他周围的同事是已经都睡着了,还是很认真的听他讲话。如果有了这个眼镜的话他就知道这里面有一个男士40多岁很吃惊的看着他,他就知道他现在跟大家交流是什么样子的。他其实也没想到人工智能今天发展的这么快,可以帮助他看到外面的世界。这是一个例子,隐于环境的智能。
另外一个例子,在刚刚结束的2016微软全球开发者大会上也提到了HoloLens,在座的很多都是做科研的朋友。有另外一个还是处于科研实验室阶段的项目,就是说今天我们如果要开一个会的话,都是在同一个物理空间上,今后有没有办法我在一个地方,另外一个人在另外一个城市,我们看起来通过这种全息3D的方式,使每个人都像这样身临其境。这是一个科研项目,也是一个隐于环境的智能,因为环境上有很多智能的设备。我们可以看看。边上大家看到有几个柱子,这几个摄像头就可以把实时的动作给捕捉一下,然后把三维的信息非常清楚地放到他本来的身体上面去。如果有了这种技术的话,其实两个人在相互交流的时候没有必要在同一个物理空间,可以在不同的物理空间虚拟的进行交流。比如说他和他的女儿,他的女儿在另外一个地方,他戴上眼镜以后,其实他的女儿就在他这里了。小朋友问爸爸什么时候能回家,他说我很快就能回家了,他们两个人是在两个不同的地方,但是因为通过这个技术就可以在同一个地方进行交流。小朋友在告诉他最喜欢的两个玩具是什么,爸爸让小朋友爬到椅子上面,数一二三让小朋友跳下来,这两个人是在完全不同的两个物理空间。今后我们的很多会议可能真的不需要飞很远去开,如果实时的3D的所有信息都捕捉下来的话,其实我们就可以把整个的场景重新做一遍,然后可以站在不同的角度实时体验当时的场景是什么样的,任何一个角度。可以把它变小,放在你的咖啡桌上看看当时的场景。这当然是一个科研项目,还要很长的时间去实现。
最后的两张幻灯片想跟诸位嘉宾和朋友交流的是,人工智能今年是第60周年,人工智能这个领域经过了起起伏伏之后,现在也是第三个春天。不管是国内和国外的一些大学、科研机构、企业,都花很大的精力去开发人工智能技术。因为人工智能可能代表了今后整个产业的一个发展方向。
这是我今天想提的第五个AI,最早大家想到AI就是人工智能,之后我提的AI就是聚合的智能、自适应的智能和隐形的智能。前一阵因为有很多人工智能上的技术有了大的突破,在科研界、产业界,甚至我们的大众老百姓里面都有很多的讨论,说人工智能和人到底会怎么样,有一些说法是人工智能太强大了,我们人就不存在了,等等。所以有人类和机器要PK的感觉。其实我是持另外的一种观点,我觉得人类和人工智能各有强的地方,也各有弱的地方。如果从记忆力和计算能力上来讲,人类是记不过计算机的,也算不过计算机的。因为比如说背一个π3.1415926,没有计算机强。但是我们人类有两个半脑的,一个半脑是靠左边这个,主要是逻辑推理、记忆。右边的半脑很厉害的,这是很多的想象力、很抽象的东西,创造力的东西在这里。所以我们人类比机器强很多的地方是我们这种创造力、抽象能力和发明的能力。我觉得今后的人工智能的下一个60年,是人类+机器,相互使用人类和机器更强的地方,把两者更强的地方相结合,使得我们有一个更加增强的智能,谢谢大家。
(本报告根据速记整理)
CAAI原创 丨 作者芮勇
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会