中国人工智能学会

Chinese Association for Artificial Intelligence

GAITC 2017 模式识别与智能感知分论坛实录丨罗杰波:计算机视觉: 下一步是什么?

发布时间:2017-05-31

微信图片_20210913145353.png

罗杰波
罗切斯特大学教授、腾讯优图顾问 

以下是罗杰波教授的演讲实录:

我讲之前先讲一点题外话,因为周曦讲的比较有意思,而且我们都是所谓的黄家军(黄教授的子弟)的。我以前在柯达做了15年的R&D,虽不像周曦说的那么惨烈,但是也很惨烈。我在柯达的时候,当时头号敌人是富士。讲一个故事,有一段时间,柯达认识到洗印照片中自动去除红眼,有人听到富士要做了,那我们就要做,我们说要干掉80%的红眼。因为柯达是数字洗印,但是时间有限,每天处理不知道多少百万张的照片。当时大家花了很大的力气才达到精度和速度的要求。大公司之间打还好一点。你知道美国什么食品是最便宜的?中餐,因为中国人打价钱战是最厉害的。

我现在想说的正题是,从研究的角度来讲计算机视觉下一步是什么的问题。人工智能经过了大起大落,有第一个冬天,第二个冬天,现在大家觉得是好日子。什么是Computer Vision,Computer Vision很长时间干不了什么实事,我在Computer Vision这个领域也干了20多年了,我是见证ComputerVision怎么从只是处理一个图,ComputerVision开始的时候就是只有一个图,能把这一个图搞转了就很厉害。我在柯达的时候,我们应该是最早的几个地方,开始研究真实的图片。柯达给大家洗印照片的,所以有很多很多真实世界的照片。后来又开创了真实世界视频的处理,我们是第一家做真实世界视频里的行为识别。之前的工作都是找两个学生表演一下。你到真实世界数据是有很多的问题的,这个事情我不用多讲,到了真实世界有各种各样的问题。

这次人工智能大会很多话已经说过了。计算机视觉就是想从图像中获取有用的信息。黄教授是计算机视觉之父,有别的一派人说David Marr是计算机视觉之父。这里随便讲几个例子,从这些图像中获取有用的信息,现在大家觉得不稀罕了,可这个东西在2000年的时候是不可想象的,那时候连人脸检测都做不好,所以我们这个领域有很大的进步。2015年的时候就有几项比较轰动的工作,第一项工作是汤晓鸥教授组做的工作,他们号称是第一次计算机超过了人类,这个不是人脸识别,是人脸鉴别,达到了99.5%。第二个就是ImageNet,孙剑他们用ResNet 151层,取得误差小于5%。这些东西现在大家听到更多了,可能有人有这样的想法,好像计算机视觉已经没有什么可玩的。其实像金老师说的文字识别,这个时间搞的更长,现在还有很多的问题,这些99.5%的算法拿到实战中去又是另外一回事。

我们计算机视觉需要考虑下一步,这次大会也有讨论,现在很火热,但是寒冬来了怎么办?不能等到寒冬来了才去想对策,狗熊怎么对付寒冬呢,先吃胖了就能熬过寒冬。作为一个研究者,你应该想一想,不要等到寒冬来了才想我是不是能找到工作,是不是应该转行,而是现在就应该想,下面要去干什么。Vision+X,这个X不是一个东西,是很多的东西。我在讲Vision+X之前,我先讲一下Vision有什么发展,我着重讲一下视频分析。这个是我前面提到过的工作,2009年CVPR我们第一次用真实的视频进行行为检测。当时开始的时候,我们花了很多精力,网站上有很多视频,但是很多是不能用的。开始有11类行为,现在已经有101类了。你们搞视频的都知道,开始是UCF11,现在是UCF101。另外一个工作是一年以后在CVPR2010,我们一个工作得了Best Student Paper。这个工作验证了一个观点,我们现在习惯监督学习,在视频分析下更是一个问题,你看一个视频是什么概念,整个视频看完了才能标,这个工作量很大。我们当时做这件事,我不想做这个视频标定,但我需要足够的样本才能学习。我去Youtube网站,但是你要知道心里清楚这些用户提供的标签是不能相信的,因为你搜索Youtube时是用关键字,有人为了骗点击率可以乱放一个关键字。一个例子是《星球大战》,你搜索这个关键字,很多其实不相干的视频都会弹出来。现在这个问题还是存在的。迁移学习从视频分析的角度那时我们就提出来了,具体的我就不讲了。

刚才提到《星球大战》,用户的标记是不可信的,我们怎么解决这个问题呢?当你用关键字搜索的时候,我知道你大概想要什么东西。这个叫做DBPedia的知识库,比如你想找Tiger Woods的时候,跟什么有关,跟美国公开赛和英国公开赛有关,我可以去DBPedia获取一些个视觉上的表现,比如说高尔夫的场景是什么样。这个时候你就可以把前面从网络上搜到的有关的视觉信息拿去和视频里的视觉信息对比,验证。我们解决计算机视觉的问题,最终是想解决认知的问题,就是描述图像视频这些东西。那我先做分类,我知道行为怎么识别,现在我引进感知互相之间的关系,我就一步一步向认知过渡。

现在做video有很多的手段,你有整个video,一段video,一个frame,这是我们去年的工作。我们提了一个MultiGranularity的概念。因为有了动作识别,我们有了更好的基础,这个时候我们要干什么?是去做更高层的理解。这是什么过程呢?这就牵扯到现在计算机视觉领域或者自然语言理解领域,两边都往这个方向走,这个方向就是视觉+语言。这个工作为什么有意思?这是在AAAI/IJCAI发表的文章。假如说你有一个video,video里做了一件事情,这个人做了化学实验,化学实验,你要混合,有搅拌,它有一个过程,你先把标签做好,加入500毫升什么溶液,再把什么东西放进来。我们想达到一个什么目的?我们想知道在这一步在video的什么地方出现,或者你看见这个video走到这一步的时候是在干什么。这件事不是全新的问题,很多人做类似的问题。比如分析炒菜的video,也有这个问题,你做西红柿炒鸡蛋,一般人做这个事情是做了识别的问题,很多人做西红柿炒鸡蛋,最后把西红柿认出来,鸡蛋认出来,怎么切认出来,这样再去做,这个没有什么稀罕。我们这个问题为什么难呢?我是想在从来不知道怎么做这件事的情况下,知道这个video是做这件事,我就能把它弄出来, 把步骤和视频里的操作搞清楚。我没有训练过,所以这是个无监督学习。人工智能大部分时间是有监督学习,有监督学习是有限的。人很多时候是无监督学习,我不需要看一百个西红柿炒鸡蛋的视频才能学会炒鸡蛋。当你描述的时候,这里面有很多的名词,看完这个描述就知道这里面应该出现多少个物体;看到有很多动词,就知道这里面有多少个动作。你还知道每个步骤是这样发生的,所以它一定有一个顺序,这些是我们唯一可以有的信息。这里有一个示意图,我不知道这是什么药罐子,可能另外一边有水,我现在通过对整个视频的观察,我就能知道哪个是哪个东西,你现在干什么事,这个我具体不讲了,你可以看一下这个示意图。

下一个例子,这个例子是我们做Image/video Captioning。我们做的是什么事情呢?在我们做的时候,多伦多大学已经提出了attention概念,可以把注意力这个概念引入到这类的问题里.比如你看到这个图,你的注意力应该在这个物体上面。我们认为你在写一个句子的时候,里面的每一个词注意力是不一样的。这个注意力我不一定从这里学,我可以找一个语文课本学人怎么说话。我把这个学好以后,不管是视觉上还是语义上的注意力都放到一起。结果发现我们刷了一次榜,就刷了第一,我们还在第一的位子上坐了五个月。周曦说了一句有意思的话,技术领先是不可靠的。因为我们没想到呆了那么久,后来别人就赶超了。如果有周曦他们那样的精神,超过不是问题。谷歌有这么多牛人,超过也不是问题。

我们这几年还做了一个东西是情感计算。这也不是全新的东西,但这是图像情感计算。你可能觉得不新,黄教授的团队,研究过根据表情来的情感。我这里说的图像情感计算是泛泛的图像,随便拿一个图,只要能引起情感就可以推测出。来我们大概是2012年开始做的。我们做这个方向,后来被别人注意到了,这是(沈向阳),微软的“政治局常委”之一。他提到了我们做的工作,我们开始是不用深度学习做的,因为我们没有足够的大数据。后来我们想了一个花招来做深度学习。其实我们也不是最早做图像情感计算的。最早是荷兰人做了一个图像情感计算,情感计算最开始的时候是做二值的,正能量,负能量就可以了。他们系统的精确度是51%,等于系统什么也没有干。我们用了visualattributes,达到了61%。同时哥伦比亚大学发明了SentiBank,从1200个ANP检测器再到情感,也达到61%。注意我们只用了20来个visual attributes.。要做图像情感的深度学习,因为情感很丰富,怎么也得要100万张照片吧,而且得有情感标定。如果用人来标,我们算了一下,需要好几万美元。怎么办?就拿这61%分类器去标定100万张图,那就可以做深度学习了吧。不要高兴太早,这个是要打折扣的,也就是每3个样本就有一个错的,而且不知道哪个是错的。 先不管了, 塞进去一搞就到71%。了你再用71%分类器再标一遍,如果有一个方法把差劲的丢掉好的留下来,这就是我们的想法,Progressive CNN。怎么知道这个算法有多少是对的呢?用算法自己的置信度。唯一的问题就是,你是用不可靠的数据训练来的,我们只能拿这个置信度作为一个概率的东西。再搞几次就到了78%了。终极的目的是在社交媒体中得到应用。社交媒体中的文字是非正式文字,很短,是做不好的,我们现在用图文一起做情感识别,当然你把两个放在一起就会做的更好,这是我们第一个版本,后来有新的版本。怎么样把多模态的信息,包括视觉信息做分析。刚开始情感是二值的,正负的。根据心理学来说有24种情感,但不是独立的情感,是3×8。这个工作的意义是什么呢,在我们做这个工作之前是没有足够大的数据集的。,虽然我们最后花了几千美元,保证每一种情感有几千个样本。正确率达到60%,听着不怎么样,实际也不低了。这个东西比你瞎猜好五倍。后来还没有很多文章跟进,也说明问题的难度。情感还是一个比较有意思的问题,情感计算是未来人工智能的一个方向。

我们后来的版本引进了Attention。我们现在做很多社交媒体的东西,一个是有关用户的东西,一个是有关情感的东西。有关用户的东西,最近做了一个工作。我可以把微信朋友圈里的信息全部拿下来,这是很“严重”的,因为微信是不让你拿的。但是我们有别的方法拿下来,不说了。我们把它所有的图做了聚类,我们用深度学习的分析,我们发现人的朋友圈分享的图,实际上可以用一个46维空间表达。我可以把每个人的兴趣爱好变成一个46维向量,这样就对这个用户了解了。现在大家爱发自拍,你是爱发室内的自拍还是室外的自拍,是跟闺蜜的自拍还是独白的自拍,都不一样。最后可以把发自拍的行为和其他的朋友圈分享的图片关联起来,这个我没有时间讲了。

最后讲一个例子,大家要注意到,我讲了半天有人觉得都不是计算机视觉。我绝对是在讲计算机视觉。这是什么问题,这是分析时装,用淘宝的数据。我知道淘宝的数据,就知道哪一个服装很畅销。但是服装商和运营商最想知道的事情,这个为什么畅销。我可以用计算机视觉的方法,把每个服装的构成,什么颜色,什么花案,什么式样分析出来。然后和它的销售额挂钩,畅销的衣服,不畅销的衣服,你马上发现这件畅销的衣服是领口让人喜爱,还是别的特点。这样服装商就会心里有数,让零售商多进一些这样的衣服。现在大家都喜欢说落地,你要落到钱眼里了就是落地了。

我们对用户画像,不光是知道他的性格,行为,知道他的健康状况,知道他的幸福程度,最终的目的想给用户一个立体画像。这些事情都可以做,而且很大程度上是从视觉信息得到的。我们不光可以用这样的方法研究一个人,我们可以拿这个研究社会。社会的脉搏是哪些,就是这些,公共卫生,舆情,什么流行不流行,交通怎么样,有没有人闹事。医学是一个重大的方向,我也不讲了,因为没有时间。医疗的图像,医疗的视频又是一个可以发展的领域。

最后,我想说社交媒体可以干什么呢?我们做了很多事情,研究一些不良习惯。比如在美国青少年酗酒是个问题,用毒品是一个问题,抑郁症是一个问题。这些问题实际上你观察一个人的社交媒体上的表现,都是能够读出来的。这是我们做了一系列的工作。我顺便替FACE++做一个广告,我把他的脸一拿过来就知道是老人还是年轻人,我读准了就知道他的性别,美国有种性的人,黑人,白人,亚洲人等等。我们还做有关营养的,分析食品的构造,因为美国人有很多的垃圾食品,吃了垃圾食品自己变得垃圾 - 说的太严重了哈。我们想通过食物的情况了解他吃了什么东西,对他提一些建议,这个事情正在做。

计算机视觉下一步是什么?计算机视觉的下一步,就是不要停留在计算机视觉里,而是拿计算机视觉作为一个起点,去解决AI的问题。因为计算机视觉本来就是AI一部分,而且是感知的部分,不是认知的部分。这个X是什么呢?可以加自然语言理解,可以加知识,人有各种知识,别的地方的知识可以拿过来。可以跟文字结合,跟语音也可以结合,和情绪可以结合。具体的应用,跟医疗健康、社交媒体、人机交互,这都是可以结合的。

苏东坡有一句话,“也无风雨也无晴”。你最好是比人想的前一步,你管它是冬天还是春天,不是晴天还是下雨,你都知道有一个方向去努力。我就把苏东坡这句话送给大家,谢谢。


刘成林/主持人:罗教授您做的面挺宽,过去这些年你选择的研究方向,是你自己看的比较超前,还是跟着潮流在走?

罗杰波:我讲个例子,我们自己做地理标记的时候,没有一个相机可以地理标记。,我们当时就用一个蓝牙装置,它一直装在兜里跟踪你去哪,柯达有一个相机有蓝牙,最后可以让它们同步。我们在做的过程中就出了第一部诺基亚有地理标记的手机!那时候我们就做了一系列的工作,你有这个地理标记有什么用,因为这个就给了你很多别的信息,我们可以拿来做计算机视觉,也可以做多媒体,可以生成多媒体,分析多媒体。我个人不喜欢跟着别人做,我喜欢往前看。往前看也不是总看得准,但是至少就是这个想法。看什么东西热就跟着做什么,即使发了文章也没有人引用。特别是刷榜的文章,很快就过时了,因为别人又比你多了1%。 所以你要有持久性,要做前瞻性的工作。比如说金老师在文字识别耕耘了很多年,这就是很值得称道的,这个东西一很重要,二不简单,即使有了深度学习也不是一下子就能搞定的事情。

提问:罗老师,我看到你在数据的标识方面做了很多的工作,有一个聚类的概念在里面,请问为什么你们没有考虑用无监督的算法进行标记?

罗杰波:这个不是很好聚类。有的东西可以聚类,有的很难。比如图像情感问题,情感是很抽象的东西,所以它不是你一弄就会聚出两个情感类,一个正情感,一个负情感。做物体识别很容易出现聚类,因为物体看着比较像,最后会聚类。但是你做比较高层的认知问题,比如说做美学的,审美的,情感的,做聚类不行,因为每一种本来就是五花八门的。

提问:你开始说认知这块,但后面没有说描述。

罗杰波:我说了,一个就是文本视频对齐的例子,它就是一个描述问题。我刚才说了我怎么把一个步骤的描述和video对应起来,这也是视觉和文字的关联的问题,视觉的任务不再是一个标签,或者是五个标签,而是一个描述。

提问:算法是一样的吗,都是深度学习算法吗?

罗杰波:不都是,识别动作是,其他环节不是。我说了,我先大致知道有几种不同的物体,因为有几个名词;大概有几个动作,就会覆盖道不同的动词。对齐算法实际上是像CRF一样的东西,它也是一个graphical model,又考虑到了dynamic time warping,这个没有什么太大的关系。但是其中有一块,我怎么识别子动作,这个可以用深度学习。

提问:用户一般是什么样的,像这种视频的应用?

罗杰波:我刚才说了,这个演讲不代表工业界的演讲。这个是从研究的角度上讲的。你要说客户有两种客户,一种客户就是像花椒那样的客户,花椒播放一阵子,但是没有人会耐心看半个小时一个小时,那我怎么搞清楚你在干什么?那就需要视频理解还有一个例子就是医学,像做手术,做到哪一步了,是不是花的时间太长,切的圆不圆,这些东西我们都能分析的,你的技术是可以到处去应用的。

刘成林/主持人:再次用掌声感谢罗教授,同时感谢今天的6位演讲人,谢谢大家。

(本报告根据速记整理)

CAAI原创 丨 作者罗杰波教授
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会