发布时间:2016-08-11
苏中
IBM中国研究院大数据及认知计算研究总监
以下是苏中的演讲实录:
大家好,史忠植老师和王飞跃老师都是这个行当里的前辈,因为我记得我在读本科的时候上人工智能课,就是用史老师的书作为参考书。王老师也是非常杰出的专家了。
在这里就像是当年的学生年代,又学了一点新的东西。有一点感受吧,感觉要做一个好的科学家,不只是研究技术,而是在研究哲学,研究一些物质的本质、规律,研究一些最基础的东西,从那个角度出发开始往前走,这也是为什么马文•明斯基是这个里面,对我们来说影响很大的一个人。因为当时我在读PHD的时候,人工智能也是一个低谷。那时候做AI的人都不做AI了,来做IA了,这个也是人工智能,刚才史老师讲Agent(英文)。
我当时是在清华去投AI的实验室,读PHD。如果去网络组,一般来说就是挤破头。你可以看到这样的一个变化,那从某种意义角度来看,马文•明斯基对这个社会,对这个领域是最有影响力的一个人,因为他的一本叫《Perceptrons》的书,就可以让整个联结主义沉寂了几十年。其实到了现在深度学习的一些工作才真的开始发挥作用。我想如果那个时候继续往前走的话,也许很多工作可能会提前十几年或者再早一些就出来了。
从另外一个角度来讲,上帝关上一扇门,也会为你打开一扇窗。我们看到在很多其他方面的技术有很多的发展。其实应该讲科学和技术的发展是一个螺旋上升的过程,它没有一个终点。就像一百年前,我们很难想象今天,那时候工业革命发生以后,那时候电话也发明了,电视机也发明了,不需要新的技术了。但是我们现在发现,这些技术仍然在日新月异地发展,所以技术是以一个螺旋上升的方式来看的。
那我们回顾来看整个AI的历史其实也是这样一个过程,它有高潮期,有低谷期。无论从高潮期还是低谷期,我们看到的这些特别特别新鲜的想法,实际上带动了这个学科往前发展。你要知道在达特茅斯会议的时候,马文•明斯基才29岁,刚刚博士生毕业没几年,是一批非常年轻的人做这个事。
这样的一些东西对于商业的影响,其实我想AI从它发展到现在,其实人们在做计算机的时候,就想着计算机能够取代,或者是能够解决人脑的一些问题。比如说机器翻译,这是人们觉得一个很难的问题,因为语言是人和高等动物很大不一样的地方。在1954年的时候,计算机和人合作做了一个实验,当时做了一个演示,演示了60多句俄文,把它自动翻译成英文。当时说这个机器人自动翻译的,翻译的结果你也可以看,我看不懂俄文,但是看英文还是比较清楚的。
你会觉得机器能够解决像机器翻译这样的一个问题,可能用不了几年。因为你看机器,我们在那个地方也能翻译这么好,而且60多句是不同领域的。
但是其实真正做机器翻译的时候,遇到了很多很多的问题。IBM研究部门在这个方面做了很多年,现在还在做。我们看到了不断的提高,同样也跟AI是一样的,就是一个螺旋上升的过程,提出了很多基于机器学习的方法,像这种做机器翻译的任务产生了。然后更好地利用大数据,我们看到很多互联网公司,用数据来解决翻译的问题。
从这个角度来说,其实人工智能在解决问题里面,我们人就有这样的梦想,在商业里面人与人之间的沟通能不能通过这项技术很好地解决?
其实还有一些,最近AlphaGo也让我们非常激动了一下。其实做人工智能的梦想,下棋这件事情是智能很大的一个表现,棋能看出一个人的智商到底有多高,棋高一着,来代表这个人的思维和思考能力、计算能力。
其实如果你回顾历史来看,在四、五十年以前,甚至再早一些,很多当时的算法已经发明了。当中1994年IBM的测试,就是用的西洋跳棋。如果大家看DEEP MIND,就是AlphaGo那个公司,让机器随机去读游戏里的像素特征,并不懂游戏规则是什么,接盘子或者一些简单的小游戏,机器通过反馈赢了还是输了,经过一段时间机器就能学的很好。他的机器学习的能力,其实在94年这样一个工作的基础上去做的。
我们看到很多时候,你会发现很多早期做技术的有很好的理念,他用这样的理念解决了当时一个问题。可能再过一段时间,人们慢慢地以往,但回过头来当新的设备发展起来,包括一些大数据的存在,它再出现的时候,你可能已经记不清楚了。包括像西蒙做的是一个跳棋的程序,这个也是非常轰动的,当时做了一个电视的转播,那个比赛比今天还轰动,赢了一个州里冠军,IBM第二天股票上涨了百分之十几。过了几十年慢慢遗忘了。
整个技术的进程就是这样不断螺旋发展的,可能一段时间又回过来一点,又过一段时间往前走一点,但是它是不断往上走的。
我们看现在,在行业里面又有一些什么新的变化?我们在看今天的技术,人工智能这个词提出来的60年前,或者马文•明斯基写《Perceptrons》那本书的时候,这几十年有什么大的变化?其实如果你看很多技术上的变化,这些该有的算法,该有的理念,该有的方向,那个时候都已经定义很好了。只是很多方面做得不是那么细节。
但现在确实有一个新的变化,我们真正迎来了一个大数据的时代。数据变成了一种可以利用的资源,而且它在不断地成长,它的驱动来自于几个方面,一方面是来自于移动技术的发展,设备产生数据,包括摄象头产生的数据,一个手机现在可以产生很多的数据,可以用手机来直播,现在很多这样的一些数据每天都在产生。这个数据是以前很多场景下没有的,我记得看了李非非老师,他做的NET,一个最初始的想法我能不能构建一个足够大的数据,这个数据集可以标注的,还有好多视觉辨识,小孩子每秒25帧,得到的数据是很多的,而且它的数据是被标注过的,妈妈告诉他这是一个苹果,所以他有足够量的数据。从这个角度来说,如果我有一个足够量的数据,那我可能是为未来做模式识别、图象识别很好的基础,所以他构建了一个环境,让很多资源来标。标到足够大的时候,确实产生了量变到质变。
另外还有一个人的数据,我的手机坏了,有一天尝试了没有手机的时代,工作效率特别高,没有微信,我就可以全身心地工作,但是那天中午没有吃成饭,因为我平常都是订餐,食堂的卡什么都没了,就买了一点饼干。我发现最大的问题是没法打车,IBM研究院也是在一个比较偏僻、安静的角落,周围没有太多的公交,我打车以前都用滴滴或者Uber,但是没有手机真的不行。现在这个社会已经变成移动的社会,我们以前希望构建一个Agent,这个Agent是什么呢?他能懂我,他能代表我去跟物理世界,跟计算机世界做交流。
但其实这个Agent已经出现了,就是你的手机,没有手机的日子,那一天我会觉得很痛苦。
因为这个手机这种社交媒体很多的时候,它也带来很多的数据,而这个数据实际上是很可怕的数据。以后我们想一想,以前一个人能写多少东西?你很难想象的,你提起笔来想想就放下来了,写书信一天能写多少呢?也很难写。如果现在一个90后、00后的小孩,每天把他的生活都放在网上,每天发一个帖子攒在一起,每年都能写好几本书,关键这些数据都电子化了,从这个角度来说,他把所有的信息都存储起来了。而这些数据帮助我们解决计算机算法里面以前遇到一个什么挑战呢?我其实是没有足够多的训练数据。比如说最近深度学习有很大的突破,很早就证明了,有一层一层的神经元网络。神经元网络多少层好呢?这个并没有一个结果。但最主要的结果,这么大的参数空间,每个神经元都有好几个参数,它之间连接关系都是一些参数。那这些参数需要足够量的数据来去帮助他,避免他,但由于大数据的出现,而且由于现在计算能力的提高,我们也能很容易拿到一个(英文)的软件,放在你的计算机里,如果有GPU可以做加速。
这些技术我们传统的技术很难做的,比如说图像,在我读PHD的时候,那个时候我的指导老师说图像是一个很好的题目,你可以做50年,50年很长了。你再过一段时间还可以再做50年,因为图像是很难的,你设想一下计算机拍到了一个图像,如果你要做图像理解的话,第一步是要做图像分割。很多一些主观的假设,我做特征的分析也好,在这个假设当中,其实有很多噪音,我们在以前做的很多工作里头,发现在论文里面效果很好的一些场景,在真实场景下面就很难有同样好的结果。
我记得我当时做了一个图像检索的论文,我的值算出来百分之二十几,当时我的指导老师说,苏中你很有胆量。因为你看到很多发了论文,很多基础线是80%。深度学习是从结构上去模拟脑的过程,一个脑做视觉的过程,从这角度出发的话,给它足够多的数据,有足够大的计算能力,它就能够做得更好。
事实上前段时间我就遇到微软的同事,他们已经在做图像识别做了3.0%多了,这是个什么概念呢?人能做得多好呢?人的错误率大概在10%左右,它的图像识别在那个基础上已经比人还要好的,那还不是一个普通人,他的图像是多类图像,不是一类图像,就有好多类,像我们一般识别一些普通的。
在图像,语音,我们现在这样的技术,因为大数据的发生,它都实现了更大的突破。这个突破带来一个什么样的结果?我们刚刚讲了大数据的出现,尤其是这种非结构化数据的出现,计算机科技理解了,那是一个很大的不一样。因为计算机它是个算,算得比人快,如果在商业领域里面做的是什么呢?流程自动化。算得很好,比如在座各位你存在银行里的钱,帮你算。而且你现在看我们的利息,可以做到日息,甚至小息都可以算出来,因为计算的成本越来越低,计算的速度越来越快。我记得我妈妈那个时候存钱都是用算盘算的。
遇到什么场景会很痛苦呢?利率有时候会调,我妈妈去存钱的时候自己算了一遍,她也是做会计的,跟银行里面算出来不一样,还会产生一些纠纷。但是你基本上很难想象这样的事情发生,所以计算机在第一天开始,它是做这方面的一些处理,它可以把数据都电子化。
但是计算机真的可以理解图像、视频、语音、文字,它可以像医生一样去理解一个病人的记录,一个电子病例,可以像老师一样来阅读一个孩子交上来的家庭作业。中国人遇到一个比较少的场景,律师帮你看看你的购房合同里面有什么瑕疵没有,如果能做到这样,那是一个很不一样的场景。整个IT从原来以计算为核心,就会迈入一个以数据为中心,甚至是认知时代的到来。
我想IBM在这个方面做了很多的工作,在一年前左右,我们整个公司进入了认知时代。认知时代其实是很大的一个点,其实这一轮智能技术的发展,它的驱动力是来源于刚才讲的两个方面。第一方面是数据,尤其是非结构化数据蓬勃的发展。另外一方面,我们的计算能力和一些算法,在这些数据的理解上面产生了很大的突破,所以结合这两个方面,我们觉得在整个IT技术的变化当中,计算机或IT的技术不光可以以前计算为中心,速度更快的场景,还可以传统(英文)做的事情。
举个很简单的例子,在座的各位来做了很多的学习,如果在座的各位是媒体记者,可能要看看苏中老师写过哪些书,马文•明斯基是干吗的,他有一些什么样重要的著作。今天在来的嘉宾里面,这个话题有没有相关的话题?不同的观点是什么?像这样一些事情,如果计算机已经能够理解海量的文本,抽取海量的图像数据,假设再过20年,可能是下一代的王飞跃老师,每天都会把他的想法抛到网上,在你来之前就可以写出一个很完整的沙龙,今天的活动背景是什么,我们这些演讲嘉宾都有哪些重要的观点,而且他还给你一个很好的建议,你压提出什么样的问题。像这样的工作,这个认知时代,现在我们讲的智能技术或认知技术可以带来的,这个是整个IT又往前跃进了一步。
我们回顾IT的历史,实际上是从打孔机开始的,完全的固定计算,没有办法编程,只能算一些人口普查一些固定逻辑的,通过联线的方式,把一些逻辑放进去。当有项目的时候,可以把一些业务逻辑放进去。当我们讲认知时代,机器可以理解,随着更多的数据来了以后,它还可以不断地自我学习,自我提高的能力。而且在最后数据本身,已经把它变成为一个知识库,还可以做推理,我们刚才讲了理解—学习—推理,如果计算有了这样的能力的话,那我们会对很多行业带来质的变化。
这个是智能技术或者是认知技术在一点点改变我们的世界。大概在几个礼拜以前,我正好在成都参加了一个论坛,那个论坛里面,我主持了一个也是跟智能相关的话题,大家对于未来的一个展望到底什么样?我听到有的人对未来觉得很不错的,很美好。有的人对未来还是有一些担心的,智能技术会不会带来一些负面的效果?但有一点是说,我当时讲的还想再讲一遍,其实你仔细想一想,从人类到现在有文字记录的历史可能也就是五千年,几千年的历史,这是很短的一瞬,因为地球的历史几十亿年。在地球上出现生物的历史是几亿年,五千年是短短的一瞬。很多技术的发展,对人类历史影响很大的,比如工业革命是很大的变化。在工业革命发生之前,我们所有的人,如果现在工业革命还没有发生的话,我们不会有这样的机会大家在城市里面可以讨论,可以有不同的工作。我们大家唯一的目的就是吃饱穿暖,为什么呢?在没有其他的力量,我们必须要种地,必须要打渔,我看了一个帖子,不知道是真是假?在元朝的时候,或者是在那个朝代,或者在古时候,耕牛是不能拿来做菜,是要杀头的,因为是说粮食是很重要的东西,牛是很重要的劳力,来保证一方的粮食供应,所以99%的人都是生活在让自己吃饱穿暖这件事。
但是当工业革命发生以后,带来一个很好的,人们解脱了土地对人的束缚,体力劳动已经变得不再那么重要了,我们设计了一些机械装置,它们可以帮我们做得更好。从那天开始形成了城市,或者城市里面的人口越来越多,超过了农村,而且也分化越来越多,产生了各种各样的行业,服务业的发展。
我们再看智能技术的发展,是把我们从体力劳动工业革命,把我们的体力解放出来了。我们脑力劳动里面仍然有相当一部分是非常非常繁琐的,那智能技术可以大大地从某种角度来讲,把这样一些繁琐的脑力劳动,把人解放出来。人解放出来以后,人还干吗呢?我当时就想,人有可能再重新回到农村,因为你仔细想一想,我们在城市里面干吗呢?在城市里面能够得到更好的服务,但城市里面有城市的问题,有交通问题,有资源供给方面的问题等等。
但是我们的职业也是知识工程师,如果智能技术能够往前走更多步的话,把我们人从更繁琐的脑力劳动解放出来,将来的社会又不一样,所以它也许是工业革命被人们改变了以后另外一场巨大的革命,对人类社会都会带来很大的变化,对于工业,对于行业,对于我们人的生活都会产生很大的影响,我们未来的生活可能变得更有意思,更像一个完整的人的生活。
好,谢谢!
(本报告根据速记整理)
CAAI原创 丨 作者苏中
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会