中国人工智能学会

Chinese Association for Artificial Intelligence

GAITC 2017 智能投资分论坛实录丨施水才:从大数据到大知识-自然语言处理领域的投资机会

发布时间:2017-05-28

微信图片_20210913124747.png

施水才

北京拓尔思信息技术股份有限公司副董事长、总裁

中文信息学会副理事长   

以下是施水才的演讲实录:

大家下午好!今天我报告的题目是“从大数据到大知识——自然语言处理领域的投资机会”。搞投资也是挺苦逼的事,我最近才开始学习,投资的活很专业,没有常人想象的那么风光。我今天讲的题目有四个方面,第一是对AI时代的看法,第二,NLP是AI皇冠上的明珠。第三,我们的AI之路及ABC融合的想法,第四,NLP领域的投资方向。


前面的不用讲了,我们不太愿意谈人工智能,但是不得不谈,因为大家都在谈。包括我们开复同学,前不久搞了一篇很高点击量的自媒体文章《我不是李开复,我是人工智能》。从投资的方向上来看,我们看了一些数据,2016年麦肯锡的报告,AI方面的投资到2025年会到一千多亿美金。大家也可以看到,现在大的巨头们在AI领域的优势是比较大的,但是是不是有他们,我们就没事干了?也不一定,这些巨头有数据,有人才,有云的基础设施,我们很难在通用人工智能的领域跟他们竞争。但是,还有别的很多地方和领域是可以做的。AI为什么这么火爆?昨天大会上也谈到大数据,深度学习,高计算力,本次大会第一个巅峰论坛非常好,但是我后来看了一下,6个嘉宾全是搞视觉的,没有我们搞自然语言的,是不是搞自然语言太难了?还是说搞自然语言的人不好意思上去?大数据,深度学习,高的计算能力,导致了现在很多突破,特别是感知领域。但是不是说有足够的数据和计算能力就完了,要从大数据到大知识,昨天有一个嘉宾说最后深度学习,让计算机达到5岁孩子的水平。更高怎么办?比如说认知领域的自然语言处理。人工智能从计算到感知,比如图像,语音,现在已经取得了非常大的突破,但是认知这一块还是是很难的。

为什么说NLP是人工智能皇冠上的明珠呢?我们国家在语言文字信息处理方面诞生了三家上市公司,从上市的顺序来说,最早是汉王,做模式识别,后来科大讯飞做语音识别,然后是拓而思的信息检索和文本挖掘。最近5年和语音相关的投资是非常大的,除了科大讯飞以外,还有云知声等等,这两年视觉领域的投资非常热,甚至于昨天的主持人还搞了一家这样的公司,我说可不可以投点?他说不行了,计算所不同意。但实际上我建议大家做投资要慎重,为什么这么说?现在技术的门槛已经变低了,这些东西已经基本成熟,关键是要找到应用场景。如果没有这个应用场景,变现就非常困难。而且这些公司基本上很贵,大家的目标都是独角兽,我们投资就要投资未来。

为什么说前沿的机会在NLP相关领域呢?我们看了一下国外的调研公司的数据,最值得关注的100家AI公司,25%的项目和自然语言直接或者间接的相关。从另外一个角度,福布斯谈了TOP50的AI公司的融资视角,其中16.2%的资金投向了NLP直接或者相关的领域,所以这个领域大有可为。我们投资很多时候是跟风的,跟着美国跑的,可以看出一些趋势。另外,从商业的视角来看,很多具有重要影响的技术和自然语言是直接,或者间接相关的。为什么说是AI皇冠上的明珠呢?微软前不久提出一个口号是“自然语言是人工智能皇冠上的明珠”,现在我们中文信息处理界一致认为这个口号恰如其分。

从技术上来说,如何从识别到理解,图像要能够认出来,人脸比对这些东西。自然语言主要是解决理解的问题,这方面还是非常难的。传统的NLP技术现在也在用深度学习,根据我们自己的实践,把传统的方法加上深度学习的技术以后,分类,聚类,热点词抽取等等,这些都提高了5到10个百分点,在实践中非常有用。另外,深度学习很多方法,神经网络,循环神经网络,递归神经网络,卷积神经网络,都有自己的用途。

在NLP领域集大成应用的焦点,就是BOTS,它是人工智能的聊天机器人,或者虚拟助理。为什么这些大公司拼命在这个领域竞争呢?它是NLP技术的集大成。昨天微软的黄学东的演示,其中有几个例子是非常好的,表现出微软在这方面确实有自己领先的地方。谷歌,苹果,一直到微软小冰,Facebook等等,都是竞争的焦点。

如何提升人工智能的应用效果?也有很多学问。昨天谈到强人工智能,我觉得强和弱的说法我不太赞同,强和弱是相对的,我们更加强调的是通用的还是垂直的。另外,在投资的角度来说,NLP支持认知计算围绕三大领域,一个是交流,第二是决策,第三是发现。从应用场景来说,可能是智能的搜索引擎,还有智能的投顾等等。从市场空间来说,当然是很大的,不用讲了。

我简单介绍下NLP领域相关典型的项目。这个是alphasense,里面大量使用了自然语言处理的技术。还有美国一家公司,Dataminr,分析社交媒体的数据,和其他数据进行结合,为投资者采取行动。前几年我们有一个组织叫SMP,我们经常讨论未来用社交网络炒股行不行?我在五道口金融学院经常问老师,我说智能投顾能不能搞?他们说都是骗子,这是某个基金大佬讲的。我昨天又问马马卫华,他也不可置否。主要的问题是什么呢?要看市场是否是有效的,证券市场是无效还是有效?这个特别重要。我们也看了很多智能投顾的项目,我们也特别想投资这些项目,但是非常谨慎。还有一个是KENSHO,也是跟智能投顾有关的应用,大家可以上网去查这些公司的资料。

下面讲一讲我们自己的AI之路。我从大学里出来创业,对学术和产业的认知感受颇多,挺难的。我们1993年的时候搞了一个叫全文检索,就是搜索引擎背后最重要的技术。后来成立公司,开始创业。2000年的时候我们开始做自然语言处理方面的东西,大家觉得这个领域发展太慢,市场空间太小,认知度太低。我们对标的公司想买我们,是英国的一家公司,他后来120亿美金卖给惠普。他们当时要买我们,3000万美金,我当时觉得挺好了,心也动了一下,但是觉得卖了干嘛去呢?不知道该干什么,就没卖,自己搞,后来我们也在创业板上市了。那个时候我们鼓吹大数据,其实不是鼓吹,我们做非结构化数据处理,当然就是大数据重要的组成部分。现在人工智能时代来了,我们要为大数据加点东西,我们叫“大数据+AI”。我们做AI的时候,回顾历史,最早是1990年,1990年的时候我们学校和国防科工委成立了人工智能实验室,当时参会的人很多,我记得钱学森发言,说“人工智能是人脑和手的延伸”。我们很兴奋,国防科工委给我们提供了很多基础设施,20部军线,免费使用,结果搞了三年以后失败了,人工智能的三次浪潮,我们就算一次,那个时候还是规则和专家系统的思路,没有大数据,计算力也不行。

对于人工智能我有几点看法,对产业界来说,单独谈人工智能,意义不是很大,因为它是属于赋能的。在现在实际的环境中,最近有一篇文章,讲到ABC的融合是必须的,对比一下IBM,虽然人工智能搞得很早,智慧地球的理念领先业界多少年,但是为什么最近业绩不好呢?可以看谷歌,Facebook,亚马逊,他们有数据和云的基础设施的支撑,所以他们发展得更好。人工智能的投资和前几年的大数据差不多,最近我们要发布一个“北京软件名人榜”,我现在还不能说,因为还要经过北京市相关领导的审批。有一点是可以说的,现在人工智能的热度已经上升为第二位,第一位还是大数据。我参加过太多大数据的论坛,我总结就是“钱多,人少,估值高,不挣钱”。我更加倾向于垂直的,行业性的,能互动的AI。刚才有一位嘉宾说到智能客服,如果这个智能客服跟人工系统不能结合的话,这个智能客服一定是不好的,必须要有人在参与。核心是应用场景,对于某些应用领域,光有大数据还不行,还得有知识,甚至是大知识。

面向用户提供人工智能的服务能力,不仅在于AI技术的领先还要有云和数据的支撑。我们这么多年在文本挖掘和知识图谱领域也做了一些工作,也有相应的积累,我们推出了新一代的产品,叫TRS DL-CKM,已经用到很多领域,比如专利自动审查,国家专利局是我们最大的客户,中国已经被称为“专利大国”。但是我们的专利很水,通过我们的智能审查系统,可以发现这些冒牌专利。像数据新闻,机器人写作,我们跟很多新闻单位用机器人来写文章,已经实现了,很多地方已经在用,还有互联网作品的保护等等。还有一个例子是金融的风险预警监控,大量的用到了AI技术。我们提出了“冒烟指数”,就是森林要着火了,才冒烟。这个系统对今年来打击互联网金融非法集资起到了很好的作用,另外,我们做了一个水晶球的东西,主要是用于国家安全部门,因为时间关系,不多讲了。

最后谈一下投资的建议,第一,垂直,或者是行业的,第二,一定要有应用场景,第三,跟大数据和云服务结合,第四,关注NLP和知识图谱的投资。我们上市公司拓尔思直接投资大概10亿,我们发起和参与了6支基金,第一个基金是人工智能产业投资基金,这个投资方向主要是人工智能,大数据,工业互联网,机器人领域的早期和长期的项目。我们的优势,第一是广泛的项目源,第二,专业背景,可以提到战略投资者的作用。我一见到创业者,就特别同情他们,我对搞技术的人天然有一种同情感,他们有的时候真讲不好,不懂市场。第三,稳健可靠的投资风格。第四,要有退出渠道,我们这个基金有三家上市公司出钱,只要挣钱我们就可以走并购的道路,上市公司有市值管理的需求。

我就分享这么多,不对的地方请大家批评指正,谢谢!

(本报告根据速记整理)

CAAI原创 丨 作者施水才
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会