中国人工智能学会

Chinese Association for Artificial Intelligence

CIIS 2017 演讲实录丨施水才:大数据和人工智能发展的思考

发布时间:2017-10-17

10月12日,第七届中国智能产业高峰论坛在佛山开幕,在第一天的主论坛上,北京拓尔思信息技术股份有限公司副董事长、总裁施水才发表了主题为《大数据和人工智能发展的思考》的精彩演讲。 

在演讲中,施水才先生从自身多年大数据技术和服务领导者角色的角度,介绍了旗下利用大数据技术推出的数据增值服务平台,并得出了“数据——信息——知识——智能——智慧”的价值提升路径。从大数据、云服务到人工智能,施水才为嘉宾铺设了一条如何利用大数据去实现人工智能增值的道路,有很大的参考价值。 

15-1.jpg

施水才

北京拓尔思信息技术股份有限公司副董事长、总裁 

以下是施水才的演讲实录: 

大家上午好。非常感谢中国人工智能学会邀请我在大会上做分享报告。现在全国人民都在谈人工智能,但是在我心目中,中国人工智能学会才是我们国家人工智能学术殿堂,所以内心是非常忐忑的,我问自己,我有什么资格站在这里给大家做报告呢?因为我既不能说自己不懂技术,也没有一千个亿,可能是我们过去20多年也做了一些工作,包括搜索技术、文本挖掘技术、大数据技术及应用,并且是国内第一个以自然语言处理为主要高年的A股上市公司。今天我想给大家分享一下对于大数据和人工智能产业的发展思考。 

我想讲的第一点是我认为把大数据和人工智能产业进行一些比对,把这两个事情放到一起比对是非常有意义的。第二点想讲的,到底我们是人工智能+行业,还是行业+人工智能,谈一下我的理解和认识,第三点我觉得我们需要突破人工智能现在非常强调3个要素,就是计算能力、数据和算法,我认为对于未来人工智能的研究和应用,仅有这三点是不够的,应该有其他重要的因素需要加进来。第四点我想探讨的是我们现在在人工智能的几个方向里面,哪一些还有大的机会,来让我们创新、创业、赚钱,最后讲一讲我们自己基于NLP平台的一些人工智能应用实践。 

对比大数据和人工智能产业的发展是有启发的。因为人工智能的发展和数据密不可分,而且目前人工智能发展所取得的成就大部分和大数据密切相关,因此观察大数据产业的发展对人工智能产业发展很有意义,同时我们认为数据驱动的商业(Data Driven Business)比智能驱动的商业更符合产业的本质,实际上大数据产业的落地能力是强于人工智能的,所以大数据产业发展中出现的问题对人工智能产业发展很有意义。 

大数据的发展有几个方面对人工智能的发展有启发。包括数据的重要性,数据质量的重要性,应用场景的重要性,行业知识的重要性、政策法规的重要性,以及变现的模式的参考意义。大数据从2010年在美国白宫首先开始制定一些政策,到2012年我们国家开始热起来,这几年出台了很多政策规范,甚至搞了很多园区,但是我们现在发现整个大数据产业仍然处于非常早期的阶段。为什么这么说?第一,它在哪些方面推动了产业的变革?第二,谁赚到钱了?现在基本上只有互联网的大公司通过推荐精准化营销、电子商务等等赚到钱了,但是我们大量从事产业大数据的企业大部分还在烧钱,行业也没有从大数据中收益和发生大的产业变革,仍然处于非常早期阶段。人工智能也是一样的,大部分的AI企业仍处于投资和烧钱的阶段。 

再细化一下,我们看看影响整个大数据产业发展的4个要素:数据开放、技术研发、产业生态、法律法规。总体上讲,目前大数据产业发展非常早期,仍然是大数据投资和创业的良机,在产业生态上主要的特征是垄断和新的数据孤岛,大数据创业公司仍需3-5年才能实现规模盈利,大部分在持续的烧钱,2017-2018年产业整合趋势明显。在数据方面,互联网大企业的数据霸权主义、政府数据公开的艰难(在国际上很落后,60名开外),行业和企业数据的难以获得以及灰色数据灰色产业链,以及个人隐私问题都非常的突出,我们国家每年数据交易的市场是500个亿以上,但是合法的只有10%左右,90%都是灰色数据链,所以导致最近公安查,说很多大公司被抓起来了,个人隐私问题非常突出,要破解数据的魔咒,需要在法律法规和产业生态两个角度去破局。 

数据的质量问题很大,最近我们在做一个国家项目,发现这个数据的问题很大,行业的数据很难开放和共享。很多数据可能是无用的死数据,如工商企业数据中的僵死企业数据,比如说大家经常提到的,全国有七千万工商企业,其中三千多万的中小以上在运营,每天新创企业几万家,倒闭企业也有几万家,但是如果倒闭数据一直这里面,这些数据还有什么意义呢?再说互联网数据的低质量和低价值密度,第二互联网数据非常大,但是互联网数据有2个问题,第一质量很低,第二价值密度很低,对于大数据来说价值密度低一点没有关系,但是对于依赖于机器学习的人工智能来说,数据质量的重要性是个大问题。数据的另外一个问题是数据标准和规范不统一。 

除了数据及数据的质量外,应用场景是非常重要的,大数据的4个V不重要,Hadoop/Spark不重要,重要的是应用场景,那么对AI来说也是一样的,因为实际上我们看到大数据和AI的热门应用领域实际上重合度很高:金融、健康医疗、教育、在线广告、情报分析……。应用场景和行业密切相关,主要是垂直化和行业化,一旦进入行业,你就会发现,很多问题来了,所以我们说人工智能发展仅仅强调数据、算力、算法是不够的。 

政策法律也非常重要,在互联网时代,我们国家互联网发展为什么快?其中一条人多,人口红利,还有一条非常重要规则没那么严,政府和行业对互联网的支持比较多,企业层面有时甚至有点蔑视规则。但是大数据和人工智能时代,像互联网早期那样野蛮发展已经行不通了。现在数据开放和隐私保护,从个人隐私到人身安全,因为搞不好会死人的。 

 现在无论是大数据还是人工智能很多创业和创新围绕技术层面,但是技术变现是非常困难的。比如大数据技术现在有300多种,比较成熟了,基础平台的竞争什么激烈,已经从拼技术到拼生态的新阶段,通用的平台化的大数据基础平台,是开源加上几家平台型企业的天下,创业公司想要在平台上和他们PK机会很小,所以大部分的中国大数据企业应该侧重于垂直行业的大数据应用。人工智能也是一样的,哦平台型的机器学习算法肯定是Google、Facebook、微软以及国内BAT华为等这样的公司的主战场,所以大部分的AI企业还是应该把重点放在应用上。变现的核心是场景+技术+数据,要以解决垂直领域的一个痛点问题为核心,在数据方面要打通内部数据和外部数据,要形成闭环,闭环不是什么都搞,更不是都自己搞,更强调场景驱动和融合。所以大数据的变现模式对人工智能来说也是一样的。人工智能变现的关键同样是:场景+技术+数据,计算能力更强,数据质量更高,场景业务的目标更专,并且增加了机器学习和自动化能力。场景是业务目标+业务模式+行业知识。 

小节一下,通过对比大数据和人工智能产业的发展,我们可以得到如何几个结论:人工智能产业仍处于非常早期的阶段;数据的重要性不容置疑,但问题多多;应用才是驱动力;垂直行业才是大部分参与者的机会所在。 

今天想和大家分享的第二点是关于到底是“人工智能+行业”还是“行业+人工智能”。我的基本看法是行业+人工智能仍然是智能产业发展的主流。我们觉得“行业+人工智能”可能占到90%,“人工智能+行业”可能只占到10%。区别在哪里?人工智能+行业是创造新模式,更多表现在以前这个行业不成熟,或者没有现有的很好的商业模式,比如像自动驾驶;而行业+人工智能是对用人工智能技术对行业进行变革和改造,要么降低成本,要么提高决策和管理水平。比如法律啊、教育啊、金融啊。很对AI的新技术在消费领域和工业领域的应用也不一样,比如消费领域的人脸识别、美颜相机在工业领域可能是身份认证、银行开户、安防监控、商业分析;消费领域的语音识别和输入法技术可能是智能客服应用,深度学习和图像识别在工业领域可能是智能分拣和安检应用。 

如果90%的机会在于“行业+人工智能”,那么钱、数据和算法就是不是决定性的因素,如果钱是决定性的因素,那未来也就不会有什么创新了。行业知识和行业专家是壁垒,所以说大公司压迫下的创业公司仍具有广阔的空间,那么那些行业将实现AI爆发或者说受到冲击最大呢?刚才李德毅院士说的很好,四个行业,制造业、教育、金融、医疗,我非常认同,我觉得最关键的是要看两点,一个是行业本身的成长空间,就是说是否足够大,是否未来有成长性,另一个是这个行业是否依赖于人的经验和知识,依赖越大的,被人工智能取代的需求就越大,比如医生,主要是专家太少。我们投资过的一个项目,是病理切片癌症诊断,据说全国能看病医生也就不到1万个,而合格的专家只有不到500个,你看需求多大,大数据和人工智能可以解决这个问题,IBM Watson的思路也是一样的。另外就是律师和金融行业的人,主要是太贵,律师一小时多少钱,金融行业动不动几百万,其实你用了大数据和人工智能后发现,其实他们不值这么多钱。刚才李院士说制造业我国使用机器人的数量远远落后韩国日本等,主要原因我觉得还是成本问题,所以我认为最紧迫的可能不是家政机器人之类的,而是取代高成本的人力以及人力不够的行业。 

人工智能产业还有一个特点比较鲜明的。就是他是Embedded,嵌入式的,所以可以说AI技术是一种Enabling Technology。未来所有的企业都应该是AI企业,所以你看现在包括Google百度都说自己是AI All In。 

今天想和大家分享的第三点是关于人工智能的三要素问题。现在讲人工智能,就和大数据的4个V一样,几乎每个专家都要将人工智能三要素,数据、计算力、算法。但是真的够了吗。我认为不够,为何什么说呢,大家看看,人工智能正从计算智能、感知智能向认知智能及创造智能的方向发展,认知智能包括理解、运用语言的能力,掌握知识、运用知识的能力,在语言和知识上的推理能力,主要集中在语言智能即NLP。到了认知智能这个阶段光有数据、算法、和计算资源我认为不够的,需要什么?我认为重要的一点可能还需要很多的知识,需要有知识图谱等别的很多东西,所以知识可能是第四个要素。从另外一个角度,目前人工智能三要素中对应用场景没有论及,所及基本还是从技术层面来考虑问题的,我们认为不够,所以应用场景的问题是否可能成为第四要素?再者人共智能必须考虑人的问题,是人工+智能,人机协作的问题在很多AI场景中必须考虑。所以我提出一个问题,如何寻找人工智能的第四要素? 

今天想和大家分享的第四点是人工智能的重点机会和方向问题。这就是以自然语言处理即NLP为代表的认知智能。目前AI硬件领域的投资很厉害,也是大公司的天下,比如GPU,FPGA,ASIC 芯片等,在视觉领域的投资,也很多,特别是图像识别啊、语音识别啊,诞生了不少独角兽公司,技术进步也很快,但是太多了。不是未来的投资方向。而以自然语言处理为核心的认知智能,目前在国内的投资及发展和美国有不少的差距。根据腾讯研究院的报告,美国在NLP领域的新创其实差不多是中国的3倍,根据乌镇智库的报告,2000-2016年,全球累计新增自然语言处理企业数据达到543家。2009年以来,美国每年新增的自然语言处理企业占当年全球新增企业总数的比例保持在40%左右,根据调研公司CB Insights近日公布的“最值得关注的100家人工智能公司,约25%的项目与“自然语言处理”直接或间接相关,所以说NLP已经成为最值得关注的人工智能公司。根据福布斯精选 Top50 AI 公司2016年融资34.15亿美元,其中约16.2%的资金投向“自然语言处理”直接或间接相关。为什么是这样的情况呢?因为在目前AI领域,依托大数据和深度学习,进展最快、效果得最好的是机器识别,机器识别结合机器学习在很多AI应用场景下实现了较好的机器智能,但是识别不等于理解,未来实现强机器智能或“智慧”,还需要解决机器理解和推理的难题,特别是自然语言理解/生成(自然语言处理技术)。如何让机器像人一样思考,理解人类语言、用人类语言表达、感知和表达情感、进行推理、规划、决策、具备自学习进化能力这些都是NLP的难题。 

NLP包含的内容也是保罗万象,从词法、句法、语义、篇章、语言表示等基础技术,到分类、聚类、情感分析、知识图谱、机器翻译、自动摘要、自动问答、信息抽取等核心技术,到搜索引擎、智能客服、舆情监控等NLP+,再到各垂直行的“行业+NLP”。早期大家认为深度学习对NLP贡献不大,这两年有所突破,我们在6个数据集上的测试表明,深度学习对自动分类的贡献还是比较大的,平均可以提高5个百分点,所以深度学习对NLP有用,但是提高的精度还不够。 

整个在自然语言处理里面,有几个东西我认为现在非常热,第一个就是聊天机器人或者虚拟助理。明天有一个专门的论坛讲这个,特别好,我在这里不多讲了。为什么这样说?因为它是所有自然语言处理技术的集大成,而且是未来争夺入口的一个焦点,所以苹果、微软、脸书、亚马逊都在搞,而且未来这些平台都会走向开源。 

一些行业相关的NLP项目也非常人们,如Kenso。 Kensho是解答投资问题的软件——像谷歌搜索一样,在文本框里输入你想知道的投资问题,由系统给出最简洁的答复,Kenso使用“基于云计算的软件”来扫描从药物批准到经济报告,货币政策变化和政治事件方面的一切文件,并回答了超过六千五百万个关于哪块市场处于领先的问题组合的答案,Kensho使用了自然语言处理(NLP), 它能够在事件和资产价格之间发现新的和意想不到的关系,并推荐用户可能没有考虑到的搜索问题。比如项目Dataminr,他分析推特用户和其他可获得的公共数据,将Twitter资讯和其他“公共数据集”转换为投资者可以采取行动的“可操作警报”。 

总的来说国内目前在自然语言处理的投资远远落后于对视觉处理领域的投资,这是我们的一个机会。但是自然语言的处理障碍壁垒更大,和行业结合得更加紧密,这是它的一个特点。 

最后和大家分享一下我们公司基于大数据+NLP技术做的一些事情,拓尔思是一家以大数据+人工智能为发展战略的创业板上市公司, 拓尔思的人工智能的发展战略,首先是AI All in的路线,即我们所有的技术产品、应用产品和云服务都是内嵌AI技术;第二是大数据驱动,利用大数据的技术和应用基础来支撑和驱动AI技术和应用的发展;第三是应用场景优先,因为没有业务场景这些技术的东西就没有用武之地,需要应用场景来前导拉动和价值变现。当前拓尔思AI技术主要拓展的场景在金融、安全、传媒、司法、情报等垂直行业领域;此外,拓尔思再技术发展路径方面强调两条,第一个是云服务落地,逐步把业务都做成云服务的模式,第二条致力于垂直整合,如果不能形成垂直整合的生态闭环,你就不能赚大钱,实现更高的盈利能力和竞争门槛。同时我们也强调与巨人同行,技术上既采用开源开放的框架和平台,又要研发出自己专攻领域超越和创新的成果。 

我们整个AI NLP架构中有很多产品和服务,最核心的是TRS DL CKM 深度知识挖掘引擎这个主要的产品,我们从2000年开始研发这个产品,功能相当全面和强大,有50多个组件,200多个API接口……,利用了GPU强大计算能力和分布式计算,已经有2000多个客户产在使用这个产品,让数据处理得更加简单和智能。这里举几个应用的例子,例如网络舆情管理这一领域非常需要自然语言处理,如果说最早是传统WEB时代1.0起步,主要监测新闻、论坛和博客,经过大数据时代2.0,主要监测微博、微信和APP,基于社交媒体和移动应用做舆情分析,到现在已经是3.0阶段,把物联网和万物互联都加进来,而且用上了人工智能,我们叫进入智能化时代,从舆情监测到态势感知。在当前人工智能时代的应用热点是网络舆情态势感知,怎么能自动地识别和预判热点和爆点?我们设定一个指标体系,用一个分析判断模型,一条微博如果转发超过50万,监测一个小时以内发现如果满足一些模型条件,我们就认为它大概率可能形成一个爆发点;另一个在金融监管领域做的反欺诈和防止非法集资的服务,已经在服务于很多客户了,其中也用了很多机器学习的算法和模型,提炼出一个“冒烟指数”的指标体系,有几百个指标。最后加权计算综合得分40分以下风险可控——“没事儿”,40分到60分就得重点关注了——可能“有事儿”,达到80分以上那就“要抓人”了。这里面众说周知的X租宝在2015年4月份我们就认为它非常危险,到了12月曝光查处的时候,它的分数已经超过80多分。我们终重点监测全国几十万家企业,一个是数据,第二个是模型,二者结合非常关键。情报分析大家都知道,类似美国的Palantier情报分析系统,最关键就是大规模知识图谱的构建,以及最重要的是动态本体的构建。其中除了计算机系统以外,人机结合的增强智能还是非常重要的,现在很多方面还要借助人的分析方法和方向判断,系统则提供人做不到的数据分析和计算,效率更高。经常有人宣传利用人工智能大数据抓到多少犯罪分子,类似的情报系统我们在公安系统内有很多的部署和成功应用。 

再举一个自动专利审查的案例,我们国家现在专利已经世界第一大国家,我们三年前就开始做实用新型专利自动审查系统,现在已经把这个扩展到发明专利。国家知识产权局用我们的系统对实用新型专利进行了自动审查试点,年处理实用新型申请百万件,每天处理上万件申请,识别出17%的涉嫌抄袭申请,准确率接近100%。另外在企业里面,用我们的网脉用户行为分析系统可以通过人工智能来营销获客,海尔集团用的非常好。AI应用很广的另一个场景是客服机器人,我们也有不少案例,包括在政务等行业,智能客服的人力替代减少成本的效果非常好,但目前还不能完全替代,人机结合的体验最好,既保证服务水平也能逐步提高。在传媒领域,我们的NLP技术可以用在机器人写作,主要是用在体育比赛、证券市场等方面的资讯类别;《今日头条》可能是用AI技术进行自动分发,但媒体生产端是不是也能用AI技术呢?这个例子是我们的融媒体平台被认为是采编黑科技,因为用AI帮他们做选题效果提升非常明显。 

我们在具体做AI相关的工程、做应用的时候,觉得有几个体会,第一个要专注在垂直细分领域,第二个是必须构建特定的知识图谱,第三个设计和利用约束或者指导手段,要限定它的输入空间,第四强调个人机结合协作,特别在初级起步阶段,第五个注重提高自动持续机器学习的能力和效率。我们最近主导设立了一个专注人工智能产业的投资基金,已经投资了几个包括健康癌症诊断、机器学习平台引擎等方面的AI项目,今后欢迎大家一起合作。 

总结,我认为我们分析比较大数据产业的发展对人工智能的产业发展非常有意义;第二我们认为行业+人工智能仍然是主流,行业里有更大的空间可以供大家去创新和创造;第三面对人工智能的落地和进一步发展需要,人工智能三要素还不够,还需要知识作为第四要素;第四是在自然语言处理领域的里的创新机会和拓尔思在这方面应用实践。希望与大家共同努力,推动我们国家人工智能产业特别是自然语言处理技术领域更快更好地发展。 

我的分享就到这里,谢谢大家!

(本报告根据速记整理)

CAAI原创 丨 作者施水才
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会