发布时间:2017-06-30
管延放
搜狐公司大数据中心副总经理
以下是管延放的演讲实录:
大家下午好,很高兴有机会跟大家一起探讨人工智能在商业化环境下的实践和挑战。
我来自搜狐的大数据中心,我们团队最主要的工作是负责搜狐整体的流量变现。什么是流量变现?我们知道互联网公司的收入模式主要是两种,一种是前向收费,就是由用户直接付费订阅或者购买,公司直接从用户这里收钱;另一种是更为普遍的后向收费,就是互联网公司把服务或者内容免费提供给用户,然后再按照用户的关注浏览次数,从商业客户那边获取广告收入。这种后向收费的模式,和流量的大小有紧密的关联,所以也称之为流量变现。我从2013年加入搜狐以后,一直在忙的一件事,就是利用技术手段处理搜狐的数据资源,产生出对用户的精准理解,并且在这种理解的基础上,为用户推荐最合适的个性化广告。我们把自己称为大数据中心,是因为大数据是这一切可能性的基础。当时人工智能的概念还没有现在这么流行,所以我们虽然实际上一直在用机器学习的技术,但最早并没有把自己当成一个人工智能的团队。
去年发生一个有意思的转变,整个行业开始重新理解数据驱动商业这件事的本质。基本上大家的共识是,数据的供应量和处理能力已经不再是瓶颈。接下来更重要的,是怎样用更有效的手段把数据的价值最大化。也正好是这时,人工智能因为几个特殊的事件,成为大家讨论的焦点。我们慢慢意识到,这两件事其实是强关联的,因为人工智能才是整个大数据系统能转起来的关键引擎;也终于意识到,我们广告技术团队,其实本质上就是一个用人工智能解决流量商业化的团队。所以才会有今天,我站到这里来,和大家交流。
人工智能的发展,刚才的几位嘉宾也都提到过,我们现在不止是数据充足了、基础架构完善了,现在可供实践的算法和工具也大大丰富了。各方面的进展都给我们创造了很多新的条件。这些条件,使人工智能有机会形成一个真正有规模的产业。
在座的很多朋友应该都是创业公司或是创新的企业,大家掌握着技术,又拥有经验丰富的团队,那下一步怎么才能把这些优势变成真正的价值?这应该是大家共同面临的挑战。我会用搜狐作广告系统的例子,和大家一起回顾我们技术商业化这条路是怎么走过来的,过程中又碰到过什么困难;我也会稍微往外做一些延伸,跟大家一起探讨人工智能相关的技术或产品应该如何应对这些挑战。
搜狐的广告产品称为品算,解决的主要问题就是针对用户特性的广告个性化推荐。
如何知道每个用户的特性?用户来到搜狐的网站,会产生大量的日志记录,这些记录涉及到的维度比较多。搜狐本身的在线用户触点比较多,像搜狐门户和新闻客户端、搜狗搜索引擎、搜狐视频、畅游游戏等不同平台,所有后台的日志数据在技术上都是汇集到一个同平台上的。在这个基础上,我们可以把同一个人在不同触点上所做的行为收集到一起,形成会话日志流。基于这个会话日志流,对用户之间的行为相似性进行建模量化,就能用聚类算法把用户归集到不同的类别中,这是我们通常所说的非监督学习。也有一些方法,需要我们知道一部分用户已经具备的一些特定属性,可以做有监督的机器学习。比如,我们已经知道用户当中注册过那部分人的性别属性。用这部分用户作为训练样本,到整体用户空间中去做监督学习,我们就能把所有用户的性别属性猜个大概。这些技术能帮我们为广告客户定义出合适的定向人群。另外,精准广告产品,要求我们的系统在用户打开网页,但还没有看到广告之前,大概是100毫秒左右的时间里,做出一个机器决策,去判断这个用户对于不同广告的点击概率到底有多大,这个也是我们机器学习的算法,需要我们根据用户的历史行为,比如他看了哪些广告、点过哪些广告,使用逻辑回归的算法来计算。
有些朋友会问,机器学习真有那么厉害,能预测未来?是或者不是。机器当然不能百分百地预测还没发生的事,但机器学习算法确实可以在数据统计层面上给我们一个更准确的未来描述,具体说是预测准确概率的提升。当我们预测的事件以成千万、上亿这样的量级重复发生时,所有概率上的微小提升都会变成实实在在的效果数字。广告也一样,如果我们能把用户点击率提升一个百分点,对公司来说就是真实的一个百分点的收入,这是概率的力量。
人工智能技术领域有些什么样的进展?大家可能在各个场合都看到过这张Gartner的技术成熟度曲线图。图的左边是处于上升阶段的技术,可能并不十分成熟,但由于大家对它有很高的预期,所以会投入很多资源去研究,目前这一区域里主要是机器对人认知交互能力模拟的技术。中间这一个区域是相对比较艰难的阶段,大家在这些领域已经做了比较多的探索,也已经出现了产品,但产品并未达到预期,或者大家使用的过程中又发现了一些新的问题,造成一些质疑。目前这一区域主要是基于数据的预测性分析。右边,随着厂商不断优化产品、解决问题,大家对技术有了更清晰的预期和更完善的运用。这时这个技术真正进入一个稳步的上升期,直至最后完全商品化。这个区域里集成学习和语音识别都是相对比较成熟的技术。
纵观整个行业,我们可以看到人工智能处于一个非常高速的发展期。我们对这个行业里的公司做了一些梳理,把比较活跃的公司都找出来放在一张图上。不看不知道,原来国内已经有这么多的公司在人工智能这个领域布局,有些甚至已经形成了比较成熟的商业模式。
从图上看,人工智能公司大致可以分为三个类别。图上最左边的是智能硬件,2016年这个概念非常热门,当时的新三样是自动驾驶汽车、无人机和机器人,发展都非常迅速。在人工智能领域里这些已经是相对成熟的技术。图上的中间部分是行业应用。很多企业未必只做人工智能,但是因为人工智能的应用可以给其带来大量的增值,使得他们会在这个方面做更大的投入。这里会看到人工智能应用最广泛的几个方面,一个是企业服务,包括营销、商业研究,或者数据挖掘服务。一个是金融,确实金融这个行业最大的特点是丰富的数据,并且对数据的运用能产生看得见的收益。我们从这里也可以得到一个启示,凡是数据供给充裕的行业,都是值得人工智能去开发的行业,比如广告、医疗健康。图上最右边是纯人工智能的企业。他们可能会提供一些专有的算法,或者是在某一个技术领域里做很深度的挖掘,也可能会为人工智能技术提供通用的基础架构。
说到这里,我想稍微谈一下,人工智能到底在给我们带来什么样的核心价值。说到底就是两点,第一个是更自然的人机交互,我们之前二三十年使用电脑都需要经历一个学习的过程,但人工智使我们能够像跟人交互一样跟机器交互,这是一大突破,打破了机器和人的边界。第二个是机器对人脑能力的替代和升级,这使我们商业生态甚至人类生态能更高效的运行。今天所有的人工智能公司都在这两点上做出全面的突破,这使我们相信,人工智能这个行业,正处在爆发的前夜。
当然,更宽泛地说,人工智能这个概念范围可以更广,不仅限于一个行业。就像现在或者往前看几年,可能不再会有所谓互联网公司的说法,因为所有的公司都是“互联网公司”。人工智能也非常相似。往前看的话,也许没有专门做人工智能的公司,因为人工智能已经融入到所有的商业运作中,这也反映出人工智能应用范围之广。
那么人工智能的商业化,挑战在哪里?一个做人工智能的公司,从有一篇论文或者一个算法开始(现在一个算法也可以估值),到变成一个正式运作的公司,到形成稳定的收入,成为一个盈利业务,这个过程里有很多需要解决的问题。简单的总结一下大致是两方面,一边是Supply,你的技术基础到底能为业务提供多牢固的支撑,具体来说是数据、算法、算力;一边是Demand,你做的人工智能应用,到底能为客户带来多少价值,让客户为之买单,说到底是场景、模式和度量。
首先来说数据。人工智能可以发挥价值的最大基础在于数据,这一点应该没有人会反对。人工智能需要什么样的数据?是高质量的标注数据。单纯的机器或者算法,是不知道什么是对的错的,或者好的坏的,需要人来提供样例集合。但是今天的行业里,数据还处于高度割裂的状态。比如微信,最新的数据说1个月有8亿活跃用户,但如果你去和微信谈,去拿他们的数据,基本上都是很难谈成的。公司可能会有多方面的顾虑,比如说用户隐私带来的法律风险,或者数据的归属问题,以及数据的合理定价。在数据行业里,大家已经被这些问题折磨很久了,是行业的共性。但如果数据来源不解决,人工智能的算法又没法真正的发挥作用。所以,基础稳定的合作生态很重要。
然后再说算法。不知道在座的人工智能的从业同事们怎样用好这些算法。我个人观察到的现象,是绝大多数公司,其实只是用一些成熟的算法做简单的商业应用。但如果往前看5~10年,人工智能公司之间的竞争里,什么样的公司能够胜出,我相信一定是能建立起算法和技术壁垒的公司。有了算法,我们更需要考虑的,怎样才能为垂直领域定制更契合的算法,并且在此基础上持续优化。有一本书叫做Master Algorithm,中文版叫做《终极算法》,它的作者把人工智能分成了几大学派,但实际上的思路远远不止这些。这足以说明,在实现人工智能的道路上,有如此丰富的养料,供我们学习参考,供我们抉择取舍,直到找到最合适的方法。
第三个是运算基础架构。对比较成熟的互联网公司来说,相对比较容易,因为机房都是现成的,服务器集群都可以自己按需来搭。现在大部分的创业公司并没有这个必要,去从头搭建一个大规模的机房,因为大家可以在公有云上灵活地购买。但是不是这样就没问题?也不一定。我们把过去一年间所有云服务提供商曾发生过的运维问题做了一个简单的总结,发现几乎所有的云服务商都无一幸免。所以,我们怎样去构建一个高可用、稳定的服务,既是一个技术的挑战,其实也是一个商业的挑战。
说到人工智能的应用场景,现在聚焦比较多的领域,像医疗、汽车、金融、教育、快消和物流行业,以及一些通用的企业功能,像战略、营销、客服等。大家已经认识到了人工智能的作用,并且已经开始一些深度的探索。那么人工智能的商业价值到底如何体现?大家请看这张图。
这里有一条曲线,横轴是覆盖到的用户量,纵轴是针对每个用户可以提供到的定制深度。在没有人工智能的世界里,少数企业可以走高端路线的,为少量用户提供极端定制化的服务,也有大部分企业在偏右下的地方为规模用户提供通用产品或服务。但没有企业能越过这条反比曲线,为规模用户提供个性化服务。这是人脑局限造成的管理者对产品设计制造能力的限制。得益于现代的计算机技术,互联网公司的服务多多少少开始跨过这条线,像特斯拉、今日头条、亚马逊等很多公司,他们都开始为大体量的用户提供一定程度的个性化定制。但如果还要往上走,提供更昂贵、更复杂的个性化服务,现在的互联网公司还是有一定瓶颈的。这时人工智能行业最大的两个机会出现了,一个是我们可以直接在高端区域创造产品;另一个是我们帮助大企业获得用户高度个性化的能力。这些企业区别于互联网公司的地方,在于他们本身已经在提供高用户价值的产品和服务,只是在个性化方面没完全准备好而已。能不能用技术帮助这些企业获得个性化溢价,是toB类人工智能公司的最大机会。机会很多,就看我们怎么去发掘。
有了应用场景,怎样为人工智能效果定价,这就是价值度量的问题。我想跟大家分享一下搜狐做广告产品的例子。我们做的广告产品,使我们能在用户主动观看广告后,数倍提升他们对品牌的回忆度或喜好度,并且这个提升可以量化测算。我们也用了一些别的计量手段,包括用户调研和脑波分析来验证这个提升比,得出的结论是测算很靠谱,这个广告产品能把曝光的用户影响力提升将近10倍。但是,当我们拿着这个广告产品去市场上找客户谈时,我们发现客户仍然会按原来千次曝光的价格来评判产品。这么算,我们的产品价格比普通产品高了5倍还不止,结果就很纠结。这件事对我们的启示在于,人工智能对优化数据指标作用很明显,但客户买不买单,还取决于他们对价值指标的认同。毕竟,我们采用人工智能技术,最大的作用在于提高单品的质量,在我们例子中,就是网站每一次和用户交互的质量。人工智能对产品的数量影响往往不大,比如我们的这个广告产品并没有增加更多的曝光次数。因此要转变客户思维,为质量而非数量买单。这是一个漫长的客户教育过程。所以做人工智能,并不只是做技术,销售能力——帮客户挖掘场景,定义成功标准,这些同样重要。
最后再来说说我们的业务模式。当我们从最初的一个技术团队,甚至更早期,一篇很新颖的论文开始,做成一些技术原型,再变成正式的产品时,我们可以开始展开商业合作。但仅靠这些很难形成批量化的规模。为什么?因为绝大部分的客户是没有能力跟你对接,使用到这些新技术的:他们或者缺数据,或者缺基础架构,或者缺理解这件事的人。怎么办?要不就客户缺什么,你帮他补什么。这时你会发现你做的已经不仅仅是人工智能的技术了,而是在用更多的投入帮客户定制解决方案。另一个方向是做真正的产品化,把技术封装起来,变成客户下单就能快速部署使用的通用产品。我觉得刚才云迹科技介绍的机器人产品,它的发展过程就属于这种模式。如果他们只做机器人技术,其实很难找到客户买单,因为大家不知道该怎么用。只有把它变成一个产品,具有很容易想象的应用场景,比如帮酒店给客人送东西,这时才能有具体而清晰的商业模式。挑战在于怎样设计这个商业模式,使企业和客户达到价值上的共赢。
我们一直有一个理想,希望所有做人工智能的公司能够快速成功,缩短技术商业化的周期。怎么实现?单靠一家肯定不行。我更相信这是一个巨大的生态圈,产业链上有不同的环节。不同角色的公司,各有各的核心竞争力。只要大家把各自的能力拼在一块,形成完整的产业,我相信人工智能真正的爆发点就会到来。
今天分论坛的主题叫做未来已来,这个典故其实还有另半句,是说未来是还没有均衡分布的现实。(全句是The future is here, just not equally distributed.)我相信确实如此:未来真正成功的技术在今天已经有它的雏形。我们今天所看到的,既有将要成功的雏形,也有将要失败的雏形。这么多版本的未来,究竟哪个能够成功,很大程度上取决于谁的商业化能够成功。谁能找到自己的商业模式,把自己的优势高速大规模扩展,谁就是未来的主人。在此跟大家一起共勉!
(本报告根据速记整理)
CAAI原创 丨 作者管延放
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会