中国人工智能学会

Chinese Association for Artificial Intelligence

GAITC 2017 模式识别与智能感知分论坛实录丨周曦:计算机视觉的产业化探索

发布时间:2017-05-31

微信图片_20210913145059.png

 周曦
云从科技总裁

以下是周曦的演讲实录:

很高兴和大家交流,我原来以为大家是偏产业或投资方面的人,一看很多是同学。听了前几位嘉宾讲的东西都是偏学术的,我尽量讲快一点,一会我们可以讨论。两个部分,我主要想跟大家分享一下,如果我们搞计算机视觉技术的人想要创业会遇到什么问题,以及在这中间我们自己的思考。

首先,讨论一下计算机视觉这个行业。我理解人工智能分为感、知、用三块,我们做语音和图像处理都是感这块,感相当于人的五官,是一个交互的入口。知就是我们的大脑,就是做分析的。用就是包含身体、躯干等等这些东西,这是自卖自夸一下,说我们的视觉很重要,视觉占到了信息源的70%到80%。我们看一下只占10%到20%,亚马逊搞了Alexa股价到现在已经900多了,他们的老大马上当全球首富了,顺利超越比尔盖茨。Alexa利用语音识别入口把所有的设备商连接起来的手段,亚马逊从2010年开始布局,大家讲了很多年的未来交互的入口,它首先自己做了一个音箱,通过把这条路走通了以后,它开放Alexa这个平台,让其他各种设备的硬件厂商接入,现在接入量上万了,所以就成了新的入口,当然也推动了亚马逊股价的上升。可见人工智能的感知这一端,作为入口有很大的魅力。反过来视觉能搞这个东西吗,计算机视觉想做的事相当多,我们可以应用到电商、招聘管理,安防,直播,如果计算机视觉和其他的行业结合,和自然语言理解,ARVR,生物结合起来,还可以撬动各行各业。那这么大的应用前景,它怎么就没有出来Alexa这样的东西呢。

我们这个行业已经做了很长时间,有一件事不知道是好事还是坏事,好莱坞的电影早在一二十年前,就把计算机视觉演的非常神了,因为我自己是做人脸识别的,所以在好莱坞电影里向来随便就可以把坏蛋抓出来,好处就是帮我们做了广告,就是让民众理解人脸识别怎么用,缺点就是总是让客户有不切实际的期望。我在2011年回国的时候,当时我们的公安就有评测人脸识别技术,希望用这个人脸识别破案。总之,测出来的结果,我们当时排第一,但是没有用,事实上当时的技术离破案一点关系都没有,那时候能够帮公安做一点事,就是证件查重,因为证件的效果好,除此之外想在监控视频下拿来破案是完全没有希望的,这是2012年的情况。

我说的这个什么意思,实际上计算机视觉的场景这么丰富,但是它没有产生一些非常牛逼的入口级的杀手锏应用,其实是效果问题。我们看一下人脸识别,人脸识别这里有写,在2015年这一年的时间,2015年到2016年,识别率提升到2个数量级,这是什么概念,我们以前是做语音识别出身的,我出国之前,03、04、05年是做语音识别的,04年在微软的时候,我们在讨论的这个数据有没有错,全球当时花在语音识别上的投资经费已经超过了阿波罗登月计划,但是当时做的事就是能做日报读报,如果你认认真真读报纸可以,想在实际应用没戏。当时的语音识别就是摩尔定律的水平,每18个月的时间可以把错误率减半,如果做语音(英文)接线盘,上面还有30%的错误率,所以我就当了逃兵,不做语音识别了,改行做图像和视频了,所以我就讲,做了一个错误判断,正确的决定,实际上语音识别的发展速度比我想象的快一些,几年以后科大讯飞也上市了,我在那也呆过几天,看一帮兄弟很成功,包括我们开了云知声都很成功,但是图像视频是比语音更大的入口,即便人脸识别有一个数量的提升,也仍然只是在部分场景能用,前面各位老师讲到了,同一个技术在不同场景下的差别极大。像人脸识别,我简单说,你做确认和识别,就是1:1和1:N,你做配合和非配合不同技术上的影响很大的,确认就是我只是想知道这两张照片是不是同一个人,这个应用点就非常多,比如说你去银行办事,宾馆,去飞机场火车站,把你身份证拿出来就是要判断人证合一。现在就是N的问题,就是我一个照片知道它是谁,这个N有多大,这也是一个问题。再就是同场景和跨场景,注册照片和现场照片是在同源获取还是跨源的,一个是身份证照片,还是一个现场视频,这个跨源的情况很多。还有改变配合与不配合,我们去机场和银行是配合的,但是公安如果抓人的时候,基本都是不配合的,犯罪分子通常喜欢在夜黑风高的时候出来搞事。即便人脸识别,大家觉得目前进步很快,成熟度很高的人脸识别应用,它仍然是非常受限的。

如果我们要做技术创业,那我们应该怎么做这个事情。我想起一个很牛的师兄,科大讯飞的刘讯飞师兄,科大讯飞从99年做语音识别的公司,显然是太早了,结果过了十年时间语音识别才能真正大行其道,所以你就要有本事活十年,要不然像刘师兄一样让安徽省政府把任何一个项目都给你,也拿国家补贴,做到你的竞争对手都倒闭这样就行。现在很多公司都是这样做的,做无人驾驶的,五年十年才能用,就看谁能熬得住,把其他人搞倒闭了你就行了。要不然你就选择人脸识别这样的公司,你现在做,现在做人脸识别面临一个局面,人脸识别已经能用了,就是所有的大公司也会做这个事,你是小公司就得直接跟大的巨头,不管是BAT也好,就跟他们打,你打得过也行,要不然很早跳槽,要不然你就直接面对这些大的对手,基本上做技术创业只有这两招。第一种就是拼耐力,第二种就是拼速度。所以我们自己做,明摆着就是拼速度,2015年年中开公司,当时大大小小做人脸识别的公司没有100家也有50家,就是看谁能够最快速地把这个技术落地。在这种情况下,我们自己的基本思考是这样子的:第一个,就是做创业要保持聚焦,本身就没有人家资源多,再说现在搞都搞不赢,就是集中力量办大事,保持机动性的问题。第二就是耐得住寂寞,忍得住诱惑。因为人脸识别需要做的事太多了,同时坚定不移做一件事太苦了,你就会想要不要干其他的。

我讲点自己的例子,2015年我们成立公司的时候,本来想做安防的,结果成立完公司以后发现银行的机会出来了,一般来讲银行很少用新创业公司的东西,但是好在2015年,因为一系列的原因,银行就得去采购人脸识别技术,而人脸识别技术大部分都很年轻,所以必须在几个年轻公司中挑,这时候就出现人脸识别公司搞的死去活来的,结果价格越来越便宜,每单都会赔钱,每次PK都要死不活的,这个时候出来一个问题:要不要做这个事,你会发现有很多其他的机会,刚才看到进步非常快的曲线,也是我们打架打出来的。当时有一个客户,前前后后三家公司PK了4个月时间,PK了7次。最早是给了一个水印照片,目的就是让人脸识别公司识别不了,客户要求什么呢?客户要求现场视频拍一个照片,识别是不是同一个人,一开始我们几家做不到,结果过完节以后有一家做到了,而且把它的识别率做到了接近90%,没有办法,我们研究院院长就去现场,人家都搞了,他们当时还出了一个理论上线,我们研究院自己算理论上线,我说这个不可能,一点战略都没有。从10月份开始,一直搞到元旦以后,最后这三家公司都能做到在万分之一的情况下成功率达到95%,技术就是这样进步的,如果放到实验室这个事可以干三年,就是这样的残酷竞争,你会发现这个项目一共就几十万,全是入不敷出的,你还要不要做。所以经常说保持聚焦,讲道理听起来肯定就是这样子,但是当你这么做的时候,不一定做得到。

我们有时候也嘲笑一下友商,你看当老大不坚定吧,又转向了,其实我特别理解他们的想法,因为他不知道他是不是一条路把队伍带到沟里去了,如果你坚持,万一是死路呢,你就转向,如果人家走通了你又摇摆,要不然是冥顽不灵,要不然就是摇摆不定。所以首先把战略方向看清楚,这条路是走得通的才要保持聚焦。最终银行是我们赢了,成了银行第一大供应商,是因为我们坚持了,只是因为其他公司看的不够准,仅此而已,所以有时候很难说。所以在云从的角度来说,我们从来不做其他的东西,到现在为止就是做人脸识别,我认为人脸识别市场足够大,这个可以跟一些同学讲一下,这个不是我编出来的,是很多大佬教我的,你判断这个市场够不够大这么判断,一个公司一定要设定未来三年的目标,如果目标3亿6亿10亿,你所在的领域值不值这个数,所以人脸识别显然搞几个亿的销售额完全没有问题。

第三个,人脸识别本身就是入口,本来可以打开各行各业,所以坚持不懈把这个入口做好,这个是非常有必要的。具体做什么事呢,这个讲到2B和2C的问题了,大家很多人觉得C端比较性感,我们做C端,大市场,你得看你的技术行不行。B端是什么特点?B端的特点,第一它的门槛高,也就是说它要求是你的性能要好,技术比较难;第二要求服务要好,第三对价格相对不敏感。C端要求性能好,使用方便,价格便宜。我们想一想,我们现在的技术基本上是偏定制化的,我们做人工智能技术,金老师也讲了,还没有一个通用技术搞定这件事的时候,怎么做到使用方便,怎么做到价格便宜,使用方便。我们买一个手机,如果有一个手机说,你要看说明书才能用你会买吗?很抱歉,我们的东西你看了说明书还不能用,我还得派人上门给你调试。但是反过来,如果今天是做大B端,上门就调试,就是服务好。现在大家我们行业的独角兽都是做B端的,做不了C端。C端什么时候才能做,我估计还要做一两年,以现在的速度发展,再有一两年就可以了。

市场分析,机遇与风险并存。今年开始人脸识别市场有亿级的项目出现了,表示机会与风险并存,这里有一个鲨鱼,我们这些公司自称是一线公司,人脸识别公司里最领先的几家,我们其实跟大鲨鱼比起来很小很小的,所以这是很危险的时候,所以每当有机会来了它可能是一个陷井,如果我们站不住,可能被后面的鲨鱼吃掉,所以是这样的问题,所以这是拼速度的问题。实际上怎么做这个事呢,前面各位都讲了,我不详细讲了,要把算法和数据和行业应用都打通,只有这样才能立得住。这是埋头拉车,抬头看路。先把眼前的事完成好。

接下来讲一下云从自己是怎么走过来的,我自己的背景,原来我在国内做语音识别和身份识别,06年去美国,我自己蛮幸运的,起点比较高,我们进步很快,07年去IBM,还有微软,我们在美国拿了六个冠军,然后想做点实用的东西吧,就是找一个特别落地的,就是做人脸,就跟国内联系了,中科院重庆院就三次到美国来谈,我们就建立了一个联合研究中心,在中科院做的还不错,我们在刘成林老师的领导下面做专项,做的还比较成功。2015年云从科技正式成立,成立这个公司的目的,我觉得再不成立就不用成立了,只有改行了,就是我讲的逻辑,当那个东西真正到爆发的时候,要不然迎难而上,和大公司竞争,要不然我们就做一些不实用的东西。成立公司以后,当时的情况是,阿里巴巴,百度,腾讯大规模搞人脸识别了,我们还能做什么呢,当时技术比它们领先一些,技术领先这个事是非常靠不住的,尤其大公司的大量投入,你怎么保证你怎么赢。所以我是特别感谢我这几个对手,说实话,如果没有他们肯定我们大家都挂了,就是因为有这几家天天打,经常有人问,大公司赶不上我们,原因是一些公司互相拆台,互相打。就像我们在银行PK的时候,每个银行要POC测试,各家分别提供数据汇集到一起,我发现有一个友商提供的全是老人数据,果然我们识别不对,就是我们自己的缺点对手比我们还了解,你只要有一点点做的不到位的地方就有人搞你。我们都一样,只要有一点毛病,我们友商都会到银行当播音员,这样我们进步就很快。所以,技术,产品,市场三位一体都得抓。技术是根本,所以云从的技术团队很大的,我们三个研发中心,上海、成都、重庆两百多人,我们在上海交大和美国硅谷加起来有300多个研发者。这么多人肯定要干很多事,外面的人脸识别是几十个模块。我们保持做一线公司,江湖地位是打出来的,不管是银行还是公安,你要努力拿第一,我们也不能保证都赢,只是胜率的问题。

第二个就是产品,只有技术不行,要深入业务场景做产品,我们在银行里,11个部门有46个解决方案。公安里我们做海陆空一体化的应用,因为公安的东西涉秘,我不详细讲了。

第三个就是市场,市场特别重要,我们逻辑是从上到下都得搞,我们云从有中科院背景,相对来说比较容易做,我们得从顶层设计做起,人脸识别不管公安部标准,国家标准,都是我们云从做的,所以最顶层的标准和未来的发展都要控制在手上,这是很重要的点。第二就是落地,云从在全国10个城市建立销售服务中心,每个销售服务中心管周边几个省,我们在每个省都有专门的服务人员,这种配置在一般小公司不是都能看到的,我们还有科学家跑去装摄像头被电打伤了,我们严厉批评了这种行为。结果就是我们做到银行的第一大供应商,包括中农交建等几大行,银行总行一旦选哪家是不能改的,是不替换供应商的,之后不管做网点改造,还是信息服务,都要用云从的产品,这也是为什么当时打的这么惨烈,即使是10万块钱的单子也要抢。第二个就是公安,这个也是很幸运,2016年在广东,把日本和德国甩在后面了。总之在公安的事情进展还是不错的,云从几个月时间,从2016年9月份开始做,现在在22个省已经上线实战了,我不详细讲公安的事了。

云从科技在2017年人工智能已经被定为国家战略,国家发改委定了4家人工智能基础资源公共服务平台,4家公司分别是百度,腾讯,科大讯飞和云从科技,我们非常有幸为国家出力,建立人工智能平台,国家要求它每日调用次数超过1亿次,也就是说希望人工智能作为一个桥梁,真正可以改变各行各业,这个要求估计百度和腾讯比较容易达到,对我们来说是一个问题,我们千万级别没有问题,还没有到上亿级别的调用,也是国家对我们的鞭策。选择我们重要的原因,就是国家希望我们完全国产化,也是希望国内的公司和中科院的公司主导这方面的事。总的来说,在过去两年里,我觉得我们算是很幸运的例子,人脸识别是正在爆发的智能应用,而且在爆发的两年里,我非常幸运的没有带大家把路走到绝路上去,比如当时在拼银行的时候确实拼下来了,现在可以自豪地说我们很坚持,但是实际上在这个过程中的时候,并不是这么简单的,很多时候就是赌的,赌赢了就是英雄,赌输了就是狗熊。谢谢大家。

刘成林/主持人:谢谢周曦博士,报告很精彩,我们今天的论坛的宗旨就是学术界和产业界结合,我们希望从不同的角度和不同的方向听到不同的声音。你跟那几个公司打来打去,短短几个月做上去,靠什么,靠算法还是数据?

周曦:基本上上是靠数据,尤其对应的是客户,客户提供数据,你不能拿走。第二个就是深入场景,大家拼命的时候,就是每个细节都要考虑。为什么这个地方有一点背光就不行?就疯狂的搞这个模型,比如有人手持的时候挡住脸的一部分,你怎么用,有的时候这里有一个小照片,还有一个大照片,这个你能不能利用起来,就是一点一点扣细节。

吴毅红:您刚才说技术领先是靠不住的,这句话把我搞的诚惶诚恐,第一张PPT里是有关人才的,有没有什么好的办法和制度,选择好的人才,并且留住他们。

周曦:我也不知道是哪页了,我们可以交流一下人才这个事。人才问题是个难题,我是因为有很多失败的经验,我在2010年当时拍胸膛搞这个事,我尝试过在国内做这个事,但是发现没有很稳定的团队做不了。后来我们决定,一定要有自己的黄埔军校,自己培养人才才可以,我们在中科院有一个很大的研发中心,我们里面有六七十个人,这是很大的队伍,每年也有学生进来,在上海交大也有博导,首先就是要有一个源头。另外一个办法,我们现在有中科院和公司两边的优势,有一些研究的人喜欢在科学院里呆着,有的人愿意在公司,即便在公司,我们有上海研究院和重庆研究院,有一些人才喜欢在一线城市,有些人喜欢在二线城市,总的来说,对人才就是顺着他来,他想怎么着我们就怎么着,只要他们爽了就对了。

提问:刚才看到您在PPT中介绍,现在主要业务是2B的,如果是2C,您预测在一两年之内会出现2C的井喷,那么人脸识别会以哪种形式出现呢?我原来有一个同学,他自己创业,博士毕业以后就搞了一个公司,发明一个摄像头,戴在头上的发卡,拍小孩,我们现在知道自己家有宝宝,都是镜头宝宝,你一拿手机就摆出各种或自然或不自然的POSE,这对孩子成长也是有利的事情,后来这个也没有做好,我想知道他做的是不是跟人脸识别相关的。

周曦:是这样,所有的技术,刚才讲的东西有一个临界点,比如您讲的东西,实际情况应该是做在眼镜上,现在有AR眼镜,接下来的眼镜已经能做到完全和普通眼镜一样的,但是它还有一点重。ER公司最近没有开发好,VR戴久了以后会有头晕,说明性能不够好。使用要方便,价格足够便宜也没有做到,因为现在价格比较贵,什么时候会爆发,就是这三个东西到一个临界点就会爆发。人脸能做什么,就是作为门禁,过去车牌以前都是刷卡的,现在任何都是变成车牌识别了,以后所有的门禁都是人脸识别了,这是逐渐的,再下一步,你会发现手机上苹果8可能会玩,它就用人脸做很多的东西,这个时候技术会全面铺开。

刘成林/主持人:如果有需求,几个一线公司相互打进步比较快。

(本报告根据速记整理)

CAAI原创 丨 作者周曦
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会