中国人工智能学会

Chinese Association for Artificial Intelligence

CIIS 2016 演讲实录丨吴甘沙: 2020-2025:无人驾驶的应许

发布时间:2016-09-24

2020-2025:无人驾驶的应许

吴甘沙

驭势科技创始人&CEO

吴甘沙:今年2月份出来创业,我们做的事情就是智能驾驶,我今天的题目跟的内容不完全一致,说实话我的内容有点虚,看到李院士那么认真的在准备新的内容,所以昨天晚上我又加入了一些新的内容,但这些新内容我敢保证以前很少给大家看过。


今天我这个内容就分成两部分:一部分是2020-2025智能驾驶尤其是无人驾驶能够给我们带来什么?第二部分是想分享一下,我们公司为了达到这样一种愿景,在做一些什么样的技术准备。


首先有一个新的判断,大家心里面应该有数,就是2016年的人工智能它是一个什么样级别的大趋势,我们把它跟1996年的互联网以及1976年的PC相提并论。大家知道1976年PC引领了数字化的二十年,而1996年互联网带来了网络化的二十年,今天仍在享受网络化的红利。2016年即将揭开,是波澜壮阔智能化的二十年,这个大的趋势我希望大家都能够放在自己的心里面,这将影响你未来二十年你会做什么?


在未来五到十年这么一个时间尺度上,我们认为在所有的智能产业当中,智能驾驶是非常好的,首先它市场非常大,涉及到三个万亿美金的市场,第一个是市场市场;第二个是出行市场,现在大家都知道优步、滴滴;第三个是自动驾驶直接或间接带来的社会效益,这是在它的报告中给出的数字,一年能够给美国带来1.3万亿美金的社会效益,相当于美国GDP的8%。我们脑海里想一想,还有没有第二个人工智能的技术达到如此之高的社会效益,我是没有想到。这些社会效益怎么来体现呢?我还是拿北京作为一个沙盘推演一下。


北京车很多,600万辆机动车,绝大多数是私家车,车多导致了堵车,堵车又导致了排放、雾霾,又导致了交通事故,车多还导致了停车困难,一辆车90%以上的时间是停着的,而且需要两个停车位,20-30%的土地在北京是用来停车的,这个数字大家听起来觉得触目惊心,房价贵在军功章里也有停车的一半。我们就在想怎么能够通过智能驾驶,尤其是无人驾驶来去打破这样的链条,我们去问大家为什么要买车?根源是在车特别多,而且人驾驶,我们得到两个原因,第一个原因是说要按需出行,但是我打不到车,全北京只有7万辆出租车;第二个原因是工薪阶层整天打车太贵了,所以我们现在在考虑一个愿景,就是在十年以后,北京可能只生下了300万辆车,减少了一半,但是其中有200万辆可能是无人驾驶的出租车,大家初一听到这么一个愿景,可能觉得有点太不靠谱了,怎么有那么多无人驾驶的出租车呢?我请大家回想一下十年以前,2006年苹果还没有出现,移动互联网根本没有,今天享受的O2O各种各样的服务完全都没有,过去的十年技术改变了这么一个世界,未来这十年,我们相信技术的发展是呈加速的态势。当然,这些出租车跟刚才刘院士说的完全自主的出租汽车还不完全一样,我们把它定位成为在城市区域行驶的中低速的无人驾驶汽车,所谓中低速像谷歌是调在40公里的时速以下,这200万辆出租车就能够解决刚才的问题,一个就是我们想打车,车3分钟之内就能来,我们有一个大调度的算法,把这些车分布在城市的各个地方,保证我要车车就能来,保证出租车费能够降到今天的1/3,为什么?今天出租车的人本机构一大块是人力成本、一块是分子钱,一块是油钱。那么无人驾驶把人力成本去掉,份子钱滴滴优步已经挤出去了,油钱是由于我们很多车在空驶,而且新能源每公里的能源成本比今天的化石原料低很多,所以打车会非常便宜,大家改变了消费习惯,就不会去买车,我享受这种按需出行的服务。


那所有很多一环一环的服务就会被打破了,首先一排车可以整整齐齐的在路上开,车的能源效率也会极大的提升,所以逻辑链条的第一环,堵车和排放先去解决了,还有我们的通行效率也会得到极大的提升。大家知道,今天北京的平均时速20公里/小时,就是因为十字路口、交通灯,而未来有了车跟车、车跟路的通讯以后,大家可以感觉通过一个全局的调度算盘,我这车在十字路口根本不用停,我按照某种特定的次序去通行,能够保证不去撞上别人,所以我们的平均时速至少能够提升2-3倍。还有大量的车是以运营为目的的,所以对停车位要求大量的减少,即使需要停车对每一个停车位的要求也减少了,像这样停进去,所以我们我们大量的空间就能够释放出来,大家想象一下,假设每一条道路变得更窄,能够释放出来的空间是巨量的,还有今天我们中国每一天,几十亿小时的时间浪费在了路上,因为我们堵在路上,没办法做任何事情,未来车会改变它的形态,可能会变成智能空间的形态,它是除了家和办公之外的第三种形态。大家想象一下,在这空间里放一个咖啡机,就变成了移动的星巴克;在里面放一块大屏幕,它就变成了移动的影院;在里面放一套办公设备,大就变成了移动的写字楼,它将会极大的改变我们现在的生活工作的状态,我们家可以离单位变得更远,因为我在路上可以工作,我们今天的很多商业地产,写字楼、商业中心、综合体都可以拆散了塞到每一辆车里,事实上把每一条路都变成了移动的商业遗产,这个对于我们未来商业模式的提升,带来的空间是非常大的,因为可能打一个车10块钱,非常便宜,但你在里面喝一杯咖啡就30几块钱,看一场电影50几块钱,所以这也是我们为智能驾驶非常激动的原因,我们认为在未来10-20年之内,所有人或者物的交通相关的产业都会被重新定义,无论你是出租车业、停车业、写字楼、服务业、物流、金融业、保险业。


现在处在什么样的时间点?刚才说的是未来的时间场景,我就拿一个例子来说,这是两条头条新闻,它说是在无人驾驶当中要用到一个设备叫激光雷达,待会汤总会更加详细的介绍。大家可以看到,激光雷达从2007年城市挑战赛当中第一次用到无人驾驶当中,到现在差不多十年的时间,它的价钱没有变化,7500美金一个,但是现在我们已经看到了曙光。在未来的三五年之内会降到500美金以下,甚至是300美金以下,甚至达到100美金,为什么?大家可以去看上面这条,说现在是底特律来去拯救硅谷了,原来靠优步、谷歌那样玩无人驾驶价格是下不来的,现在底特律的定单巨量的涌来,所以现在价格变得便宜。


我们再从用户的角度,这是世界经济论坛BCG对全世界很多城市政策制定者进行调研,88%城市的制定者希望无人驾驶汽车在未来十年当中,在城市里得到商业化,所以这从用户的角度,它又是一个巨大的(挑战)。大家可以看智能驾驶里面包括了很多种不同的形态,刚才李院士已经介绍了一些,比如说2007年第一次出现产品的这样一种驾驶辅助系统,更接近于李院士讲的;2015年特斯拉是大规模的商业化辅助驾驶,2020年大家可以看到有两个重要的新的智能驾驶形态出来,一种叫做高度自动驾驶,从某种程度上就是李院士说的机器在多数情况下驾驶,但是偶尔需要人干预,它跟辅助驾驶的区别在什么地方?辅助驾驶的适用场景是非常简单的,在封闭的结构化上。辅助驾驶现在还是要求人随时把手放在方向盘上,把注意力放在路上,而高度自动驾驶允许驾驶员有5-8秒钟的时间反应,重新会回到决策环节;另外一种像谷歌、优步在说限定场景的无人驾驶,也就是说把驾驶员整个拿掉,但是它是有限定的一些条件,比如说在城市区域最高时速不能高于40公里/小时,真正的全天候、全区域的无人驾驶可能需要30-50年的时间,这个我们只能说听天由命,我们要去看怎么能够更好的去推动技术的更快发展。


现在我们往往把前面这两种叫做自动驾驶,后面这两种叫做无人驾驶,就我们公司驭势而言,我们做了很多辅助方面的工作,如何去改进特斯拉曾经出现过的事故,既然我们叫2020-2025,这些东西我们就略过不说,我们说要达到自动驾驶和无人驾驶需要做什么样的技术准备。


第一,要有一个更好的指引和定位系统,不把它叫做地图,把它指引图,就是在一些关键的地方,它要能够对这个车的行驶做一个指引,比如说我在高速上顺着车道开就行了,不需要指引,但是我上闸道的时候就需要指引,这里面强调三个要点,我们需要融合各种各样的传感器,但是不依赖于任何一个传感器,因为任何一个传感器都可能会失效,这是我们的第一个要求。二是室内室外、地上地下要无缝衔接。三是希望能够众包生成,不像机器人那样去建图和定位。这是在北京房山的研究院,绿色的线是用GPS(RTK)系统,大家可以看到很多地方轨迹是非常精确的,这一点看GPS的信号就发生了很多的跳跃,而且这种跳跃是不规则的,一天的这个时间在这边,换一个时间就到那边了,实际上跟卫星的数目和地面基站的通讯状况是有关系的,如果纯靠GPS(RTK)进行自动驾驶是会有问题,所以要加入惯性导航系统,但是还有个问题,今天的GPS(RTK)可以做到比较便宜了,三千块,年底一千块有可能出来,但是惯性导航系统,尤其是高质量的惯性导航系统非常昂贵,我们通过视觉的方法去实现。大家可以看,这个是摄象头,这是我们算法的监控窗口,这条线就是我们规划路径的一条线,当然当中也有车道线,包括一些障碍物,这是我们的视觉雷达,用双目去判断障碍物。这条线大家可以看到,红色和蓝色线,事实上是代表着用视觉的里程器跟GPS的融合,把整个的路径、轨迹会变得非常的稳定,这是我们第一个要做的。


第二,我们在想GPS(RTK)在地下没有了,室内可能通过WIFI,还是通过UWB,这些东西对于基础设施的依赖还是太大。所以我们觉得基于视觉标志物的指引和定位可能是最方便的,我们就开始做这方面的探讨。视觉标志物有很多种,可以在三维空间里的某些指示牌,人导航经常靠这种东西,也可能是道路地面上的一些特殊的符号,特殊的语意,我们人也是靠这样的语意进行导航,所以我们做了三维空间标志物的识别和匹配,大家可以看下面是一个标志物的匹配,我们实时在开的时候通过计算机系统的算法,在画面当中找到标志物,然后跟地图里面进行匹配,匹配到了我就知道我到底是在什么样的地方,匹配到了我就知道下一步应该往那里走,这是我们做的第二个事情,但这个事情也是有缺点的,在3D空间里面的指示牌非常稀疏,经常可能隔几公里才有,而且有时候会识别不出来,这就会导致在相当长的一段时间里,如果GPS不好用,那你就失去了位置。怎么办了?我们想到了第三个系统,地面是连续的,地面的符号也是可以帮助我们做匹配、做定位的,这是我们摄象头看到的东西做了几何空间的转换,变成从上到下,你就可以看到很多非常有意思的,非常特别的视觉符号,我就可以用视觉的算法把地面贴起来,就像我们拍照用全景模式去拍,下一步我就在这个里面把这些视觉的符号抽取出来,变成适量的指引图,实时在开的时候,根据我开的东西跟这些指引图做一个匹配,我就可以知道我在什么地方,而这样的一个匹配,事实上搜索空间是相当之小的,为什么?我还是有GPS,GPS把我定位在几十米的空间里,在几十米的空间里就可以匹配出来,而像这样地面上有很多阴影的情况下,我也能够做很好的匹配。这是我们在实际车上面运行的情况,这也是我们的摄象头,我们的设想实际就是黑白的,因为它是为算法看的,这是我们实时摄象头看到的视野,背景跟它进行匹配,所以这条绿色的线就是我们具体匹配出来的运行轨迹,大家可以看到车道里面达到了大概10-20厘米的定位技术,这是我们做的这些事情,在指引图在定位上做的一些探讨。


其次是认知的提升。我们也做了一些探索,可能没有李院士说的那么全面,但是大家可以看到我们做了很多方面的尝试。


认知阶段1:从识别不能撞的东西到明白整个世界,全面世界模型。你不能撞的东西数据库毕竟是有限的,不能穷尽,假设我们开到印度去,一头牛出现在路上,它从来没有在你的数据库里,你能不能撞?不能撞,所以需要全面世界模型,这个算法叫象素标签,或者叫做语意分割。大家可以看到,这是我们实时摄象头看到的东西,这是我们做语意分割,紫色的是道路,棕色的是汽车,橙色的是灌木丛等等,这12类能够保证我们实际在运行的时候,能够去做适当的这样一些反应。当然,光路面的检测还不够,这是把整个的路面进一步做了分割,真正这个方向能够行驶的是这一半,或者你看到了公交车道,在这个时间点会把我们可行驶的路面进一步收缩成这么一大块,或者我要左转,我把我可行驶的区域缩成最左面的,再下一步就是对非结构化道路的理解,大家可以看到,这些道路要么车道线非常不清晰,要么被大雪覆盖,要么马路边上马路牙也看不见,这时候就需要把行驶区域找出来,或者把运行的规划轨迹找出来,这是我们要说的认知阶段的第一步。


认知阶段2:从不撞到舒适的驾乘感受。每个人对于安全距离,对于加速、减速、换道的习惯是不一样的,所以我们需要做驾驶员学习,这是我们合伙人做的实验,上车之前车顶上放了三样东西,绕着北京的三环开了一圈,48公里全部是没有人干预的,在这里面非常实际的交通状况,而且是最高时速达到80公里/小时,做了像这样一种自动的换道等等,但是这个实验最重要的目的是要展现,展示当中这三样东西一直在车顶上,这是完全没有(汽片)的,这是中央电视台拍的。


    认知阶段3:从确定的经验到自学习。所谓的自学习刚才李院士也说了,能不能在驾驶员指导之下,这套人工系统能够自己获得学习的能力,现在关于自学习最火的技术就是基于深度学习的端到端的学习,你的视频进去,控制信号直接出来,这套技术我们也做了研究,发现它有优势,优势就是自学习,但是缺点在于还不够安全可靠。因为我们传统的这套系统,感知、规划、控制,每一块、每一个阶段都是有多重冗余的,但是一旦变成端到端了很难去控制,我要求有很多数量高质量的样本来给它做训练,而这么一个数量是组合爆炸,所以我们认为完全做端到端,目前来说是不合适的,但是你可以借用里面自学习的那一部分,所以我们希望做的,深度学习从纯感知到规划,到了学习的这部分,但是我们学习的目的是把它沉淀下来成为知识,然后这些知识经验和专家系统会进一步的指导规划和控制,它的整个过程是结合了传统的这些感知规划控制,每步步步为营的做法,同时也加入了端到端深度学习。


认知阶段4:从咏春木人桩到少林18铜人。在一个真实的驾驶路矿上,在这么一个态势下,道路上面的每一个智能体都是活的,而且是人,这时候就像过少林铜人一样,要猜测他人的动机,要预判行为,合理的判定路程。


大家可以看到这个车开的是一顿一顿的,它知道周围有很多人,所以它必须得制动的行驶。我们用了这个过程去预测每一个人他的动机、他的运动轨迹,会不会跟我车的运动轨迹相交,如果不相交我没必要做主动的制动,这样整个车开的非常平酸,做这个算法的研究员也在我们公司里,把这个算法也运用到我们的车上。


这个案例(PPT)跟李院士的仿真有点相似,但是说的是不同的事情,它说的是环岛,在这个环岛里红色的车是自动驾驶或者无人驾驶的车,怎么能够很好的切进去,这时候就需要我去判断每一辆车的动机,判断它的行为,它是激进的还是很慢的车,我在合适的时间点去切进去,它用到了(递归视频)网络或者强化学习的方式,能够做这样的一种认知。


第三要做的就是要运用激光雷达,传统的辅助驾驶大家知道特斯拉,一个前视的摄象头,加上一圈的超声波,我们认为到2020-2025要实现无人驾驶,要实现激光雷达,它对三维的环境能够做非常全新的介入,这我就不多说了。


现在这么几家领先的激光雷达厂商,包括,它也出了好几带的激光雷达,未来三五年如果能够达到100万台的订单,就一定能做到500美金以下,另外他们出了豪言,他们要做120线的激光雷达,意味着它的垂直方向和雷达率得到很大的提升,还有一个是ibeo和Valeo做激光雷达的,还有Quanergy希望2020年做到200美金、1000美金,除了这几家也出来一些新的,日本的先锋也是说要在2020年能够推出可量产的激光雷达,这里面是蛮有意思的,这家Quanergy原来是做音箱的,现在开始做激光雷达。我们现在跟中科院联合做了一个博士后项目,博士后项目方向就是做激光雷达和视觉的融合,所以也欢迎大家如果有认识这一方面的博士生,也可以推荐到我们这么一个博士后的项目当中来。


第四,车联网。我给大家举个例子,今年年初在清明节的时候,沪宁高速上出现了几十辆车连环相撞的事故,如果说把自动驾驶或者无人驾驶放进去,还是没办法避免,因为下雨可见性非常差,这时候像超视距的传感器就有优势了,第一辆一踩刹车,后面的车都自动踩刹车,这样就可以避免事故,还可以更好的做编队出行,尤其针对大货车,他们对道路的利用率能够提升,安全性能够提升,油耗能够提升,对于大货车油耗的提升非常重要。在高速上一辆车非常制动,这样的变化会向后传播几公里,你在车速上突然感觉车速变慢了,可能是因为几公里前有人刹车了,以后这种速度的变化向两边传播很快就消失了,把每一辆车的速度调成前后车的平均就可以了,但是它能够去改变我们高速公路的通行,还有如果十字路有了V2X以后,交通灯也可以拿掉。


第五,测试验证的方法群。大家都纠结于自动驾驶安全还是人驾驶安全,前段时间特斯拉出了一起车祸,他说我行驶了1.3亿英里才死了一个人,美国是9000万英里就要死一个人,所以我还是比人安全。听起来很有道理,但是大家如果懂统计学就知道,它不是统计上显著的这样一种计算,因为第二天再死一个人就变成6500英里死一个人,那么究竟多少路程能够证明自动驾驶比人开的安全呢?这是兰德公司做的研究,他发现要开近百亿英里才能够证明自动驾驶比人开的安全,但是没有一家车厂在车上路之前开100亿英里。现在谷歌的无人驾驶汽车一天会跑几百万英里,所以我们也做了模拟器,模拟器什么都可以模拟,包括摄象头、雷达,可以设计在现实生活当中不存在的交通状况,我们用到了带有一定随机性,又是基于机器学习的算法,大家知道有什么问题?就是它是一种归纳法,事实上是你不能穷尽样本空间,因为你不能防止(黑客)的出现,针对这样算法,运用到不能出一点事情的自动驾驶里挑战非常大,这是谷歌和MIU发布的研究,左边的照片和右边的照片,人眼看起来没有任何一点差别,但事实上他们有一些象素级别的差距,大家可以看到中间就是象素级别的差别,因为中间这些象素级别的差距,我的深度学习算法,左边能认的出来,右边就认不出来,大家可以看到算法本身还是有很大的问题,所以我们说我们要重新去研究、测试和验证方法学。


现在的商用飞机和军用飞机,它的成本当中一半是软件的测试和验证,我们的汽车有多复杂呢?一辆奔驰的S级轿车上面的代码行数是播音787行数的十几倍,意味着你要有更好的测试和验证的方法学。


第六,小型化、高效能、高可靠的硬件结构。


我给大家看一下汽车里面的硬件,尤其是计算这块怎么演进的,一开始在2005年,斯坦福的这辆车后备厢是这样的,到2010年的时候普锐斯就变成这么小,到雷克萨斯就变得这么小,现在做到这么大,跟笔记本差不多,但是它的计算能力相当于一两百台的笔记本。


还有我们不能只考虑计算,在汽车里面有一个执行的机构,大脑发出的决策命名,怎么让方向盘、油门、刹车去执行这些决策,执行机构也不能出错,必须得考虑,这是沃尔沃的一个车,每一样功能都样双目,大家再看福特,每一样功能都有,其实除了油门没有,其他的像刹车、方向盘都有问题。


这是我们的最后一页,用中国古人的一句话“时来天地皆同力,运去英雄不自由”。意味着我们要看清楚人工智能大势,看清楚无人驾驶的大势,谢谢大家!

(本报告根据速记整理)

CAAI原创 丨 作者吴甘沙

未经授权严禁转载及翻译

如需转载合作请向学会或本人申请

转发请注明转自中国人工智能学会