黄泽铧 图森互联合伙人、研究员
今年10月,机器之心邀请中国人工智能公司在北美多地举办了技术分享活动,图森互联合伙人、研究员黄泽铧获邀于10月12日在机器之心北美活动UCLA站演讲,以下为演讲速记,与大家分享:
大家好,今天我想和大家聊聊自动驾驶的发展历程和关键技术,以及图森公司在自动驾驶方向所做的一些工作。
我们先回顾一下历史,左边这张图是通用公司在70世纪50年代对于未来出行方式的一个畅想。这个畅想中,未来的人们只需要坐在车里打着麻将就到达了目的地。右边这个视频是80年代开始,奔驰对于自动驾驶这一块相关技术的研发。虽然这个车非常老,但实现的功能已经和我们今天的自动驾驶非常相似,他能实现自动巡航、安全变道等初级自动驾驶技术。这个路测的关键在于,它是在一些限定的路面上进行的、比较短途的、环境比较简单的测试。
提到自动驾驶,必须要提到的一个里程碑式的事件。这就是2004年的美国国防部举行的DARPA Grand Challenge。这个比赛的目标是从加州的沙漠一直开到内华达州的沙漠,全程150英里的路程实现完全的自动驾驶。因为这个场景远远复杂于科学家在实验室里做的初级的驾驶实验,比赛非常的困难。
在第一次比赛的十五个队伍中,没有一家队伍完成这个比赛。开了最远的CMU(卡内基梅隆大学)的队伍也就走了7英里。因为这次比赛的失败,美国国防部又举行了一次相同的比赛。在2005年的比赛中一共有7个队伍完成了这个比赛,Stanford(斯坦福大学)拿到了第一。因为04-05年的比赛是在沙漠中进行的自动驾驶测试,在2007年美国国防部更新了比赛的主题,发起了新的比赛叫DARPA Urban Challenge。这一比赛在一个空军基地里面进行。测试场景中需要保持部分的交通规则。在这个测试里面,CMU的队伍拿到了第一。
为什么说是DARPA Challenge是自动驾驶领域最重要的里程碑的事件呢?因为在这一比赛中,大家通过实践和比较,奠定了之后自动驾驶方案的基石。从这以后,自动驾驶开始普遍使用SLAM的技术实现实时的地图绘制,配合Lidar(光纤雷达)进行定位和感知。
07年比赛结束之后,美国国防部说我们觉得自动驾驶这个问题已经解决了,大家去考虑自动驾驶技术的商用化吧。于是Google在09年成立了Google[x]实验室,将斯坦福和CMU自动驾驶团队召集起来,共同研制自动驾驶汽车。
Google的技术方案主要延续Stanford和CMU延续下来的方案,主要分为四个步骤。第一, 使用SLAM技术对驾驶场景进行提前的地图绘制。测试自动驾驶时与离线地图进行匹配,获得自动驾驶汽车的精准定位信息。第二,使用Lidar进行周围环境的感知,即感知周围有什么物体,以及他们的具体坐标。第三,预测周围物体的行为和运动轨迹。第四,综合前三步的地图、物体和轨迹信息,对自动驾驶汽车的运行路线进行规划,执行驾驶行为。
这是Google自动驾驶的视频。可以看到他们做到了很出色的自动驾驶的效果。他能识别周围的车辆、行人和交通规则,可以进行合理的避障。从09年到今天,Google的自动驾驶汽车已经行驶了200万英里,一共发生了十几起事故,这些事故中只有一起事故是由自动驾驶汽车的原因造成的。也就是说其余的十几起事故里面,全部都是因为其他车的失误撞到了无人车。
侧面上这也反映了一个很有意思的事情。大家可能觉得自动驾驶是一个相对比较远或者比较不成熟的一个技术,但是Google的测试数据证明了,计算机驾驶汽车其实比人类更安全。
评价一下Google的自动驾驶方案,我认为主要的两个贡献。第一,Google第一次用工业界的方案去证明了大规模的离线地图绘制对自动驾驶的重要性。第二是Google在Lidar感知上的技术积累。
Google的成功也推动了整个行业的发展。这两年涌现出很多家做自动驾驶的公司。其中有Cruise,他们已经被通用汽车用10亿美元收购了。有nuTonomy,他们在新加坡的开始测试无人出租车。大公司中还有百度和Uber。可以看到所有的方案,几乎都在一定程度上去延续Google,或者说最初的斯坦福和CMU的思路:使用高精的地图绘制和Lidar进行感知。
这一方案的主要问题是非常的贵,Lidar和高精惯性导航元件等仪器加起来,光硬件成本就在20万美元以上,远远超过了一辆普通轿车的成本。
高成本制约了自动驾驶的商业化和普及性。而在今天我们也能看到其他自动驾驶的相关的产品,Tesla在去年推出的autopilot产品就是最著名的一个例子。这一技术能实现极大程度上的自动化驾驶,如主动巡航、车道保持,还能在驾驶员的指示下进行变道。这一技术通过已经可商用化的传感器及芯片实现,不需要离线地图绘制和Lidar。
但同时,特斯拉也因为事故频发,在最近饱受争议。今年上半年先后在佛罗里达和北京发生了两期致命事故。Tesla的技术合作伙伴Mobileye也因为Tesla对自动驾驶的激进态度停止了与tesla的合作。安全成为了制约这一方案普及的最重要因素。
对比Google和特斯拉的技术。Google通过提前绘制的高精地图,再加上高精度的传感器去实现自动驾驶。这一方案可靠但非常昂贵。而特斯拉不依赖于离线的地图绘制,只用一些比较成熟的ADAS的技术,能做到低成本低程度的自动驾驶。
而图森公司认为自动驾驶应该在两者之间找到一个平衡点。利用可商业化的传感器件结合使用成熟的地图绘制和感知技术,逐步实现自动驾驶。
下面我想简单介绍一下图森公司的技术成果。主要介绍之前提到的地图和感知技术。
首先是高精地图绘制。这一技术主要目的是获得道路场景中3D点云和图片数据。通过这些数据实现精准的实时定位。地图的绘制有两种方案,一种直接用Lidar进行3D的实时绘制;另一种可以去用摄像头进行2D的地图绘制,通过图像直接特征点的相关性转化到3D空间。
地图绘制的难点之一在于更新和维护。因为现实中道路场景经常发生变化。比如道路维护、结构的更改以及周围场景的变化。如何有效的维护和更新地图成为了离线地图的难点。我们通过Lidar建立初始的地图数据,并使用2D图像数据在无人车的测试和运行中实时的更新地图,实现可维护的高精地图方案。
通过这一地图信息,我们不仅可以实时知道车辆在地图中的位置。还能认识到无人车在不同的场景中能够期待什么,比如像刚刚建出来的地图中包含大楼,我们可以预测这个大楼的阳台上会有人出现,但是这些人对无人车不构成影响。又或者我们可以通过高精地图知道下一个交通灯在三维空间中的哪个位置,无人车便在那一位置寻找交通灯的信号。
下一个部分是感知。因为图森是一个计算机视觉公司,所以我主要介绍计算机视觉相关的感知系统。我认为在视觉感知方向,主要存在三个技术。一,立体视觉,通过双目摄像头重建驾驶场景中的深度信息。二,相关物体的检测跟踪。三,驾驶场景的理解。
立体视觉的定义是通过一个双目摄像头拍取的两张图片,来计算视野里的每一个像素里无人车的距离。这一技术通过比较两张图像中相同像素的时差来计算深度。
物体检测与跟踪是找到视野内所有相关物体的位置,并对这一物体进行跟踪。这一问题的主要难点在于拥杂的道路场景存在非常多的遮挡。
场景理解分为三个层次。第一个层次是理解自己所在的车道。通过车道线检测实现。车道线检测是一个很久远的计算机视觉问题,一般情况下这个问题很简单,但如何在极端的光线和道路情况稳定检测仍然十分困难。第二个层次是理解道路整体,明白那些部分是可以驾驶的。这个技术通过道路分割来实现,对于一张道路图片,我们需要理解哪些像素是可以行驶的道路。第三个层次是理解场景中的任意像素。我们通过语意分割技术来解决。
下面是我们的demo。
(略)
为了测试算法的成果,图森tusimple.com在无人驾驶相关的数据集上提交了相关算法的结果。图森公司在各大数据集中都取得非常好的成绩。
最后总结一下,图森www.tusimple.com希望通过提供一套低成本的、可商用化的方案实现自动驾驶。我们通过两条途径来实现这个目标。第一对驾驶道路进行离线的高清度地图绘制。第二是通过图森拥有的世界上最先进的感知算法鲁棒的低成本感知。
接下来我想介绍我们的产品思路。
自动驾驶发展到今天,仍然离完全解决比较远。这是因为任意目标的自动驾驶行为还是一个非常挑战的方向。这主要包含三个难点。第一,在都市环境下,驾驶的场景非常的复杂。这一点在中国更为明显,中国存在形形色色的三轮车,摩托车。行人、自行车也可能从任意地方出现。在都市情况下我们需要考虑所有的复杂场景,并且需要制定复杂的规划算法实现和人的和谐驾驶。第二,大规模高清地图绘制。这个事情是一个非常昂贵的事情,很难去真正做到规模化。比如说像北京有上万条街道,每条街道要在一个月内更新地图一次,这样的成本即使大公司也很难接受。第三,在现一阶段,无论自动驾驶的成本如何下降,几十万人民币成本的增加对于消费级别市场还是比较难以接受的。这些因素制约了自动驾驶在通用场景、大规模城市和消费级别市场的普及。
所以我们现在更关注于一个细分市场,自动驾驶货运。这个市场有三点优势。第一,货运市场存在集散中心。大的集散中心之间的路线几乎是固定的。这极大程度简化了自动驾驶的地图构建。第二,主要的货运场景都集中在高速和郊区环境中,在这两个环境下的交通情况相对简单。第三,货运作为一个商业的行为,这一市场对较高成本但提升运输效率的自动驾驶系统承受能力较强。
中国有非常大的货运市场,中国有两千万辆卡车有三千万个司机,这些卡车和司机承载中国76%的货运能力。同时货运也是一个非常危险的行业,有32%的事故会直接导致人死亡,而这个死亡占了整个交通死亡的88%。同时,在货运市场竞争白热化的今天,货运公司的利润率非常的低。自动驾驶技术可以去帮助这些公司节省一定的人力成本,可以极大程度上提高他们的利润率。
我的演说就到这里。这里有我们的公众号,我们现在在进行大规模的招聘,我们非常需要人工智能,深度学习、自动驾驶和大数据方向的相关人才。大家对我们公司感兴趣的可以给我们发邮件,我们可以深入的聊聊自动驾驶。谢谢大家!
主讲人简介:黄泽铧,卡内基梅隆大学机器人学硕士,北京航空航天大学本科。研究生期间参与研发驾驶员监控系统,技术用于美国通用汽车产品。大学期间曾研发可穿戴手势识别腕带,获多项大奖。现在担任图森互联北美人脸与深度学习团队负责人。
我来说两句排行榜