当地时间7月10日,星期六凌晨,特斯拉推出了FSDBetaVersion9.0,参与特斯拉FSD测试项目的车主们怀着激动的心情下载了新版本,夜色并没有阻挡他们,部分车主第一时间将汽车开到公共道路上测试,然后将视频传到网络,与人们分享着他们的兴奋之情。
这是特斯拉推出的第一个没有雷达、纯视觉的FSD版本,同时,特斯拉全新的“mindofcar”可视化界面也首次亮相。
人们像拆圣诞节礼物的小孩一样,发现这个版本的新特性,试探着它的能力边界。伊隆·马斯克一边接受人们对他和同事们的工作的认可,另一方面,他又像个圣诞老人,等着向大家的袜子中投入更多惹人爱的新功能。
FSDBetaV9使人们相信自动驾驶并不遥远,但对于野心勃勃的马斯克来说,还不够快。特斯拉的全自动驾驶之路,目前才走到半程。
一
7月10日是尼古拉·特斯拉的生日,在经过无数次的延期后,马斯克选择在这一天推送FSDBetaV9,全新的.4.18.12版本随之来到了名测试车主的列表中。
在经过车主们一两天的测试之后,可以看到,目前版本主要的亮点包括:
1.没有毫米波雷达,纯视觉
Tesla博主“DirtyTesla”在7月10日凌晨时分完成了更新,然后半夜开着他那辆于6月份生产的ModelY出门测试。我们知道,特斯拉5月份之后在北美市场交付的Model3/Y均不再搭载毫米波雷达。
在打造纯视觉的TeslaVision上,马斯克和他的团队异常坚决,他们反复阐述毫米波雷达、激光雷达等传感器的融合问题,以及纯视觉方案的巨大潜力。
2.车辆动作更流畅、兼容的场景更多
很多参与测试的网友反应,新版本下的车辆更加自信,动作更加流畅。
例如在城市道路上的变道行驶,车辆会非常自如地根据前车的速度来切换车道;例如在右转时,转弯完成后车辆会明显提速。
这些点点滴滴细节的提升,使得用户感受到了车辆在应对场景上的自信。
另外,在一些传统意义上比较有挑战的场景,如无保护左转、环形路口、窄路行驶,从网络上的测试视频来看,特斯拉完成得也不错。
尽管自动驾驶能力有明显提升,特斯拉仍然吸取了马斯克一再夸大自动驾驶的教训。在更新日志上,特斯拉不忘提醒用户,不要滥用,这不是自动驾驶,务必把手放在方向盘上。并且,特斯拉将FSD最高时速限制在了80英里/小时;特斯拉座舱内的摄像头也将启用,用以监测驾驶员的不当驾驶行为。
图片来源:twitter
DirtyTesla3.mindofcar
这应该是本次更新中最重要的部分了,这个功能实现了对现实世界的粗略复刻。
“mindofcar”也是用户最容易找出亮点的地方。例如,在某场景下,新版本软件最多渲染出了26辆车;新版软件还可以识别出狗等宠物。
某推特网友向马斯克提问:你们把“鹿”渲染成了盒子,未来会增加对鹿的渲染吗?
马斯克直截了当地表示“会,目标是反映现实,屏幕渲染会越来越真实。”
图片来源:twitter
TeslaStars乍一看,这只是个可视化的UI,是个没什么用的功能,但在其背后蕴含了特斯拉实现自动驾驶的哲学以及其强大的系统能力,未来将是特斯拉自动驾驶的关键。
简单来说,在mindofcar中,特斯拉通过视觉识别技术将道路上的主要目标投射到其系统中,并显示在屏幕上。特斯拉自动驾驶系统根据这些复刻的交通参与者以及其距离、速度等参数等来进行决策,用户也可以通过屏幕查看到更多道路上的抽象信息。
抽象一点,通过mindofcar,车辆仿佛可以思考,也能和驾驶员交流。
热情的人们将新版的UI描述成毕加索的艺术作品。这些线条更清晰了,目标检测也更准确了。
一位推特用户惊喜地表示,新版本可以识别其他车辆的刹车灯并显示在屏幕上:一辆车从停下时的红色刹车灯亮起到起步时的尾灯变为灰色。
刹车灯在马斯克看来似乎只是小意思,他回复这条推特表示,“很快将可以识别转向灯、双闪灯、救护车灯和警车灯,甚至是手势。”
他甚至还想提取外界的警报声以让汽车自己作出决策,总之,mindofcar是想让汽车在参与交通时带着“脑子”,而不只是冰冷的机器。
二
特斯拉的自动驾驶之路颇为曲折。
年10月24日,特斯拉Autopilot随着7.0版本更新开始启用,采用的是Mobileye芯片。
紧接着第二年5月,佛罗里达发生的一起ModelS致命事故,使得特斯拉与Mobileye彻底闹掰。
年10月,特斯拉开始采用英伟达DrivePX2做自动驾驶核心处理器,这便是特斯拉的HW2.0。
在年4月22日的特斯拉自动驾驶日上,特斯拉隆重推出了自研的HW3.0,马斯克放出豪言,要在一年内推出万辆全自动驾驶汽车,两年内干掉方向盘。
在这场盛大的发布会之后,5月份,马斯克亲自接管了Autopilot软件团队。
在随后的几个月内,由于马斯克对进度不满,特斯拉Autopilot软件团队发生了人事大地震,11名重要人员离职,这些人中的多数奔向了让他们更有安全感的Cruise、Waymo等自动驾驶公司。
在那次人事地震之后,特斯拉Autopilot软件团队形成了新的铁三角,分别为AshokElluswamy、AndrejKarpathy、MilanKovac。
年7月10日,伊隆·马斯克在推特上表示,Autopilot软件是由Ashok、Andrej和Milan领导的,他们之间像是圆桌骑士的组织结构。
AndrejKarpathy是业界著名的计算机视觉专家,被马斯克誉为业界最好的,近几年频频代表特斯拉参加各种行业会议,语速和信息密度折服了不少同行和媒体。
年9月,AndrejKarpathy以研究科学家的身份加入OpenAI。年6月,马斯克聘用他作为特斯拉AI和AutopilotVision总监。
AndrejKarpathy的团队负责特斯拉Autopilot的所有神经网络,包括数据收集(标记、加工)、神经网络训练等。
在年的那次人事调整后,AshokElluswamy被提拔为Autopilot感知和计算机视觉团队负责人;MilanKovac被提拔为Autopilot软件工程总监,负责系统软件和中间件。
马斯克似乎对目前的Autopilot/AI团队很满意,他说,“团队中有很多才华横溢的工程师,他们自己决定要做什么,有点像Valve。”对,就是游戏平台Steam的开发商V社。
从年开始,特斯拉开始推动用深度神经网络(DeepNeuralNetworks,DNN)来为Autopilot写软件。
在年1月的一次网友见面活动中,马斯克表示Autopilot中的一个相当重要的基础性重写已经几乎完成了,“神经网络正在吸收越来越多的问题”。
直到今年4月份,马斯克还略带怨念地表示,“年到年的大部分(Autopilot软件方面的)工作已被废弃,FSD已被重新打造”。
重写FSD,特斯拉走了一些弯路。AndrejKarpathy关于Software1.0和Software2.0的理论可以用来阐述一下这个问题。
AndrejKarpathy曾描述过这两种软件开发方式。
Software1.0的经典栈是我们所熟悉的,是用Python、C++等语言编写的,由程序员编写的明确指令组成。特斯拉之前的软件属于这个类型。
Software2.0是用更抽象、更不友好的语言编写的。深度神经网络(DNN)非常强大,但必须用Software2.0编写。
AndrejKarpathy的工作就是用深度学习和神经网络(他称之为Software2.0的东西),尽可能取代特斯拉传统的Software1.0。
Software2.0对特斯拉意义重大。举个例子,如果没有Software2.0,特斯拉可能无法创造出“mindofcar”这样的虚拟世界来对现实进行映射。
有了神经网络,AndrejKarpathy表示你还需要一个非常好的数据集,而一个好的数据集有三个特点:
Large(数以百万计)
Clean(标注数据:包括深度、速度、加速度等数据)
Diverse(包含很多边缘场景)
特斯拉拥有业内最大的AI数据集。早在今年年初,特斯拉Autopilot就积累了50亿英里的数据。
为了低成本地高效提取数据,特斯拉设置了个触发器(triggers),只要触发就会自动标注。
AndrejKarpathy在CVPR上表示,特斯拉已经收集了万个36FPS的10秒片段,大概占用了1.5PB的存储空间。
有了算法、数据,特斯拉还需要打造超强算力,来用于训练Autopilot与自动驾驶深度神经网络。
AndrejKarpathy在CVPR上还展示了超级计算机Dojo的原型机,这个集群使用了个节点的8个英伟达ATensorCoreGPU,共个GPU,实现1.8exaflops级别的性能。
一旦实现,这将是世界上算力最强大的超级计算机。
目前,世界最强的超级计算机是日本富岳,在HPL标准下算力为Pflop/s,即0.exaflop,这已经是排名第二的美国顶点超级计算机的3倍了。在人工智能领域经常使用的降精度计算中,这台计算机的峰值性能超过了每秒钟exaflop,被认为是世界上首台算力达到exaflop级别的超级计算机。
根据马斯克此前在推特上放出的消息,Dojo大概在今年11月份准备就绪。
超强的算力并不能解决所有的问题,特斯拉一直都知道一定要实现大规模的无监督学习,才有意义。
如果这些数据都采取监督学习的人工标注方式,人力成本会高到无法承受,特别是随着特斯拉车队规模越来越大,这几乎是不可能的任务。
不过据国外媒体分析,特斯拉本次发布的FSDBetaV9.0仍然主要采用人工标注和低层次的自动标注。
不要被Dojo的算力迷惑。特斯拉之所以打造Dojo,目标正是对特斯拉Autopilot视频进行无监督大规模训练,以较低成本实现神经网络性能的指数级增长。
算法、数据、算力,是特斯拉实现更高级别自动驾驶的三驾马车。基本上到今年底,这套模型才会具备完全体,那时的特斯拉才会开启真正意义上的迭代之旅。
三
特斯拉这一套打法整体上是非常完备的,最大的争议点或许就是纯视觉方案了。
与自动驾驶企业普遍采用激光雷达和高精地图不同,特斯拉直接否定了激光雷达,甚至也直截了当地干掉了毫米波雷达。
马斯克认为,激光雷达回避了真正的问题。
关于高精地图,他表示不能全球通用的东西,不是特斯拉所追求的。
关于毫米波雷达,他表示,当雷达和视觉不一致时,你相信哪一个?视觉具有更高的精度,有丰富的语义。
对于特斯拉来说,全视觉方案的优点是:成本低;不需要高精地图,可以快速在全球所有场景中落地。
那么放弃这些东西的挑战是什么?
据百度Apollo工程师表示,用视觉方案做自动驾驶有两个巨大的挑战:
1.3D测距。因为摄像头给到机器的都是一帧帧图片,算法需要把这些平面的像素还原成3D物体,并计算出距离且精度要达到厘米级,这个难度是非常大的。
2.海量交通参与者模型。用激光雷达的3D方案,一个车,或者说多个不同类型的车,都可以归纳为一个模型,系统能够比较好地识别出来。但是,视觉方案因为需要把平面像素还原成有意义的3D模型,这些平面的像素由于不同的光照、不同的天气都会给系统的识别带来挑战。这就需要算法对海量的交通参与者模型进行训练以提升识别的准确性。
由于特斯拉放弃了多传感器融合的策略,特斯拉正在通过创建一个度虚拟现实,名为Bird’sEyeView(BEV,鸟瞰视角)的方案来解决上述问题。特斯拉将多摄像头的图像拼接在一起,这些来自不同角度摄像头的照片本身并不容易拼接,并且还要和时间轴进行对应,开发难度很大。
特斯拉通过其神经网络创造了BEV,并同时进行车辆控制的计算。
从网友分享的FSDBetaV9.0展示视频上来看,纯视觉+神经网络的效果惊人,但对于能不能实现99.%的安全性,多数人还是存在疑问。
从测试的结果上来看,仍然还是会有一些不太完善的地方。例如一位用户上传了车辆在左转时方向盘打的过于激进。
随着更多天气、场景的加入,FSDBetaV9.0在应对上的能力也有待考验。
或许纯视觉有能力处理绝大多数的问题,但是能不能将问题控制在0.%之内,在消灭最后的corncase上,需要付出多大的努力,还需要特斯拉进一步给出答案。
另外,自动驾驶竞赛比拼的是谁能更快地低成本落地,随着中国的汽车制造商们,特别是新势力,几乎全部压住激光雷达和高精地图的融合方案,随着硬件性能的提升,以及成本快速下降,特斯拉能不能持续领先还是个问题。
尾声
在发布FSDBetaV9.0之后的第二天,7月11日,伊隆·马斯克去参加了维珍老板理查德·布兰森的太空首飞,在这场成功的太空旅行show上,理查德·布兰森晒出了与马斯克的合影,相对于被誉为“小肚鸡肠”的贝佐斯,马斯克同时获得了流量和美名。
理查德·布兰森通过亲身体验,来证明太空旅行可行且值得,以迎接太空旅行的新时代。
这和FSDBetaV9.0的推出有点类似,尽管它还不够完美,但它同样想证明自己可行且值得。
这或许是自动驾驶时代全面到来的一个重要时间点。
建约车评只做有价值的汽车科技报道