“端到端”是自动驾驶最优解吗

作者：爱集微 2024-08-30

来源：新华网 #特斯拉# #端到端#

2.4w

最近，“端到端”在车圈火了！特斯拉基于“端到端”的FSDV12（完全自动驾驶）方案形成的标杆示范效应，叠加入华传闻，带动“蔚小理”等车企和华为、地平线等服务商纷纷转向，加码端到端自动驾驶技术。

所谓“端到端”，其实是来自深度学习中的概念，英文为“End—to—End（E2E）”，指通过一个AI模型，只要输入原始数据就可以输出最终结果。应用到自动驾驶领域，意味着只需要一个模型，就能把摄像头、毫米波雷达、激光雷达等传感器收集到的感知信息，转换成车辆方向盘的转动角度、加速踏板的踩踏深度以及制动的力度等具体操作指令，让汽车实现自动驾驶。用小鹏汽车创始人何小鹏的说法，表现得“很丝滑”，更像“人类司机驾驶”。

此前，市面上绝大部分自动驾驶系统为传统模块化方式，即一个人工和智能两分天下的混搭系统：感知依靠神经网络，规划控制则使用人类手动设计的算法。这一系统的好处在于分工明确，发现缺陷便于分模块检查、解决。但问题是，这种模块化的自动驾驶系统在相对简单的驾驶任务上表现不错，而在复杂的驾驶任务面前，其天花板显而易见。就算是号称遥遥领先的城市高阶智驾功能，依然会有机械感，也会在汇入快速路、通过大型路口时宕机。

考虑到自动驾驶的核心挑战是解决无穷无尽的边缘场景，以有限人力解决无限长尾问题的成本和时间难以估量，数据化、模型化成为必然趋势。不过，端到端，同样是一个需要老师傅精心打磨的高难度技术活。

一方面，端到端需要海量高质量数据“投喂”训练。与大语言模型可以在互联网上爬取海量文字数据用于训练不同，端到端智驾需要的视频数据获取成本和难度极高。以特斯拉为例，目前其FSD累计学习的人类驾驶视频片段超过2000万个，而这一规模的数据仅采集成本就需要50亿元至80亿元。

另一方面，端到端需要强大算力的支持。自动驾驶涉及激光雷达、图像感知以及V2X车路协同等技术与解决方案。强大的算力不仅有利于实时处理海量数据，降低数据传输延迟，还可更好地支持面向智慧城市、智慧交通、高级别自动驾驶等全场景。然而，华为车BU、百度极越、蔚来、理想、吉利、长城、小鹏等国内企业算力增长目前均面临较大瓶颈。

问题还在于，算力与数据的制约又会显著影响算法的发展。虽然国内学术界提出的端到端自动驾驶模型UniAD斩获2023年CPVR最佳论文奖，为国内企业提供了可以参考的方向，但是在开环验证体系、小体量样本数据下开发的UniAD，上车还需要一定时间的工程化改造和大规模数据训练。

此外，端到端会同时放大自动驾驶系统的上限与下限。因为端到端构建的是一个神经网络黑箱，在获取更高上限的过程中让渡了一部分传统模块方案具备的可解释性。如何在自动驾驶系统中保留可解释性，将那些不应被逾越的规则，比如别闯红灯，表征到神经网络中去，保证端到端能安全地落地应用、进化，也将是规控工程师们的重要课题。

攀登珠峰有两条路线：一条是中国西藏的北坡，另一条是尼泊尔的南坡。不管选择从南坡还是从北坡攀登，最终都将到达同一个顶峰。这与当前自动驾驶的发展路径有相似之处。虽然现在还很难判定端到端就是自动驾驶的最优解或最终解，但这并不妨碍企业创新探索。毕竟端到端能够比传统模块化方式更好地处理极端案例，并且代表了一种减少人工编码依赖的更高效的思路。基于这个路径，或许自动驾驶能够通往更高阶段。

【责任编辑:冉晓宁】