Nature正刊封面报道自动驾驶重要进展。
(资料图片)
图/Nature
证明自动驾驶算法的安全可靠,专业估算仿真里程甚至要超过千亿公英里。
那么,有没有在保证可靠性的前提下,大幅降低模拟路测时间和成本的方法呢?
最新自动驾驶仿真测试方法,可以将模型迭代效率提升2000倍。
这项研究背后的团队,来自密歇根大学的刘向宏教授的实验室,主要作者清一色华人团队,出自清华大学自控系。
自动驾驶仿真提效2000倍
如今很多无人车公司都青睐仿真测试提升系统可靠性,甚至有的创业公司直接打出“仿真为主,路试为辅”的旗号。
图/Nature
他们的理由是:仿真测试效率更高。但没说的潜台词其实是:仿真测试不依赖车队,成本低。
因为模拟测试150亿英里的Waymo,至今搞不定可商用落地的无人驾驶。仿真的效率问题是尚未实现飞跃的巨大挑战,用仿真是因为省钱,至于什么时候能拿出结果,谁也说不好。
基于此,这项最新研究提出的观点是:
传统仿真测试环境,多基于真实路测数据生成。而真实路况下的各种长尾场景其实是小概率事件,这就导致仿真路测里程中,有效场景比例不高,实际效果和实车路测差别不大。
而他们基于密集强化学习的深度学习网络D2RL,可以将目前基于NDE的仿真模拟效率提升2000倍。
具体来说,在双车道400m场景中,D2RL生成的场景直接跳过传统仿真过程中95.7%的事件和99.78%步骤,最大可能给出系统高价值训练场景。
这样一来,算法碰撞率达成同样的收敛标准下,NDE环境需要训练1.9X108次,D2RL需要9.1X104次,效率提升2100倍。
而在3车道、更长距离的实验中,得出的效率提升效果基本都在2000倍左右。
另外,研究人员将一套开源自动驾驶算法Autoware23搭载在林肯MKZ上进行了4 公里左右的实际路测,并将实际道路场景建模,并使用D2RL进行模拟。两条路线分别在156和117次测试后达到收敛,而与之相比的是在NDE条件下,达成相同的标准分别需要2.5×107次和2.1×107次。
同样效率提升2000倍左右。
图/Nature
也就是说,使用D2RL网络进行自动驾驶算法的模拟仿真训练,能大大缩短自动驾驶的开发周期。
在自动驾驶之外,D2RL还可以用在其他AI可靠性验证中,如医疗机器人和航空航天系统。
怎么做到的?
从上面的实验结果表格中可以看出,D2RL之所以提升效率的主要手段,就是对系统生成仿真场景的过程进行“提纯”,尽量少生成价值不大的常规场景,保留高价值数据。
研究团队认为,无人车仿真系统的效率问题,本质上是高维空间中的一个罕见事件估计问题。
如何识别并剔除高维向量空间中非安全关键的点,是D2RL的核心任务。
图/Nature
D2RL是一种密集强化学习深度神经网络,其基本思想是识别和去除多向量空间的非安全关键数据,并保留安全关键数据训练神经网络。
由于声称场景中只有非常小的一部分数据是安全关键的,剩余数据的信息将被大大地密集化。
D2RL方法的本质是删除非关键状态,并连接关键状态来重新编辑马尔科夫决策过程,然后只对编辑过的马尔科夫过程进行神经网络训练。
图/Nature
因此,对于任何训练场景,最终的奖励都是沿着编辑过的马尔可夫链反向传播的。
直观地说,D2RL训练的对象,是仿真测试场景中的BV,要求他们在特定的时空下执行特定的动作,与自动驾驶车辆形成对抗性训练。
奖励函数为:
其中x表示每个测试情节的变量,IA(x) 是AV碰撞事件的指标函数,后两项则是AV目标策略和目标行为的重要性函数。
奖励越高表示测试环境越有效。这样的奖励设计是通用的,也适用于其他具有高维变量的罕见事件估计问题。
为了确定学习机制,团队进一步研究了行为策略和目标策略之间的关系。
他们发现AV的最佳行为政策在训练过程中收集的数据几乎是与目标策略相反。这表明,如果使用传统强化学习中的on-policy策略,AV的目标行为策略将偏离最佳。这可能会误导训练过程。
为了解决这个问题,团队设计了一个off-policy学习机制,即设计一个通用的行为策略,并在训练过程中保持不变,用来平衡AV的策略和行为。
最终,D2RL可以在训练过程中使奖励最大化,有效地提高AV的碰撞率。
作者团队介绍
本研究的第一作者封硕,目前在美国密歇根大学安娜堡分校做博士后。
封硕本科和博士学位都在清华大学自动化系获得,研究方向是优化控制、互联和自动驾驶评估以及交通数据分析。
封硕所在的Traffic Lab实验室,由刘向宏教授领导。
Sun Haowei,密歇根大学土木与环境工程专业在读博士生,同样在Traffic Lab实验室。研究兴趣是车联网和自动驾驶汽车的测试和评估。Sun Haowei本科毕业于清华大学自动化系。
本文通讯作者刘向宏博士现任美国密歇根大学土木与环境工程系终身职正教授、密歇根大学交通研究所研究教授,北京航空航天大学客座教授、兼职博士生导师。
他在国内最被外界熟悉的身份是滴滴前首席科学家。
刘向宏1993年本科毕业于清华大学汽车工程系,2000年在威斯康星大学麦迪逊分校取得博士学位。
刘教授是交通工程领域论文引用率最高的学者之一,他发明的用于精确测量交岔路口的排队长度和旅行时间的SMART-Signal系统于2012年取得美国国家专利,并已在美国明尼苏达州和加州得到广泛应用。
关键词: