您好、欢迎来到现金彩票网!
当前位置:秒速时时彩计划 > 随机控制系统 >

相关阅读

发布时间:2019-05-20 15:59 来源:未知 编辑:admin

  国际人工智能联合会议(IJCAI)2019发布了一篇题为Randomized Adversarial Imitation Learning的论文。该文介绍了一种基于自动驾驶的随机对抗性模仿学习(Randomized Adversarial Imitation Learning,RAIL)。该方法模拟了配备先进传感器的自动驾驶汽车的协调过程,通过自由派生优化决策系统进而协调诸如智能巡航控制(SCC)和车道保持(LKS)等ADAS功能。值得一提的是,该方法在复杂的多车道高速公路和多智能体环境下,可以处理激光雷达数据并进行决策。

  在环境中,安全事故往往会导致道路拥堵或发生更严重的交通事故。现代自动驾驶中呈现的各种ADAS功能具有高度的相互依赖性,需要将其看成一个单一的综合体,需要在保证安全的同时,形成长期有效的辅助策略显得尤为重要。本文介绍了一种基于自动驾驶的。该方法模拟了配备先进传感器的自动驾驶汽车的协调过程,通过自由派生优化决策系统进而协调诸如智能巡航控制(SCC)和车道保持(LKS)等ADAS功能。值得一提的是,该方法在复杂的多车道高速公路和多智能体环境下,可以处理激光雷达数据并进行决策。

  基于自动驾驶的随机对抗性模仿学习(RAIL)法表明,在政策参数空间内的随机搜索可以适用于自动驾驶政策的模仿学习。具体贡献如下:

  (1) 自驾驶机制是在模仿学习的启发下提出的,RAIL方法可以成功地模拟专业驾驶表现;相应的静态和线性策略可以以相近的速度完成多次换道和超车。

  (2) 传统的模拟学习方法对自动驾驶的控制结构复杂。相比而言,RAIL方法是基于无派生的随机搜索,该方法更加简单。

  先来看一下(如图1),底层的ADAS控制器直接连接到无人驾驶汽车的激光雷达传感器。控制器确定控制车辆所需的信息,并将已经决策好的操作传递给机械部件。作为一个单一的集成系统,最好有多个ADAS功能同时协作来控制车辆的系统运行。

  :在多车道高速公路等有限条件下,主系统通过协调ADAS功能,实现汽车的自动驾驶。由于车辆本身与周围其他车辆、车道或者环境相互作用、互相交互,通过摄像头或雷达等监视器,主系统并不能获取车辆周围完整的环境状态,只能使用部分局部可见信息。因此,还有激光雷达数据的部分观测状态,用O表示。

  RAIL使用激光雷达传感器发射的N条光束均匀地分布在视场上[wmin,wmax]获取的数据完成矢量观测。每个传感器数据有最大范围rmax,传感器返回它遇到的第一个障碍物与车辆之间的距离,如果没有检测到障碍物,则返回rmax。然后,数值表示为O=(O1, . . . , ON)。进而,根据距离数据,可以计算出障碍物与车辆之间的相对速度Vr = (V1,VN)。

  :该策略是一个高层次的决策者,通过对高速公路的观察来确定最优的行动。假设自动驾驶汽车利用了ADAS功能,因此,驱动策略的操作激活了每个ADAS功能。驱动策略定义在离散的动作空间。高层次决策可以分解为以下5个步骤:。以上操作通过自动紧急制动(AEB)和自适应巡航控制(ACC)完成。

  。RAIL旨在培训驾驶决策,模仿专业司机的规范操作。汽车被认为是一个代理策略,在多车道高速公路上,车辆收集数据后生成小值随机噪声矩阵。该代理根据生成的噪声策略与环境进行多次交互,并将结果收集为样本轨迹。

  公式(5)表示对抗模仿学习与随机对抗模仿学习RAIL的随机参数空间搜索之间的关系。

  图3中实验的目的是为了展示样品的效率。为了评估效率,实验考虑了平均车速、换道次数、超车次数、纵向奖励和横向奖励,如图3和图4所示。

  这是因为基于盖尔的框架和基于与环境交互的策略优化,经过训练的策略有时可以获得比专业人类驾驶员更高的性能。

  由表1可以看出,两层政策的平均车速和平均超车统计量最高,分别为70.38km/h和45.04。另一方面,单层策略的性能提高了90%。这是因为单层不足以正确处理高维观测。上述,BC试图将专业演示过程中的1步偏差误差最小化。因此,由于训练和测试之间的分布不匹配,单层策略表现出不理想的性能。

  在图4中,使用纵向补偿来分析环境补偿。纵向补偿与速度成正比;因此,归一化结果与图3a所示的平均速度相同。为了评估行动决策的敏感性,使用了横向补偿。在变道完成之前,车辆可以根据观察改变决策。由于换道过程中横向奖励是连续发生的,因此在换道过程中频繁的换道会导致换道过程中奖励的减少。在图4b中,两层策略在最后一种情况下获得了较大的横向奖励。然而,两层策略比专家策略显示了更多的车道变化。这是因为两层策略不太可能在操作期间更改决策。另一方面,单层策略比专家策略更能显示频繁的换道。因为单层策略经常更改其决策,单层策略获得最小的横向补偿。BC表示换道次数最少。然而,经过培训的策略比RAIL培训的单层策略获得了更大的回报。变道数量明显小于单层策略;从而使训练后的策略比单层策略获得更大的横向回报。

  通过图3c的实验,模拟专家论证,测量合适的决策。为了获得与专家相似的超车次数,仿真过程中的换道点和决策应与专家相似。在图3c中,两层策略相比之下,显示了预期的性能。此外,决策点和操作与专家相似。然而,单层策略比专家策略显示的接管数量要少。这是因为平均速度较低,并且根据观察做出了不合适的换道决定。

  综上所述,验证了RAIL方法提高了平均速度,减少了不必要的变道次数。这就意味着RAIL方法政策方向是正确的。实验结果表明,两层策略取得了与驾驶专家相似的性能。

  ①本网所有内容均来自互联网或网友投稿,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。

  ②如相关内容涉及版权等问题,请在作品发表之日起一周内与本网联系,我们将在您联系我们之后24小时内予以删除,否则视为放弃相关权利,读者热线 。

http://parroche-dorioz.com/suijikongzhixitong/60.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有