清华航空团队揭示人类视觉注意力与智能驾驶算法本质差异 – 新京报

新京报贝壳财经讯 2月21日，清华大学智能产业研究院（AIR）以自动驾驶这一安全关键领域为事业，发布研究成果显示，首次通过“人眼追踪实验+算法对比验证”的双轨设计，系统解决了人类与智能驾驶算法在视觉注意力方面的本质区别。其核心价值在于提出了人类驾驶注意力的三阶段量化分解框架，并证实了智能驾驶算法视觉理解的核心缺陷是缺乏“语义显着性提取功能”。通过将语义注意力融入人类检查阶段，我们可以经济有效地缩小专门算法的“语义差距”和“语义差距”。研究团队招募了专家和新手司机来完成三类任务：危险检测、可用性识别实体化和异常检测。他们结合眼动数据来分割注意力阶段，然后将不同的注意力阶段集成到 AxANet 和 UniAD 等专门算法以及 DriveLM 等视觉语言模型 (VLM) 中。最后，我们揭示了人类和算法在注意力方面智能驾驶的核心区别在于“语义理解”而不是“空间定位”。尽管人类可以通过自上而下的认知在语义上对场景特征进行优先级排序，但智能驾驶算法很难独立学习这种能力。这一发现提供了一条没有任何问题的新途径，它为自动驾驶算法的改进提供了一条新途径，并为解决实际限制性车辆系统问题提供了重要的实践意义。编辑：蒋帆、校对：张彦军