卡塔尔世界杯冠军_女子乒乓球世界杯 - ecmipu.com

港科大沈劭劼团队 2025 成果一览:9篇顶刊顶会,实现从算法到系统的工程闭环

图1|框架示意:先用相机/IMU等得到短时精确轨迹,再引入GPS等全局信息作锚定;通过统一的图优化把两者对齐并消除漂移,最终获得全局一致的位姿©️【深蓝AI】编译

Autonomous Flights inside Narrow Tunnels【IEEE TRO】

地址:https://arxiv.org/pdf/2505.19657

主要内容:

这项研究面向难以进入的狭窄隧道(最小直径 0.5m),提出一套实时在线的多旋翼自主系统:通过“虚拟全向感知”克服弱纹理/弱光与有限视场,在运动规划中显式建模感知可见性与自体气流扰动(分别基于相机投影与 CFD 分析);在多处真实窄隧道中,定制四旋翼完成大量飞行实验并表现优于人类飞手,同时给出跨平台部署流程与开源包,为检修/搜救等受限空间作业提供了可复用的工程方案。

图2|系统设计总览:相机彩色/深度图和 IMU 输出运动估计并融合成地图;从地图抽取“中心线”航点,考虑可见性与自体气流扰动来生成轨迹(位置、偏航、速度),最后转成电机控制。流程:入隧定位与预规划 → 隧内持续重规划 → 出隧后收尾规划©️【深蓝AI】编译

SLIM: Scalable and Lightweight LiDAR Mapping in Urban Environments【IEEE TRO】

地址:https://arxiv.org/pdf/2409.08681

主要内容:

这项研究把原来密密麻麻的 LiDAR 点云,简化成“线”和“面”来表示道路和建筑,让地图更轻、也更好维护;基于这种表示,可以更方便地把不同时间采的地图合在一起,并通过整体优化(把整条轨迹和位置“调顺”)保持局部准确。为了长期使用,系统还能在不明显影响精度的前提下自动压缩不重要的位姿。在 KITTI、NCLT、HeLiPR、M2DGR 等数据上,SLIM 同时做到了精度不降、体量更小、扩展更容易;在 KITTI 上整张城市图大约 130 KB/公里,还能直接拿来做再次定位,这让长期跑车/机器人时的地图存储、更新和复用成本大幅降低。

图3|SLIM框架总览:先把原始点云提炼成更轻的“线”和“面”,再把不同时间采的地图合成一张全局图。随后用 PGO(位姿图优化) 和 BA(束调整) 做平滑与校正;通过以地图为中心的边缘化,即便长期多次采集,计算与存储也不会爆炸,适合城市级长期建图©️【深蓝AI】编译

Active Contact Engagement for Aerial Navigation in Unknown Environments With Glass【RAL】

地址:https://arxiv.org/pdf/2505.00332

主要内容:

图4|当视觉判定前方可能是玻璃时,无人机主动前探,用机头两枚触觉传感器轻触表面进行存在性确认;确认无误后再进入后续避障流程©️【深蓝AI】编译

SEPT:Standard-Definition Map Enhanced Scene Perception and Topology Reasoning for Autonomous Driving【RAL】

地址:https://arxiv.org/pdf/2505.12246?

主要内容:

这项研究面向“尽量少依赖昂贵 HD 高精地图”的自动驾驶,提出 SEPT框架,把标准清晰度(SD)地图当作先验信息接入在线感知与拓扑推理:通过混合特征融合把 SD 地图与鸟瞰视角(BEV)特征结合(同时处理栅格/矢量两种表示并缓解二者错位问题),并利用路口特性设计路口感知的关键点辅助任务来强化整体理解;在 OpenLane-V2上对远距离/遮挡等难场景有明显提升,整体效果显著优于现有方法,为更低成本且更稳健的“轻地图”自动驾驶提供了可行路径。

Generalizable and Efficient Scene Graph Registration【IEEE TRO】

地址:https://arxiv.org/pdf/2504.14440

主要内容:

这项研究面向多机器人/先验地图的“对齐”问题,把环境抽象成场景图(节点=物体/语义点,边=关系),并设计网络同时编码三类信息:开放集语义、带空间感知的局部拓扑和形状特征,融合成紧凑的节点描述;前端用由粗到细的匹配找对应,后端用鲁棒位姿估计解出两图的变换,全流程保持稀疏分层表示以减少GPU 占用与通信带宽;训练数据不依赖人工标注,而由视觉基础模型 + 语义建图自动生成;在两智能体 SLAM 基准上,配准成功率显著优于手工特征方案,相比视觉回环网络召回更高且每帧仅约 52 KB通信,代码开源,为低带宽场景下的多机器人地图对齐与共享定位提供了通用基石。

图6|两机器人 SLAM 的语义场景图对齐:相向采集的 RGB-D 跨视角匹配节点并估计变换,最终把两张图对齐成一张统一地图©️【深蓝AI】编译

GoIRL: Graph-Oriented Inverse Reinforcement Learning for Multimodal Trajectory Prediction【ICML】

地址:https://arxiv.org/pdf/2506.21121

主要内容:

这项研究把轨迹预测从“纯监督学习”转向逆强化学习(IRL):先用向量化车道图把道路与交互关系表示成“图”,再用特征适配器把图信息汇入栅格空间,在最大熵 IRL框架下学到“隐含奖励”与策略,从而采样出多种合理的未来轨迹;在此基础上,提出分层参数化生成器与精修模块提升精度,并用概率融合提高置信度;在 Argoverse与 nuScenes上取得 SOTA,对未见场景的泛化也优于纯监督方法,为复杂路口与长尾交互场景的稳健预测提供了一条更可解释、可扩展的 IRL 路线。

图7|上图:GoIRL 总览,基于车道图与 IRL 奖励,先推理意图、再生成多模态轨迹(蓝色为目标车);下图:T 字路口示例:训练数据标注为“直行”,但测试时路口临时路障出现,模型需自适应只给出“左转”这一路线©️【深蓝AI】编译

Event-based Visual-Inertial State Estimation for High-Speed Maneuvers【IEEE TRO】

地址:

主要内容:

这项研究利用事件相机的超高时间分辨率,提出一套不依赖地图的视觉惯性估计:不再直接求相机位姿,而是先实时恢复线速度(更符合事件相机的“微分式”成像原理)。系统输入为双目事件相机 + IMU,前端从原始事件中计算法向流与深度,后端用连续时间 + 滑窗融合不同步的数据,在线估计速度与 IMU 偏置;在仿真与真实数据上实现低时延、米级标定的速度估计,被作者称为首个面向高速机动的纯事件视觉惯性实时方案,为高速无人机/极端运动场景下的稳健感知提供了更快更稳的路径。

图8|系统用双目事件流 + IMU 推出当下线速度:(a) 通过水平旋转制造高速运动;(b) 事件数据估计法向流(稀疏、异步);(c) 在法向流起点估计稀疏深度;(d) 得到机体系下的瞬时线速度示意©️【深蓝AI】编译

Foresight in Motion: Reinforcing Trajectory Prediction with Reward Heuristics【ICCV】

地址:https://arxiv.org/abs/2507.12083?

主要内容:

这项研究把轨迹预测从“直接回归未来”改成“先推理、后预测”:先用基于 IRL 的可解释意图推理器(query-centric IRL)把场景里的车辆与道路要素编码到统一向量表示中,聚合上下文后得到奖励分布,以此推断出多种可能意图作为先验;再用分层解码器(DETR 风格)结合双向状态空间模块生成带概率的未来轨迹。在 Argoverse与 nuScenes上显著提升置信度与性能,为路口博弈、遮挡等不确定场景提供了更可解释且易与规划对接的预测路径.

图9|上:用感知特征直接回归未来轨迹。下:先基于场景关系推断目标车意图(可选虚线步骤),再生成带概率的多条轨迹,更稳健也更可解释©️【深蓝AI】编译

总结返回搜狐,查看更多

Copyright © 2022 卡塔尔世界杯冠军_女子乒乓球世界杯 - ecmipu.com All Rights Reserved.