há 8 horas atrás · 07b40f757f
--- a/site/content/ai-daily/2026-03-17.md
+++ b/site/content/ai-daily/2026-03-17.md
@@ -0,0 +1,68 @@
 
				+---
			
 
				+title: "2026-03-17 · AI 每日简报"
			
 
				+date: 2026-03-17T16:51:25.275612+08:00
			
 
				+draft: false
			
 
				+summary: "RobotDaily 2026-03-17：共 7 篇，含 具身智能 2 篇，表征学习 3 篇，强化学习 2 篇。"
			
 
				+tags: ["robotdaily", "ai-daily", "具身智能", "表征学习", "强化学习", "llm"]
			
 
				+---
			
 
				+
			
 
				+> Hugo 归档版，来源于 RobotDaily 当日 Markdown 简报。
			
 
				+>
			
 
				+> RobotDaily 2026-03-17：共 7 篇，含 具身智能 2 篇，表征学习 3 篇，强化学习 2 篇。
			
 
				+
			
 
				+偏应用导向精选，按方向整理成短卡片式 Markdown 归档。
			
 
				+
			
 
				+## 具身智能（2 篇）
			
 
				+
			
 
				+### 1. RoCo Challenge at AAAI 2026: Benchmarking Robotic Collaborative Manipulation for Assembly Towards Industrial Automation
			
 
				+> 首个面向工业装配的双臂机器人协作挑战，提供高质量仿真与真实数据集，验证了长时序多任务学习与失败恢复策略的有效性。
			
 
				+- 作者：Haichao Liu, Yuheng Zhou, Zhenyu Wu, Ziheng Ji 等另外13人
			
 
				+- 标签：`具身智能` `工业自动化` `双臂协作` `装配任务`
			
 
				+- 中文摘要：具身智能正快速发展，推动自主系统从孤立感知转向集成连续行动，这对工业机器人操作意义重大。为评估和推进这一能力，我们推出了机器人协作装配辅助挑战赛，并提供面向仿真和真实装配操作的数据集。挑战聚焦于高精度的行星齿轮箱装配任务，基于Isaac Sim开发的数据采集、训练和评估系统，并采用双臂机器人进行真实部署。仿真阶段通过细粒度任务阶段评分处理长时序装配，真实阶段则使用物理齿轮箱组件和高质量遥操作数据集。核心任务包括从头装配行星齿轮箱，涉及三个行星齿轮、太阳齿轮和内齿圈的安装。挑战吸引了来自10多个国家的60多支团队和170多名参与者，产生了ARC-VLA和RoboCola等有效解决方案。结果表明，双模型框架对长时序多任务学习有效，而恢复失败的课程数据策略是成功部署的关键。
			
 
				+- 链接：[DOI](https://doi.org/10.48550/arXiv.2603.15469) | [arXiv](https://arxiv.org/abs/2603.15469v1) | [PDF](https://arxiv.org/pdf/2603.15469v1)
			
 
				+
			
 
				+### 2. HapticVLA: Contact-Rich Manipulation via Vision-Language-Action Model without Inference-Time Tactile Sensing
			
 
				+> 无需昂贵触觉传感器即可实现精细操作，大幅降低部署成本并提升跨平台复现性，具显著应用价值。
			
 
				+- 作者：Konstantin Gubernatorov, Mikhail Sannikov, Ilya Mikhalchuk, Egor Kuznetsov 等另外6人
			
 
				+- 标签：`具身智能` `VLA` `触觉蒸馏` `无传感器推理`
			
 
				+- 中文摘要：触觉感知对视觉 - 语言 - 动作（VLA）架构至关重要，但依赖专用硬件增加了成本并降低了复现性。本文提出 HapticVLA，主张在无推理时触觉反馈下实现触觉感知操作。该方法包含两个阶段：安全感知奖励加权流匹配（SA-RWFM）训练动作专家，融入预计算的触觉奖励以惩罚过大抓取力；触觉蒸馏（TD）将触觉能力迁移至常规 VLA，通过蒸馏紧凑触觉令牌，使学生模型仅凭视觉和状态预测该令牌。实测表明，HapticVLA 平均成功率达 86.7%，优于包含实时触觉反馈的基线 VLA。
			
 
				+- 链接：[DOI](https://doi.org/10.48550/arXiv.2603.15257) | [arXiv](https://arxiv.org/abs/2603.15257v1) | [PDF](https://arxiv.org/pdf/2603.15257v1)
			
 
				+
			
 
				+## 表征学习（3 篇）
			
 
				+
			
 
				+### 1. Self-Distillation of Hidden Layers for Self-Supervised Representation Learning
			
 
				+> 通过预测多层隐藏表示，结合生成与预测方法优势，提升训练稳定性和特征表达能力，适用于多种视觉任务。
			
 
				+- 作者：Scott C. Lowe, Anthony Fuller, Sageev Oore, Evan Shelhamer 等另外1人
			
 
				+- 标签：`自监督学习` `表征学习` `多层蒸馏` `视觉任务`
			
 
				+- 中文摘要：自监督学习（SSL）领域目前由生成方法（如MAE）和预测方法（如I-JEPA）主导。生成方法重建原始低层数据，计算效率低且不优先学习高层概念特征；预测方法依赖最终层自蒸馏的非平稳目标，训练不稳定。我们提出Bootleg，通过预测教师网络多个隐藏层的潜在表示来弥合这一差距。这种分层目标迫使模型同时捕获不同抽象级别的特征。实验表明，Bootleg在ImageNet-1K和iNaturalist-21分类、ADE20K和Cityscapes语义分割上显著优于基线（比I-JEPA高10%）。
			
 
				+- 链接：[DOI](https://doi.org/10.48550/arXiv.2603.15553) | [arXiv](https://arxiv.org/abs/2603.15553v1) | [PDF](https://arxiv.org/pdf/2603.15553v1)
			
 
				+
			
 
				+### 2. What Matters for Scalable and Robust Learning in End-to-End Driving Planners?
			
 
				+> 系统分析端到端驾驶架构的关键设计，提出轻量级BevAD，在闭环任务中实现高成功率和强数据扩展性。
			
 
				+- 作者：David Holtz, Niklas Hanselmann, Simon Doll, Marius Cordts 等另外1人
			
 
				+- 标签：`端到端驾驶` `闭环学习` `鸟瞰图` `模仿学习`
			
 
				+- 中文摘要：端到端自动驾驶因其在交互场景中学习鲁棒行为和随数据扩展的潜力而备受关注。主流架构通常通过潜在表示（如鸟瞰图特征网格）连接感知和规划模块，以保持端到端可微性。这一范式主要在开环数据集上发展，评估侧重于驾驶性能和中间感知任务。然而，在开环中表现优异的架构往往无法扩展到鲁棒的闭环驾驶学习。本文系统重新审视了常见架构模式对闭环性能的影响：（1）高分辨率感知表示，（2）解耦轨迹表示，（3）生成式规划。关键在于，我们的分析评估了这些模式的综合影响，揭示了意外局限性和未探索的协同效应。基于这些见解，我们提出了BevAD，一种新颖的轻量级且高度可扩展的端到端驾驶架构。BevAD在Bench2Drive基准上达到72.7%成功率，并展示了纯模仿学习的强数据扩展行为。
			
 
				+- 链接：[DOI](https://doi.org/10.48550/arXiv.2603.15185) | [arXiv](https://arxiv.org/abs/2603.15185v1) | [PDF](https://arxiv.org/pdf/2603.15185v1)
			
 
				+
			
 
				+### 3. Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models
			
 
				+> 提出DeepVision-VLA，通过共享注意力和视觉修剪增强VLA模型的视觉表征，显著提升机器人操作精度。
			
 
				+- 作者：Yulin Luo, Hao Chen, Zhuangzhe Wu, Bowen Sui 等另外9人
			
 
				+- 标签：`VLA模型` `视觉表征` `机器人操作` `混合Transformer`
			
 
				+- 中文摘要：视觉-语言-动作（VLA）模型是机器人操作的有前景范式，其动作预测依赖于准确解释和整合视觉观察与语言指令。现有研究大多将LLM骨干视为黑箱，缺乏对视觉信息如何融入动作生成的深入分析。本文系统分析了多种VLA模型，发现动作生成过程中深层对视觉Token的敏感性逐渐降低。为此，提出DeepVision-VLA，基于视觉-语言混合Transformer（VL-MoT）框架，实现视觉基础模型与VLA骨干的共享注意力，将多级视觉特征注入VLA深层以增强表征能力。此外，引入动作引导视觉修剪（AGVP），利用浅层注意力修剪无关视觉Token，保留任务相关特征，以最小计算开销强化关键视觉线索。实验表明，DeepVision-VLA在模拟和真实任务上分别超越现有最优方法9.0%和7.5%。
			
 
				+- 链接：[DOI](https://doi.org/10.48550/arXiv.2603.15618) | [arXiv](https://arxiv.org/abs/2603.15618v1) | [PDF](https://arxiv.org/pdf/2603.15618v1)
			
 
				+
			
 
				+## 强化学习（2 篇）
			
 
				+
			
 
				+### 1. MA-VLCM: A Vision Language Critic Model for Value Estimation of Policies in Multi-Agent Team Settings
			
 
				+> 利用预训练视觉-语言模型替代传统集中式评论家，提升多智能体强化学习的样本效率和泛化能力，适合资源受限机器人部署。
			
 
				+- 作者：Shahil Shaik, Aditya Parameshwaran, Anshul Nayak, Jonathon M. Smereka 等另外1人
			
 
				+- 标签：`多智能体强化学习` `视觉-语言模型` `零样本泛化` `样本效率`
			
 
				+- 中文摘要：多智能体强化学习（MARL）通常依赖集中式评论家来估计价值函数，但从头学习这样的评论家样本效率低且泛化能力有限。同时，大规模视觉-语言-动作模型（VLA）具备强大的多模态推理和零样本泛化能力，但直接部署计算成本高，尤其在异构多机器人系统中。为此，我们提出多智能体视觉-语言评论家模型（MA-VLCM），用预训练视觉-语言模型微调后的版本替代MARL中的集中式评论家，评估多智能体行为。MA-VLCM基于自然语言任务描述、视觉轨迹观测和结构化多智能体状态信息作为条件。通过消除策略优化中的评论家学习，该方法显著提升样本效率，并生成适合资源受限机器人部署的紧凑执行策略。实验表明，在多智能体团队设置中，MA-VLCM在不同VLM骨干模型上对分布内和分布外场景均能实现良好的零样本回报估计。
			
 
				+- 链接：[DOI](https://doi.org/10.48550/arXiv.2603.15418) | [arXiv](https://arxiv.org/abs/2603.15418v1) | [PDF](https://arxiv.org/pdf/2603.15418v1)
			
 
				+
			
 
				+### 2. Safe Flow Q-Learning: Offline Safe Reinforcement Learning with Reachability-Based Flow Policies
			
 
				+> 结合可达性理论与流策略，实现低延迟、高安全性的离线RL，适用于实时控制场景。
			
 
				+- 作者：Mumuksh Tayal, Manan Tayal, Ravi Prakash
			
 
				+- 标签：`离线安全RL` `可达性分析` `流策略` `共形预测`
			
 
				+- 中文摘要：离线安全强化学习旨在从静态数据集中学习在严格安全约束下最大化奖励的策略。现有方法常依赖软期望成本目标或迭代生成推断，难以满足安全关键实时控制的需求。我们提出Safe Flow Q-Learning（SafeFQL），通过结合受Hamilton-Jacobi可达性启发的安全价值函数与高效的单步流策略，将FQL扩展至安全离线RL。SafeFQL通过自一致性Bellman递归学习安全价值，通过行为克隆训练流策略，并将其蒸馏为单步执行器，无需部署时的拒绝采样即可实现奖励最大化的安全动作选择。为处理学习安全边界中的有限数据近似误差，我们引入共形预测校准步骤，调整安全阈值并提供有限样本概率安全覆盖。实验表明，SafeFQL以略高的离线训练成本换取了显著低于扩散式安全生成基线的推理延迟，有利于实时安全关键部署。在船只导航和Safety Gymnasium MuJoCo任务中，SafeFQL匹配或超越先前离线安全RL性能，同时显著减少约束违反。
			
 
				+- 链接：[DOI](https://doi.org/10.48550/arXiv.2603.15136) | [arXiv](https://arxiv.org/abs/2603.15136v1) | [PDF](https://arxiv.org/pdf/2603.15136v1)