arXiv cs.AI 日报 (20260605~20260605)

📋 arXiv cs.AI 日报 (2026-06-05)

共收录 102 篇论文，以下按研究方向聚类分析并精选推荐。

📊 研究方向热度分析

🤖 智能体 / 自主系统 / 工具使用（~22 篇）

本日智能体相关论文数量最多，涵盖 Deep Research 多智能体框架、自演化编程 Agent、GUI Agent 奖励建模、Agent 记忆架构、以及 Agent 安全监控等方向，反映出社区从"能力提升"向"可控部署"的全面转移。

DuMate-DeepResearch — 多智能体 Deep Research 框架，递归搜索 + 评分标准驱动推理，两个 benchmark 均取得 SOTA
Socratic-SWE: Self-Evolving Coding Agents via Trace-Derived Agent Skills — 利用历史求解轨迹自演化编程 Agent，SWE-bench Verified 达 50.4%
How AI Agents Reshape Knowledge Work — 基于 Perplexity 生产数据的实证研究，Agent 使任务时间降低 87%、成本降低 94%
AdMem: Advanced Memory for Task-solving Agents — 统一语义/情景/过程记忆的双层架构，提升长程多轮任务鲁棒性
TRACE: Trajectory Reasoning through Adaptive Cross-Step Evidence Aggregation — 长程 Agent 轨迹安全监控框架，F1 达 0.713

⚡ 推理效率 / 训练优化（~18 篇）

推理效率优化成为热点：从"何时停止思考"的动态推理控制、test-time compute 统一框架，到蒸馏几何分析和低比特量化，社区在推理成本与质量之间寻找新平衡。

DyCon: Dynamic Reasoning Control via Evolving Difficulty Modeling — 免训练方法，利用隐层表征动态控制推理深度，减少冗余推理步
ThinkBooster: A Unified Framework for Seamless Test-Time Scaling — 统一 TTC 缩放框架，含策略库/评分器/可视化调试器
OffQ: Taming Structured Outliers in LLM Quantization by Offsetting — 通过偏移机制消除激活异常值，实现 W4A4KV4 量化
On the Geometry of On-Policy Distillation — 揭示 OPD 在参数空间有独特更新几何，不同于 SFT/RLVR
SETA: Sparse Subspace-to-Expert Sharing for Task-Agnostic Continual Learning — 稀疏子空间分解解决持续学习中的遗忘问题

🎨 多模态理解与生成（~20 篇）

多模态方向呈现"更长、更实时、更忠实"三大趋势：长视频理解引入层次图记忆，流式视频实现实时语言同步，TTS 和歌唱合成达到新 SOTA。

MemDreamer: Hierarchical Graph Memory and Agentic Retrieval for Long Video — 仅用 2% 上下文窗口实现 12.5 分准确率提升
dots.tts Technical Report — 2B 参数连续自回归 TTS，Seed-TTS-Eval 全面 SOTA
LyraV: Don't Pause — Streaming Video-Language Synchrony — 98.29% 视频同步率，3.89 FPS 实时处理
CULTURESCORE: Evaluating Cultural Faithfulness in Video Generation — 首个文化忠实度评估框架，最佳模型仅 56.8%
MotionEnhancer: Video Diffusion for Motion-Enhanced VLMs — 无额外参数，从视频扩散模型蒸馏运动先验

🛡️ 安全 / 对齐 / 可信 AI（~15 篇）

安全研究覆盖面广泛：从编程 Agent 欺骗检测、无 CoT 推理能力追踪，到隐私泄露基准和机器生成文本检测，表明安全研究正跟随能力前沿同步演进。

Think Fast: Estimating No-CoT Task-Completion Time Horizons — 前沿模型无 CoT 能力每年翻倍，GPT-5.5 已超 3 分钟
CapCode: Detecting and Preventing Cheating via Capped Evaluation — 随机化测试 + 上限设计检测编程 Agent 作弊
SopriBench: User-Level Privacy Leakage on Social Media — 累积跨帖子推理泄露用户隐私，Agent 框架 PES 提升 25%
SV-Detect: AI-generated Text Detection with Steering Vectors — 利用 steering vectors 实现分布偏移下稳健检测
OpenHalDet: Unified Benchmark for Hallucination Detection — 统一幻觉检测评估框架，覆盖黑盒/灰盒/白盒方法

🔬 科学 / 医疗 / 病理 AI（~10 篇）

病理学视觉基础模型持续推进，合成数据生成在低数据场景展现价值；逆合成预测和 PPG 基础模型拓展了 AI 在科学领域的落地路径。

DaX: Learning General Pathology Representations Across Scales — 病理视觉基础模型，161 任务/44 数据集基准全面领先
STREAM: Riemannian Flow Matching for Histopathology Image Generation — 首个病理领域黎曼流匹配框架
RETROSPECT: Retrosynthesis via Sequential Prediction — Transformer + LambdaMART 组合，USPTO-50K 达 59.4% top-1

💡 关键技术突破

前沿模型无 CoT 能力每年翻倍

论文：Think Fast: Estimating No-CoT Task-Completion Time Horizons of Frontier AI Models

创新点：在 43 个 benchmark、3 万题上测量前沿模型"不思考"直接回答的能力。提出 50% 任务完成时间地平线（TH）指标，发现无 CoT TH 近 6 年每年翻倍，GPT-5.5 已超 3 分钟、推理 token 地平线超 1500 token。

意义：如果模型无需显式思维链即可完成复杂推理，基于 CoT 监控的安全方案将被架空——这是 AI 安全领域的核心预警信号。

轨迹驱动自演化编程 Agent

论文：Socratic-SWE: Self-Evolving Coding Agents via Trace-Derived Agent Skills

创新点：将 Agent 历史求解轨迹蒸馏为结构化技能，用于指导生成针对性修复任务。通过执行验证和梯度对齐奖励闭环迭代，三轮迭代在 SWE-bench Verified 达 50.40%。

意义：证明求解轨迹可作为自演化的可扩展基底，为 Agent 自主进化提供了实用范式。

层次图记忆解锁小时级长视频理解

论文：MemDreamer: Hierarchical Graph Memory and Agentic Retrieval for Long Video Understanding

创新点：将感知与推理解耦，增量构建三层层次图记忆，推理时通过 Observation-Reason-Action 循环进行工具增强检索。仅用 2% 上下文窗口即获得 12.5 分准确率绝对提升。

意义：建立了"Agent 能力缩放是多模态理解新范式"的实证基础，逻辑推理与长视频性能呈强正线性相关。

2B 参数连续自回归 TTS 全面 SOTA

论文：dots.tts Technical Report

创新点：三大创新——多目标 AudioVAE 构建预测友好的连续语音空间、全历史条件 flow-matching head、无奖励自纠正后训练。Seed-TTS-Eval 中/英/中难集 WER 分别达 0.94%/1.30%/6.60%，首包延迟 54ms。

意义：开源 Apache 2.0 许可，含训练/推理代码和全套 checkpoints，为 TTS 社区提供强力开源基座。

动态推理深度控制：免训练消除"过度思考"

论文：DyCon: Dynamic Reasoning Control via Evolving Difficulty Modeling

创新点：发现问题难度在推理过程中动态演化且线性编码于 LRM 的步级嵌入中。基于此提出免训练框架，通过隐层表征显式建模任务难度演变，动态控制推理深度。跨 4B-32B 模型、12 个 benchmark 显著减少冗余步骤。

意义：为推理模型的计算效率提供了实用且通用的解决方案，无需微调即可即插即用。

👥 作者与机构

机构/团队	代表论文	方向
百度（Qianfan Agent Foundry）	DuMate-DeepResearch	多智能体 Deep Research
Perplexity AI (Jeremy Yang 等)	How AI Agents Reshape Knowledge Work	Agent 实证研究
NVIDIA / Stanford (Marco Pavone 等)	COMPACT-VA（自动驾驶 token 压缩）	自动驾驶
阿里巴巴达摩院	DaX（病理视觉基础模型）	计算病理学
浙大 / Chunhua Shen 组	MemDreamer	长视频理解
Pika / 上海交大（dots.tts）	dots.tts TTS Foundation Model	语音合成
Redwood Research / MATS 等 (21 位作者)	Think Fast	AI 安全 / 能力评估
IBM Research (Laura Wynter 等)	Declarative Skills / EP-HUBO	Agent 编排 / 量子推理
MPI Informatics (Bernt Schiele 组)	TEVI（视觉语言对齐）	视觉语言模型

📄 精选论文 Top 10

Think Fast: Estimating No-CoT Task-Completion Time Horizons of Frontier AI Models
Dewi Gould, Francis Rhys Ward, Ryan Greenblatt 等 · 前沿模型无 CoT 能力年均翻倍，对 CoT 监控安全范式构成根本挑战
DuMate-DeepResearch: An Auditable Multi-Agent System with Recursive Search and Rubric-Grounded Reasoning
Lingyong Yan, Can Xu, Dawei Yin 等 · 图规划 + 递归搜索 + 评分标准优化，DeepResearch Bench I/II 双 SOTA
dots.tts Technical Report
Shi Lian, Changtao Li, Kai Yu 等 · 2B 参数连续自回归 TTS，开源全套代码与权重，多维度 SOTA
MemDreamer: Hierarchical Graph Memory and Agentic Retrieval for Long Video Understanding
Cong Chen, Chunhua Shen 等 · 解耦感知与推理，2% 上下文窗口获 12.5 分绝对提升
Socratic-SWE: Self-Evolving Coding Agents via Trace-Derived Agent Skills
Chuan Xiao, Lin Qu 等 · 轨迹→技能→任务闭环自演化，SWE-bench Verified 50.40%
DyCon: Dynamic Reasoning Control via Evolving Difficulty Modeling
Tengyao Tu, Min Zhang 等 · 免训练动态推理深度控制，4B-32B 模型跨 12 个 benchmark 有效
Do Coding Agents Deceive Us? Detecting and Preventing Cheating via Capped Evaluation
Thanawat Lodkaew, Masashi Sugiyama 等 · 上限设计 + 随机化测试检测 Agent 欺骗行为
SlimSearcher: Training Efficiency-Aware Web Agents via Adaptive Reward Gating
Zequn Xie, Jinjie Gu 等 · Pareto 前沿优化搜索效率，工具调用轮次减少 17%-58%
DaX: Learning General Pathology Representations Across Scales
Bokai Zhao, Minfeng Xu 等 · 跨尺度病理基础模型，161 任务/44 数据集 benchmark 最优
A Comprehensive Anatomy of Human and DeepSeek-R1 LLM Mathematical Reasoning
Yuxiang Chen, Jun Wang · 穷尽标注 10,247 推理步骤，揭示 LLM 推理为"拓扑模仿"而非真正演绎

🔮 趋势观察

1. Agent 从"能做"到"可控"：今日论文中 Agent 相关工作占比超 20%，但重心已从能力扩展转向可控部署——轨迹监控（TRACE）、欺骗检测（CapCode）、工作流完整性（H-CSC）、记忆治理（AdMem）等工作密集出现，表明 Agent 安全已成独立研究方向。

2. "推理成本"成为一等公民：DyCon、ThinkBooster、SlimSearcher 等工作共同指向一个趋势——推理质量的衡量不再只看准确率，而是准确率与 token/工具调用成本的 Pareto 前沿。推理效率正从工程优化上升为研究课题。

3. Think Fast 是今日最重要的安全信号：如果前沿模型无 CoT 的任务完成时间地平线确实以年均翻倍速率增长，到 2028 年可能超 7 分钟，2030 年超 25 分钟——这意味着依赖 CoT 进行模型监督的安全方案的有效窗口正在快速收窄。

🌏 Bluo Blog

关于本站

文章列表

数据统计

ARXIV CS AI DAILY 20260605