Bluo Blog

ARXIV CS AI 20251014

该方向专注于利用强化学习技术来微调和增强 LLM 的推理、探索和问题解决能力，致力于突破基础模型原有的性能瓶颈。

序号	论文 ID	标题	核心贡献
1	2510.11686v1	Representation-Based Exploration for Language Models: From Test-Time to Post-Training	提出了一种基于表示的探索奖励机制，显著提高了 LLM 在推理任务上的多样性和效率，实现了 3 倍的测试时样本效率提升。
2	2510.11683v1	Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models	提出了一种名为 BGPO 的内存高效 RL 算法，用于扩散 LLM (dLLMs)，解决了梯度计算导致的内存开销问题，提升了数学问题求解和代码生成性能。
3	2510.11653v1	MATH-Beyond: A Benchmark for RL to Expand Beyond the Base Model	引入了 MATH-Beyond (MATH-B) 基准测试，专门用于评估 RL 方法是否能够真正帮助 LLM 学习新技能，而非仅仅"磨砺"现有能力。

该方向关注构建能够自主完成复杂任务的 AI 智能体（Agent），尤其是在自动化机器学习流程（MLE）和多智能体协作方面。

序号	论文 ID	标题	核心贡献
1	2510.11694v1	Operand Quant: A Single-Agent Architecture for Autonomous Machine Learning Engineering	提出了 Operand Quant，一种基于 IDE 的单智能体架构，用于自主机器学习工程（MLE），在 MLE-Benchmark 上取得了最新的 SOTA 结果。
2	2510.11661v1	SR-Scientist: Scientific Equation Discovery With Agentic AI	提出了 SR-Scientist 框架，将 LLM 从简单的方程提议者提升为能够编写代码、分析数据并根据实验反馈优化方程的自主 AI 科学家。
3	2510.11654v1	FinVet: A Collaborative Framework of RAG and External Fact-Checking Agents for Financial Misinformation Detection	引入了 FinVet，一个多智能体框架，结合了 RAG（检索增强生成）和外部事实核查机制，用于金融虚假信息检测，F1 分数提升了 10.4%。

该方向专注于解决将 AI 模型（尤其是 VLM/LLM）应用于现实世界或仿真中的机器人任务，重点关注 Sim-to-Real 迁移、接触规划和多智能体操作。

序号	论文 ID	标题	核心贡献
1	2510.11689v1	Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation	提出了 Phys2Real，一个 RL 管线，将 VLM 推断的物理参数先验与在线交互式适应相结合，显著提高了不确定性下的Sim-to-Real 机械臂操作成功率。
2	2510.11682v1	Ego-Vision World Model for Humanoid Contact Planning	提出了一个结合世界模型和 MPC 的框架，实现了人形机器人从自我视觉输入的鲁棒、实时接触规划，支持复杂的墙体支撑和物体阻挡任务。
3	2510.11660v1	ManiAgent: An Agentic Framework for General Robotic Manipulation	引入了 ManiAgent，一个基于多智能体通信的架构，用于一般机器人操作任务的端到端规划和执行，提高了复杂长时任务的成功率。

该方向关注 AI 系统的内在安全、抵御恶意攻击的能力，以及提升模型的透明度和可信赖度。

序号	论文 ID	标题	核心贡献
1	2510.11709v1	Adversarial Attacks Leverage Interference Between Features in Superposition	从特征叠加（Superposition）的角度提供了对对抗性攻击机制的解释，指出对抗性漏洞可能是网络表示压缩的副产品。
2	2510.11688v1	PACEbench: A Framework for Evaluating Practical AI Cyber-Exploitation Capabilities	引入了 PACEbench 基准，用于评估 LLM 在真实世界复杂环境下的网络安全攻击能力，发现当前模型在复杂场景中仍面临困难。
3	2510.11675v1	FACE: Faithful Automatic Concept Extraction	提出了 FACE 框架，通过引入 KL 散度正则化项来增强自动概念提取（Concept Extraction）的忠实性，确保提取的概念与模型的真实决策过程一致。

该方向关注如何通过改进推理链（如代码生成）和跨模态表示学习来增强大型语言模型在复杂推理任务中的表现。

序号	论文 ID	标题	核心贡献
1	2510.11718v1	CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images	提出了 CodePlot-CoT，一种代码驱动的思维链范式，使 VLM 能够生成可执行的绘图代码作为"视觉思维"来解决数学推理问题，性能提升高达 21%。
2	2510.11693v1	Scaling Language-Centric Omnimodal Representation Learning	提出了 LCO-Emb 框架，用于语言中心化的全模态嵌入学习，并确定了 Generation-Representation Scaling Law (GRSL)，指出 MLLM 的生成能力与表示质量正相关。
3	2510.11683v1	Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models	此论文也属于 RL 提升 LLM 能力的方向，它解决了 Diffusion LLM 在推理、代码生成和规划任务中，RL 训练时的内存效率问题。

🌏 Bluo Blog