arXiv cs.AI 20251014 五大研究方向与代表论文


1. 强化学习(RL)在大型语言模型(LLM)中的应用与能力拓展

该方向专注于利用强化学习技术来微调和增强 LLM 的推理、探索和问题解决能力,致力于突破基础模型原有的性能瓶颈。

序号 论文 ID 标题 核心贡献
1 2510.11686v1 Representation-Based Exploration for Language Models: From Test-Time to Post-Training 提出了一种基于表示的探索奖励机制,显著提高了 LLM 在推理任务上的多样性和效率,实现了 3 倍 的测试时样本效率提升。
2 2510.11683v1 Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models 提出了一种名为 BGPO 的内存高效 RL 算法,用于扩散 LLM (dLLMs),解决了梯度计算导致的内存开销问题,提升了数学问题求解和代码生成性能。
3 2510.11653v1 MATH-Beyond: A Benchmark for RL to Expand Beyond the Base Model 引入了 MATH-Beyond (MATH-B) 基准测试,专门用于评估 RL 方法是否能够真正帮助 LLM 学习新技能,而非仅仅"磨砺"现有能力。

2. AI 智能体、工作流自动化与机器学习工程 (MLE)

该方向关注构建能够自主完成复杂任务的 AI 智能体(Agent),尤其是在自动化机器学习流程(MLE)和多智能体协作方面。

序号 论文 ID 标题 核心贡献
1 2510.11694v1 Operand Quant: A Single-Agent Architecture for Autonomous Machine Learning Engineering 提出了 Operand Quant,一种基于 IDE 的单智能体架构,用于自主机器学习工程(MLE),在 MLE-Benchmark 上取得了最新的 SOTA 结果。
2 2510.11661v1 SR-Scientist: Scientific Equation Discovery With Agentic AI 提出了 SR-Scientist 框架,将 LLM 从简单的方程提议者提升为能够编写代码、分析数据并根据实验反馈优化方程的自主 AI 科学家
3 2510.11654v1 FinVet: A Collaborative Framework of RAG and External Fact-Checking Agents for Financial Misinformation Detection 引入了 FinVet,一个多智能体框架,结合了 RAG(检索增强生成)和外部事实核查机制,用于金融虚假信息检测,F1 分数提升了 10.4%。

3. 机器人与具身 AI (Robotics & Embodied AI)

该方向专注于解决将 AI 模型(尤其是 VLM/LLM)应用于现实世界或仿真中的机器人任务,重点关注 Sim-to-Real 迁移、接触规划和多智能体操作。

序号 论文 ID 标题 核心贡献
1 2510.11689v1 Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation 提出了 Phys2Real,一个 RL 管线,将 VLM 推断的物理参数先验与在线交互式适应相结合,显著提高了不确定性下的Sim-to-Real 机械臂操作成功率。
2 2510.11682v1 Ego-Vision World Model for Humanoid Contact Planning 提出了一个结合世界模型和 MPC 的框架,实现了人形机器人从自我视觉输入的鲁棒、实时接触规划,支持复杂的墙体支撑和物体阻挡任务。
3 2510.11660v1 ManiAgent: An Agentic Framework for General Robotic Manipulation 引入了 ManiAgent,一个基于多智能体通信的架构,用于一般机器人操作任务的端到端规划和执行,提高了复杂长时任务的成功率。

4. AI 安全、鲁棒性与可解释性 (XAI)

该方向关注 AI 系统的内在安全、抵御恶意攻击的能力,以及提升模型的透明度和可信赖度。

序号 论文 ID 标题 核心贡献
1 2510.11709v1 Adversarial Attacks Leverage Interference Between Features in Superposition 特征叠加(Superposition)的角度提供了对对抗性攻击机制的解释,指出对抗性漏洞可能是网络表示压缩的副产品。
2 2510.11688v1 PACEbench: A Framework for Evaluating Practical AI Cyber-Exploitation Capabilities 引入了 PACEbench 基准,用于评估 LLM 在真实世界复杂环境下的网络安全攻击能力,发现当前模型在复杂场景中仍面临困难。
3 2510.11675v1 FACE: Faithful Automatic Concept Extraction 提出了 FACE 框架,通过引入 KL 散度正则化项来增强自动概念提取(Concept Extraction)的忠实性,确保提取的概念与模型的真实决策过程一致。

5. LLM 推理、思维链(CoT)与多模态模型

该方向关注如何通过改进推理链(如代码生成)和跨模态表示学习来增强大型语言模型在复杂推理任务中的表现。

序号 论文 ID 标题 核心贡献
1 2510.11718v1 CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images 提出了 CodePlot-CoT,一种代码驱动的思维链范式,使 VLM 能够生成可执行的绘图代码作为"视觉思维"来解决数学推理问题,性能提升高达 21%。
2 2510.11693v1 Scaling Language-Centric Omnimodal Representation Learning 提出了 LCO-Emb 框架,用于语言中心化的全模态嵌入学习,并确定了 Generation-Representation Scaling Law (GRSL),指出 MLLM 的生成能力与表示质量正相关。
3 2510.11683v1 Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models 此论文也属于 RL 提升 LLM 能力的方向,它解决了 Diffusion LLM推理代码生成规划任务中,RL 训练时的内存效率问题。