arXiv cs.AI 20251014 五大研究方向与代表论文
1. 强化学习(RL)在大型语言模型(LLM)中的应用与能力拓展
该方向专注于利用强化学习技术来微调和增强 LLM 的推理、探索和问题解决能力,致力于突破基础模型原有的性能瓶颈。
| 序号 | 论文 ID | 标题 | 核心贡献 |
|---|---|---|---|
| 1 | 2510.11686v1 | Representation-Based Exploration for Language Models: From Test-Time to Post-Training | 提出了一种基于表示的探索奖励机制,显著提高了 LLM 在推理任务上的多样性和效率,实现了 3 倍 的测试时样本效率提升。 |
| 2 | 2510.11683v1 | Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models | 提出了一种名为 BGPO 的内存高效 RL 算法,用于扩散 LLM (dLLMs),解决了梯度计算导致的内存开销问题,提升了数学问题求解和代码生成性能。 |
| 3 | 2510.11653v1 | MATH-Beyond: A Benchmark for RL to Expand Beyond the Base Model | 引入了 MATH-Beyond (MATH-B) 基准测试,专门用于评估 RL 方法是否能够真正帮助 LLM 学习新技能,而非仅仅"磨砺"现有能力。 |
2. AI 智能体、工作流自动化与机器学习工程 (MLE)
该方向关注构建能够自主完成复杂任务的 AI 智能体(Agent),尤其是在自动化机器学习流程(MLE)和多智能体协作方面。
| 序号 | 论文 ID | 标题 | 核心贡献 |
|---|---|---|---|
| 1 | 2510.11694v1 | Operand Quant: A Single-Agent Architecture for Autonomous Machine Learning Engineering | 提出了 Operand Quant,一种基于 IDE 的单智能体架构,用于自主机器学习工程(MLE),在 MLE-Benchmark 上取得了最新的 SOTA 结果。 |
| 2 | 2510.11661v1 | SR-Scientist: Scientific Equation Discovery With Agentic AI | 提出了 SR-Scientist 框架,将 LLM 从简单的方程提议者提升为能够编写代码、分析数据并根据实验反馈优化方程的自主 AI 科学家。 |
| 3 | 2510.11654v1 | FinVet: A Collaborative Framework of RAG and External Fact-Checking Agents for Financial Misinformation Detection | 引入了 FinVet,一个多智能体框架,结合了 RAG(检索增强生成)和外部事实核查机制,用于金融虚假信息检测,F1 分数提升了 10.4%。 |
3. 机器人与具身 AI (Robotics & Embodied AI)
该方向专注于解决将 AI 模型(尤其是 VLM/LLM)应用于现实世界或仿真中的机器人任务,重点关注 Sim-to-Real 迁移、接触规划和多智能体操作。
| 序号 | 论文 ID | 标题 | 核心贡献 |
|---|---|---|---|
| 1 | 2510.11689v1 | Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation | 提出了 Phys2Real,一个 RL 管线,将 VLM 推断的物理参数先验与在线交互式适应相结合,显著提高了不确定性下的Sim-to-Real 机械臂操作成功率。 |
| 2 | 2510.11682v1 | Ego-Vision World Model for Humanoid Contact Planning | 提出了一个结合世界模型和 MPC 的框架,实现了人形机器人从自我视觉输入的鲁棒、实时接触规划,支持复杂的墙体支撑和物体阻挡任务。 |
| 3 | 2510.11660v1 | ManiAgent: An Agentic Framework for General Robotic Manipulation | 引入了 ManiAgent,一个基于多智能体通信的架构,用于一般机器人操作任务的端到端规划和执行,提高了复杂长时任务的成功率。 |
4. AI 安全、鲁棒性与可解释性 (XAI)
该方向关注 AI 系统的内在安全、抵御恶意攻击的能力,以及提升模型的透明度和可信赖度。
| 序号 | 论文 ID | 标题 | 核心贡献 |
|---|---|---|---|
| 1 | 2510.11709v1 | Adversarial Attacks Leverage Interference Between Features in Superposition | 从特征叠加(Superposition)的角度提供了对对抗性攻击机制的解释,指出对抗性漏洞可能是网络表示压缩的副产品。 |
| 2 | 2510.11688v1 | PACEbench: A Framework for Evaluating Practical AI Cyber-Exploitation Capabilities | 引入了 PACEbench 基准,用于评估 LLM 在真实世界复杂环境下的网络安全攻击能力,发现当前模型在复杂场景中仍面临困难。 |
| 3 | 2510.11675v1 | FACE: Faithful Automatic Concept Extraction | 提出了 FACE 框架,通过引入 KL 散度正则化项来增强自动概念提取(Concept Extraction)的忠实性,确保提取的概念与模型的真实决策过程一致。 |
5. LLM 推理、思维链(CoT)与多模态模型
该方向关注如何通过改进推理链(如代码生成)和跨模态表示学习来增强大型语言模型在复杂推理任务中的表现。
| 序号 | 论文 ID | 标题 | 核心贡献 |
|---|---|---|---|
| 1 | 2510.11718v1 | CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images | 提出了 CodePlot-CoT,一种代码驱动的思维链范式,使 VLM 能够生成可执行的绘图代码作为"视觉思维"来解决数学推理问题,性能提升高达 21%。 |
| 2 | 2510.11693v1 | Scaling Language-Centric Omnimodal Representation Learning | 提出了 LCO-Emb 框架,用于语言中心化的全模态嵌入学习,并确定了 Generation-Representation Scaling Law (GRSL),指出 MLLM 的生成能力与表示质量正相关。 |
| 3 | 2510.11683v1 | Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models | 此论文也属于 RL 提升 LLM 能力的方向,它解决了 Diffusion LLM 在推理、代码生成和规划任务中,RL 训练时的内存效率问题。 |
评论