AI Agent 记忆系统与 Web Fetch 能力调研报告

🤖 AI Agent 能力调研报告

记忆系统 (Memory System) & Web Fetch 能力深度分析
调研日期:2026年3月4日 | OpenClaw 技术调研

🧠 主题一:AI Agent 记忆系统 (Memory System)

AI Agent 的记忆系统是解决 LLM 上下文窗口限制和会话无状态问题的关键技术。热门项目主要采用分层记忆架构知识图谱向量化存储等方案实现长期记忆,让 Agent 能够跨会话学习和适应用户偏好。

1

Letta (MemGPT)

github.com/letta-ai/letta
⭐ 21.4k stars

热门 Letta 是构建有状态 AI Agent 的平台,前身是著名的 MemGPT 项目。它实现了类似操作系统的内存管理,让 Agent 拥有持久记忆并能自我改进。

核心特性:

  • 分层记忆架构 - Core Memory (核心记忆) + Recall Memory (回忆记忆) + Archival Memory (归档记忆)
  • 自我编辑能力 - Agent 可主动管理上下文窗口,决定保留/迁移哪些信息
  • 跨会话持久化 - 状态跨会话保持,支持持续学习和个性化
  • 模型无关设计 - 支持 GPT、Claude、Gemini 等多种 LLM
  • Letta Code CLI - 本地终端运行的代码助手,支持 Skills 和 Subagents
Python TypeScript SDK LangGraph 集成 Self-editing Memory
2

Zep + Graphiti

github.com/getzep/zep | github.com/getzep/graphiti
⭐ 23.2k + 4.1k stars

创新 Zep 是端到端的上下文工程平台,通过 Graphiti 构建时序知识图谱,实现关系感知的上下文检索,<200ms 延迟,企业级可扩展。

核心特性:

  • 时序知识图谱 - 自动提取实体关系,支持 valid_at/invalid_at 时间维度
  • 多源数据融合 - 聊天历史、业务数据、文档、应用事件统一管理
  • 关系感知检索 - 返回预格式化的上下文块,LLM 友好
  • 企业级合规 - SOC2 Type 2 / HIPAA 合规认证
  • 多语言 SDK - Python、TypeScript、Go 官方支持
Knowledge Graph Graph RAG Neo4j Temporal Memory
3

LangMem

github.com/langchain-ai/langmem
⭐ 1.3k stars

官方 LangChain 官方推出的 Agent 长期记忆 SDK,与 LangGraph 深度集成,提供简单易用的记忆管理工具。

核心特性:

  • Hot Path 记忆工具 - Agent 在对话中实时记录和搜索信息
  • 后台记忆管理器 - 自动提取、合并、更新 Agent 知识
  • 存储无关设计 - 支持任意存储系统 (内存/PostgreSQL/自定义)
  • LangGraph 原生集成 - 与 LangGraph Store 无缝配合
  • 提示词优化 - 通过记忆分析优化 Agent 行为
Python LangGraph LangChain AsyncPostgresStore

📊 记忆系统对比

项目 Stars 记忆架构 适用场景 部署方式
Letta (MemGPT) 21.4k 分层内存 (Core/Recall/Archival) 需要强自主性的 Agent 本地 CLI / API
Zep + Graphiti 27.3k (合计) 时序知识图谱 企业级对话系统、RAG 云服务 / 自托管
LangMem 1.3k 向量化存储 + 工具调用 LangChain 生态项目 SDK 集成

🌐 主题二:Web Fetch / Web Scraping 能力

Web Fetch 是 AI Agent 获取实时网络数据的关键能力。现代项目注重LLM 友好输出(Markdown/JSON)、JavaScript 渲染结构化数据提取,以及与 LLM 的深度集成,实现自然语言驱动的数据采集。

1

Crawl4AI

github.com/unclecode/crawl4ai
⭐ 50k+ stars

最受欢迎 GitHub 上最受欢迎的开源爬虫项目,专为 LLM 时代设计。将网页转换为干净的 Markdown,支持 RAG、Agent 和数据管道,被 51K+ 开发者使用。

核心特性:

  • LLM 就绪输出 - 智能生成带标题、表格、代码块的 Markdown,含引用提示
  • 高性价比设计 - 启发式算法减少 LLM 调用,降低成本
  • 全功能浏览器控制 - Session 管理、代理、Cookie、自定义脚本
  • LLM 驱动提取 - 支持所有 LLM 进行结构化数据提取
  • 企业级部署 - Docker + FastAPI + JWT 认证,云端就绪
  • 崩溃恢复 - v0.8.0 新增长时间爬取的断点续爬
Python Playwright FastAPI Docker BM25 Filter
2

Firecrawl

github.com/firecrawl/firecrawl
⭐ 高人气 (Y Combinator)

AI 原生 YC 孵化的 Web Data API,专为 AI Agent 设计。在基准测试中覆盖率 >80%,超越所有竞品。提供 Scrape、Search、Crawl、Agent 四大核心功能。

核心特性:

  • Agent 模式 - 自然语言描述需求,AI 自动搜索导航提取数据
  • 多格式输出 - Markdown / HTML / Screenshot / JSON / Branding
  • 高可靠性 - 自动处理代理、JS 渲染、动态内容
  • 结构化提取 - 支持 Schema 定义或自然语言 Prompt
  • MCP Server - 为 Claude Code、Codex 等 Agent 提供 Firecrawl 能力
  • 批量处理 - 异步爬取数千 URL
API-first MCP Spark AI Models 云服务
3

ScrapeGraphAI

github.com/ScrapeGraphAI/Scrapegraph-ai
⭐ 高人气项目

活跃 基于 LLM 和有向图逻辑的 Python 爬虫库。只需用自然语言描述要提取的信息,即可自动完成网页抓取,支持多种 LLM 和输出格式。

核心特性:

  • 自然语言驱动 - 用 prompt 描述目标,自动生成爬取管道
  • 多 Pipeline 支持 - SmartScraper / SearchGraph / SpeechGraph / ScriptCreator
  • 广泛 LLM 支持 - OpenAI / Groq / Azure / Gemini / Ollama 本地模型
  • 多源处理 - 网站、XML、HTML、JSON、Markdown 等本地文件
  • 框架集成 - LangChain / LlamaIndex / CrewAI / Dify / n8n
Python Playwright Ollama 多语言文档

📊 Web Fetch 工具对比

项目 Stars 核心优势 LLM 集成 部署方式
Crawl4AI 50k+ 开源免费、功能全面、高性价比 LLM 驱动提取 本地 / Docker / Cloud
Firecrawl 高人气 Agent 模式、最高覆盖率、MCP 支持 深度原生集成 云服务 API
ScrapeGraphAI 高人气 自然语言驱动、多 Pipeline 支持所有主流 LLM Python SDK

💡 总结与 OpenClaw 集成建议

本次调研针对 AI Agent 记忆系统Web Fetch 能力 两个主题,按 GitHub Stars 排名分析了各领域 Top 3 项目。

记忆系统方向:

  • Letta (MemGPT) 提供了最完整的分层记忆架构,适合需要 Agent 自主管理记忆的场景。其"LLM as OS"理念与 OpenClaw 的设计思想契合度高。
  • Zep/Graphiti 的时序知识图谱方案独特,适合需要追踪信息变化的复杂业务场景,企业级特性成熟。
  • LangMem 作为 LangChain 官方方案,集成成本低,适合已有 LangChain 生态的项目快速添加记忆能力。

Web Fetch 方向:

  • Crawl4AI 是开源首选,50k+ 社区背书,功能全面且免费,已支持 LLM 驱动提取。
  • Firecrawl 的 Agent 模式是差异化亮点,"描述需求即得数据"的体验符合 AI Agent 原生理念,MCP 支持使其易于集成。
  • ScrapeGraphAI 的自然语言驱动 Pipeline 设计灵活,适合快速原型开发。

对 OpenClaw 的建议: 记忆系统可参考 Letta 的分层架构设计;Web Fetch 可考虑集成 Firecrawl MCP 或 Crawl4AI,为 Agent 提供更强大的网络数据获取能力。