"让 AI 自己训练自己"——构建首个完整的 LLM 自主进化闭环
SelfLLM 致力于构建一个大语言模型自主进化闭环系统:LLM 自己编写训练代码、自主搜集与筛选训练数据、执行训练流程、评估训练结果、并根据评估反馈迭代优化训练策略。整个过程深度集成 AI Coding 工具,使模型在无人干预的情况下实现持续自我提升。
┌─────────────────────────────────────────────────────────────────┐
│ SelfLLM 自主进化闭环 │
│ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ 策略生成 │───▶│ 代码编写 │───▶│ 数据搜集 │───▶│ 训练执行 │ │
│ │(Training │ │(AI Coder │ │(Web + │ │(Distrib. │ │
│ │ Strategy)│ │ writes │ │ Synth. │ │ Training)│ │
│ └────▲─────┘ │ code) │ │ Data) │ └────┬─────┘ │
│ │ └──────────┘ └──────────┘ │ │
│ │ │ │
│ ┌────┴─────┐ ┌────▼─────┐ │
│ │ 策略优化 │◀──────────────────────────────────│ 结果评估 │ │
│ │(Strategy │ │(Auto │ │
│ │ Update) │ │ Eval) │ │
│ └──────────┘ └──────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
| 维度 | 现有工作 | SelfLLM |
|---|---|---|
| 训练代码 | 人类编写、固定不变 | LLM 自主编写并迭代 |
| 训练数据 | 人工搜集或固定合成 | LLM 自主搜集、筛选、联网更新 |
| 训练策略 | 预设的超参和流程 | LLM 根据评估结果自主调整 |
| 评估反馈 | 人工评估或固定 benchmark | LLM 自主设计评估方案并执行 |
| AI Coding | 不涉及 | 深度集成,代码编写即训练的一部分 |
| 目标 | 训练一个更好的模型 | 构建一个能持续自我进化的系统 |
| 文档 | 说明 |
|---|---|
| 技术路线文档 | 完整的技术方案、系统架构、阶段规划与里程碑 |
| 已有方法调研 | 全面调研现有自训练、自博弈、自进化方法 |
| 困难与风险分析 | 预判可能遇到的技术困难与应对策略 |
| 关键点与解决方案 | 项目成功的关键技术点及详细解决方案 |
| 反驳意见与回应 | 对各类质疑的系统性回应 |
- 计算资源:10,000 块 GPU(A100/H100),支撑持续训练与大规模实验
- 核心团队:10 名研究员(涵盖 LLM 训练、RL、AI Coding、分布式系统、安全对齐)
- 预计周期:18 个月达到系统级验证,24 个月达到生产级闭环
- 基座模型足够强:Claude 4.6 / GPT-5 / Llama 4 等已具备编写复杂训练代码的能力
- AI Coding 工具成熟:OpenHands、Cursor、Devin 等已证明 AI 可以独立完成软件工程任务
- 自训练理论突破:STaR、SPIN、Self-Rewarding LM 等方法已验证自训练的可行性
- 基础设施就绪:大规模分布式训练框架(Megatron、DeepSpeed)和评估框架已成熟
- 竞争窗口期:Google DeepMind(FunSearch)、Meta(Self-Rewarding LM)、OpenAI(o-series)都在探索,我们必须抢占先机
# 克隆项目
git clone <repo-url> selfllm
cd selfllm
# 阅读文档
ls docs/SelfLLM — 让模型自己决定如何变得更好。