SelfLLM：大语言模型自主训练闭环系统

"让 AI 自己训练自己"——构建首个完整的 LLM 自主进化闭环

项目愿景

SelfLLM 致力于构建一个大语言模型自主进化闭环系统：LLM 自己编写训练代码、自主搜集与筛选训练数据、执行训练流程、评估训练结果、并根据评估反馈迭代优化训练策略。整个过程深度集成 AI Coding 工具，使模型在无人干预的情况下实现持续自我提升。

核心理念

┌─────────────────────────────────────────────────────────────────┐
│                    SelfLLM 自主进化闭环                          │
│                                                                 │
│   ┌──────────┐    ┌──────────┐    ┌──────────┐    ┌──────────┐ │
│   │ 策略生成  │───▶│ 代码编写  │───▶│ 数据搜集  │───▶│ 训练执行  │ │
│   │(Training │    │(AI Coder │    │(Web +    │    │(Distrib. │ │
│   │ Strategy)│    │ writes   │    │ Synth.   │    │ Training)│ │
│   └────▲─────┘    │ code)    │    │ Data)    │    └────┬─────┘ │
│        │          └──────────┘    └──────────┘         │       │
│        │                                               │       │
│   ┌────┴─────┐                                   ┌────▼─────┐ │
│   │ 策略优化  │◀──────────────────────────────────│ 结果评估  │ │
│   │(Strategy │                                   │(Auto     │ │
│   │ Update)  │                                   │ Eval)    │ │
│   └──────────┘                                   └──────────┘ │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

与现有工作的本质区别

维度	现有工作	SelfLLM
训练代码	人类编写、固定不变	LLM 自主编写并迭代
训练数据	人工搜集或固定合成	LLM 自主搜集、筛选、联网更新
训练策略	预设的超参和流程	LLM 根据评估结果自主调整
评估反馈	人工评估或固定 benchmark	LLM 自主设计评估方案并执行
AI Coding	不涉及	深度集成，代码编写即训练的一部分
目标	训练一个更好的模型	构建一个能持续自我进化的系统

文档索引

文档	说明
技术路线文档	完整的技术方案、系统架构、阶段规划与里程碑
已有方法调研	全面调研现有自训练、自博弈、自进化方法
困难与风险分析	预判可能遇到的技术困难与应对策略
关键点与解决方案	项目成功的关键技术点及详细解决方案
反驳意见与回应	对各类质疑的系统性回应

资源需求概览

计算资源：10,000 块 GPU（A100/H100），支撑持续训练与大规模实验
核心团队：10 名研究员（涵盖 LLM 训练、RL、AI Coding、分布式系统、安全对齐）
预计周期：18 个月达到系统级验证，24 个月达到生产级闭环

为什么是现在

基座模型足够强：Claude 4.6 / GPT-5 / Llama 4 等已具备编写复杂训练代码的能力
AI Coding 工具成熟：OpenHands、Cursor、Devin 等已证明 AI 可以独立完成软件工程任务
自训练理论突破：STaR、SPIN、Self-Rewarding LM 等方法已验证自训练的可行性
基础设施就绪：大规模分布式训练框架（Megatron、DeepSpeed）和评估框架已成熟
竞争窗口期：Google DeepMind（FunSearch）、Meta（Self-Rewarding LM）、OpenAI（o-series）都在探索，我们必须抢占先机

快速开始

# 克隆项目
git clone <repo-url> selfllm
cd selfllm

# 阅读文档
ls docs/

SelfLLM — 让模型自己决定如何变得更好。

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
docs		docs
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

SelfLLM：大语言模型自主训练闭环系统

项目愿景

核心理念

与现有工作的本质区别

文档索引

资源需求概览

为什么是现在

快速开始

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

SelfLLM：大语言模型自主训练闭环系统

项目愿景

核心理念

与现有工作的本质区别

文档索引

资源需求概览

为什么是现在

快速开始

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages