Skip to content

XFWang522/selfllm

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 

Repository files navigation

SelfLLM:大语言模型自主训练闭环系统

"让 AI 自己训练自己"——构建首个完整的 LLM 自主进化闭环

项目愿景

SelfLLM 致力于构建一个大语言模型自主进化闭环系统:LLM 自己编写训练代码、自主搜集与筛选训练数据、执行训练流程、评估训练结果、并根据评估反馈迭代优化训练策略。整个过程深度集成 AI Coding 工具,使模型在无人干预的情况下实现持续自我提升。

核心理念

┌─────────────────────────────────────────────────────────────────┐
│                    SelfLLM 自主进化闭环                          │
│                                                                 │
│   ┌──────────┐    ┌──────────┐    ┌──────────┐    ┌──────────┐ │
│   │ 策略生成  │───▶│ 代码编写  │───▶│ 数据搜集  │───▶│ 训练执行  │ │
│   │(Training │    │(AI Coder │    │(Web +    │    │(Distrib. │ │
│   │ Strategy)│    │ writes   │    │ Synth.   │    │ Training)│ │
│   └────▲─────┘    │ code)    │    │ Data)    │    └────┬─────┘ │
│        │          └──────────┘    └──────────┘         │       │
│        │                                               │       │
│   ┌────┴─────┐                                   ┌────▼─────┐ │
│   │ 策略优化  │◀──────────────────────────────────│ 结果评估  │ │
│   │(Strategy │                                   │(Auto     │ │
│   │ Update)  │                                   │ Eval)    │ │
│   └──────────┘                                   └──────────┘ │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

与现有工作的本质区别

维度 现有工作 SelfLLM
训练代码 人类编写、固定不变 LLM 自主编写并迭代
训练数据 人工搜集或固定合成 LLM 自主搜集、筛选、联网更新
训练策略 预设的超参和流程 LLM 根据评估结果自主调整
评估反馈 人工评估或固定 benchmark LLM 自主设计评估方案并执行
AI Coding 不涉及 深度集成,代码编写即训练的一部分
目标 训练一个更好的模型 构建一个能持续自我进化的系统

文档索引

文档 说明
技术路线文档 完整的技术方案、系统架构、阶段规划与里程碑
已有方法调研 全面调研现有自训练、自博弈、自进化方法
困难与风险分析 预判可能遇到的技术困难与应对策略
关键点与解决方案 项目成功的关键技术点及详细解决方案
反驳意见与回应 对各类质疑的系统性回应

资源需求概览

  • 计算资源:10,000 块 GPU(A100/H100),支撑持续训练与大规模实验
  • 核心团队:10 名研究员(涵盖 LLM 训练、RL、AI Coding、分布式系统、安全对齐)
  • 预计周期:18 个月达到系统级验证,24 个月达到生产级闭环

为什么是现在

  1. 基座模型足够强:Claude 4.6 / GPT-5 / Llama 4 等已具备编写复杂训练代码的能力
  2. AI Coding 工具成熟:OpenHands、Cursor、Devin 等已证明 AI 可以独立完成软件工程任务
  3. 自训练理论突破:STaR、SPIN、Self-Rewarding LM 等方法已验证自训练的可行性
  4. 基础设施就绪:大规模分布式训练框架(Megatron、DeepSpeed)和评估框架已成熟
  5. 竞争窗口期:Google DeepMind(FunSearch)、Meta(Self-Rewarding LM)、OpenAI(o-series)都在探索,我们必须抢占先机

快速开始

# 克隆项目
git clone <repo-url> selfllm
cd selfllm

# 阅读文档
ls docs/

SelfLLM — 让模型自己决定如何变得更好。

About

SelfLLM: LLM Autonomous Self-Training Loop - Research on LLMs writing their own training code, collecting data, training, evaluating, and iterating autonomously

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors