BenchClaw

BenchClaw是一套面向 Benchmark 构建、评测与维护的 Codex/OpenCode 技能工作流集合。它通过将流程拆为草案设计、数据采集、数据清洗、评测集构建、模型评测和诊断维护六个阶段，并为每阶段规定输入输出、质量门禁、目录契约、lineage 与回滚策略。其目标是让智能体从粗略 benchmark idea 出发，标准化、可复现、可审计地生成评测方案、数据、指标、结果和报告，并在失败时定位最小回滚点，形成流程诊断与技能修订闭环。

项目简介

本项目不是传统的软件应用，而是一组面向智能体的工作流规则。每个 SKILL.md 都描述了一个具体阶段或任务的执行方式，包括应该读取什么输入、生成什么输出、如何判断质量是否合格，以及失败时如何回退和修复。

项目的核心目标是让 benchmark 构建过程更加：

标准化
可复现
可审计
可维护
可回滚

流程概览

完整流程由顶层 benchmark-pipeline 编排，主要包括六个阶段：

草案设计
从 benchmark idea 出发，明确评测目标、能力维度、数据来源和整体执行计划。
数据采集
根据设计方案收集或接入所需数据，包括仿真数据、已有数据集和真实数据。
数据清洗
对采集到的数据进行清洗、筛选和整理，保留数据来源与处理记录。
评测集构建
生成正式评测样本、评测 schema 和指标代码，并完成基础验证。
模型评测
先进行小规模灰度评测，确认流程可靠后再执行全量评测并生成结果报告。
诊断与维护
对整个流程进行复盘，定位问题来源，必要时修订 skill 并进行回归验证。

目录结构

.
+-- benchmark-pipeline/
+-- benchmark-stage1-draft/
+-- benchmark-stage2-data-collect/
+-- benchmark-stage3-data-clean/
+-- benchmark-stage4-build/
+-- benchmark-stage5-eval/
`-- benchmark-stage6-diagnosis-maintenance/

每个目录下的 SKILL.md 是对应阶段的主要说明文件。

使用方式

推荐从顶层 pipeline 开始：

/benchmark-pipeline "你的 benchmark idea"

也可以单独调用某个阶段：

/benchmark-stage1-draft "你的 benchmark idea"
/benchmark-stage2-data-collect "$STAGE1_DIR"
/benchmark-stage3-data-clean "$STAGE2_DIR"
/benchmark-stage4-build "$STAGE3_DIR"
/benchmark-stage5-eval "$STAGE4_DIR"
/benchmark-stage6-diagnosis-maintenance "$WORKSPACE_ROOT"

工作区约定

每次运行会使用独立工作区，避免不同 benchmark 任务之间相互污染：

~/bench_workspace/workspace{i}/

典型输出包括阶段结果、质量报告、评测报告和最终 pipeline 报告。

质量控制

项目强调“先检查，再推进”。每个阶段都需要产生可检查的结果，只有通过质量门禁后才能进入下一阶段。

常见状态包括：

PASS          可以继续
NEEDS_REVIEW 需要人工确认
FAIL          必须修复或回滚

如果某一阶段失败，流程应定位到具体阶段或产物进行修复，而不是默认从头重跑。

主要产物

流程完成后，通常会生成：

benchmark 草案
数据 schema
数据质量报告
清洗后数据清单
评测集 schema
指标代码
灰度评测报告
全量评测报告
流程诊断报告
最终 pipeline 报告

维护原则

维护本项目时应优先保持流程清晰、规则稳定和阶段边界明确。修改 skill 时应尽量采用最小改动，并确保上下游阶段仍然能够正常衔接。

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

BenchClaw

项目简介

流程概览

目录结构

使用方式

工作区约定

质量控制

主要产物

维护原则

相关文档

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

BenchClaw

项目简介

流程概览

目录结构

使用方式

工作区约定

质量控制

主要产物

维护原则

相关文档

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages