欢迎来到论文 Interactive Benchmarks 的官方仓库!
src/situation_puzzle/: 情景推理。src/math/: 数学交互式评测流水线:naive 解题 vs Interactive Proof式解题,以及 pass@k 评测范式作为对比。src/trust_game/: 信任游戏循环赛(baseline + LLM)。
- Python 3.10+
- 你需要有可用的模型调用端点(本仓库多数脚本默认使用 OpenRouter 的 OpenAI-compatible API)
多数脚本会读取以下变量(可写进各子目录的 .env,或直接 export):
OPENROUTER_API_KEY:必需OPENROUTER_BASE_URL:可选,默认https://openrouter.ai/api/v1
示例:
export OPENROUTER_API_KEY="sk-..."
export OPENROUTER_BASE_URL="https://openrouter.ai/api/v1"pip install -r requirements.txt说明:不同任务只需要其中一部分;请以各子目录 README 为准。
InteractiveBench/
README.md
LICENSE
src/
trust_game/
situation_puzzle/
math/
poker/
- 结果落盘:多数脚本会把运行结果落到各自目录下的
results/(或你指定的输出目录),并尽量包含可复现的 meta 信息(模型名、超参等)。 - 断点续跑:多数脚本支持“输出文件存在则跳过已完成样本/对局”的 resume 逻辑(具体见各子目录 README)。
- 贡献规范见
CONTRIBUTING.md(新增 benchmark 子目录、结果格式、README 要求等)。
- License:MIT(见
LICENSE) - 如你在论文/报告中使用本仓库的评测流程,建议在引用中注明:仓库名 + 运行的子 benchmark + commit hash(若你 fork 并有修改)。
