Skip to content

Latest commit

 

History

History
67 lines (44 loc) · 1.89 KB

File metadata and controls

67 lines (44 loc) · 1.89 KB

InteractiveBench

欢迎来到论文 Interactive Benchmarks 的官方仓库!

仓库内容一览

  • src/situation_puzzle/: 情景推理。
  • src/math/: 数学交互式评测流水线:naive 解题 vs Interactive Proof式解题,以及 pass@k 评测范式作为对比。
  • src/trust_game/: 信任游戏循环赛(baseline + LLM)。

快速开始

环境要求

  • Python 3.10+
  • 你需要有可用的模型调用端点(本仓库多数脚本默认使用 OpenRouter 的 OpenAI-compatible API

统一的环境变量(建议)

多数脚本会读取以下变量(可写进各子目录的 .env,或直接 export):

  • OPENROUTER_API_KEY:必需
  • OPENROUTER_BASE_URL:可选,默认 https://openrouter.ai/api/v1

示例:

export OPENROUTER_API_KEY="sk-..."
export OPENROUTER_BASE_URL="https://openrouter.ai/api/v1"

依赖安装建议

pip install -r requirements.txt

说明:不同任务只需要其中一部分;请以各子目录 README 为准。

目录结构

InteractiveBench/
  README.md
  LICENSE
  src/
    trust_game/
    situation_puzzle/
    math/
    poker/

结果产物与复现

  • 结果落盘:多数脚本会把运行结果落到各自目录下的 results/(或你指定的输出目录),并尽量包含可复现的 meta 信息(模型名、超参等)。
  • 断点续跑:多数脚本支持“输出文件存在则跳过已完成样本/对局”的 resume 逻辑(具体见各子目录 README)。

贡献

  • 贡献规范见 CONTRIBUTING.md(新增 benchmark 子目录、结果格式、README 要求等)。

引用 / 使用许可

  • License:MIT(见 LICENSE
  • 如你在论文/报告中使用本仓库的评测流程,建议在引用中注明:仓库名 + 运行的子 benchmark + commit hash(若你 fork 并有修改)。