S2 temporal backtest: Bolivia 2025 runoff#24
Conversation
|
Análisis cualitativo de gaps para cerrar bien la issue S2 (#17):
En resumen: para cerrar #17, el PR debe demostrar cumplimiento completo de los paquetes temporales, modelo primario fijo, seeds/réplicas requeridas, complexity gate y evaluación objetiva. La evidencia actual como |
|
Actualizacion subida en la rama Commits nuevos:
Que quedo hecho:
Verificacion local: PYTEST_DISABLE_PLUGIN_AUTOLOAD=1 backend/.venv/bin/python -m pytest tests/test_worldbuilding_trace.py -q
backend/.venv/bin/python -m py_compile backend/app/services/worldbuilding_trace.py backend/app/services/simulation_manager.py backend/app/config.py tests/test_worldbuilding_trace.py
python3 -m py_compile backtesting/case-b-s2-bolivia-2025-runoff/eval_objective.py
for t in T0 T1 T2 T3; do cmp -s backtesting/case-b-s2-bolivia-2025-runoff/seed_${t}.md backtesting/case-b-s2-bolivia-2025-runoff/assembled_${t}.md && echo "$t ok" || echo "$t mismatch"; doneResultado: test de trace Estado honesto: Bolivia queda mejor documentado y con los nombres/metadata corregidos, pero para cierre estricto todavia falta la pasada primaria fija con Qwen y las replicas si aplicamos la regla S2 de robustez. Proximo paso recomendado: correr las pruebas S2 siguientes con IPC y futbol/noise usando esta captura de planning/worldbuilding para auditar cada run antes de simular. |
Matriz de resultados S2 T0-T3Subi una matriz versionada con Bolivia, IPC y Copa America en Bolivia 2025 runoff
IPC Argentina 2025
Copa America 2024 final
Tambien quedan subidos los artefactos completos de IPC/Copa: |
Extensión Llama Line5 preparada para Bolivia/CopaAgregué la preparación para replicar el diseño de Issue #18 / PR #22 sobre nuestros casos de Bolivia y Copa America usando Llama 3.3 70B Instruct:
La matriz replica las 5 condiciones reducidas de Línea 5:
No ejecuté las corridas reales todavía porque localmente no hay |
Summary
Adds the S2 temporal backtesting case for the 2025 Bolivia presidential runoff and the passive MiroFish worldbuilding/planning trace capture needed to preserve pre-simulation artifacts for later judge training.
Linked issue
Closes #17
What changed
backtesting/case-b-s2-bolivia-2025-runoff/with case card, manifest, temporal packages, question, rubric, private ground truth, evaluator, run notes, reports, and scored outputs.seed_T0.md,seed_T1.md,seed_T2.md,seed_T3.md.assembled_T0.mdthroughassembled_T3.mdas equivalent cumulative package aliases.ISSUE_RESPONSE.md,README.md,RESULTS.md,case_card.md, andtesting_protocol.mdto address the review comments explicitly.model_policy: gemma_probeinstead of being mislabeled as the primary Qwen policy.worldbuilding_trace.jsoncapture at simulation preparation time, including input context, filtered entities, generated profiles, simulation config, provenance, and artifact manifest.PLANNING_CAPTURE_*config flags and a focused trace test.Main findings
Review status
Addressed now:
## Linked issueand## How to test.seed_T0/T1/T2/T3artifacts are now present.Still pending for strict S2 closure:
qwen/qwen3-8b.How to test
Local results:
tests/test_worldbuilding_trace.py:1 passedseed_T*vsassembled_T*: all matchedNext work
Run the stricter primary-model experiments next, especially IPC and football/noise cases, using the new planning/worldbuilding traces as auditable pre-simulation artifacts.