🏗️ Normatia Benchmark

Bienvenido al repositorio de evaluación (benchmark) de Normatia.

Normatia es un proyecto que digitaliza y centraliza la normativa de construcción española (estatal, autonómica y municipal). Mediante el uso de un sistema RAG (Retrieval-Augmented Generation) y el protocolo MCP (Model Context Protocol), Normatia ofrece un asistente de IA especializado en arquitectura y edificación.

Este repositorio tiene como objetivo comparar el rendimiento del modelo especializado de Normatia frente a los principales Modelos Fundacionales (LLMs generalistas) del mercado, utilizando exámenes oficiales reales de la Administración Pública española.

Estructura del Repositorio

El proyecto está organizado de manera modular para garantizar la total transparencia y reproducibilidad de los resultados:

benchmark/
├── README.md                 
├── METHODOLOGY.md            # Explicación detallada del proceso y evaluación
├── scripts/                  
│   └── generar_informe.js    # Script de evaluación oficial
└── exams/                    
    ├── arq-tec-madrid_febrero-2019/  # Exámenes organizados por año y municipio
    │   ├── raw/              # PDFs originales del examen y plantilla oficial
    │   ├── dataset/          # Examen y plantilla en formato JSON (_test.json, _resultados.json)
    │   ├── llm_outputs/      # Respuestas crudas en JSON dadas por cada IA
    │   └── informe_aciertos.md # Informe autogenerado
    ├── arq-sup-madrid_julio-2018/
    └── arq-tec-madrid_julio-2025/

Cómo reproducir los resultados

Cualquier persona puede auditar nuestros resultados y comprobar que no hay manipulación. Para generar o verificar los informes .md por tu cuenta, solo necesitas tener Node.js instalado. Clona este repositorio:

Bash
git clone https://github.com/normatia/benchmark.git
cd benchmark

Ejecuta el script apuntando a la carpeta del examen que quieras evaluar. Por ejemplo:

Bash
node scripts/generar_informe.js exams/arq-sup-madrid-2019

El script leerá la plantilla oficial en dataset/, la comparará con todos los JSON de la carpeta llm_outputs/ y actualizará (o creará) el archivo informe_aciertos.md en la carpeta del examen.

Naturaleza viva del Benchmark

Este benchmark representa una fotografía del estado del arte. Sin embargo, es un proyecto vivo y está sujeto a modificaciones constantes:

Actualizaciones legislativas: La normativa de construcción española cambia continuamente. Exámenes antiguos pueden contener preguntas cuyas respuestas oficiales hayan quedado obsoletas con las leyes de 2026.
Mejoras en los modelos: Se añadirán iteraciones futuras tanto de los LLMs generalistas como de nuestro propio sistema (nuevos sistemas de embeddings, mejoras en el pipeline, etc.).
Nuevos exámenes: Iremos incorporando progresivamente pruebas de distintas Comunidades Autónomas y Ayuntamientos.

Para más detalles sobre cómo hemos puntuado, extraído y evaluado a las IAs, por favor revisa nuestro documento de Metodología.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

🏗️ Normatia Benchmark

Estructura del Repositorio

Cómo reproducir los resultados

Naturaleza viva del Benchmark

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
exams		exams
scripts		scripts
METHODOLOGY.md		METHODOLOGY.md
README.md		README.md

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

🏗️ Normatia Benchmark

Estructura del Repositorio

Cómo reproducir los resultados

Naturaleza viva del Benchmark

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages