evals

Evals / Evaluation Harness

Summary: Infraestructura de evaluación que mide el rendimiento real de un agente o modelo de IA; el cuello de botella crítico en cualquier loop de auto-optimización porque la métrica define qué se optimiza.

Sources: Karpathy.md, verificado con pashpashpash.substack.com, theunwindai.com.

Last updated: 2026-04-18

Concepto

Un eval es una función determinista: dado un agente y una tarea, devuelve un número que representa qué tan bien lo hizo el agente. Sin esa función, no hay forma de saber si un cambio fue una mejora o un retroceso.

En el karpathy-loop, el eval es simple y concreto: validation loss al final de 5 minutos de entrenamiento. Esa simplicidad es una virtud: sin ambigüedad, el agente sabe exactamente qué optimizar.

Por qué es el cuello de botella

Un loop de auto-optimización es tan bueno como su eval. Los riesgos de un eval mal diseñado:

Proxy metric problem: el agente optimiza lo que se mide, no lo que importa. Ejemplo: optimizar tokens generados en lugar de utilidad para el usuario.
Overfitting al benchmark: el agente aprende a pasar el test sin resolver el problema real (ver resultados de scaffolding-engineering en benchmarks públicos — el riesgo existe aunque los resultados de ThirdLayer fueron validados como reales).
Eval sin ground truth: si no hay respuesta correcta, el eval se convierte en juicio subjetivo que no puede automatizarse.

Tipos de evals

Tipo	Ejemplo	Ventaja	Riesgo
Métrica determinista	Validation loss, latencia, pass@k	Automatable, reproducible	Puede ser proxy incorrecto
Benchmark público	HumanEval, SpreadsheetBench	Comparable, peer-reviewed	Saturación, overfitting
LLM-as-judge	GPT-4 evalúa calidad de respuesta	Cubre casos sin ground truth	Sesgado, no reproducible
A/B test en producción	Click-through rate, conversión	Mide valor real	Lento, costoso, requiere tráfico

Requisitos para un buen eval

Determinista — misma entrada, mismo resultado siempre
Rápido — si el eval tarda más que el experimento, el loop no escala
Alineado con valor real — la métrica debe correlacionar con lo que al negocio le importa
Sandbox seguro — el agente ejecuta código; el entorno de eval no puede afectar producción

(source: Karpathy.md)

Relación con Consilium

consilium-fundamentos no define un eval explícito para medir la calidad del output del sistema multi-agente. Esta es una brecha: sin eval, el sistema solo puede ser juzgado subjetivamente.

meta-consilium-loop propone una solución concreta: harness de 4 scores (score_principal + 3 guardrails: contradicciones internas, costo, trazabilidad) con jury de 2-3 LLMs y holdout rotativo para evitar overfitting.