evals
Evals / Evaluation Harness
Summary: Infraestructura de evaluación que mide el rendimiento real de un agente o modelo de IA; el cuello de botella crítico en cualquier loop de auto-optimización porque la métrica define qué se optimiza.
Sources: Karpathy.md, verificado con pashpashpash.substack.com, theunwindai.com.
Last updated: 2026-04-18
Concepto
Un eval es una función determinista: dado un agente y una tarea, devuelve un número que representa qué tan bien lo hizo el agente. Sin esa función, no hay forma de saber si un cambio fue una mejora o un retroceso.
En el karpathy-loop, el eval es simple y concreto: validation loss al final de 5 minutos de entrenamiento. Esa simplicidad es una virtud: sin ambigüedad, el agente sabe exactamente qué optimizar.
Por qué es el cuello de botella
Un loop de auto-optimización es tan bueno como su eval. Los riesgos de un eval mal diseñado:
- Proxy metric problem: el agente optimiza lo que se mide, no lo que importa. Ejemplo: optimizar tokens generados en lugar de utilidad para el usuario.
- Overfitting al benchmark: el agente aprende a pasar el test sin resolver el problema real (ver resultados de scaffolding-engineering en benchmarks públicos — el riesgo existe aunque los resultados de ThirdLayer fueron validados como reales).
- Eval sin ground truth: si no hay respuesta correcta, el eval se convierte en juicio subjetivo que no puede automatizarse.
Tipos de evals
| Tipo | Ejemplo | Ventaja | Riesgo |
|---|---|---|---|
| Métrica determinista | Validation loss, latencia, pass@k | Automatable, reproducible | Puede ser proxy incorrecto |
| Benchmark público | HumanEval, SpreadsheetBench | Comparable, peer-reviewed | Saturación, overfitting |
| LLM-as-judge | GPT-4 evalúa calidad de respuesta | Cubre casos sin ground truth | Sesgado, no reproducible |
| A/B test en producción | Click-through rate, conversión | Mide valor real | Lento, costoso, requiere tráfico |
Requisitos para un buen eval
- Determinista — misma entrada, mismo resultado siempre
- Rápido — si el eval tarda más que el experimento, el loop no escala
- Alineado con valor real — la métrica debe correlacionar con lo que al negocio le importa
- Sandbox seguro — el agente ejecuta código; el entorno de eval no puede afectar producción
(source: Karpathy.md)
Relación con Consilium
consilium-fundamentos no define un eval explícito para medir la calidad del output del sistema multi-agente. Esta es una brecha: sin eval, el sistema solo puede ser juzgado subjetivamente.
meta-consilium-loop propone una solución concreta: harness de 4 scores (score_principal + 3 guardrails: contradicciones internas, costo, trazabilidad) con jury de 2-3 LLMs y holdout rotativo para evitar overfitting.