evals

Evals / Evaluation Harness

Summary: Infraestructura de evaluación que mide el rendimiento real de un agente o modelo de IA; el cuello de botella crítico en cualquier loop de auto-optimización porque la métrica define qué se optimiza.

Sources: Karpathy.md, verificado con pashpashpash.substack.com, theunwindai.com.

Last updated: 2026-04-18


Concepto

Un eval es una función determinista: dado un agente y una tarea, devuelve un número que representa qué tan bien lo hizo el agente. Sin esa función, no hay forma de saber si un cambio fue una mejora o un retroceso.

En el karpathy-loop, el eval es simple y concreto: validation loss al final de 5 minutos de entrenamiento. Esa simplicidad es una virtud: sin ambigüedad, el agente sabe exactamente qué optimizar.

Por qué es el cuello de botella

Un loop de auto-optimización es tan bueno como su eval. Los riesgos de un eval mal diseñado:

Tipos de evals

Tipo Ejemplo Ventaja Riesgo
Métrica determinista Validation loss, latencia, pass@k Automatable, reproducible Puede ser proxy incorrecto
Benchmark público HumanEval, SpreadsheetBench Comparable, peer-reviewed Saturación, overfitting
LLM-as-judge GPT-4 evalúa calidad de respuesta Cubre casos sin ground truth Sesgado, no reproducible
A/B test en producción Click-through rate, conversión Mide valor real Lento, costoso, requiere tráfico

Requisitos para un buen eval

  1. Determinista — misma entrada, mismo resultado siempre
  2. Rápido — si el eval tarda más que el experimento, el loop no escala
  3. Alineado con valor real — la métrica debe correlacionar con lo que al negocio le importa
  4. Sandbox seguro — el agente ejecuta código; el entorno de eval no puede afectar producción

(source: Karpathy.md)

Relación con Consilium

consilium-fundamentos no define un eval explícito para medir la calidad del output del sistema multi-agente. Esta es una brecha: sin eval, el sistema solo puede ser juzgado subjetivamente.

meta-consilium-loop propone una solución concreta: harness de 4 scores (score_principal + 3 guardrails: contradicciones internas, costo, trazabilidad) con jury de 2-3 LLMs y holdout rotativo para evitar overfitting.

Powered by Forestry.md