scaffolding-engineering

Scaffolding Engineering / Harness Engineering

Summary: Disciplina emergente que trata el harness de un agente de IA (prompts del sistema, selección de herramientas, lógica de orquestación) como una superficie de optimización, en lugar de optimizar los pesos del modelo.

Sources: Karpathy.md, verificado con earezki.com, awesomeagents.ai, theunwindai.com.

Last updated: 2026-04-18

Concepto

Un agente de IA tiene dos capas optimizables:

Modelo — los pesos internos (costoso de cambiar, requiere entrenamiento)
Harness / Scaffolding — el entorno que rodea al modelo: prompt del sistema, herramientas disponibles, lógica de enrutamiento, memoria, criterios de parada

Scaffolding Engineering es la práctica de optimizar la capa 2 sistemáticamente, no por intuición humana sino por iteración automatizada.

Origen

El término se popularizó en el contexto del karpathy-loop. Karpathy demostró que su agente podía optimizar train.py (código de entrenamiento). La pregunta natural fue: ¿se puede aplicar el mismo loop al scaffolding del agente mismo?

La respuesta fue sí: ThirdLayer/AutoAgent lo implementó en 2026.

AutoAgent — implementación de referencia

Autor: Kevin Gu, co-fundador de ThirdLayer (YC W25)
Licencia: MIT open-source
Mecanismo: un meta-agente pasa 24 horas ajustando autónomamente el harness del agente objetivo
- Modifica: prompt del sistema, tools disponibles, lógica de orquestación
- Evalúa con benchmarks deterministas
- Usa "ratchet loop" (proponer → ejecutar → evaluar → guardar si mejora) inspirado en el karpathy-loop

Resultados en benchmarks públicos

SpreadsheetBench: 96.5% → #1 overall (todos los demás entries eran hand-engineered)
TerminalBench: 55.1% GPT-5 score → #1 entre runs con GPT-5

(source: awesomeagents.ai/news/autoagent-self-optimizing-harness)

Implicación para el diseño de agentes

El harness hand-engineered tiene un techo cognitivo: el diseñador humano no puede explorar miles de combinaciones de prompts y herramientas. Un meta-agente que optimiza el harness supera ese techo por el mismo motivo que el karpathy-loop supera al ML engineer: iteración masiva sin fatiga.

Esto implica que los evals son el cuello de botella crítico: si el benchmark no refleja el valor real, el meta-agente optimiza el proxy incorrecto.

Relación con Consilium

consilium-arquetipos define arquetipos fijos (Critic, Architect, etc.) cuya configuración es hand-engineered. Scaffolding Engineering sugiere que esa configuración podría ser un input del loop de optimización en lugar de un diseño estático.

Meta-Consilium como instancia específica

meta-consilium-loop es Scaffolding Engineering aplicado a Consilium: optimiza team-spec (prompts de roles, reglas de turno, criterios de cierre) en lugar del harness de un agente genérico. Restricción adicional: los roles no son arbitrarios — el optimizador trabaja dentro de la estructura de arquetipos fijos.