scaffolding-engineering
Scaffolding Engineering / Harness Engineering
Summary: Disciplina emergente que trata el harness de un agente de IA (prompts del sistema, selección de herramientas, lógica de orquestación) como una superficie de optimización, en lugar de optimizar los pesos del modelo.
Sources: Karpathy.md, verificado con earezki.com, awesomeagents.ai, theunwindai.com.
Last updated: 2026-04-18
Concepto
Un agente de IA tiene dos capas optimizables:
- Modelo — los pesos internos (costoso de cambiar, requiere entrenamiento)
- Harness / Scaffolding — el entorno que rodea al modelo: prompt del sistema, herramientas disponibles, lógica de enrutamiento, memoria, criterios de parada
Scaffolding Engineering es la práctica de optimizar la capa 2 sistemáticamente, no por intuición humana sino por iteración automatizada.
Origen
El término se popularizó en el contexto del karpathy-loop. Karpathy demostró que su agente podía optimizar train.py (código de entrenamiento). La pregunta natural fue: ¿se puede aplicar el mismo loop al scaffolding del agente mismo?
La respuesta fue sí: ThirdLayer/AutoAgent lo implementó en 2026.
AutoAgent — implementación de referencia
- Autor: Kevin Gu, co-fundador de ThirdLayer (YC W25)
- Licencia: MIT open-source
- Mecanismo: un meta-agente pasa 24 horas ajustando autónomamente el harness del agente objetivo
- Modifica: prompt del sistema, tools disponibles, lógica de orquestación
- Evalúa con benchmarks deterministas
- Usa "ratchet loop" (proponer → ejecutar → evaluar → guardar si mejora) inspirado en el karpathy-loop
Resultados en benchmarks públicos
- SpreadsheetBench: 96.5% → #1 overall (todos los demás entries eran hand-engineered)
- TerminalBench: 55.1% GPT-5 score → #1 entre runs con GPT-5
(source: awesomeagents.ai/news/autoagent-self-optimizing-harness)
Implicación para el diseño de agentes
El harness hand-engineered tiene un techo cognitivo: el diseñador humano no puede explorar miles de combinaciones de prompts y herramientas. Un meta-agente que optimiza el harness supera ese techo por el mismo motivo que el karpathy-loop supera al ML engineer: iteración masiva sin fatiga.
Esto implica que los evals son el cuello de botella crítico: si el benchmark no refleja el valor real, el meta-agente optimiza el proxy incorrecto.
Relación con Consilium
consilium-arquetipos define arquetipos fijos (Critic, Architect, etc.) cuya configuración es hand-engineered. Scaffolding Engineering sugiere que esa configuración podría ser un input del loop de optimización en lugar de un diseño estático.
Meta-Consilium como instancia específica
meta-consilium-loop es Scaffolding Engineering aplicado a Consilium: optimiza team-spec (prompts de roles, reglas de turno, criterios de cierre) en lugar del harness de un agente genérico. Restricción adicional: los roles no son arbitrarios — el optimizador trabaja dentro de la estructura de arquetipos fijos.