karpathy-loop

Karpathy Loop / AutoResearch

Summary: Sistema minimalista de investigación autónoma donde un agente de IA edita un archivo de código, ejecuta experimentos cronometrados y se auto-optimiza sin intervención humana; publicado por Andrej Karpathy en marzo 2026 como autoresearch.

Sources: Karpathy.md, verificado con GitHub, Fortune, The New Stack, SkyPilot Blog, DataCamp.

Last updated: 2026-04-18

Concepto central

El Karpathy Loop (formalmente: AutoResearch) es un agente de IA que se optimiza a sí mismo bajo tres restricciones estrictas:

Un solo archivo editable — train.py (código de entrenamiento de un LLM)
Una métrica única y testeable — validation loss (pérdida en validación)
Presupuesto de tiempo fijo — cada experimento dura exactamente 5 minutos

El agente edita train.py, entrena, mide, guarda si mejoró, descarta si no, y repite. Sin magia: solo iteración masiva sin fatiga ni sesgo de costo hundido. (source: Karpathy.md, github.com/karpathy/autoresearch)

Repositorio oficial

GitHub: github.com/karpathy/autoresearch — MIT license
Tamaño: ~630 líneas de Python
Componentes:
- train.py — único archivo editable; contiene modelo GPT completo, optimizadores Muon + AdamW, y loop de entrenamiento
- program.md — instrucciones al agente, restricciones y criterios de parada en un solo documento Markdown
- prepare.py — preparación de datos, inmutable

Resultados verificados

Experimento original (Karpathy)

700 experimentos en 2 días sobre nanochat (LLM pequeño, 1 GPU)
20 mejoras descubiertas — incluyendo errores que Karpathy había pasado por alto tras meses de ajuste manual
11% speedup acumulado en tiempo de entrenamiento
Mejoras concretas encontradas: weight decay olvidado en value embeddings, Adam betas mal afinados, reordenamiento de QK Norm y RoPE

(source: Fortune, The New Stack, github.com/karpathy/autoresearch)

Tobi Lütke / Shopify

Aplicado a optimización de Liquid (motor de templates interno de Shopify)
37 experimentos overnight
+19% de rendimiento
53% faster rendering, 61% menos memory allocations

(source: Karpathy.md; cifras de rendering/memory confirmadas por reportes de Fortune)

SkyPilot — escalado a cluster de GPUs

Tomaron autoresearch y le dieron acceso a un cluster Kubernetes con H100s/H200s
910 experimentos en 8 horas (vs ~96 secuenciales en el mismo tiempo)
9x throughput sobre baseline de 1 GPU
Val_bpb: de 1.003 → 0.974 en 700 experimentos válidos
Descubrimiento autónomo: escalar el ancho del modelo era más efectivo que otros hiperparámetros
Costo total: <$300 USD
Ventaja extra: con 16 GPUs en paralelo, el agente corrió grids factoriales de 10-13 experimentos por wave, capturando efectos de interacción que búsqueda secuencial perdería

(source: blog.skypilot.co/scaling-autoresearch, X @skypilot_org)

Red Hat OpenShift AI

198 experimentos, cero intervención humana
Corrido sobre OpenShift AI en infraestructura enterprise

(source: developers.redhat.com)

AutoAgent / ThirdLayer — extensión a scaffolding

ThirdLayer (YC W25) adaptó el patrón al scaffolding-engineering: en lugar de optimizar pesos del modelo, optimizan el harness del agente (prompts del sistema, herramientas, lógica de orquestación).

Meta-agente pasa 24 horas ajustando el harness del agente hijo
Utiliza un "ratchet loop" (proponer → ejecutar → evaluar → guardar si mejora)
Resultados en benchmarks públicos:
- SpreadsheetBench: 96.5% — #1 overall
- TerminalBench: 55.1% GPT-5 score — #1 entre runs con GPT-5
Todos los demás entries en ambos leaderboards eran hand-engineered

(source: awesomeagents.ai, earezki.com/ai-news)

Requisitos de infraestructura

Para replicar el patrón en contextos reales se requiere:

Trazas detalladas — logs del razonamiento del agente en cada experimento
Sandbox seguro — el agente modifica y ejecuta código; necesita entorno aislado
Evals alineados con valor real — ver evals; sin métrica correcta, el agente optimiza lo incorrecto

Sin estas bases, el loop converge hacia ruido o proxy metrics que no reflejan el objetivo real. (source: Karpathy.md)

Por qué funciona

La ventaja no es que la IA sea "más inteligente" que un humano experto. La ventaja es:

Sin fatiga — 700 experimentos sin degradación de atención
Sin sesgo de costo hundido — descarta cambios malos sin apego emocional
Sin sesgo de confirmación — no tiene hipótesis previas que defender
Paralelizable — con más GPUs, exploración factorial que un humano nunca haría

Relación con otros patrones

El Karpathy Loop es una implementación concreta del patrón reflexion (autocrítica + memoria + iteración), pero aplicado a código ejecutable en lugar de razonamiento verbal. La diferencia clave: Reflexion critica en lenguaje natural; AutoResearch critica con métricas numéricas reales.

También conecta con blackboard-architecture: el archivo train.py actúa como pizarrón compartido que el agente lee y modifica iterativamente.

Aplicación a Consilium: Meta-Consilium Loop

meta-consilium-loop propone aplicar exactamente este patrón al diseño de equipos de Consilium: team-spec como superficie editable, eval harness de 4 scores como métrica, ratchet loop como motor de mejora autónoma.