karpathy-loop
Karpathy Loop / AutoResearch
Summary: Sistema minimalista de investigación autónoma donde un agente de IA edita un archivo de código, ejecuta experimentos cronometrados y se auto-optimiza sin intervención humana; publicado por Andrej Karpathy en marzo 2026 como autoresearch.
Sources: Karpathy.md, verificado con GitHub, Fortune, The New Stack, SkyPilot Blog, DataCamp.
Last updated: 2026-04-18
Concepto central
El Karpathy Loop (formalmente: AutoResearch) es un agente de IA que se optimiza a sí mismo bajo tres restricciones estrictas:
- Un solo archivo editable —
train.py(código de entrenamiento de un LLM) - Una métrica única y testeable — validation loss (pérdida en validación)
- Presupuesto de tiempo fijo — cada experimento dura exactamente 5 minutos
El agente edita train.py, entrena, mide, guarda si mejoró, descarta si no, y repite. Sin magia: solo iteración masiva sin fatiga ni sesgo de costo hundido. (source: Karpathy.md, github.com/karpathy/autoresearch)
Repositorio oficial
- GitHub: github.com/karpathy/autoresearch — MIT license
- Tamaño: ~630 líneas de Python
- Componentes:
train.py— único archivo editable; contiene modelo GPT completo, optimizadores Muon + AdamW, y loop de entrenamientoprogram.md— instrucciones al agente, restricciones y criterios de parada en un solo documento Markdownprepare.py— preparación de datos, inmutable
Resultados verificados
Experimento original (Karpathy)
- 700 experimentos en 2 días sobre nanochat (LLM pequeño, 1 GPU)
- 20 mejoras descubiertas — incluyendo errores que Karpathy había pasado por alto tras meses de ajuste manual
- 11% speedup acumulado en tiempo de entrenamiento
- Mejoras concretas encontradas: weight decay olvidado en value embeddings, Adam betas mal afinados, reordenamiento de QK Norm y RoPE
(source: Fortune, The New Stack, github.com/karpathy/autoresearch)
Tobi Lütke / Shopify
- Aplicado a optimización de Liquid (motor de templates interno de Shopify)
- 37 experimentos overnight
- +19% de rendimiento
- 53% faster rendering, 61% menos memory allocations
(source: Karpathy.md; cifras de rendering/memory confirmadas por reportes de Fortune)
SkyPilot — escalado a cluster de GPUs
- Tomaron autoresearch y le dieron acceso a un cluster Kubernetes con H100s/H200s
- 910 experimentos en 8 horas (vs ~96 secuenciales en el mismo tiempo)
- 9x throughput sobre baseline de 1 GPU
- Val_bpb: de 1.003 → 0.974 en 700 experimentos válidos
- Descubrimiento autónomo: escalar el ancho del modelo era más efectivo que otros hiperparámetros
- Costo total: <$300 USD
- Ventaja extra: con 16 GPUs en paralelo, el agente corrió grids factoriales de 10-13 experimentos por wave, capturando efectos de interacción que búsqueda secuencial perdería
(source: blog.skypilot.co/scaling-autoresearch, X @skypilot_org)
Red Hat OpenShift AI
- 198 experimentos, cero intervención humana
- Corrido sobre OpenShift AI en infraestructura enterprise
(source: developers.redhat.com)
AutoAgent / ThirdLayer — extensión a scaffolding
ThirdLayer (YC W25) adaptó el patrón al scaffolding-engineering: en lugar de optimizar pesos del modelo, optimizan el harness del agente (prompts del sistema, herramientas, lógica de orquestación).
- Meta-agente pasa 24 horas ajustando el harness del agente hijo
- Utiliza un "ratchet loop" (proponer → ejecutar → evaluar → guardar si mejora)
- Resultados en benchmarks públicos:
- Todos los demás entries en ambos leaderboards eran hand-engineered
(source: awesomeagents.ai, earezki.com/ai-news)
Requisitos de infraestructura
Para replicar el patrón en contextos reales se requiere:
- Trazas detalladas — logs del razonamiento del agente en cada experimento
- Sandbox seguro — el agente modifica y ejecuta código; necesita entorno aislado
- Evals alineados con valor real — ver evals; sin métrica correcta, el agente optimiza lo incorrecto
Sin estas bases, el loop converge hacia ruido o proxy metrics que no reflejan el objetivo real. (source: Karpathy.md)
Por qué funciona
La ventaja no es que la IA sea "más inteligente" que un humano experto. La ventaja es:
- Sin fatiga — 700 experimentos sin degradación de atención
- Sin sesgo de costo hundido — descarta cambios malos sin apego emocional
- Sin sesgo de confirmación — no tiene hipótesis previas que defender
- Paralelizable — con más GPUs, exploración factorial que un humano nunca haría
Relación con otros patrones
El Karpathy Loop es una implementación concreta del patrón reflexion (autocrítica + memoria + iteración), pero aplicado a código ejecutable en lugar de razonamiento verbal. La diferencia clave: Reflexion critica en lenguaje natural; AutoResearch critica con métricas numéricas reales.
También conecta con blackboard-architecture: el archivo train.py actúa como pizarrón compartido que el agente lee y modifica iterativamente.
Aplicación a Consilium: Meta-Consilium Loop
meta-consilium-loop propone aplicar exactamente este patrón al diseño de equipos de Consilium: team-spec como superficie editable, eval harness de 4 scores como métrica, ratchet loop como motor de mejora autónoma.