karpathy-loop

Karpathy Loop / AutoResearch

Summary: Sistema minimalista de investigación autónoma donde un agente de IA edita un archivo de código, ejecuta experimentos cronometrados y se auto-optimiza sin intervención humana; publicado por Andrej Karpathy en marzo 2026 como autoresearch.

Sources: Karpathy.md, verificado con GitHub, Fortune, The New Stack, SkyPilot Blog, DataCamp.

Last updated: 2026-04-18


Concepto central

El Karpathy Loop (formalmente: AutoResearch) es un agente de IA que se optimiza a sí mismo bajo tres restricciones estrictas:

  1. Un solo archivo editabletrain.py (código de entrenamiento de un LLM)
  2. Una métrica única y testeable — validation loss (pérdida en validación)
  3. Presupuesto de tiempo fijo — cada experimento dura exactamente 5 minutos

El agente edita train.py, entrena, mide, guarda si mejoró, descarta si no, y repite. Sin magia: solo iteración masiva sin fatiga ni sesgo de costo hundido. (source: Karpathy.md, github.com/karpathy/autoresearch)

Repositorio oficial

Resultados verificados

Experimento original (Karpathy)

(source: Fortune, The New Stack, github.com/karpathy/autoresearch)

Tobi Lütke / Shopify

(source: Karpathy.md; cifras de rendering/memory confirmadas por reportes de Fortune)

SkyPilot — escalado a cluster de GPUs

(source: blog.skypilot.co/scaling-autoresearch, X @skypilot_org)

Red Hat OpenShift AI

(source: developers.redhat.com)

AutoAgent / ThirdLayer — extensión a scaffolding

ThirdLayer (YC W25) adaptó el patrón al scaffolding-engineering: en lugar de optimizar pesos del modelo, optimizan el harness del agente (prompts del sistema, herramientas, lógica de orquestación).

(source: awesomeagents.ai, earezki.com/ai-news)

Requisitos de infraestructura

Para replicar el patrón en contextos reales se requiere:

  1. Trazas detalladas — logs del razonamiento del agente en cada experimento
  2. Sandbox seguro — el agente modifica y ejecuta código; necesita entorno aislado
  3. Evals alineados con valor real — ver evals; sin métrica correcta, el agente optimiza lo incorrecto

Sin estas bases, el loop converge hacia ruido o proxy metrics que no reflejan el objetivo real. (source: Karpathy.md)

Por qué funciona

La ventaja no es que la IA sea "más inteligente" que un humano experto. La ventaja es:

Relación con otros patrones

El Karpathy Loop es una implementación concreta del patrón reflexion (autocrítica + memoria + iteración), pero aplicado a código ejecutable en lugar de razonamiento verbal. La diferencia clave: Reflexion critica en lenguaje natural; AutoResearch critica con métricas numéricas reales.

También conecta con blackboard-architecture: el archivo train.py actúa como pizarrón compartido que el agente lee y modifica iterativamente.

Aplicación a Consilium: Meta-Consilium Loop

meta-consilium-loop propone aplicar exactamente este patrón al diseño de equipos de Consilium: team-spec como superficie editable, eval harness de 4 scores como métrica, ratchet loop como motor de mejora autónoma.

Powered by Forestry.md