llm-bug-hunting
LLM Bug Hunting — Detección Agentiva de Vulnerabilidades
Summary: Uso de agentes LLM para detectar vulnerabilidades en codebases de forma iterativa y autónoma; el valor no viene solo del modelo sino de la combinación de scaffolding, herramientas, priorización, contexto acumulativo y validación.
Sources: resumen_anthropic_bugs_exploits.md
Last updated: 2026-04-22
Intuición central
Detectar bugs explotables con LLMs no es una sola llamada al modelo sobre un archivo. Es un loop agentivo sobre el repositorio completo:
- Priorizar zonas de riesgo (superficies de ataque, inputs externos, manejo de memoria)
- Leer y conectar funciones, llamadas, dependencias interprocedurales
- Usar herramientas para explorar rutas de datos y ejecución
- Formular hipótesis de vulnerabilidad
- Intentar validarlas (PoC, reproducción, análisis estático)
- Profundizar desde los hallazgos prometedores
(source: resumen_anthropic_bugs_exploits.md)
Qué dice Anthropic
Anthropic puso el modelo en una VM con herramientas estándar de desarrollo y flujo de trabajo realista. No dependieron de:
- Prompting mágico
- Scaffolding excesivamente específico o ad hoc
Aun así el sistema encontró vulnerabilidades severas.
Interpretación: el salto práctico no vino del modelo solo, sino de ponerlo a operar como agente sobre un entorno real con herramientas. (source: resumen_anthropic_bugs_exploits.md)
Por qué no es trivial
La idea conceptual suena simple; la implementación útil es costosa. Requiere al menos:
| Componente | Función |
|---|---|
| Priorización de riesgo | Enfocar el loop en zonas de mayor superficie de ataque |
| Recuperación de contexto | RAG o navegación interprocedural del repo |
| Navegación entre archivos | Seguir llamadas, dependencias, rutas de datos |
| Ejecución de herramientas | Análisis estático, ejecución dinámica, fuzzing |
| Validación de hallazgos | Distinguir vulnerabilidades reales de falsos positivos |
| Triage | Clasificar por severidad, reproducibilidad, explotabilidad |
| Memoria/estado | Acumular contexto entre iteraciones del loop |
| Multiagente (opcional) | Especialistas por capa (backend, infra, dependencias) |
(source: resumen_anthropic_bugs_exploits.md)
Papers de referencia
Varios trabajos confirman que enfoques agentivos superan la llamada plana al modelo en detección de vulnerabilidades:
- JitVul — detección Just-In-Time de vulnerabilidades en commits
- CyberGym — entorno de entrenamiento para agentes de seguridad ofensiva/defensiva
- ARTEMIS — framework agentivo para análisis de seguridad
- MalCodeAI — detección de código malicioso con LLMs
Conclusión repetida: la navegación interprocedural, el uso de herramientas y la recuperación de contexto relevante del repo mejoran sustancialmente el análisis. La validación de hallazgos es clave para reducir falsos positivos. (source: resumen_anthropic_bugs_exploits.md)
Repositorios públicos representativos
Familia de herramientas open-source en esta dirección:
| Repo / Proyecto | Enfoque |
|---|---|
| bug-hunter | Exploración iterativa de repos |
| FalconEYE | Priorización + análisis estático agentivo |
| roam-code | Navegación de codebases con LLM |
| pentagi | Pentest agentivo end-to-end |
| OpenHands / vulnerability-fixer | Fix automático además de detección |
| OpenHands / cve-demo | Demo de CVE hunting con agente |
| agent-audit | Auditoría agentiva general |
| BeSSAAIAgent | Seguridad de smart contracts |
| LLM4Pentest | Pentest con LLMs |
| Awesome-LLMs-for-Vulnerability-Detection | Lista curada |
| Awesome-LLM4SVD | Lista curada SVD |
| Awesome-Agent-Security | Lista curada seguridad agentiva |
(source: resumen_anthropic_bugs_exploits.md)
Diferencias entre proyectos
Los proyectos de esta familia se diferencian principalmente en qué tan sofisticado es el orquestador:
- Clasificación/priorización inicial
- RAG o recuperación de contexto
- Multiagentes vs agente único
- Generación de PoCs
- Capacidad de fix/patch además de detectar
Conexión con Meta-Consilium Loop
El meta-consilium-loop aplica directamente a bug hunting con un cambio de métrica:
| Meta-Consilium genérico | Versión security |
|---|---|
team-spec editable |
Configuración del agente de seguridad |
score_principal = calidad decisión |
score_principal = vulnerabilidades encontradas × severidad |
guardrail_1 = contradicciones |
guardrail_1 = tasa de falsos positivos |
guardrail_2 = costo tokens |
guardrail_2 = tiempo de análisis |
guardrail_3 = trazabilidad |
guardrail_3 = reproducibilidad del hallazgo |
El ratchet loop aplica igual: proponer variante → ejecutar sobre suite de repos con CVEs conocidos → comparar contra baseline → promover solo si mejora. (source: resumen_anthropic_bugs_exploits.md)
Conexión con Scaffolding Engineering
scaffolding-engineering es la disciplina subyacente. En bug hunting, el harness a optimizar incluye:
- Prompt de sistema del agente de seguridad
- Herramientas habilitadas (static analysis, shell, grep, AST)
- Lógica de priorización de archivos
- Criterios de validación de hallazgos
Un meta-agente podría optimizar ese harness automáticamente usando un benchmark de repos con CVEs conocidos como eval set. Esto convertiría meta-consilium-loop + llm-bug-hunting en un sistema de mejora continua de capacidades de seguridad.
Síntesis
El avance de Anthropic en bug hunting no proviene únicamente del modelo, sino de ponerlo a trabajar como agente sobre un repositorio real, con herramientas, contexto acumulativo y exploración iterativa. Ya existe trabajo público en GitHub y papers que sigue esa misma dirección.
(source: resumen_anthropic_bugs_exploits.md)