llm-bug-hunting

LLM Bug Hunting — Detección Agentiva de Vulnerabilidades

Summary: Uso de agentes LLM para detectar vulnerabilidades en codebases de forma iterativa y autónoma; el valor no viene solo del modelo sino de la combinación de scaffolding, herramientas, priorización, contexto acumulativo y validación.

Sources: resumen_anthropic_bugs_exploits.md

Last updated: 2026-04-22


Intuición central

Detectar bugs explotables con LLMs no es una sola llamada al modelo sobre un archivo. Es un loop agentivo sobre el repositorio completo:

  1. Priorizar zonas de riesgo (superficies de ataque, inputs externos, manejo de memoria)
  2. Leer y conectar funciones, llamadas, dependencias interprocedurales
  3. Usar herramientas para explorar rutas de datos y ejecución
  4. Formular hipótesis de vulnerabilidad
  5. Intentar validarlas (PoC, reproducción, análisis estático)
  6. Profundizar desde los hallazgos prometedores

(source: resumen_anthropic_bugs_exploits.md)

Qué dice Anthropic

Anthropic puso el modelo en una VM con herramientas estándar de desarrollo y flujo de trabajo realista. No dependieron de:

Aun así el sistema encontró vulnerabilidades severas.

Interpretación: el salto práctico no vino del modelo solo, sino de ponerlo a operar como agente sobre un entorno real con herramientas. (source: resumen_anthropic_bugs_exploits.md)

Por qué no es trivial

La idea conceptual suena simple; la implementación útil es costosa. Requiere al menos:

Componente Función
Priorización de riesgo Enfocar el loop en zonas de mayor superficie de ataque
Recuperación de contexto RAG o navegación interprocedural del repo
Navegación entre archivos Seguir llamadas, dependencias, rutas de datos
Ejecución de herramientas Análisis estático, ejecución dinámica, fuzzing
Validación de hallazgos Distinguir vulnerabilidades reales de falsos positivos
Triage Clasificar por severidad, reproducibilidad, explotabilidad
Memoria/estado Acumular contexto entre iteraciones del loop
Multiagente (opcional) Especialistas por capa (backend, infra, dependencias)

(source: resumen_anthropic_bugs_exploits.md)

Papers de referencia

Varios trabajos confirman que enfoques agentivos superan la llamada plana al modelo en detección de vulnerabilidades:

Conclusión repetida: la navegación interprocedural, el uso de herramientas y la recuperación de contexto relevante del repo mejoran sustancialmente el análisis. La validación de hallazgos es clave para reducir falsos positivos. (source: resumen_anthropic_bugs_exploits.md)

Repositorios públicos representativos

Familia de herramientas open-source en esta dirección:

Repo / Proyecto Enfoque
bug-hunter Exploración iterativa de repos
FalconEYE Priorización + análisis estático agentivo
roam-code Navegación de codebases con LLM
pentagi Pentest agentivo end-to-end
OpenHands / vulnerability-fixer Fix automático además de detección
OpenHands / cve-demo Demo de CVE hunting con agente
agent-audit Auditoría agentiva general
BeSSAAIAgent Seguridad de smart contracts
LLM4Pentest Pentest con LLMs
Awesome-LLMs-for-Vulnerability-Detection Lista curada
Awesome-LLM4SVD Lista curada SVD
Awesome-Agent-Security Lista curada seguridad agentiva

(source: resumen_anthropic_bugs_exploits.md)

Diferencias entre proyectos

Los proyectos de esta familia se diferencian principalmente en qué tan sofisticado es el orquestador:

Conexión con Meta-Consilium Loop

El meta-consilium-loop aplica directamente a bug hunting con un cambio de métrica:

Meta-Consilium genérico Versión security
team-spec editable Configuración del agente de seguridad
score_principal = calidad decisión score_principal = vulnerabilidades encontradas × severidad
guardrail_1 = contradicciones guardrail_1 = tasa de falsos positivos
guardrail_2 = costo tokens guardrail_2 = tiempo de análisis
guardrail_3 = trazabilidad guardrail_3 = reproducibilidad del hallazgo

El ratchet loop aplica igual: proponer variante → ejecutar sobre suite de repos con CVEs conocidos → comparar contra baseline → promover solo si mejora. (source: resumen_anthropic_bugs_exploits.md)

Conexión con Scaffolding Engineering

scaffolding-engineering es la disciplina subyacente. En bug hunting, el harness a optimizar incluye:

Un meta-agente podría optimizar ese harness automáticamente usando un benchmark de repos con CVEs conocidos como eval set. Esto convertiría meta-consilium-loop + llm-bug-hunting en un sistema de mejora continua de capacidades de seguridad.

Síntesis

El avance de Anthropic en bug hunting no proviene únicamente del modelo, sino de ponerlo a trabajar como agente sobre un repositorio real, con herramientas, contexto acumulativo y exploración iterativa. Ya existe trabajo público en GitHub y papers que sigue esa misma dirección.

(source: resumen_anthropic_bugs_exploits.md)

Powered by Forestry.md