llm-bug-hunting

LLM Bug Hunting — Detección Agentiva de Vulnerabilidades

Summary: Uso de agentes LLM para detectar vulnerabilidades en codebases de forma iterativa y autónoma; el valor no viene solo del modelo sino de la combinación de scaffolding, herramientas, priorización, contexto acumulativo y validación.

Sources: resumen_anthropic_bugs_exploits.md

Last updated: 2026-04-22

Intuición central

Detectar bugs explotables con LLMs no es una sola llamada al modelo sobre un archivo. Es un loop agentivo sobre el repositorio completo:

Priorizar zonas de riesgo (superficies de ataque, inputs externos, manejo de memoria)
Leer y conectar funciones, llamadas, dependencias interprocedurales
Usar herramientas para explorar rutas de datos y ejecución
Formular hipótesis de vulnerabilidad
Intentar validarlas (PoC, reproducción, análisis estático)
Profundizar desde los hallazgos prometedores

(source: resumen_anthropic_bugs_exploits.md)

Qué dice Anthropic

Anthropic puso el modelo en una VM con herramientas estándar de desarrollo y flujo de trabajo realista. No dependieron de:

Prompting mágico
Scaffolding excesivamente específico o ad hoc

Aun así el sistema encontró vulnerabilidades severas.

Interpretación: el salto práctico no vino del modelo solo, sino de ponerlo a operar como agente sobre un entorno real con herramientas. (source: resumen_anthropic_bugs_exploits.md)

Por qué no es trivial

La idea conceptual suena simple; la implementación útil es costosa. Requiere al menos:

Componente	Función
Priorización de riesgo	Enfocar el loop en zonas de mayor superficie de ataque
Recuperación de contexto	RAG o navegación interprocedural del repo
Navegación entre archivos	Seguir llamadas, dependencias, rutas de datos
Ejecución de herramientas	Análisis estático, ejecución dinámica, fuzzing
Validación de hallazgos	Distinguir vulnerabilidades reales de falsos positivos
Triage	Clasificar por severidad, reproducibilidad, explotabilidad
Memoria/estado	Acumular contexto entre iteraciones del loop
Multiagente (opcional)	Especialistas por capa (backend, infra, dependencias)

(source: resumen_anthropic_bugs_exploits.md)

Papers de referencia

Varios trabajos confirman que enfoques agentivos superan la llamada plana al modelo en detección de vulnerabilidades:

JitVul — detección Just-In-Time de vulnerabilidades en commits
CyberGym — entorno de entrenamiento para agentes de seguridad ofensiva/defensiva
ARTEMIS — framework agentivo para análisis de seguridad
MalCodeAI — detección de código malicioso con LLMs

Conclusión repetida: la navegación interprocedural, el uso de herramientas y la recuperación de contexto relevante del repo mejoran sustancialmente el análisis. La validación de hallazgos es clave para reducir falsos positivos. (source: resumen_anthropic_bugs_exploits.md)

Repositorios públicos representativos

Familia de herramientas open-source en esta dirección:

Repo / Proyecto	Enfoque
bug-hunter	Exploración iterativa de repos
FalconEYE	Priorización + análisis estático agentivo
roam-code	Navegación de codebases con LLM
pentagi	Pentest agentivo end-to-end
OpenHands / vulnerability-fixer	Fix automático además de detección
OpenHands / cve-demo	Demo de CVE hunting con agente
agent-audit	Auditoría agentiva general
BeSSAAIAgent	Seguridad de smart contracts
LLM4Pentest	Pentest con LLMs
Awesome-LLMs-for-Vulnerability-Detection	Lista curada
Awesome-LLM4SVD	Lista curada SVD
Awesome-Agent-Security	Lista curada seguridad agentiva

(source: resumen_anthropic_bugs_exploits.md)

Diferencias entre proyectos

Los proyectos de esta familia se diferencian principalmente en qué tan sofisticado es el orquestador:

Clasificación/priorización inicial
RAG o recuperación de contexto
Multiagentes vs agente único
Generación de PoCs
Capacidad de fix/patch además de detectar

Conexión con Meta-Consilium Loop

El meta-consilium-loop aplica directamente a bug hunting con un cambio de métrica:

Meta-Consilium genérico	Versión security
`team-spec` editable	Configuración del agente de seguridad
`score_principal` = calidad decisión	`score_principal` = vulnerabilidades encontradas × severidad
`guardrail_1` = contradicciones	`guardrail_1` = tasa de falsos positivos
`guardrail_2` = costo tokens	`guardrail_2` = tiempo de análisis
`guardrail_3` = trazabilidad	`guardrail_3` = reproducibilidad del hallazgo

El ratchet loop aplica igual: proponer variante → ejecutar sobre suite de repos con CVEs conocidos → comparar contra baseline → promover solo si mejora. (source: resumen_anthropic_bugs_exploits.md)

Conexión con Scaffolding Engineering

scaffolding-engineering es la disciplina subyacente. En bug hunting, el harness a optimizar incluye:

Prompt de sistema del agente de seguridad
Herramientas habilitadas (static analysis, shell, grep, AST)
Lógica de priorización de archivos
Criterios de validación de hallazgos

Un meta-agente podría optimizar ese harness automáticamente usando un benchmark de repos con CVEs conocidos como eval set. Esto convertiría meta-consilium-loop + llm-bug-hunting en un sistema de mejora continua de capacidades de seguridad.

Síntesis

El avance de Anthropic en bug hunting no proviene únicamente del modelo, sino de ponerlo a trabajar como agente sobre un repositorio real, con herramientas, contexto acumulativo y exploración iterativa. Ya existe trabajo público en GitHub y papers que sigue esa misma dirección.

(source: resumen_anthropic_bugs_exploits.md)

LLM Bug Hunting — Detección Agentiva de Vulnerabilidades

Intuición central

Qué dice Anthropic

Por qué no es trivial

Papers de referencia

Repositorios públicos representativos

Diferencias entre proyectos

Conexión con Meta-Consilium Loop

Conexión con Scaffolding Engineering

Síntesis

Related pages