Inyección de Prompts en la IA empresarial: Por qué los sistemas RAG son especialmente vulnerables

Los sistemas RAG son el enfoque estándar para conectar LLMs con datos empresariales. Sin embargo, precisamente esta conexión abre la puerta a inyecciones de prompts indirectas – con posibles consecuencias graves.

En resumen

Retrieval-Augmented Generation (RAG) es el enfoque estándar para conectar LLMs con datos empresariales. Sin embargo, precisamente esta conexión abre la puerta a inyecciones de prompts indirectas: los atacantes ocultan instrucciones en documentos que el sistema RAG incorpora como contexto.

En abril de 2023 presentamos la inyección de prompts como una nueva clase de ataque. Desde entonces, la situación de amenaza se ha agravado – especialmente para las empresas que utilizan sistemas RAG de manera productiva.

Cómo funciona RAG – y dónde está el problema

Un sistema RAG combina un LLM con una base de conocimientos. Al recibir una consulta del usuario, el sistema busca documentos relevantes (Recuperación), los incorpora como contexto en el prompt (Aumento) y genera una respuesta (Generación).

El problema: el LLM no puede distinguir si un texto en el contexto es una información o una instrucción. Un documento manipulado en la base de conocimientos puede cambiar el comportamiento de todo el sistema.

Escenarios de ataque en la práctica

Escenario 1 – La entrada de base de conocimientos envenenada: Un atacante coloca un documento con instrucciones ocultas en la base de conocimientos. Si un usuario hace una pregunta temáticamente adecuada, se recupera el documento manipulado y se ejecutan las instrucciones ocultas.

Escenario 2 – Fuga de datos entre usuarios: Mediante una inyección de prompts dirigida, un sistema RAG puede ser inducido a revelar información del contexto de otras consultas de usuarios – especialmente crítico en entornos multi-inquilinos.

Escenario 3 – Secuestro de acciones: Si el sistema RAG puede ejecutar acciones (enviar correos electrónicos, crear tickets, cambiar datos), una inyección puede secuestrar estas acciones.

Medidas contra los sistemas RAG

Sanitización de entradas: Comprobar los documentos antes de la indexación en busca de patrones sospechosos (por ejemplo, «Ignore previous instructions»)
Separación de privilegios: Mantener el contexto RAG y el prompt del sistema en roles de mensajes separados
Filtro de salidas: Comprobar las respuestas del LLM en busca de fugas de datos y violaciones de políticas
Tokens canarios: Marcas en documentos sensibles que activan una alarma en caso de acceso no autorizado
Registro de auditoría: Registrar cada consulta RAG con los documentos de contexto

Datos clave

RAG es el enfoque más común para asistentes de IA empresariales

La inyección de prompts indirecta a través de documentos es el vector de ataque principal

Los sistemas RAG multi-inquilinos corren el riesgo de fuga de datos entre usuarios

Ningún LLM puede actualmente distinguir de manera fiable los datos de las instrucciones

El enfoque de defensa en profundidad con múltiples capas es el recomendado

Hecho: Según McKinsey, las herramientas de IA pueden aumentar la productividad de los equipos de seguridad en un 40 por ciento.

Hecho: Según Gartner, en 2026 más del 50 por ciento de los SOC utilizarán automatización basada en IA.

Preguntas frecuentes

¿Todos los sistemas RAG son igualmente vulnerables?

La vulnerabilidad depende de la arquitectura. Los sistemas con una separación estricta de roles (Sistema/Usuario/Asistente), una ventana de contexto limitada y filtros de salida son significativamente más robustos que las implementaciones ingenuas.

¿Cómo pruebo mi sistema RAG para la inyección de prompts?

Con pruebas de red team dirigidas: Coloque documentos con instrucciones de prueba en la base de conocimientos y compruebe si el sistema ejecuta las instrucciones. Herramientas como Garak o el marco de pruebas de OWASP LLM ayudan en las pruebas sistemáticas.

Sobre el autor: Tobias Massow

Más artículos de Tobias Massow

También disponible en

Français English Deutsch