4. abril 2026 | Imprimir artículo |

Ataques deepfake contra la alta dirección: cómo las voces generadas por IA roban millones

7 min de lectura

En febrero de 2024, un empleado del departamento financiero de la empresa de ingeniería británica Arup transfirió 25 millones de dólares estadounidenses a cuentas de defraudadores. El motivo: una videollamada en la que el CFO y otros directivos aprobaban la transferencia. El problema: ninguna de las personas en la llamada era real. Todas eran deepfakes generados por inteligencia artificial. Este caso marca el punto de inflexión en el que el fraude al CEO mediante inteligencia artificial pasó de ser un riesgo teórico a convertirse en una amenaza concreta para las empresas.

Lo más importante en resumen

  • En el caso Arup, deepfakes generados por IA de una videollamada con el CFO fueron suficientes para robar 25 millones de dólares estadounidenses (febrero de 2024, Hong Kong).
  • Las pérdidas por fraude basado en deepfakes en EE. UU. alcanzaron en total 1.100 millones de dólares estadounidenses en 2025, triplicando los 360 millones de dólares estadounidenses del año anterior.
  • Tres segundos de material de audio son suficientes para crear una copia de voz con un 85 por ciento de coincidencia.
  • Las personas identifican correctamente los vídeos deepfake de alta calidad solo en el 24,5 por ciento de los casos.
  • El 85 por ciento de todas las empresas tuvo al menos un incidente de seguridad relacionado con deepfakes en los últimos doce meses.

Cómo funcionó el ataque a Arup

El caso Arup en Hong Kong es tan instructivo precisamente porque muestra el nivel de profesionalismo que han alcanzado los ataques deepfake. Los atacantes crearon copias de vídeo y audio generadas por IA del CFO y otros directivos de la consultora de ingeniería global. Estos deepfakes se utilizaron en una videollamada en vivo, no como un vídeo pregrabado, sino como una conferencia en tiempo real con varios participantes.

El empleado del departamento financiero vio y oyó a sus superiores en lo que parecía ser una situación de conferencia normal. Las instrucciones llegaron de forma clara y consistente. La urgencia fue creada por el contexto de una supuesta adquisición corporativa. En una sola sesión aprobó 15 transferencias individuales a distintas cuentas en Hong Kong. Solo después de la última transferencia y una consulta interna quedó claro que toda la conferencia había sido una escenificación. Los directivos reales no sabían nada. El importe se perdió sin posibilidad de recuperación.

Este ataque no funcionó porque el empleado fuera crédulo. Funcionó porque la tecnología ha alcanzado un nivel en el que la autenticación visual y acústica ya no es suficiente. La confianza en lo que vemos y oímos ha dejado de ser un mecanismo de seguridad fiable.

1.100 M de dólares estadounidenses

Pérdidas por fraude basado en deepfakes en EE. UU. en 2025. Una triplicación frente a los 360 millones de dólares estadounidenses del año anterior.

3 segundos

De material de audio son suficientes para crear una copia de voz con un 85 por ciento de coincidencia con el original.

24,5 %

de las personas identifican correctamente los vídeos deepfake de alta calidad. El reconocimiento visual ya no es una protección fiable.

Fuentes: Chainalysis 2025, McAfee Deepfake Audio Study 2024, University College London Study

Por qué falla la defensa clásica

El Business Email Compromise (BEC) lleva años siendo una de las formas de fraude más costosas. El mecanismo era hasta ahora comparativamente sencillo: un atacante falsifica un correo electrónico del CEO o CFO y exige una transferencia urgente. La defensa era relativamente sencilla y a menudo eficaz: autenticación de correo electrónico con DMARC, procedimientos de devolución de llamada por teléfono ante solicitudes inusuales y el principio de doble control para transferencias por encima de un determinado umbral.

Los deepfakes neutralizan exactamente estos controles consolidados, uno tras otro. Una devolución de llamada por teléfono no sirve de nada si la voz al otro lado ha sido clonada. Una videollamada para verificación no protege si el vídeo se falsifica en tiempo real. Y el principio de doble control falla cuando ambos verificadores están en la misma llamada manipulada y ven cómo varios supuestos directivos confirman la transacción. Los atacantes no han cambiado el ataque en sí, han cambiado el canal a través del cual se establece la confianza y la autoridad.

Especialmente pernicioso: los atacantes utilizan información públicamente disponible para prepararse. Las entrevistas del CEO en YouTube, los podcasts del CFO, los vídeos de LinkedIn y las apariciones en conferencias proporcionan el material de audio para clonar la voz. Los organigramas corporativos en el sitio web muestran quién reporta a quién. Los comunicados de prensa sobre adquisiciones o alianzas proporcionan el marco temático para la supuesta solicitud de transferencia. El ataque completo se construye a partir de fuentes de acceso público.

La tecnología subyacente se ha vuelto alarmantemente accesible. Las plataformas de deepfake como servicio ofrecen clonación de voz y síntesis de vídeo como servicio comercial. Según un informe de Cyble, la disponibilidad de este tipo de servicios se disparó en 2025. El coste de entrada para una clonación de voz convincente se sitúa en el rango bajo de tres cifras. La barrera de entrada para los atacantes ha desaparecido prácticamente. Lo que hace tres años era trabajo de especialistas, hoy cualquier persona con un portátil y acceso a Internet puede montarlo en pocas horas. La democratización de las herramientas de IA conlleva también la democratización de los medios de ataque.

Según Deloitte, las pérdidas por fraude habilitadas por IA generativa aumentarán de 12.300 millones de dólares estadounidenses en 2024 a 40.000 millones de dólares estadounidenses en 2027, un crecimiento anual del 32 por ciento. Los ataques con apoyo de deepfakes contra la alta dirección son el área con mayor potencial de daño individual, porque apuntan directamente a los responsables de la toma de decisiones con poder de transferencia.

En Alemania, el BSI observa un número creciente de ataques de ingeniería social asistidos por IA. El informe nacional sobre ciberdelincuencia 2024 del BKA documenta que la ingeniería social combinada con contenidos generados por IA se encuentra entre las categorías de amenazas de crecimiento más rápido. Para las pymes alemanas la amenaza es especialmente relevante, porque las jerarquías planas y las relaciones personales entre la dirección y la contabilidad crean exactamente las estructuras de confianza que los atacantes deepfake explotan.

La escalada desde 2019: una línea de tiempo

2019

Primer caso documentado de fraude por clonación de voz basada en IA: una empresa energética británica transfiere 220.000 euros tras una llamada del supuesto CEO de la empresa matriz alemana.

2022

Las herramientas de clonación de voz se convierten en código abierto. Proyectos como Tortoise-TTS y VALL-E reducen drásticamente la barrera de entrada. Las copias de voz son posibles con tan solo unos minutos de material de audio.

Feb 2024

El caso Arup en Hong Kong: 25 millones de dólares estadounidenses de pérdida por una videollamada deepfake con múltiples participantes. El mayor caso individual documentado hasta la fecha.

2025

El deepfake como servicio se convierte en mercado de masas. Las pérdidas por fraude en EE. UU. se triplican hasta 1.100 millones de dólares estadounidenses. El 85 por ciento de las empresas reporta al menos un incidente relacionado con deepfakes.

Ene 2026

Una empresa de servicios financieros del Fortune 500 pierde 28 millones de dólares estadounidenses mediante una única videollamada deepfake en la que se imitó al CFO para una supuesta transferencia de adquisición.

Lo que las empresas deben hacer ahora

La defensa contra los ataques deepfake requiere una combinación de controles técnicos, cambios de procesos y formación en concienciación. La tecnología por sí sola no basta, ni tampoco los procesos por sí solos. Ambos deben actuar conjuntamente. Las siguientes medidas están priorizadas por eficacia y pueden implementarse de forma escalonada.

Controles técnicos

  • Verificación multifactor para todas las transferencias por encima de un umbral definido: ningún canal de comunicación único debe ser suficiente. Las aprobaciones de transferencia deben confirmarse a través de un canal separado, acordado previamente.
  • Sistemas de palabras clave: contraseñas acordadas de antemano que se solicitan en transacciones sensibles. La palabra clave se acuerda en persona o por mensaje cifrado y se cambia periódicamente.
  • Herramientas de detección de deepfakes: soluciones como Reality Defender, Sensity o Intel FakeCatcher analizan transmisiones de audio y vídeo en busca de artefactos de manipulación. La tecnología aún es incipiente y no es infalible, pero aporta una capa adicional de seguridad.
  • Análisis de comportamiento asistido por IA: sistemas que aprenden el patrón de comunicación habitual de los directivos y señalan desviaciones, como solicitudes de transferencia inusuales fuera de la actividad empresarial normal.

Cambios de procesos

  • Procedimientos de devolución de llamada a través de números previamente establecidos: las devoluciones de llamada se realizan exclusivamente a los números de teléfono registrados internamente, no al número que aparece en la llamada.
  • Retardo temporal para transferencias inusuales: toda transacción que se encuentre fuera de la actividad empresarial habitual recibe un tiempo de espera mínimo de cuatro a ocho horas antes de su ejecución.
  • Protocolo de escalada: cuando un directivo solicita una transferencia urgente por vídeo o teléfono ejerciendo presión temporal, esto se clasifica automáticamente como riesgo elevado y requiere aprobación adicional.

Concienciación y formación

  • Integrar la concienciación sobre deepfakes en la formación habitual de seguridad. Los empleados de los departamentos financieros, de RR. HH. y de asistencia deben saber que las voces y los vídeos pueden manipularse.
  • Realizar ejercicios periódicos de simulación con escenarios de deepfake: el equipo de seguridad simula una llamada deepfake al departamento de contabilidad y comprueba si los procesos definidos y las vías de escalada funcionan realmente.
  • Sin culpabilización tras los incidentes: la calidad de los deepfakes actuales es tan elevada que el reconocimiento humano fiable ya no es posible. El proceso debe proteger, no el empleado individual. Una cultura de culpabilización lleva a que los incidentes se oculten en lugar de reportarse.
  • Involucrar a los directivos en la concienciación: los CEOs y CFOs deben entender que sus apariciones públicas sirven de plantilla para deepfakes. Esto no significa restringir la comunicación pública, sino diseñar los procesos internos de forma que incluso una imitación perfecta de su comportamiento no pueda desencadenar una transacción no autorizada.

El papel del ciberseguro

Los ciberseguros no cubren automáticamente los daños por fraude basado en deepfakes. Muchas pólizas distinguen entre fraude de ingeniería social y ciberataques clásicos. Los ataques deepfake caen a menudo en una zona gris: técnicamente se trata de ingeniería social, pero los medios empleados son altamente técnicos. Las empresas deben revisar su póliza específicamente en cuanto a la cobertura de fraude asistido por IA y, en su caso, negociar un componente específico.

Al mismo tiempo, las aseguradoras exigen cada vez más la acreditación de medidas preventivas. Quien pueda demostrar que ha implementado la verificación de dos canales, sistemas de palabras clave y formaciones periódicas de concienciación no solo obtiene mejores condiciones, sino que también evita rechazos en caso de siniestro. La inversión en prevención es así doblemente rentable: reduce el riesgo de un ataque exitoso y asegura la cobertura del seguro para el caso de emergencia.

Conclusión: no se fie ni de sus ojos ni de sus oídos

Los ataques deepfake contra la alta dirección ya no son una amenaza futura. Ocurren ahora, causan daños millonarios y se vuelven mejores y más baratos. El caso Arup ha demostrado que incluso los profesionales financieros experimentados son incapaces de distinguir entre realidad y falsificación en una videollamada deepfake bien preparada.

La consecuencia es clara: las empresas deben diseñar sus procesos de transferencia de forma que funcionen de manera segura incluso cuando la voz y el rostro de quien da la instrucción están perfectamente falsificados. Esto significa concretamente: nunca aceptar un único canal de comunicación como autenticación. Confirmar siempre a través de una vía separada acordada de antemano. Y tratar cualquier presión temporal en transacciones financieras como señal de alerta, en lugar de como motivo para acelerar la aprobación.

Comience esta semana con una revisión de sus procesos de aprobación de transferencias. Hágase una pregunta sencilla: ¿resistiría este proceso incluso si el CEO al teléfono no es real? Si la respuesta no es un sí inequívoco, ha encontrado su primer paso a seguir. La tecnología de los atacantes evoluciona más rápido que la capacidad de percepción humana. Solo los procesos robustos cierran la brecha que nuestros sentidos ya no pueden cerrar.

Preguntas frecuentes

¿Qué es un ataque deepfake contra empresas?

Un ataque deepfake utiliza imitaciones de audio o vídeo generadas por IA de directivos para manipular a empleados. Típicamente, los empleados financieros son inducidos a realizar transferencias en una videollamada o llamada telefónica falsificada. La tecnología puede replicar la voz de una persona al 85 por ciento con tan solo tres segundos de material de audio.

¿Qué daños causan los ataques deepfake?

Las pérdidas por fraude basado en deepfakes en EE. UU. ascendieron a 1.100 millones de dólares estadounidenses en 2025. Casos individuales como el de Arup (25 millones de dólares estadounidenses) o el caso Fortune 500 de principios de 2026 (28 millones de dólares estadounidenses) muestran el potencial de daño por incidente. Deloitte prevé que el fraude basado en IA generativa crecerá hasta 40.000 millones de dólares estadounidenses en 2027.

¿Pueden las personas detectar deepfakes?

Los estudios muestran que las personas identifican correctamente los vídeos deepfake de alta calidad solo en el 24,5 por ciento de los casos. El 70 por ciento de los encuestados afirmó no poder distinguir con seguridad si una voz es real o clonada. La detección humana no es por tanto un mecanismo de protección fiable. Los controles técnicos y las garantías procesales deben asumir la mayor parte de la carga.

¿Cómo pueden protegerse las empresas del fraude deepfake?

Las medidas más eficaces son: verificación de dos canales para todas las transferencias por encima de un umbral definido, palabras clave acordadas previamente para transacciones sensibles, procedimientos de devolución de llamada a través de números registrados internamente, retardo temporal para transacciones inusuales y la integración de la concienciación sobre deepfakes en la formación habitual de seguridad.

¿Está disponible libremente la tecnología de clonación de voz?

Sí. Desde 2022, las herramientas de clonación de voz están disponibles como proyectos de código abierto. Las plataformas comerciales de deepfake como servicio ofrecen además soluciones listas para usar a bajo coste. La barrera de entrada para los atacantes se sitúa en el rango bajo de tres cifras en euros. Tres segundos del material de audio de una persona son suficientes para crear una copia de voz convincente.

Lecturas recomendadas

Más de la red MBF Media

Fuente imagen: Pexels / Suki Lee (px:17194838)

Benedikt Langer

Sobre el autor: Benedikt Langer

Más artículos de

También disponible en

FrançaisEnglishDeutsch
Una revista de Evernine Media GmbH