Durante el año 2025, los deepfakes han mejorado drásticamente. Rostros, voces y actuaciones de cuerpo completo generados por IA que imitan a personas reales han mejorado la calidad mucho más allá de lo que incluso muchos expertos esperaban que fuera el caso hace apenas unos años. También se utilizaban cada vez más para engañar a la gente.
Para muchos escenarios cotidianos –especialmente videollamadas de baja resolución y medios compartidos en plataformas de redes sociales– su realismo es ahora lo suficientemente alto como para engañar de manera confiable a espectadores no expertos. En términos prácticos, los medios sintéticos se han vuelto indistinguibles de las grabaciones auténticas para la gente corriente y, en algunos casos, incluso para las instituciones.
Y este aumento no se limita a la calidad. El volumen de deepfakes ha crecido explosivamente: la empresa de seguridad cibernética DeepStrike estima un aumento de aproximadamente 500.000 falsificaciones digitales en línea en 2023 a alrededor de 8 millones en 2025, con un crecimiento anual cercano al 900%.
Soy un informático que investiga deepfakes y otros medios sintéticos. Desde mi punto de vista, veo que es probable que la situación empeore en 2026, a medida que los deepfakes se conviertan en artistas sintéticos capaces de reaccionar ante los humanos en tiempo real.
Casi cualquiera puede hacer un vídeo deepfake ahora. Mejoras dramáticas
Varios cambios técnicos subyacen a esta dramática escalada. En primer lugar, el realismo del vídeo ha dado un salto significativo gracias a modelos de generación de vídeo diseñados específicamente para mantener la coherencia temporal. Estos modelos producen videos que tienen movimientos coherentes, identidades consistentes de las personas retratadas y contenido que tiene sentido de un cuadro al siguiente. Los modelos separan la información relacionada con la representación de la identidad de una persona de la información sobre el movimiento, de modo que el mismo movimiento pueda asignarse a diferentes identidades, o la misma identidad puede tener múltiples tipos de movimiento.
Estos modelos producen rostros estables y coherentes sin el parpadeo, la distorsión o las distorsiones estructurales alrededor de los ojos y la mandíbula que alguna vez sirvieron como evidencia forense confiable de una profunda falsificación.
En segundo lugar, la clonación de voces ha cruzado lo que yo llamaría el "umbral indiscernible". Unos pocos segundos de audio ahora son suficientes para generar un clon convincente, completo con entonación natural, ritmo, estrés, emociones, pausas y ruido de respiración. Esta capacidad ya fomenta el fraude a gran escala. Algunos grandes minoristas informan que reciben más de 1000 estafas generadas por IA por día. Perceptualmente hablando, las voces sintéticas que alguna vez se dieron han desaparecido en gran medida.
En tercer lugar, las herramientas de consumo han reducido la barrera técnica casi a cero. Las actualizaciones de Sora 2 de OpenAI y Veo 3 de Google y una ola de nuevas empresas significan que cualquiera puede describir una idea, dejar que un gran modelo de lenguaje como ChatGPT de OpenAI o Gemini de Google cree un guión y genere medios audiovisuales pulidos en minutos. Los agentes de IA pueden automatizar todo el proceso. La capacidad de generar deepfakes coherentes y basados en historias a escala está efectivamente democratizada.
Esta combinación de un volumen creciente y personalidades que son casi indistinguibles de las personas reales crea serios desafíos para detectar falsificaciones profundas, especialmente en un entorno mediático donde la atención de las personas está fragmentada y el contenido se mueve más rápido de lo que puede verificarse. Ya ha habido daños en el mundo real (desde desinformación hasta acoso selectivo y fraude financiero) provocados por falsificaciones profundas que se difunden antes de que la gente tenga la oportunidad de entender lo que está pasando.
El investigador de inteligencia artificial Hani Farid explica cómo funcionan los deepfakes y qué tan buenos son. El futuro es tiempo real
De cara al futuro, la trayectoria para el próximo año es clara: los deepfakes están avanzando hacia la síntesis en tiempo real que puede producir videos que se asemejan mucho a los matices de la apariencia humana, lo que les facilita evadir los sistemas de detección. La frontera se está moviendo del realismo visual estático a la coherencia temporal y de comportamiento: modelos que generan contenido en vivo o casi en vivo en lugar de clips pre-renderizados.
Los modelos de identidad están convergiendo en sistemas unificados que capturan no sólo la apariencia de una persona, sino también cómo se mueve, suena y habla en diferentes contextos. El resultado va más allá de "esto se parece a la persona X" y llega a "esto se comporta como la persona X con el tiempo". Espero que todos los participantes de la videollamada sean sintetizados en tiempo real; actores interactivos impulsados por IA cuyos rostros, voces y gestos se adaptan instantáneamente a la demanda; y estafadores que publican avatares personalizables en lugar de vídeos fijos.
A medida que estas capacidades maduren, la brecha en la percepción entre los medios humanos sintéticos y auténticos seguirá reduciéndose. Una importante línea de defensa se alejará del razonamiento humano. Más bien, dependerá de la protección a nivel de infraestructura. Estos incluyen procedencia segura, como medios firmados criptográficamente y herramientas de contenido de inteligencia artificial que utilizan las especificaciones de la Coalición para la procedencia y autenticidad del contenido. También dependerá de herramientas forenses multimodales como el Deepfake-o-Meter de mi laboratorio.
Simplemente mirar más de cerca los píxeles ya no será suficiente.
0 Comentarios