Acaba de completar una agotadora caminata hasta la cima de la montaña. Estás agotado, pero entusiasmado. La vista de la ciudad a continuación es impresionante y querrás capturar el momento con la cámara. Pero ya está bastante oscuro y no estás seguro de conseguir una buena foto. Afortunadamente, tu teléfono tiene un modo nocturno de inteligencia artificial que puede tomar fotografías impresionantes incluso después de que se pone el sol.
Aquí hay algo que quizás no sepas: es posible que el modo nocturno haya sido entrenado con imágenes nocturnas sintéticas, escenas generadas por computadora que nunca fueron fotografiadas.
A medida que los investigadores de IA agotan el tesoro de datos reales en la web y en archivos digitalizados, recurren cada vez más a datos sintéticos, ejemplos generados artificialmente que imitan los reales. Pero eso crea una paradoja. En ciencia, fabricar datos es un pecado capital. Los datos falsos y la desinformación ya están socavando la confianza en la información en línea. Entonces, ¿qué tan buenos pueden ser los datos sintéticos? ¿Es sólo un eufemismo cortés para hacer trampa?
Como investigador de aprendizaje automático, creo que la respuesta está en la intención y la transparencia. Los datos sintéticos generalmente no se crean para manipular resultados o engañar a las personas. De hecho, la ética puede exigir que las empresas de inteligencia artificial utilicen datos sintéticos: publicar imágenes reales de un rostro humano, por ejemplo, puede violar la privacidad, mientras que los rostros sintéticos pueden ofrecer un beneficio similar con garantías formales de privacidad.
Hay otras razones que explican el creciente uso de datos sintéticos en el entrenamiento de modelos de IA. Algunas cosas son tan raras o poco frecuentes que apenas están representadas en los datos reales. En lugar de dejar que estas brechas se conviertan en un talón de Aquiles, los investigadores pueden simular estas situaciones.
Otra motivación es que recopilar datos reales puede resultar costoso o incluso arriesgado. Imagínese recopilar datos para un vehículo autónomo durante tormentas o en carreteras sin pavimentar. A menudo es mucho más eficiente y seguro generar dichos datos de forma virtual.
A continuación se ofrece una descripción general rápida de qué son los datos sintéticos y por qué los investigadores y desarrolladores los utilizan. Cómo se crean los datos sintéticos
Entrenar modelos de IA requiere grandes cantidades de datos. Al igual que ocurre con los estudiantes y los deportistas, cuanto más entrenada esté una IA, mejor será su rendimiento. Los investigadores saben desde hace mucho tiempo que si no hay suficientes datos, pueden utilizar una técnica conocida como aumento de datos. Por ejemplo, una imagen determinada se puede rotar o escalar para obtener datos de entrenamiento adicionales. Los datos sintéticos son un aumento en los datos de esteroides. En lugar de realizar pequeños cambios en las imágenes existentes, los investigadores crean otras completamente nuevas.
Pero, ¿cómo crean los investigadores datos sintéticos? Hay dos enfoques principales. El primer enfoque se basa en modelos basados en reglas o en física. Por ejemplo, las leyes de la óptica se pueden utilizar para simular cómo se vería una escena dadas las posiciones y orientaciones de los objetos dentro de ella.
Otro enfoque utiliza inteligencia artificial generativa para producir datos. Los modelos generativos modernos se han entrenado con cantidades masivas de datos y ahora pueden crear texto, audio, imágenes y vídeos extremadamente realistas. La IA generativa ofrece una forma flexible de producir conjuntos de datos grandes y diversos.
Ambos enfoques comparten un principio común: si los datos no provienen directamente del mundo real, deben provenir de un modelo del mundo real.
Desventajas y peligros
También es importante recordar que, si bien los datos sintéticos pueden ser útiles, no son una panacea. Los datos sintéticos son tan confiables como los modelos de la realidad de los que provienen, e incluso los mejores modelos científicos o generativos tienen debilidades.
Los investigadores deben estar alerta a posibles sesgos e inexactitudes en los datos que producen. Por ejemplo, los investigadores pueden simular el ecosistema de seguros de hogar para ayudar a detectar fraudes, pero esas simulaciones pueden incorporar suposiciones injustas sobre vecindarios o tipos de propiedades. Los beneficios de esos datos deben sopesarse frente a los riesgos para la equidad y la equidad.
También es importante mantener una distinción clara entre modelos y simulaciones, por un lado, y el mundo real, por el otro. Los datos sintéticos son invaluables para entrenar y probar sistemas de IA, pero cuando un modelo de IA se implementa en el mundo real, su rendimiento y seguridad deben demostrarse con datos reales, no simulados, por razones técnicas y éticas.
Es probable que las investigaciones futuras sobre datos sintéticos en inteligencia artificial enfrenten muchos desafíos. Algunos son éticos, otros científicos y otros son problemas de ingeniería. A medida que los datos sintéticos se vuelvan más realistas, serán más útiles para entrenar la IA, pero también será más fácil abusar de ellos. Por ejemplo, se pueden utilizar imágenes sintéticas cada vez más realistas para crear vídeos deepfake convincentes.
Creo que los investigadores y las empresas de IA deberían mantener registros claros para mostrar qué datos son sintéticos y por qué se crearon. Detectar claramente qué partes de los datos de entrenamiento son reales y cuáles son sintéticas es un aspecto clave de la producción responsable de modelos de IA. La ley de California, "Inteligencia artificial generativa: transparencia de datos de entrenamiento", que entrará en vigor el 1 de enero de 2026, exige que los desarrolladores de IA revelen si utilizaron datos sintéticos en el entrenamiento de sus modelos.
Los investigadores también deberían estudiar cómo los errores en las simulaciones o modelos pueden generar datos erróneos. Un trabajo cuidadoso ayudará a que los datos sintéticos sean transparentes, fiables y dignos de confianza.
Manteniéndolo real
La mayoría de los sistemas de IA aprenden encontrando patrones en los datos. Los investigadores pueden mejorar su capacidad para hacer esto agregando datos sintéticos. Pero la IA no tiene idea de lo que es real o verdadero. El deseo de estar en contacto con la realidad y buscar la verdad pertenece a los humanos, no a las máquinas. El juicio humano y la supervisión en el uso de datos sintéticos seguirán siendo esenciales para el futuro.
La próxima vez que utilice una función interesante de IA en su teléfono inteligente, considere si los datos sintéticos pueden haber influido. Nuestra inteligencia artificial puede aprender de datos sintéticos, pero la realidad sigue siendo la fuente última de nuestro conocimiento y el juez final de nuestras creaciones.
0 Comentarios