Superando el audio generado por inteligencia artificial
Con solo 30 segundos de audio grabado se puede producir una réplica casi perfecta de su voz. ¿Cuál es la forma correcta de combatir esta amenaza?
Con el software y los servicios de inteligencia artificial modernos, se puede producir una réplica casi perfecta de su voz con tan solo 30 segundos de audio grabado. Las imitaciones aceptables pueden generarse con tan poco como 5 segundos. Y ambas pueden producirse en tiempo real. ¿Cuál es la forma correcta de combatir esta amenaza?
Existen dos enfoques comunes para combatir los medios sintéticos: la procedencia y la detección. Veamos cómo se desempeñan en esta prueba.
¿Procedencia para el audio?
El mecanismo básico de la tecnología de "procedencia" es simple: establece una "cadena de custodia" desde el dispositivo de captura original hasta el dispositivo de salida. (De mis labios a los oídos de Dios). En el caso de los datos visuales, esta procedencia es una garantía sólida de autenticidad, al menos hasta que tengamos pantallas holográficas de tamaño natural. Pero para el audio, ya vivimos en ese desafortunado futuro: para el micrófono, no hay diferencia discernible entre su voz, una copia pregrabada de su voz o una imitación sintética de su voz; todas suenan igual. Aunque podemos usar varias formas de esteganografía para establecer cuándo el micrófono capturó este audio, nada de eso ayuda a confirmar de dónde provienen esas ondas sonoras. Por lo tanto, la procedencia de audio en bruto no es de ninguna utilidad aquí.
Tecnología de detección: irregular en el mejor caso, sesgada en el peor
La tecnología de detección, lamentablemente, no es mejor. Las pequeñas imperfecciones en las que los enfoques de detección actuales se basan para intentar identificar el contenido sintético ofrecen resultados irregulares en el mejor de los casos. Peor aún, ¡cada esfuerzo que hacemos para mejorar la detección está empeorando el problema! (Consulte nuestro artículo anterior sobre el ciclo vicioso del desarrollo de GAN). Y hay un efecto secundario desagradable también: muchos de los detectores actuales tienen una cantidad perturbadora de sesgo incorporado en sus datos de entrenamiento. En lugar de detectar audio sintético, simplemente están detectando hablantes no nativos. Esto podría ser aceptable en el ámbito estocástico del cribado de contenido en plataformas a gran escala, que es donde los enfoques de detección se están aplicando de manera más apropiada, pero para uso personal, no es una buena imagen.
¿Entonces qué hacer? ¿La procedencia del audio no ayuda, pero la detección tampoco? Afortunadamente, existe una tercera opción: el Análisis Híbrido.
Solución: análisis híbrido
Los algoritmos de detección pueden utilizarse de manera muy eficaz para determinar si una fuente de audio determinada está sincronizada con una señal de video. Y la tecnología de procedencia puede establecer de manera fiable la autenticidad de ese video. Combinar ambos finalmente ofrece lo que hemos estado buscando: una voz en la que podemos confiar. (Como beneficio adicional, ¡también podemos verificar la identidad del hablante!)
¿Quiere ver Polyguard en acción?
Experimente la verificación de identidad en tiempo real para la seguridad de sus comunicaciones.