Comparação forense de vozes: um estudo preliminar sobre as diferenças entre voz natural e voz artificial para investigação judicial
Resumo
Este estudo apresenta uma abordagem sobre as semelhanças e diferenças fonéticas entre uma voz natural e uma voz artificial, por isso busca: (a) fornecer uma análise que sirva de precedente para casos judiciais de clonagem de voz por inteligência artificial (IA) e (b) expor a importância da linguística como fonte de evidências científicas para o sistema judicial. Assim, a voz do narrador argentino Mariano Closs e sua contraparte artificial criada no FakeYou (conversor de texto para fala) foi analisada através do método combinado que integra o uso de programas de análise automática de voz (Forensia e SIS II) e a análise fonético. Os programas automáticos apresentaram resultados de alta convergência entre a voz natural e a voz artificial. Porém, na análise fonética foram observadas diferenças na produção de determinados sons, na entonação, e houve processos fonéticos presentes em uma amostra. Assim, apesar da semelhança das amostras no nível biométrico, a voz artificial do narrador Mariano Closs ainda não é totalmente semelhante à sua contraparte natural no nível fonético.
Downloads
Metrics
Métricas alternativas
Referências
Boersma, P. y Weenink, D. (2023). Praat: Doing Phonetics by Computer (Versión 6.3.14) [Programa de computadora]. https://www.fon.hum.uva.nl/praat/
Bonafonte, A. (1997). Tecnologías del habla: conversión de texto a voz. Buran, (9), 68-72. https://core.ac.uk/reader/39120110
Cortez, A., Vega. H. y Pariona, J. (2009). Procesamiento del lenguaje natural. Revista de Ingeniería de Sistemas e Informática, 6(2), 45-54. https://revistasinvestigacion.unmsm.edu.pe/index.php/sistem/article/view/5923/5121
Echelon (s. f.). FakeYou. Deep Fake Text to Speech. https://fakeyou.com/
ESPN Fans (2022a). ¡Benzema brilló y el merengue borró al PSG de Messi de la Champions! | Real Madrid 3-1 PSG | Resumen [Video]. YouTube. https://www.youtube.com/watch?v=4jK2vjqcO5o
ESPN Fans (2022b). ¡Épica remontada e histórica clasificación del merengue! | Real Madrid 3-1 Man. City | Resumen [Video]. YouTube. https://www.youtube.com/watch?v=lme15YYJUtQ
Fernández, A. M. (2007). ¿Para qué sirve la fonética? Onomázen, (15), 39-51. https://doi.org/10.7764/onomazein.15.02
Garayzábal, E., Queralt, S. y Reigosa, M. (2019). Fundamentos de la lingüística forense. Síntesis.
Gold, E. y French, P. (2011). International Practices in Forensic Speaker Comparison. International Journal of Speech, Language and the Law, 18(2), 293-307. https://doi.org/10.1558/ijsll.v18i2.293
Jimenez, J., Torres, F. y Cueva, O. (2022). Identificación de locutor a partir de la fonética forense: aplicación del software SplitsTree4 para una organización esquemática de los datos lingüísticos. Boletín de la Academia Peruana de la Lengua, 71(71), 431-461. https://doi.org/10.46744/bapl.202201.014
Lazo, V. (2023). La adecuación de la muestra indubitada en la comparación forense de voz. Escritura y Pensamiento, 22(47), 179-205. https://revistasinvestigacion.unmsm.edu.pe/index.php/letras/article/view/25814/19896
Lazo, V. y Rivas, G. (2022) La relación entre el extorsionador y la víctima en un caso de extorsión: una aproximación desde el análisis de la conversación. Lengua y Sociedad, 21(2), 373-400. https://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/22535/18891
Llisterri, J., Carbó, C., Machuca, M. J., Mota, C. de la, Riera, M. y Ríos, A. (2004). La conversión de texto en habla: aspectos lingüísticos. En M. Martí y J. Llisteri (eds.), Tecnologías del texto y del habla (pp. 145-186). Edicions de la Universitat de Barcelona – Fundación.
Machuca, M., Ríos, A. y Llisterri, J. (2014). Conocimiento fonético y fonética judicial. Quaderns de Filología: Estudis Lingüístics, 19, 95-111. https://ojs.uv.es/index.php/qfilologia/article/view/5188/4989
Mena, J. y Rojas, J. (2021). Estado del arte del reconocimiento de voz artificial. [Tesis para optar el título de ingeniero de sistemas y computación, Universidad Tecnológica de Pereira]. https://repositorio.utp.edu.co/server/api/core/bitstreams/a39928f4-b645-46a8-999d-54ba71ae00fd/content
Morrison, G. (2011). La comparación forense de la voz y el cambio de paradigma (C. Curiá, trad.). Estudios Fónicos/Cuadernos de Trabajo, (1), 1-38. (Obra original publicada en 2009)
Muñoz, R. (2020). TgDraw [Praat plug-in] (versión 0.3) [Software]. https://rolandomunoz.github.io/praat_tools/tg_draw.html
Olsson, J. (2008). Forensic Linguistics (2.a ed.). Continuum.
Peña, J. (2022). Inteligencia artificial para la seguridad jurídica. Superando el problema de la cognoscibilidad del derecho. Revista Oficial del Poder Judicial, 14(17), 55-117. https://revistas.pj.gob.pe/revista/index.php/ropj/article/view/568/754
Ramírez, S. (2023, 9 de septiembre). Clonan voces de personas con IA para estafar o fingir secuestros: al menos 55 casos en el Perú. El Comercio. https://elcomercio.pe/lima/clonacion-de-voz-para-estafar-con-inteligencia-artificial-como-funciona-esta-modalidad-y-que-recomendaciones-seguir-inseguridad-deepfake-ciberdelincuencia-hackers-secuestros-noticia/?ref=ecr
Rosas, C., Sommerhoff, J., Sáez, C. y Saavedra, S. (2011). Comparación de voz bajo el cociente de probabilidad en el caso de Luis Tralcal. Revista de Lingüística Teórica y Aplicada, 52(1), 13-33. https://www.scielo.cl/pdf/rla/v52n1/art_02.pdf
San Segundo, E. (2022). How deepfake is your voice? Understanding the linguistic foundations of deepfakes. Github. https://eugeniasansegundo.github.io/project/deepfakes/
Speech Techonology Center. (2015). SIS II (versión 2.6.357) [Software Trial]. https://es.speechpro.com/product/analisis/ikarlab#tab3
Torres, F. (2023). Identificación de locutor en el marco de la fonética forense en el Perú. [Tesis de maestría]. Pontificia Universidad Católica del Perú.
Univaso, P. (2016). Identificación forense de hablantes: un tutorial. https://www.researchgate.net/publication/303639465_Univaso_Tutorial_Identificacion_Forense_de_Hablantes_2016_2
Univaso, P., Gurlekian, J., Martínez Soler, M. y Stalker, G. (2020). FORENSIA: un sistema de identificación forense por voz. Anales de SID 2020. Simposio Argentino de Informática y Derecho (JAIIO), 116-130.
Copyright (c) 2024 Jhon Jimenez Peña, Fernando Aarón Torres Castillo, Oscar Esaul Cueva Sanchez
This work is licensed under a Creative Commons Attribution 4.0 International License.
Os autores mantêm seus direitos autorais e se registram sob a licença Creative Commons Attribution 4.0 International License (CC BY 4.0), que permite o uso do material publicado (adaptar - remixar, transformar e construir sobre - e compartilhar - copiar e redistribuir - o material em qualquer meio ou formato).
1. A revista permite que os autores mantenham seus direitos autorais dos artigos enviados sem nenhuma restrição.
2. Os autores mantêm o direito de compartilhar, distribuir, copiar, executar e comunicar publicamente o artigo publicado na Revista Oficial del Poder Judicial (por exemplo, colocá-lo em um repositório institucional).
3. Os autores mantêm o direito de fazer publicações posteriores de seu trabalho, de usar o artigo ou qualquer parte dele (por exemplo, uma compilação de seu trabalho, notas para conferências, teses ou para um livro), desde que indiquem a fonte de publicação (autores do trabalho, revista, volume, número e data).