Forensic comparison of voices: a preliminary study on the differences between a natural voice and an artificial voice for judicial investigation
Abstract
This study presents an approach to the phonetic similarities and differences between a natural voice and an artificial voice, which is why it seeks to: (a) provide an analysis that serves as a precedent for judicial cases of voice cloning by artificial intelligence (AI) and (b) expose the importance of linguistics as a source of scientific evidence for the judicial system. Thus, the voice of the Argentine narrator Mariano Closs and his artificial counterpart created in FakeYou (text-to-speech converter) have been analyzed using the combined method that integrates the use of automatic voice analysis programs (Forensia and SIS II) and the phonetic analysis. The automatic programs showed results of high convergence between the natural voice and the artificial voice. However, in the phonetic analysis, differences were observed in the production of certain sounds, in intonation, and there were phonetic processes present in a sample. Thus, despite the similarity of the samples on the biometric level, the artificial voice of the narrator Mariano Closs is still not completely similar to his natural counterpart on the phonetic level.
Downloads
Metrics
Métricas alternativas
References
Boersma, P. y Weenink, D. (2023). Praat: Doing Phonetics by Computer (Versión 6.3.14) [Programa de computadora]. https://www.fon.hum.uva.nl/praat/
Bonafonte, A. (1997). Tecnologías del habla: conversión de texto a voz. Buran, (9), 68-72. https://core.ac.uk/reader/39120110
Cortez, A., Vega. H. y Pariona, J. (2009). Procesamiento del lenguaje natural. Revista de Ingeniería de Sistemas e Informática, 6(2), 45-54. https://revistasinvestigacion.unmsm.edu.pe/index.php/sistem/article/view/5923/5121
Echelon (s. f.). FakeYou. Deep Fake Text to Speech. https://fakeyou.com/
ESPN Fans (2022a). ¡Benzema brilló y el merengue borró al PSG de Messi de la Champions! | Real Madrid 3-1 PSG | Resumen [Video]. YouTube. https://www.youtube.com/watch?v=4jK2vjqcO5o
ESPN Fans (2022b). ¡Épica remontada e histórica clasificación del merengue! | Real Madrid 3-1 Man. City | Resumen [Video]. YouTube. https://www.youtube.com/watch?v=lme15YYJUtQ
Fernández, A. M. (2007). ¿Para qué sirve la fonética? Onomázen, (15), 39-51. https://doi.org/10.7764/onomazein.15.02
Garayzábal, E., Queralt, S. y Reigosa, M. (2019). Fundamentos de la lingüística forense. Síntesis.
Gold, E. y French, P. (2011). International Practices in Forensic Speaker Comparison. International Journal of Speech, Language and the Law, 18(2), 293-307. https://doi.org/10.1558/ijsll.v18i2.293
Jimenez, J., Torres, F. y Cueva, O. (2022). Identificación de locutor a partir de la fonética forense: aplicación del software SplitsTree4 para una organización esquemática de los datos lingüísticos. Boletín de la Academia Peruana de la Lengua, 71(71), 431-461. https://doi.org/10.46744/bapl.202201.014
Lazo, V. (2023). La adecuación de la muestra indubitada en la comparación forense de voz. Escritura y Pensamiento, 22(47), 179-205. https://revistasinvestigacion.unmsm.edu.pe/index.php/letras/article/view/25814/19896
Lazo, V. y Rivas, G. (2022) La relación entre el extorsionador y la víctima en un caso de extorsión: una aproximación desde el análisis de la conversación. Lengua y Sociedad, 21(2), 373-400. https://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/22535/18891
Llisterri, J., Carbó, C., Machuca, M. J., Mota, C. de la, Riera, M. y Ríos, A. (2004). La conversión de texto en habla: aspectos lingüísticos. En M. Martí y J. Llisteri (eds.), Tecnologías del texto y del habla (pp. 145-186). Edicions de la Universitat de Barcelona – Fundación.
Machuca, M., Ríos, A. y Llisterri, J. (2014). Conocimiento fonético y fonética judicial. Quaderns de Filología: Estudis Lingüístics, 19, 95-111. https://ojs.uv.es/index.php/qfilologia/article/view/5188/4989
Mena, J. y Rojas, J. (2021). Estado del arte del reconocimiento de voz artificial. [Tesis para optar el título de ingeniero de sistemas y computación, Universidad Tecnológica de Pereira]. https://repositorio.utp.edu.co/server/api/core/bitstreams/a39928f4-b645-46a8-999d-54ba71ae00fd/content
Morrison, G. (2011). La comparación forense de la voz y el cambio de paradigma (C. Curiá, trad.). Estudios Fónicos/Cuadernos de Trabajo, (1), 1-38. (Obra original publicada en 2009)
Muñoz, R. (2020). TgDraw [Praat plug-in] (versión 0.3) [Software]. https://rolandomunoz.github.io/praat_tools/tg_draw.html
Olsson, J. (2008). Forensic Linguistics (2.a ed.). Continuum.
Peña, J. (2022). Inteligencia artificial para la seguridad jurídica. Superando el problema de la cognoscibilidad del derecho. Revista Oficial del Poder Judicial, 14(17), 55-117. https://revistas.pj.gob.pe/revista/index.php/ropj/article/view/568/754
Ramírez, S. (2023, 9 de septiembre). Clonan voces de personas con IA para estafar o fingir secuestros: al menos 55 casos en el Perú. El Comercio. https://elcomercio.pe/lima/clonacion-de-voz-para-estafar-con-inteligencia-artificial-como-funciona-esta-modalidad-y-que-recomendaciones-seguir-inseguridad-deepfake-ciberdelincuencia-hackers-secuestros-noticia/?ref=ecr
Rosas, C., Sommerhoff, J., Sáez, C. y Saavedra, S. (2011). Comparación de voz bajo el cociente de probabilidad en el caso de Luis Tralcal. Revista de Lingüística Teórica y Aplicada, 52(1), 13-33. https://www.scielo.cl/pdf/rla/v52n1/art_02.pdf
San Segundo, E. (2022). How deepfake is your voice? Understanding the linguistic foundations of deepfakes. Github. https://eugeniasansegundo.github.io/project/deepfakes/
Speech Techonology Center. (2015). SIS II (versión 2.6.357) [Software Trial]. https://es.speechpro.com/product/analisis/ikarlab#tab3
Torres, F. (2023). Identificación de locutor en el marco de la fonética forense en el Perú. [Tesis de maestría]. Pontificia Universidad Católica del Perú.
Univaso, P. (2016). Identificación forense de hablantes: un tutorial. https://www.researchgate.net/publication/303639465_Univaso_Tutorial_Identificacion_Forense_de_Hablantes_2016_2
Univaso, P., Gurlekian, J., Martínez Soler, M. y Stalker, G. (2020). FORENSIA: un sistema de identificación forense por voz. Anales de SID 2020. Simposio Argentino de Informática y Derecho (JAIIO), 116-130.
Copyright (c) 2024 Jhon Jimenez Peña, Fernando Aarón Torres Castillo, Oscar Esaul Cueva Sanchez
This work is licensed under a Creative Commons Attribution 4.0 International License.
The authors retain their copyrights and register under the Creative Commons Attribution 4.0 International License (CC BY 4.0), which allows the use of the published material (adapt - remix, transform and build - and share - copy and redistribute - the material in any medium or format).
1. The journal allows authors to retain their copyrights of submitted articles without any restrictions.
2. Authors retain the right to share, distribute, copy, perform and publicly communicate the article published in Revista Oficial del Poder Judicial (e.g., place it in an institutional repository).
3. Authors retain the right to make a subsequent publication of their work, to use the article or any part of it (for example: a compilation of their work, notes for conferences, thesis, or for a book), as long as they indicate the source of publication (authors of the work, journal, volume, number and date).