Forensic comparison of voices: a preliminary study on the differences between a natural voice and an artificial voice for judicial investigation

Keywords: phonetic analysis, artificial voice, text to speech converter, forensic linguistics, criminalistics

Abstract

This study presents an approach to the phonetic similarities and differences between a natural voice and an artificial voice, which is why it seeks to: (a) provide an analysis that serves as a precedent for judicial cases of voice cloning by artificial intelligence (AI) and (b) expose the importance of linguistics as a source of scientific evidence for the judicial system. Thus, the voice of the Argentine narrator Mariano Closs and his artificial counterpart created in FakeYou (text-to-speech converter) have been analyzed using the combined method that integrates the use of automatic voice analysis programs (Forensia and SIS II) and the phonetic analysis. The automatic programs showed results of high convergence between the natural voice and the artificial voice. However, in the phonetic analysis, differences were observed in the production of certain sounds, in intonation, and there were phonetic processes present in a sample. Thus, despite the similarity of the samples on the biometric level, the artificial voice of the narrator Mariano Closs is still not completely similar to his natural counterpart on the phonetic level.

Downloads

Download data is not yet available.

Metrics

Metrics Loading ...

   

Métricas alternativas

Author Biographies

Jhon Jimenez Peña, Universidad Nacional Mayor de San Marcos, Lima, Perú.

Es licenciado en Lingüística por la Universidad Nacional Mayor de San Marcos (UNMSM). Sus intereses están centrados en la fonética y la fonología de las lenguas originarias del Perú, con especial atención a la lengua arabela. Ha sido consultor en el Ministerio de Educación para la elaboración de fonologías que se han empleado en los procesos de normalización de alfabetos del arabela, el ocaina y el taushiro. También ha sido docente de los cursos de Fonología y Fonología Avanzada en el Curso Internacional de Lingüística, Traducción y Alfabetización (CILTA) del Instituto Lingüístico de Verano en los años 2018 a 2023, que se imparte en la Universidad Ricardo Palma. Además, ha sido expositor para el primer «Curso-Taller de fonética forense» organizado por el CILA-UNMSM. Es miembro del grupo de investigación Dolenper: Documentación lingüística de lenguas amenazadas en el Perú (CILA-UNMSM). Actualmente, labora como perito lingüista forense en la Oficina de Peritajes del Ministerio Público-Fiscalía de la Nación y es miembro del Gabinete de Lingüística Forense del CILA-UNMSM.

Fernando Aarón Torres Castillo, Universidad Nacional Mayor de San Marcos, Lima, Perú.

Es licenciado en Lingüística por la Universidad Nacional Mayor de San Marcos (UNMSM), maestro en Lingüística por la Pontificia Universidad Católica del Perú (PUCP). Sus intereses giran en torno al estudio de lenguas amerindias, entre ellas las familias quechua y arawak. Actualmente labora como lingüista forense en la Oficina de Peritajes del Ministerio Público-Fiscalía de la Nación. Asimismo, es miembro adherente del grupo de investigación Kawsasun: Investigación intercultural para la formación docente y enseñanza de lenguas, del Instituto de Investigación de Lingüística Aplicada (CILA). También está adscrito como miembro del Gabinete de Lingüística Forense de la UNMSM.

Oscar Esaul Cueva Sanchez, Universidad Nacional Mayor de San Marcos, Lima, Perú.

Es licenciado en Lingüística por la Universidad Nacional Mayor de San Marcos (UNMSM). Sus intereses giran en torno a las áreas de fonética y fonología con especial atención al campo de la fonética acústica. Asimismo, es miembro del Gabinete de Lingüística Forense del Instituto de Investigación de Lingüística Aplicada (CILA).

References

Boersma, P. y Weenink, D. (2023). Praat: Doing Phonetics by Computer (Versión 6.3.14) [Programa de computadora]. https://www.fon.hum.uva.nl/praat/

Bonafonte, A. (1997). Tecnologías del habla: conversión de texto a voz. Buran, (9), 68-72. https://core.ac.uk/reader/39120110

Cortez, A., Vega. H. y Pariona, J. (2009). Procesamiento del lenguaje natural. Revista de Ingeniería de Sistemas e Informática, 6(2), 45-54. https://revistasinvestigacion.unmsm.edu.pe/index.php/sistem/article/view/5923/5121

Echelon (s. f.). FakeYou. Deep Fake Text to Speech. https://fakeyou.com/

ESPN Fans (2022a). ¡Benzema brilló y el merengue borró al PSG de Messi de la Champions! | Real Madrid 3-1 PSG | Resumen [Video]. YouTube. https://www.youtube.com/watch?v=4jK2vjqcO5o

ESPN Fans (2022b). ¡Épica remontada e histórica clasificación del merengue! | Real Madrid 3-1 Man. City | Resumen [Video]. YouTube. https://www.youtube.com/watch?v=lme15YYJUtQ

Fernández, A. M. (2007). ¿Para qué sirve la fonética? Onomázen, (15), 39-51. https://doi.org/10.7764/onomazein.15.02

Garayzábal, E., Queralt, S. y Reigosa, M. (2019). Fundamentos de la lingüística forense. Síntesis.

Gold, E. y French, P. (2011). International Practices in Forensic Speaker Comparison. International Journal of Speech, Language and the Law, 18(2), 293-307. https://doi.org/10.1558/ijsll.v18i2.293

Jimenez, J., Torres, F. y Cueva, O. (2022). Identificación de locutor a partir de la fonética forense: aplicación del software SplitsTree4 para una organización esquemática de los datos lingüísticos. Boletín de la Academia Peruana de la Lengua, 71(71), 431-461. https://doi.org/10.46744/bapl.202201.014

Lazo, V. (2023). La adecuación de la muestra indubitada en la comparación forense de voz. Escritura y Pensamiento, 22(47), 179-205. https://revistasinvestigacion.unmsm.edu.pe/index.php/letras/article/view/25814/19896

Lazo, V. y Rivas, G. (2022) La relación entre el extorsionador y la víctima en un caso de extorsión: una aproximación desde el análisis de la conversación. Lengua y Sociedad, 21(2), 373-400. https://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/22535/18891

Llisterri, J., Carbó, C., Machuca, M. J., Mota, C. de la, Riera, M. y Ríos, A. (2004). La conversión de texto en habla: aspectos lingüísticos. En M. Martí y J. Llisteri (eds.), Tecnologías del texto y del habla (pp. 145-186). Edicions de la Universitat de Barcelona – Fundación.

Machuca, M., Ríos, A. y Llisterri, J. (2014). Conocimiento fonético y fonética judicial. Quaderns de Filología: Estudis Lingüístics, 19, 95-111. https://ojs.uv.es/index.php/qfilologia/article/view/5188/4989

Mena, J. y Rojas, J. (2021). Estado del arte del reconocimiento de voz artificial. [Tesis para optar el título de ingeniero de sistemas y computación, Universidad Tecnológica de Pereira]. https://repositorio.utp.edu.co/server/api/core/bitstreams/a39928f4-b645-46a8-999d-54ba71ae00fd/content

Morrison, G. (2011). La comparación forense de la voz y el cambio de paradigma (C. Curiá, trad.). Estudios Fónicos/Cuadernos de Trabajo, (1), 1-38. (Obra original publicada en 2009)

Muñoz, R. (2020). TgDraw [Praat plug-in] (versión 0.3) [Software]. https://rolandomunoz.github.io/praat_tools/tg_draw.html

Olsson, J. (2008). Forensic Linguistics (2.a ed.). Continuum.

Peña, J. (2022). Inteligencia artificial para la seguridad jurídica. Superando el problema de la cognoscibilidad del derecho. Revista Oficial del Poder Judicial, 14(17), 55-117. https://revistas.pj.gob.pe/revista/index.php/ropj/article/view/568/754

Ramírez, S. (2023, 9 de septiembre). Clonan voces de personas con IA para estafar o fingir secuestros: al menos 55 casos en el Perú. El Comercio. https://elcomercio.pe/lima/clonacion-de-voz-para-estafar-con-inteligencia-artificial-como-funciona-esta-modalidad-y-que-recomendaciones-seguir-inseguridad-deepfake-ciberdelincuencia-hackers-secuestros-noticia/?ref=ecr

Rosas, C., Sommerhoff, J., Sáez, C. y Saavedra, S. (2011). Comparación de voz bajo el cociente de probabilidad en el caso de Luis Tralcal. Revista de Lingüística Teórica y Aplicada, 52(1), 13-33. https://www.scielo.cl/pdf/rla/v52n1/art_02.pdf

San Segundo, E. (2022). How deepfake is your voice? Understanding the linguistic foundations of deepfakes. Github. https://eugeniasansegundo.github.io/project/deepfakes/

Speech Techonology Center. (2015). SIS II (versión 2.6.357) [Software Trial]. https://es.speechpro.com/product/analisis/ikarlab#tab3

Torres, F. (2023). Identificación de locutor en el marco de la fonética forense en el Perú. [Tesis de maestría]. Pontificia Universidad Católica del Perú.

Univaso, P. (2016). Identificación forense de hablantes: un tutorial. https://www.researchgate.net/publication/303639465_Univaso_Tutorial_Identificacion_Forense_de_Hablantes_2016_2

Univaso, P., Gurlekian, J., Martínez Soler, M. y Stalker, G. (2020). FORENSIA: un sistema de identificación forense por voz. Anales de SID 2020. Simposio Argentino de Informática y Derecho (JAIIO), 116-130.

Published
2024-06-30
How to Cite
Jimenez Peña, J., Torres Castillo, F. A., & Cueva Sanchez, O. E. (2024). Forensic comparison of voices: a preliminary study on the differences between a natural voice and an artificial voice for judicial investigation. Revista Oficial Del Poder Judicial, 16(21), 53-81. https://doi.org/10.35292/ropj.v16i21.881
Section
Research Articles