Comparación forense de voces: un estudio preliminar  sobre las diferencias entre una voz natural y una voz  artificial para la investigación judicial

Jhon Jimenez Peña; Fernando Aarón Torres Castillo; Oscar Esaul Cueva Sanchez

doi:10.35292/ropj.v16i21.881

Jhon Jimenez Peña Universidad Nacional Mayor de San Marcos, Lima, Perú. https://orcid.org/0000-0003-3317-6152
Fernando Aarón Torres Castillo Universidad Nacional Mayor de San Marcos, Lima, Perú. https://orcid.org/0000-0002-1432-8811
Oscar Esaul Cueva Sanchez Universidad Nacional Mayor de San Marcos, Lima, Perú. https://orcid.org/0000-0003-1361-2367

DOI: https://doi.org/10.35292/ropj.v16i21.881

Palabras clave: análisis fonético, voz artificial, convertidor de texto en habla, lingüística forense, criminalística

Resumen

Este estudio presenta una aproximación en torno a las similitudes y las diferencias fonéticas entre una voz natural y una voz artificial, por lo que se busca: (a) brindar un análisis que sirva de antecedente ante casos judiciales de clonación de voz por inteligencia artificial (IA) y (b) exponer la importancia de la lingüística como fuente de evidencia científica para el sistema judicial. Así, se ha analizado la voz del narrador argentino Mariano Closs y su contraparte artificial creada en FakeYou (convertidor de texto en habla) mediante el método combinado que integra el uso de programas automáticos de análisis de voz (Forensia y SIS II) y el análisis fonético. Los programas automáticos mostraron resultados de alta convergencia entre la voz natural y la voz artificial. Sin embargo, en el análisis fonético, se observó diferencias en la producción de determinados sonidos, en la entonación; asimismo, hubo procesos fonéticos presentes en una muestra. Es así que, a pesar de la similitud de las muestras en el plano biométrico, la voz artificial del narrador Mariano Closs aún no es del todo similar a su contraparte natural en el plano fonético.

Estadísticas de descarga

La descarga de datos todavía no está disponible.

Estadísticas de uso

Cargando métricas ...

Métricas alternativas

Biografía del autor/a

Jhon Jimenez Peña, Universidad Nacional Mayor de San Marcos, Lima, Perú.

Es licenciado en Lingüística por la Universidad Nacional Mayor de San Marcos (UNMSM). Sus intereses están centrados en la fonética y la fonología de las lenguas originarias del Perú, con especial atención a la lengua arabela. Ha sido consultor en el Ministerio de Educación para la elaboración de fonologías que se han empleado en los procesos de normalización de alfabetos del arabela, el ocaina y el taushiro. También ha sido docente de los cursos de Fonología y Fonología Avanzada en el Curso Internacional de Lingüística, Traducción y Alfabetización (CILTA) del Instituto Lingüístico de Verano en los años 2018 a 2023, que se imparte en la Universidad Ricardo Palma. Además, ha sido expositor para el primer «Curso-Taller de fonética forense» organizado por el CILA-UNMSM. Es miembro del grupo de investigación Dolenper: Documentación lingüística de lenguas amenazadas en el Perú (CILA-UNMSM). Actualmente, labora como perito lingüista forense en la Oficina de Peritajes del Ministerio Público-Fiscalía de la Nación y es miembro del Gabinete de Lingüística Forense del CILA-UNMSM.

Fernando Aarón Torres Castillo, Universidad Nacional Mayor de San Marcos, Lima, Perú.

Es licenciado en Lingüística por la Universidad Nacional Mayor de San Marcos (UNMSM), maestro en Lingüística por la Pontificia Universidad Católica del Perú (PUCP). Sus intereses giran en torno al estudio de lenguas amerindias, entre ellas las familias quechua y arawak. Actualmente labora como lingüista forense en la Oficina de Peritajes del Ministerio Público-Fiscalía de la Nación. Asimismo, es miembro adherente del grupo de investigación Kawsasun: Investigación intercultural para la formación docente y enseñanza de lenguas, del Instituto de Investigación de Lingüística Aplicada (CILA). También está adscrito como miembro del Gabinete de Lingüística Forense de la UNMSM.

Oscar Esaul Cueva Sanchez, Universidad Nacional Mayor de San Marcos, Lima, Perú.

Es licenciado en Lingüística por la Universidad Nacional Mayor de San Marcos (UNMSM). Sus intereses giran en torno a las áreas de fonética y fonología con especial atención al campo de la fonética acústica. Asimismo, es miembro del Gabinete de Lingüística Forense del Instituto de Investigación de Lingüística Aplicada (CILA).

Referencias citadas

Boersma, P. y Weenink, D. (2023). Praat: Doing Phonetics by Computer (Versión 6.3.14) [Programa de computadora]. https://www.fon.hum.uva.nl/praat/

Bonafonte, A. (1997). Tecnologías del habla: conversión de texto a voz. Buran, (9), 68-72. https://core.ac.uk/reader/39120110

Cortez, A., Vega. H. y Pariona, J. (2009). Procesamiento del lenguaje natural. Revista de Ingeniería de Sistemas e Informática, 6(2), 45-54. https://revistasinvestigacion.unmsm.edu.pe/index.php/sistem/article/view/5923/5121

Echelon (s. f.). FakeYou. Deep Fake Text to Speech. https://fakeyou.com/

ESPN Fans (2022a). ¡Benzema brilló y el merengue borró al PSG de Messi de la Champions! | Real Madrid 3-1 PSG | Resumen [Video]. YouTube. https://www.youtube.com/watch?v=4jK2vjqcO5o

ESPN Fans (2022b). ¡Épica remontada e histórica clasificación del merengue! | Real Madrid 3-1 Man. City | Resumen [Video]. YouTube. https://www.youtube.com/watch?v=lme15YYJUtQ

Fernández, A. M. (2007). ¿Para qué sirve la fonética? Onomázen, (15), 39-51. https://doi.org/10.7764/onomazein.15.02

Garayzábal, E., Queralt, S. y Reigosa, M. (2019). Fundamentos de la lingüística forense. Síntesis.

Gold, E. y French, P. (2011). International Practices in Forensic Speaker Comparison. International Journal of Speech, Language and the Law, 18(2), 293-307. https://doi.org/10.1558/ijsll.v18i2.293

Jimenez, J., Torres, F. y Cueva, O. (2022). Identificación de locutor a partir de la fonética forense: aplicación del software SplitsTree4 para una organización esquemática de los datos lingüísticos. Boletín de la Academia Peruana de la Lengua, 71(71), 431-461. https://doi.org/10.46744/bapl.202201.014

Lazo, V. (2023). La adecuación de la muestra indubitada en la comparación forense de voz. Escritura y Pensamiento, 22(47), 179-205. https://revistasinvestigacion.unmsm.edu.pe/index.php/letras/article/view/25814/19896

Lazo, V. y Rivas, G. (2022) La relación entre el extorsionador y la víctima en un caso de extorsión: una aproximación desde el análisis de la conversación. Lengua y Sociedad, 21(2), 373-400. https://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/22535/18891

Llisterri, J., Carbó, C., Machuca, M. J., Mota, C. de la, Riera, M. y Ríos, A. (2004). La conversión de texto en habla: aspectos lingüísticos. En M. Martí y J. Llisteri (eds.), Tecnologías del texto y del habla (pp. 145-186). Edicions de la Universitat de Barcelona – Fundación.

Machuca, M., Ríos, A. y Llisterri, J. (2014). Conocimiento fonético y fonética judicial. Quaderns de Filología: Estudis Lingüístics, 19, 95-111. https://ojs.uv.es/index.php/qfilologia/article/view/5188/4989

Mena, J. y Rojas, J. (2021). Estado del arte del reconocimiento de voz artificial. [Tesis para optar el título de ingeniero de sistemas y computación, Universidad Tecnológica de Pereira]. https://repositorio.utp.edu.co/server/api/core/bitstreams/a39928f4-b645-46a8-999d-54ba71ae00fd/content

Morrison, G. (2011). La comparación forense de la voz y el cambio de paradigma (C. Curiá, trad.). Estudios Fónicos/Cuadernos de Trabajo, (1), 1-38. (Obra original publicada en 2009)

Muñoz, R. (2020). TgDraw [Praat plug-in] (versión 0.3) [Software]. https://rolandomunoz.github.io/praat_tools/tg_draw.html

Olsson, J. (2008). Forensic Linguistics (2.a ed.). Continuum.

Peña, J. (2022). Inteligencia artificial para la seguridad jurídica. Superando el problema de la cognoscibilidad del derecho. Revista Oficial del Poder Judicial, 14(17), 55-117. https://revistas.pj.gob.pe/revista/index.php/ropj/article/view/568/754

Ramírez, S. (2023, 9 de septiembre). Clonan voces de personas con IA para estafar o fingir secuestros: al menos 55 casos en el Perú. El Comercio. https://elcomercio.pe/lima/clonacion-de-voz-para-estafar-con-inteligencia-artificial-como-funciona-esta-modalidad-y-que-recomendaciones-seguir-inseguridad-deepfake-ciberdelincuencia-hackers-secuestros-noticia/?ref=ecr

Rosas, C., Sommerhoff, J., Sáez, C. y Saavedra, S. (2011). Comparación de voz bajo el cociente de probabilidad en el caso de Luis Tralcal. Revista de Lingüística Teórica y Aplicada, 52(1), 13-33. https://www.scielo.cl/pdf/rla/v52n1/art_02.pdf

San Segundo, E. (2022). How deepfake is your voice? Understanding the linguistic foundations of deepfakes. Github. https://eugeniasansegundo.github.io/project/deepfakes/

Speech Techonology Center. (2015). SIS II (versión 2.6.357) [Software Trial]. https://es.speechpro.com/product/analisis/ikarlab#tab3

Torres, F. (2023). Identificación de locutor en el marco de la fonética forense en el Perú. [Tesis de maestría]. Pontificia Universidad Católica del Perú.

Univaso, P. (2016). Identificación forense de hablantes: un tutorial. https://www.researchgate.net/publication/303639465_Univaso_Tutorial_Identificacion_Forense_de_Hablantes_2016_2

Univaso, P., Gurlekian, J., Martínez Soler, M. y Stalker, G. (2020). FORENSIA: un sistema de identificación forense por voz. Anales de SID 2020. Simposio Argentino de Informática y Derecho (JAIIO), 116-130.