Comparación forense de voces: un estudio preliminar  sobre las diferencias entre una voz natural y una voz  artificial para la investigación judicial

Jhon Jimenez Peña; Fernando Aarón Torres Castillo; Oscar Esaul Cueva Sanchez

doi:10.35292/ropj.v16i21.881

Jhon Jimenez Peña Universidad Nacional Mayor de San Marcos, Lima, Perú. https://orcid.org/0000-0003-3317-6152
Fernando Aarón Torres Castillo Universidad Nacional Mayor de San Marcos, Lima, Perú. https://orcid.org/0000-0002-1432-8811
Oscar Esaul Cueva Sanchez Universidad Nacional Mayor de San Marcos, Lima, Perú. https://orcid.org/0000-0003-1361-2367

DOI: https://doi.org/10.35292/ropj.v16i21.881

Palavras-chave: análise fonética, voz artificial, conversor de texto para fala, linguística forense, criminalística

Resumo

Este estudo apresenta uma abordagem sobre as semelhanças e diferenças fonéticas entre uma voz natural e uma voz artificial, por isso busca: (a) fornecer uma análise que sirva de precedente para casos judiciais de clonagem de voz por inteligência artificial (IA) e (b) expor a importância da linguística como fonte de evidências científicas para o sistema judicial. Assim, a voz do narrador argentino Mariano Closs e sua contraparte artificial criada no FakeYou (conversor de texto para fala) foi analisada através do método combinado que integra o uso de programas de análise automática de voz (Forensia e SIS II) e a análise fonético. Os programas automáticos apresentaram resultados de alta convergência entre a voz natural e a voz artificial. Porém, na análise fonética foram observadas diferenças na produção de determinados sons, na entonação, e houve processos fonéticos presentes em uma amostra. Assim, apesar da semelhança das amostras no nível biométrico, a voz artificial do narrador Mariano Closs ainda não é totalmente semelhante à sua contraparte natural no nível fonético.

Downloads

Não há dados estatísticos.

Metrics

Carregando Métricas ...

Métricas alternativas

Biografia do Autor

Jhon Jimenez Peña, Universidad Nacional Mayor de San Marcos, Lima, Perú.

Es licenciado en Lingüística por la Universidad Nacional Mayor de San Marcos (UNMSM). Sus intereses están centrados en la fonética y la fonología de las lenguas originarias del Perú, con especial atención a la lengua arabela. Ha sido consultor en el Ministerio de Educación para la elaboración de fonologías que se han empleado en los procesos de normalización de alfabetos del arabela, el ocaina y el taushiro. También ha sido docente de los cursos de Fonología y Fonología Avanzada en el Curso Internacional de Lingüística, Traducción y Alfabetización (CILTA) del Instituto Lingüístico de Verano en los años 2018 a 2023, que se imparte en la Universidad Ricardo Palma. Además, ha sido expositor para el primer «Curso-Taller de fonética forense» organizado por el CILA-UNMSM. Es miembro del grupo de investigación Dolenper: Documentación lingüística de lenguas amenazadas en el Perú (CILA-UNMSM). Actualmente, labora como perito lingüista forense en la Oficina de Peritajes del Ministerio Público-Fiscalía de la Nación y es miembro del Gabinete de Lingüística Forense del CILA-UNMSM.

Fernando Aarón Torres Castillo, Universidad Nacional Mayor de San Marcos, Lima, Perú.

Es licenciado en Lingüística por la Universidad Nacional Mayor de San Marcos (UNMSM), maestro en Lingüística por la Pontificia Universidad Católica del Perú (PUCP). Sus intereses giran en torno al estudio de lenguas amerindias, entre ellas las familias quechua y arawak. Actualmente labora como lingüista forense en la Oficina de Peritajes del Ministerio Público-Fiscalía de la Nación. Asimismo, es miembro adherente del grupo de investigación Kawsasun: Investigación intercultural para la formación docente y enseñanza de lenguas, del Instituto de Investigación de Lingüística Aplicada (CILA). También está adscrito como miembro del Gabinete de Lingüística Forense de la UNMSM.

Oscar Esaul Cueva Sanchez, Universidad Nacional Mayor de San Marcos, Lima, Perú.

Es licenciado en Lingüística por la Universidad Nacional Mayor de San Marcos (UNMSM). Sus intereses giran en torno a las áreas de fonética y fonología con especial atención al campo de la fonética acústica. Asimismo, es miembro del Gabinete de Lingüística Forense del Instituto de Investigación de Lingüística Aplicada (CILA).

Referências

Boersma, P. y Weenink, D. (2023). Praat: Doing Phonetics by Computer (Versión 6.3.14) [Programa de computadora]. https://www.fon.hum.uva.nl/praat/

Bonafonte, A. (1997). Tecnologías del habla: conversión de texto a voz. Buran, (9), 68-72. https://core.ac.uk/reader/39120110

Cortez, A., Vega. H. y Pariona, J. (2009). Procesamiento del lenguaje natural. Revista de Ingeniería de Sistemas e Informática, 6(2), 45-54. https://revistasinvestigacion.unmsm.edu.pe/index.php/sistem/article/view/5923/5121

Echelon (s. f.). FakeYou. Deep Fake Text to Speech. https://fakeyou.com/

ESPN Fans (2022a). ¡Benzema brilló y el merengue borró al PSG de Messi de la Champions! | Real Madrid 3-1 PSG | Resumen [Video]. YouTube. https://www.youtube.com/watch?v=4jK2vjqcO5o

ESPN Fans (2022b). ¡Épica remontada e histórica clasificación del merengue! | Real Madrid 3-1 Man. City | Resumen [Video]. YouTube. https://www.youtube.com/watch?v=lme15YYJUtQ

Fernández, A. M. (2007). ¿Para qué sirve la fonética? Onomázen, (15), 39-51. https://doi.org/10.7764/onomazein.15.02

Garayzábal, E., Queralt, S. y Reigosa, M. (2019). Fundamentos de la lingüística forense. Síntesis.

Gold, E. y French, P. (2011). International Practices in Forensic Speaker Comparison. International Journal of Speech, Language and the Law, 18(2), 293-307. https://doi.org/10.1558/ijsll.v18i2.293

Jimenez, J., Torres, F. y Cueva, O. (2022). Identificación de locutor a partir de la fonética forense: aplicación del software SplitsTree4 para una organización esquemática de los datos lingüísticos. Boletín de la Academia Peruana de la Lengua, 71(71), 431-461. https://doi.org/10.46744/bapl.202201.014

Lazo, V. (2023). La adecuación de la muestra indubitada en la comparación forense de voz. Escritura y Pensamiento, 22(47), 179-205. https://revistasinvestigacion.unmsm.edu.pe/index.php/letras/article/view/25814/19896

Lazo, V. y Rivas, G. (2022) La relación entre el extorsionador y la víctima en un caso de extorsión: una aproximación desde el análisis de la conversación. Lengua y Sociedad, 21(2), 373-400. https://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/22535/18891

Llisterri, J., Carbó, C., Machuca, M. J., Mota, C. de la, Riera, M. y Ríos, A. (2004). La conversión de texto en habla: aspectos lingüísticos. En M. Martí y J. Llisteri (eds.), Tecnologías del texto y del habla (pp. 145-186). Edicions de la Universitat de Barcelona – Fundación.

Machuca, M., Ríos, A. y Llisterri, J. (2014). Conocimiento fonético y fonética judicial. Quaderns de Filología: Estudis Lingüístics, 19, 95-111. https://ojs.uv.es/index.php/qfilologia/article/view/5188/4989

Mena, J. y Rojas, J. (2021). Estado del arte del reconocimiento de voz artificial. [Tesis para optar el título de ingeniero de sistemas y computación, Universidad Tecnológica de Pereira]. https://repositorio.utp.edu.co/server/api/core/bitstreams/a39928f4-b645-46a8-999d-54ba71ae00fd/content

Morrison, G. (2011). La comparación forense de la voz y el cambio de paradigma (C. Curiá, trad.). Estudios Fónicos/Cuadernos de Trabajo, (1), 1-38. (Obra original publicada en 2009)

Muñoz, R. (2020). TgDraw [Praat plug-in] (versión 0.3) [Software]. https://rolandomunoz.github.io/praat_tools/tg_draw.html

Olsson, J. (2008). Forensic Linguistics (2.a ed.). Continuum.

Peña, J. (2022). Inteligencia artificial para la seguridad jurídica. Superando el problema de la cognoscibilidad del derecho. Revista Oficial del Poder Judicial, 14(17), 55-117. https://revistas.pj.gob.pe/revista/index.php/ropj/article/view/568/754

Ramírez, S. (2023, 9 de septiembre). Clonan voces de personas con IA para estafar o fingir secuestros: al menos 55 casos en el Perú. El Comercio. https://elcomercio.pe/lima/clonacion-de-voz-para-estafar-con-inteligencia-artificial-como-funciona-esta-modalidad-y-que-recomendaciones-seguir-inseguridad-deepfake-ciberdelincuencia-hackers-secuestros-noticia/?ref=ecr

Rosas, C., Sommerhoff, J., Sáez, C. y Saavedra, S. (2011). Comparación de voz bajo el cociente de probabilidad en el caso de Luis Tralcal. Revista de Lingüística Teórica y Aplicada, 52(1), 13-33. https://www.scielo.cl/pdf/rla/v52n1/art_02.pdf

San Segundo, E. (2022). How deepfake is your voice? Understanding the linguistic foundations of deepfakes. Github. https://eugeniasansegundo.github.io/project/deepfakes/

Speech Techonology Center. (2015). SIS II (versión 2.6.357) [Software Trial]. https://es.speechpro.com/product/analisis/ikarlab#tab3

Torres, F. (2023). Identificación de locutor en el marco de la fonética forense en el Perú. [Tesis de maestría]. Pontificia Universidad Católica del Perú.

Univaso, P. (2016). Identificación forense de hablantes: un tutorial. https://www.researchgate.net/publication/303639465_Univaso_Tutorial_Identificacion_Forense_de_Hablantes_2016_2

Univaso, P., Gurlekian, J., Martínez Soler, M. y Stalker, G. (2020). FORENSIA: un sistema de identificación forense por voz. Anales de SID 2020. Simposio Argentino de Informática y Derecho (JAIIO), 116-130.

Comparação forense de vozes: um estudo preliminar sobre as diferenças entre voz natural e voz artificial para investigação judicial