53
Revista Oficial del Poder Judicial, 16(21), 2024, 53-81
REVISTA OFICIAL DEL PODER JUDICIAL
Vol. 16, n.
o
21, enero-junio, 2024, 53-81
ISSN: 2663-9130 (En línea)
DOI: 10.35292/ropj.v16i21.881
Comparación forense de voces: un estudio preliminar
sobre las diferencias entre una voz natural y una voz
artificial para la investigación judicial
1
Forensic comparison of voices: a preliminary study on the
differences between a natural voice and an artificial voice for
judicial investigation
Comparação forense de vozes: um estudo preliminar sobre as
diferenças entre voz natural e voz artificial para
investigação judicial
Jhon Jimenez Peña
Universidad Nacional Mayor de San Marcos
(Lima, Perú)
Contacto: jhon.jimenez@unmsm.edu.pe
https://orcid.org/0000-0003-3317-6152
Fernando aarón Torres CasTillo
Universidad Nacional Mayor de San Marcos
(Lima, Perú)
Contacto: fernando.torres2@unmsm.edu.pe
hps://orcid.org/0000-0002-1432-8811
osCar esaul Cueva sanChez
Universidad Nacional Mayor de San Marcos
(Lima, Perú)
Contacto: oscar.cueva1@unmsm.edu.pe
hps://orcid.org/0000-0003-1361-2367
1 Esta investigación fue impulsada por el Gabinete de Lingüística Forense —del
Instituto de Investigación de Lingüística Aplicada (CILA) de la Universidad
Nacional Mayor de San Marcos—, el cual fue creado mediante la Resolución
Decanal n.
o
000623-2021-D-FLCH/UNMSM.
Este artículo se encuentra disponible
en acceso abierto bajo la licencia Creative
Commons Attribution 4.0 International License
Jhon Jimenez Peña, Fernando aarón Torres CasTillo y osCar esaul Cueva sanChez
54
Revista Oficial del Poder Judicial, 16(21), 2024, 53-81
RESUMEN
Este estudio presenta una aproximación en torno a las similitudes y las
diferencias fonéticas entre una voz natural y una voz artificial, por lo
que se busca: (a) brindar un análisis que sirva de antecedente ante casos
judiciales de clonación de voz por inteligencia artificial (IA) y (b) expo-
ner la importancia de la lingüística como fuente de evidencia científica
para el sistema judicial. Así, se ha analizado la voz del narrador argentino
Mariano Closs y su contraparte artificial creada en FakeYou (convertidor
de texto en habla) mediante el método combinado que integra el uso de
programas automáticos de análisis de voz (Forensia y SIS II) y el análisis
fonético. Los programas autoticos mostraron resultados de alta
convergencia entre la voz natural y la voz artificial. Sin embargo, en el
análisis fonético, se observó diferencias en la producción de determina-
dos sonidos, en la entonación; asimismo, hubo procesos fonéticos pre-
sentes en una muestra. Es así que, a pesar de la similitud de las muestras
en el plano biométrico, la voz artificial del narrador Mariano Closs aún
no es del todo similar a su contraparte natural en el plano fonético.
Palabras clave: análisis fonético; voz artificial; convertidor de texto en
habla; lingüística forense; criminalística.
Términos de indización: fonética; habla; lingüística; procedimiento
legal; crimen (Fuente: Tesauro Unesco).
ABSTRACT
This study presents an approach to the phonetic similarities and
differences between a natural voice and an artificial voice, which is why
it seeks to: (a) provide an analysis that serves as a precedent for judicial
cases of voice cloning by artificial intelligence (AI) and (b) expose the
importance of linguistics as a source of scientific evidence for the judicial
system. Thus, the voice of the Argentine narrator Mariano Closs and
his artificial counterpart created in FakeYou (text-to-speech converter)
have been analyzed using the combined method that integrates the use of
automatic voice analysis programs (Forensia and SIS II) and the phonetic
analysis. The automatic programs showed results of high convergence
between the natural voice and the artificial voice. However, in the
Comparación forense de voces: un estudio preliminar sobre las diferencias entre una voz natural y una
voz artificial para la investigación judicial
55
Revista Oficial del Poder Judicial, 16(21), 2024, 53-81
phonetic analysis, differences were observed in the production of certain
sounds, in intonation, and there were phonetic processes present in a
sample. Thus, despite the similarity of the samples on the biometric level,
the artificial voice of the narrator Mariano Closs is still not completely
similar to his natural counterpart on the phonetic level.
Key words: phonetic analysis; artificial voice; text to speech converter;
forensic linguistics; criminalistics.
Indexing terms: phonetics; speech; linguistics; judicial procedure; crime
(Source: Unesco Thesaurus).
RESUMO
Este estudo apresenta uma abordagem sobre as semelhanças e diferenças
fonéticas entre uma voz natural e uma voz artificial, por isso busca:
(a) fornecer uma análise que sirva de precedente para casos judiciais de
clonagem de voz por inteligência artificial (IA) e (b) expor a importância
da linguística como fonte de evidências científicas para o sistema judicial.
Assim, a voz do narrador argentino Mariano Closs e sua contraparte
artificial criada no FakeYou (conversor de texto para fala) foi analisada
através do método combinado que integra o uso de programas de análise
automática de voz (Forensia e SIS II) e a análise fonético. Os programas
automáticos apresentaram resultados de alta convergência entre a voz
natural e a voz artificial. Porém, na análise fonética foram observadas
diferenças na produção de determinados sons, na entonação, e houve
processos fonéticos presentes em uma amostra. Assim, apesar da
semelhança das amostras no nível biométrico, a voz artificial do narrador
Mariano Closs ainda não é totalmente semelhante à sua contraparte
natural no nível fonético.
Palavras-chave: análise fonética; voz artificial; conversor de texto para
fala; linguística forense; criminalística.
Termos de indexação: fonética; fala; linguística; procedimento legal;
crime (Fonte: Unesco Thesaurus).
Recibido: 18/10/2023 Revisado: 25/10/2023
Aceptado: 7/5/2024 Publicado en línea: 30/6/2024
Jhon Jimenez Peña, Fernando aarón Torres CasTillo y osCar esaul Cueva sanChez
56
Revista Oficial del Poder Judicial, 16(21), 2024, 53-81
1. INTRODUCCIÓN
Según Ramírez (2023) —redactor del periódico El Comercio—, hasta
septiembre del presente año se han identificado, por lo menos, cincuenta
casos de clonación de voz con inteligencia artificial (IA) para estafar o
fingir secuestros. Este tipo de casos poco a poco va tomando terreno
en el Perú, por ello es importante realizar estudios que examinen las
diferencias entre la voz natural y la voz artificial para así brindar un
antecedente a los especialistas que analicen estos casos.
La inteligencia artificial pertenece a una rama de la ciencia com-
putacional que tiene como meta generar procesos cognitivos similares
a los de los humanos (Peña, 2022). Además, cumple un rol importante
en la actualidad porque se usa en diversos ámbitos y para distintos fines
(organización de bases de datos, procesos logísticos, asistentes virtuales,
replicación y creación de voz, entre otros). De esta forma, la inteligencia
artificial en su propósito de igualar a la competencia del lenguaje
humano ha tenido avances muy significativos.
Es así que actualmente existen muchos conversores de texto en
habla a disposición de cualquier persona, por lo que ahora es muy común
ver en redes sociales diversos contenidos en los que se usan voces artifi-
ciales e, incluso, puede resultar complicado distinguir cuándo se trata de
una voz natural o una voz artificial. En ese sentido, la lingüística cum-
ple un rol importante porque «todo texto oral o escrito involucrado en
delitos tipificados en el Código Penal —es decir, que es utilizado en la
investigación fiscal y empleado en la administración de justicia [...]— es
potencialmente objeto de estudio de la lingüística forense» (Lazo y
Rivas, 2022, p. 374). Y aunque desde la lingüística aún no se ha estu-
diado a profundidad casos como el de la clonación de voz
[se considera] que tiene un gran potencial a la hora de abordar
uno de los desafíos de seguridad más importantes que enfrenta el
mundo en la actualidad. Nos referimos a los deepfakes, [son] vídeos
o audios que, sin ser reales, lo parecen debido a una manipulación
[...], realizada mediante técnicas de inteligencia artificial. (San
Segundo, 2022)
Comparación forense de voces: un estudio preliminar sobre las diferencias entre una voz natural y una
voz artificial para la investigación judicial
57
Revista Oficial del Poder Judicial, 16(21), 2024, 53-81
El desarrollo de estas nuevas tecnologías puede tener distintos efec-
tos tanto positivos, por ejemplo, Illariy, quien es la primera presentadora
de noticias generada por inteligencia artificial que habla en quechua (un
proyecto desarrollado desde la Facultad de Letras y Ciencias Huma-
nas de la Universidad Nacional Mayor de San Marcos), pero los efectos
también pueden ser negativos si estas tecnologías se usan de forma equi-
vocada. Por ejemplo, no sería raro que los delitos de fraude, usurpación
de la identidad, extorsión, amenazas, violación de la privacidad por clo-
nación de voz aumenten porque cada vez es más accesible replicar voces.
Uno de los convertidores de texto en habla más famosos, justamente por
ser de uso libre, es el sitio web FakeYou, el cual permite al usuario conver-
tir un texto en habla con la voz de una celebridad o cualquier personaje
que esté en su base de datos e, incluso, replicar la voz de cualquier persona
siempre que se realice una suscripción y se cuente con grabaciones de
audio de la voz que se busca replicar. No obstante, a pesar de que el sitio
web advierta lo siguiente: «No aprobamos el uso de FakeYou para nin-
n tipo de suplantación, engaño, insulto, abuso o maltrato de cualquier
grupo» (Echelon, s. f.), es inevitable que dicho convertidor de texto en
habla pueda ser usado con fines delictivos.
Por esta razón, el objetivo del presente estudio es brindar una
aproximación en torno a las similitudes y las diferencias fonéticas entre
una voz natural y una voz artificial para así poder identificar parámetros
en los que ambas voces difieran. Para realizar esta tarea, se analizó la voz
de Mariano Closs, relator argentino y periodista deportivo (la muestra
se extrajo de entrevistas encontradas en internet) y su contraparte
artificial (proveniente de FakeYou). Es importante señalar que el estudio
se circunscribe al campo de la fonética forense, puesto que se realiza
la comparación de voces entre ambas muestras. Asimismo, el análisis
se realiza con el método combinado que integra el uso de programas
automáticos de análisis de voz (Forensia y SIS II) y el análisis fonético del
habla.
El presente artículo se estructura en cinco apartados. En el primer
apartado, se contextualiza e identifica el problema del estudio. En el
segundo apartado, se expone el marco teórico. En el tercer apartado,
se presenta la metodología de recolección y acondicionamiento de los
Jhon Jimenez Peña, Fernando aarón Torres CasTillo y osCar esaul Cueva sanChez
58
Revista Oficial del Poder Judicial, 16(21), 2024, 53-81
datos. En el cuarto apartado, se presenta el análisis autotico y fonético.
Finalmente, en el último apartado, se presentan las conclusiones de la
investigación.
2. MARCO CONCEPTUAL
La lingüística forense se nutre de campos como la fonética, la fonología,
la sociolingüística, entre otras ramas, con la finalidad de esclarecer un
hecho delictivo. El presente estudio se circunscribe en el campo de la
fonética forense y la conversión de texto en habla.
2.1. Fonética forense
La fonética se encarga de la descripción de los sonidos del habla desde
tres perspectivas: articulatoria, acústica y sonora (Garayzábal et al., 2019).
Mientras que la fonética forense se define como «principalmente el uso
de técnicas fonéticas en el análisis de la voz aplicado a investigaciones
criminales. Incluye técnicas de comparación de voz, reconocimiento de
voz […]» (Olsson, 2008, p. 156).
En ese sentido, la relación de la fonética forense y la criminalística
es muy estrecha porque el interés fundamental de la fonética forense
«reside en discernir con el mayor grado de fiabilidad posible si con-
curren suficientes indicios como para sostener que dos voces pueden
corresponder a la misma persona o si, por el contrario, hay que rechazar
esta posibilidad» (Fernández, 2007, p. 49). Es importante señalar que
la voz puede variar a nivel idiolectal, lo que se conoce como «el uso
individual [de la lengua] que establece un hablante y que diversos
factores como los culturales, económicos, educativos, sociales, de género
u profesión se manifiestan en estos idiolectos» (Torres, 2023, p. 15) y a
nivel interhablante (variación interhablante).
En la comparación de locutores, se usan distintos tipos de análisis.
Gold y French (2011) enlistan los métodos usados en distintos países:
análisis fonético auditivo (AuPA), análisis fonético acústico (AcPA),
análisis fonético auditivo y fonético acústico (AuPA + AcPA), análisis
por sistema autotico de reconocimiento de voces (ASR) —uso de
softwares biométricos de análisis de voz— y, finalmente, el análisis por
Comparación forense de voces: un estudio preliminar sobre las diferencias entre una voz natural y una
voz artificial para la investigación judicial
59
Revista Oficial del Poder Judicial, 16(21), 2024, 53-81
sistema automático de reconocimiento de voces con el análisis humano
(HASR) —combina todos los métodos anteriores—.
2.2. La conversión de texto en habla
Cortez et al. (2009) señalan que «una de las tareas fundamentales de
la inteligencia artificial (IA) es la manipulación de lenguajes natura-
les usando herramientas de computación, [… los lenguajes de progra-
mación] forman el enlace necesario entre los lenguajes naturales y su
manipulación por una máquina» (pp. 47-48). Y, justamente, los con-
vertidores de texto en habla son el resultado del procesamiento del
lenguaje natural a través de un lenguaje de programación que se estruc-
tura modularmente.
En ese sentido, Bonafonte (1997) describe la conversión de texto
en voz como un «sistema que requiere unos registros de señales orales
relacionadas con unas unidades básicas (por ejemplo fonemas), que ha
de concatenar siguiendo el texto de entrada» (p. 70). Además, señala
que, para obtener una conversión de calidad, las unidades básicas deben
ser modificadas para que se reproduzcan de la forma más natural posible.
Añade que el análisis de los sonidos y su interacción, tanto como los
patrones suprasegmentales son tarea de fonetistas y lingüistas.
En la figura 1, se detalla el funcionamiento esencial de la conversión
de texto en voz.
Figura 1
Sistema de conversión de texto en voz propuesto por Bonafonte
Nota. Tomado de Bonafonte (1997, p. 71).
Jhon Jimenez Peña, Fernando aarón Torres CasTillo y osCar esaul Cueva sanChez
60
Revista Oficial del Poder Judicial, 16(21), 2024, 53-81
Según Llisterri et al. (2004), la conversión de texto en habla per-
mite que cualquier texto escrito sea oralizado por un ordenador con la
ayuda de una serie de módulos que procesan los datos de naturaleza lin-
güística y, asimismo, recurren también a bases de datos que contienen
información de ese tipo. Y aunque este campo tradicionalmente se ha
asociado con la ingeniería de telecomunicaciones y el tratamiento digi-
tal de señales, en la actualidad es necesaria también la participación
de expertos que faciliten el conocimiento lingüístico en cada uno de los
módulos.
Fernández (2007) indica que hay tres tipos principales de síntesis
de voz: la síntesis por formantes, la síntesis articulatoria y la síntesis por
concatenación. La síntesis por formantes genera el habla a partir de la
especificación previa de los parámetros acústicos, la síntesis articulato-
ria genera el habla a partir de parámetros que describen la posición y el
movimiento de los articuladores y la síntesis por concatenación genera el
habla uniendo pequeños fragmentos de sonido para generar oraciones.
En el caso de FakeYou, este es un convertidor de texto en habla que
permite acceder a una gran cantidad de voces de su base de datos (voces
de deportistas, presentadores, actores, etc.). Además, con una suscrip-
ción permite generar la voz artificial de cualquier persona a partir de
archivos de audio que previamente se carguen en el sitio web.
2.3. Funcionamiento de las redes neuronales artificiales
Según Mena y Rojas (2021), para que una inteligencia artificial clone la
voz humana, la inteligencia artificial debe utilizar modelos que iden-
tifiquen patrones, sonidos, estructuras silábicas, palabras, entre otros
elementos de la voz humana, por ende, utilizan redes neuronales compu-
tacionales, estas
buscan simular la forma en la que el cerebro humano es capaz de
reconocer la voz y las palabras del entorno que lo rodea, tiene la
capacidad de ajustarse a sí misma y mejorar sus resultados con-
forme transcurre el tiempo [...]. (p. 88)
Comparación forense de voces: un estudio preliminar sobre las diferencias entre una voz natural y una
voz artificial para la investigación judicial
61
Revista Oficial del Poder Judicial, 16(21), 2024, 53-81
3. METODOLOGÍA
Este estudio es de tipo exploratorio, puesto que la problemática que se
abordará ha sido poco estudiada y no se encontraron antecedentes direc-
tos que se refieran al tema. Además, se busca comparar la voz natural con
la voz artificial para identificar rasgos fonéticos que ayuden a distinguir
una muestra de la otra.
El método que se usa para la presente investigación es el método
combinado (Univaso, 2016). Este se compone por el método por sistemas
de reconocimiento automático y por el método clásico, el primero se
relaciona con el uso de programas de biometría de voz que comparan
automáticamente una muestra dubitada con una muestra indubitada a
partir de algoritmos (Garayzábal et al., 2019) y, el segundo, se enfoca en
un análisis perceptual y acústico mediante la escucha y la visualización
del espectrograma y el oscilograma de procesos fonético-fonológicos.
3.1. Recolección de datos
El estudio emplea dos muestras: la muestra natural y la muestra arti-
ficial de Mariano Closs. Es importante recalcar que la voz natural de
Mariano Closs se extrae de relatos de partidos de fútbol, debido a que
la voz artificial proveniente de FakeYou se encuentra también en dicho
contexto.
3.1.1. Voz natural
La muestra de voz natural está constituida por dos archivos de audio
provenientes de videos de YouTube en los que Mariano Closs narra
partidos de la Champions League temporada 2021-2022, ambos videos
fueron tomados de la cuenta de YouTube ESPN Fans (en las referencias
se especifican los videos). Asimismo, es importante señalar que para
descargar los videos en archivos de audio en formato wav se usó el
convertidor en línea y2mp3.top (https://y2mp3.top). En la figura 2, se
reportan las propiedades de ambos archivos de audio:
Jhon Jimenez Peña, Fernando aarón Torres CasTillo y osCar esaul Cueva sanChez
62
Revista Oficial del Poder Judicial, 16(21), 2024, 53-81
Figura 2
Archivos que constituyen la muestra de voz natural
3.1.2. Voz artificial
La muestra de voz artificial está constituida también por dos archivos
de audio provenientes del sitio web FakeYou (https://fakeyou.com).
Este sitio web posee tres opciones de voz para Mariano Closs, se usó:
«Mariano Closs (Relator de fútbol Argentino) (por Vox_Populi)». En la
figura 3, se muestra una captura de pantalla del sitio web en el que se
observa uno de los corpus usados.
Figura 3
Interfaz de FakeYou