Comparación forense de voces: un estudio preliminar sobre las diferencias entre una voz natural y una
voz artificial para la investigación judicial
57
Revista Oficial del Poder Judicial, 16(21), 2024, 53-81
El desarrollo de estas nuevas tecnologías puede tener distintos efec-
tos tanto positivos, por ejemplo, Illariy, quien es la primera presentadora
de noticias generada por inteligencia artificial que habla en quechua (un
proyecto desarrollado desde la Facultad de Letras y Ciencias Huma-
nas de la Universidad Nacional Mayor de San Marcos), pero los efectos
también pueden ser negativos si estas tecnologías se usan de forma equi-
vocada. Por ejemplo, no sería raro que los delitos de fraude, usurpación
de la identidad, extorsión, amenazas, violación de la privacidad por clo-
nación de voz aumenten porque cada vez es más accesible replicar voces.
Uno de los convertidores de texto en habla más famosos, justamente por
ser de uso libre, es el sitio web FakeYou, el cual permite al usuario conver-
tir un texto en habla con la voz de una celebridad o cualquier personaje
que esté en su base de datos e, incluso, replicar la voz de cualquier persona
siempre que se realice una suscripción y se cuente con grabaciones de
audio de la voz que se busca replicar. No obstante, a pesar de que el sitio
web advierta lo siguiente: «No aprobamos el uso de FakeYou para nin-
gún tipo de suplantación, engaño, insulto, abuso o maltrato de cualquier
grupo» (Echelon, s. f.), es inevitable que dicho convertidor de texto en
habla pueda ser usado con fines delictivos.
Por esta razón, el objetivo del presente estudio es brindar una
aproximación en torno a las similitudes y las diferencias fonéticas entre
una voz natural y una voz artificial para así poder identificar parámetros
en los que ambas voces difieran. Para realizar esta tarea, se analizó la voz
de Mariano Closs, relator argentino y periodista deportivo (la muestra
se extrajo de entrevistas encontradas en internet) y su contraparte
artificial (proveniente de FakeYou). Es importante señalar que el estudio
se circunscribe al campo de la fonética forense, puesto que se realiza
la comparación de voces entre ambas muestras. Asimismo, el análisis
se realiza con el método combinado que integra el uso de programas
automáticos de análisis de voz (Forensia y SIS II) y el análisis fonético del
habla.
El presente artículo se estructura en cinco apartados. En el primer
apartado, se contextualiza e identifica el problema del estudio. En el
segundo apartado, se expone el marco teórico. En el tercer apartado,
se presenta la metodología de recolección y acondicionamiento de los