La fonética forense: Nuevos retos y nuevas líneas de investigación [1 ed.]
 8419506486, 9788419506481

Table of contents :
Sumario
1. Introducción: ¿qué es la fonética forense?
2. Principales campos de actuación de la fonética forense
2.1. Elaboración del perfil fonético de un hablante desconocido
2.2. Determinación de la autenticidad de una grabación
2.3. Determinación del contenido de una grabación
2.4. Diseño y validación de ruedas de reconocimiento
2.5. Comparación forense de hablantes
3. La comparación forense de hablantes: contextualización histórica
3.1. Introducción a la comparación forense de hablantes
3.2. La polémica técnica del voiceprint
3.3. El cisma del nuevo paradigma
4. Aproximaciones metodológicas y parámetros más utilizados en comparación forense de hablantes
4.1. Aproximaciones metodológicas
4.1.1. El método auditivo
4.1.2. El método acústico
4.1.3. El método semiautomático
4.2. Parámetros fonéticos más utilizados
5. La expresión de resultados en comparación forense de hablantes: una introducción al marco bayesiano de evaluación de la evidencia forense con datos fonéticos
5.1. ¿Qué es una razón de verosimilitud (likelihood ratio, LR)?
5.2. Evaluación del rendimiento de los sistemas que expresan los resultados en LR
5.2.1. La función de coste de la razón de verosimilitud logarítmica (Cllr)
5.2.2. El gráfico Tippett
5.3. Un ejemplo de evaluación de la evidencia forense en el marco bayesiano
6. Los límites de la variación inter- e intralocutor
6.1. Criterios para la selección de un parámetro robusto
6.2. Factores de variación intra- o interlocutor
6.3. El zoo biométrico: un ejemplo de comparación forense de hablantes
6.4. Estudios de voces disimuladas
7. Nuevos retos y nuevas líneas de investigación en fonética forense
7.1. El reto de estudiar voces de gemelos
7.2. Los deepfakes de voz y los gemelos digitales
Referencias bibliográficas
Índice

Citation preview

Eugenia San Segundo Fernández

La fonética forense Nuevos retos y nuevas líneas de investigación

Horizontes Universidad

La fonética forense Nuevos retos y nuevas líneas de investigación

Eugenia San Segundo Fernández

La fonética forense Nuevos retos y nuevas líneas de investigación

Colección Horizontes Universidad Título: La fonética forense. Nuevos retos y nuevas líneas de investigación

Proyecto PID2021-124995OA-l00 financiado por:

Primera edición: mayo de 2023 © Eugenia San Segundo Fernández © De esta edición: Ediciones OCTAEDRO, S.L. C/ Bailén, 5 – 08010 Barcelona Tel.: 93 246 40 02 [email protected] www.octaedro.com Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta obra solo puede ser realizada con la autorización de sus titulares, salvo excepción prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra.

ISBN (papel): 978-84-19506-48-1 ISBN (pdf): 978-84-19506-49-8 Diseño cubierta: Tomàs Capdevila Corrección: Xavier Torras Isla Realización y producción: Octaedro Editorial

A Curro.

Sumario

1. Introducción: ¿qué es la fonética forense?. . . . . . . . . . . . . . 11 2. Principales campos de actuación de la fonética forense . 3. La comparación forense de hablantes: contextualización histórica . . . . . . . . . . .

.

17

. . . . . . . . . . . . . . .

43

4. Aproximaciones metodológicas y parámetros más utilizados en comparación forense de hablantes . . . . . . . . 61 5. La expresión de resultados en comparación forense de hablantes: una introducción al marco bayesiano de evaluación de la evidencia forense con datos fonéticos. . . 87 6. Los límites de la variación inter- e intralocutor.

. . . . . . . .

107

7. Nuevos retos y nuevas líneas de investigación en fonética forense . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 Referencias bibliográficas .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

139

9

1 Introducción: ¿qué es la fonética forense?

La fonética es una rama de la lingüística que estudia cómo se producen y cómo se perciben los sonidos del habla. Una clasificación habitual en este ámbito es la que distingue tres áreas: la fonética articulatoria, la fonética acústica y la fonética perceptiva (Martínez-Celdrán y Fernández-Planas, 2007). La primera se encarga de estudiar cómo se producen los sonidos, la segunda aborda los resultados acústicos de la producción de sonidos mediante los órganos articulatorios y, finalmente, la tercera se enfrenta a cuestiones relacionadas con la percepción y comprensión de la señal acústica por parte de los oyentes. Esta clasificación tradicional resulta muy útil para entender la interdisciplinariedad inherente a la fonética. Desde un punto de vista articulatorio, la fonética requiere instrumentos de observación propios de ciencias experimentales (por ejemplo, el uso de electropalatogramas o electroglotogramas; técnicas instrumentales que ofrecen información sobre la articulación de sonidos, en el caso del electro­palatograma, o sobre la apertura y cierre de las cuerdas vocales, si hablamos de electroglotogramas). Desde una perspectiva acústica, se suele observar la señal de voz en forma de oscilogramas y espectrogramas mediante el uso de programas de aná­ lisis del habla como Praat (Boersma y Weenink, 2022). Finalmente, la fonética perceptiva se ubica en la intersección entre la psicolingüística y, de nuevo, los métodos de la fonética

11

experimental, sobre todo a la hora de diseñar pruebas perceptivas de reconocimiento. Si bien dicha clasificación, como decíamos, es fundamental en un primer acercamiento a la fonética como disciplina lingüística, también se pueden hacer otras clasificaciones en función de la aplicación que se quiera llevar a cabo del conocimiento fonético. Así, podremos hablar de fonética clínica, tecnologías del habla, fonética aplicada a la enseñanza de idiomas (p. ej.: español como lengua extranjera) y, nuestro objeto de estudio en este libro, de la fonética forense. En todo caso, es indudable que la fonética es una de las ramas de la lingüística con más aplicaciones prácticas, lo que la ha convertido en uno de los campos de conocimiento con más demanda en el sector profesional. No hay más que pensar en las distintas tecnologías que usamos a diario, como los asistentes de voz que nos permiten iniciar una llamada, buscar una dirección, etc. Los avances en el campo de las tecnologías del habla son posibles gracias a equipos multidisciplinares de expertos, que incluyen fonetistas. En el ámbito clínico, por otro lado, cada vez más profesionales se están especializando en el ámbito de la fonética. Los logopedas y foniatras, que estudian los trastornos del habla y las patologías de la voz, se benefician en muchas ocasiones de las colaboraciones con fonetistas a la hora de desarrollar pruebas de evaluación, por ejemplo. Sin embargo, es otro el ámbito práctico que nos ocupará en las siguientes páginas. Hablamos del ámbito legal o judicial. Este es el campo de actuación de la fonética forense, una de las aplicaciones de la fonética más desconocidas en España y en el mundo hispanohablante en general. Cuando uno oye hablar por primera vez del término forense aplicado a fonética, puede dudar sobre qué significado tiene ese adjetivo o por qué se usa ese término y no otro, como fonética judicial o legal. En este libro trataré sobre los principales problemas terminológicos relacionados con esta disciplina. Aunque a veces estos provienen de anglicismos innecesarios, en otras ocasiones las causas son diferentes. Después de una propuesta de definición, se abordarán las principales áreas de aplicación de la

12

La fonética forense

fonética forense, con especial atención a la comparación forense de hablantes.1 Ambos términos, forense y judicial, son válidos e intercambiables para referirnos a este ámbito de la fonética experimental y aplicada. En este artículo optamos por fonética forense, en consonancia con lingüística forense, que es la única denominación que encontramos para la disciplina general de la que la fonética forense se consideraría una subdisciplina. Es conocido que, en el ámbito de la lingüística en España, no son infrecuentes las polémicas terminológicas derivadas del nacimiento de nuevas ramas del saber. Lo mismo ocurre con la aparición de neologismos que la lengua española requiere a consecuencia de la aparición de nuevas realidades, técnicas u objetos de estudio. Así, en el caso de la fonética forense (que es el término elegido aquí para denominar a esta disciplina, por las razones que explicaré a continuación), nos encontramos con una tradición de investigadores españoles, perceptores de los primeros proyectos de investigación en esta rama del saber (Battaner et al., 2005), que optaron por la denominación fonética judicial, tal vez por proximidad con el francés judiciare, que es el adjetivo que usan muchos fonetistas francófonos (Gil, Alves y Hierro, 2012). La lingüística forense tiene dos posibles interpretaciones. En su interpretación amplia, esta disciplina incluiría cualquier interrelación entre lengua y derecho. En una definición estrecha, se refiere a la utilización de pruebas lingüísticas en los juicios y, por tanto, a la actuación de los lingüistas en contextos jurídicos y judiciales (Gibbons, 1999). Los principales campos de actuación de la lingüística forense incluyen: atribución de autoría; esto es, la comparación de una serie de comunicados cuyo autor es conocido con otra serie de escritos de autor desconocido, la detección de plagio, el análisis del discurso jurídico y la traducción e interpretación legal. A todas estas áreas de trabajo hay que añadir la fonética forense. Ahora bien, aunque algunos la consideran una subdisciplina de la lingüística forense, como indicábamos al principio, la fonética forense es prácticamente un área con entidad propia. Tanto por 1.  Otra denominación posible es cotejo de voces.

1. Introducción: ¿qué es la fonética forense?

13

la diversidad metodológica con la que afrontan los peritajes los expertos en fonética forense como por la idiosincrasia inherente a la naturaleza fónica de los cotejos de voz, la fonética forense merece su estudio aparte. De hecho, ya en 2017 Ramírez Salado (2017: 532) indica que «la fonética forense puede ser considerada como el ámbito de actuación más consagrado dentro de la lingüística forense, puesto que ya existe una larga trayectoria de trabajos en esta línea». Otra muestra del grado de independencia de la fonética forense con respecto a la lingüística forense es la existencia de una asociación propia: la asociación internacional para la fonética y la acústica forense (IAFPA, International Association for Forensic Phonetics and Acoustics), que existe desde 1991. Retomando la cuestión de si fonética forense es un término apropiado, parece que está claro que, cuando se habla de lingüística, nadie duda de la adecuación del adjetivo forense y no están tan extendidas otras denominaciones como lingüística judicial, legal o jurídica. Pero ¿de dónde viene el término forense? ¿Es un anglicismo? A pesar de que el Diccionario de la Lengua Española (DLE) no contempla una acepción similar a la que sí recogen los diccionarios en inglés para la palabra forensic (esto es, relacionado con la aplicación de conocimiento científico para la resolución de problemas legales), lo cierto es que forense no es un anglicismo, pues en la acepción primera de forense en el DLE encontramos «perteneciente o relativo al foro». Del latín fórum, ‘plaza pública’, ‘plaza donde se trataban los asuntos públicos’, ‘tribunal de justicia’. Efectivamente, es en los foros de la Antigua Roma donde podemos ubicar los orígenes de las disciplinas forenses. Las infracciones penales se dirimían entonces ante un grupo de personas públicamente en el foro; de ahí la importancia de cultivar excelentes habilidades oratorias para argumentar y defender un caso. En el volumen de «Criminalística y ciencias forenses» de los Diccionarios jurídicos temáticos (Cirnes Zúñiga, 2000: 33) encontramos la siguiente definición para el término forense: Relativo al foro o la plaza pública. Perteneciente o relativo a procedimientos legales o aplicado a ellos.

14

La fonética forense

Una vez entendido el origen de la palabra forense y por qué no es incorrecto utilizarla para hablar de fonética forense, podemos proporcionar una definición en español de fonética forense. Si forense hace referencia a la aplicación del conocimiento científico a la resolución de problemas de naturaleza legal (y esto es válido para cualquier ciencia forense), tendremos que la fonética forense, en un concepto amplio, es la disciplina que se encarga de cualquier aplicación legal de la fonética; es decir, de aplicar los conceptos y métodos de la fonética general a la investigación y resolución de delitos en los que el habla o la voz están de alguno modo implicadas. Encontramos esta definición en San Segundo (2014a), a partir de las propuestas de definición de autores como Jessen (2008) u Olsson (2004). En una definición más estrecha, la fonética forense se refiere a la utilización de una voz como prueba en un contexto policial o judicial, aunque, como veremos a continuación, esa es solo una de las tareas que se le puede pedir a un experto en fonética forense. Tras esta introducción a la fonética forense, la estructura de este libro se organiza de la siguiente manera. En el capítulo 2 se describe en qué consisten las cinco áreas de aplicación de la fonética forense. Puesto que la última que mencionaremos, la comparación forense de hablantes, es la más conocida y la que se solicita con más frecuencia al perito en fonética forense, a continuación se desarrollan con más detalle los orígenes de la comparación forense de hablantes (capítulo 3), así como los métodos utilizados con más frecuencia en este ámbito y los parámetros fonéticos más habituales (capítulo 4). En el capítulo 5 nos adentramos en explicar el «nuevo paradigma para la evaluación de las ciencias forenses» (Saks y Koehler, 2005; Morrison, 2009a), que afecta tanto a la evaluación como a la presentación de la evidencia científica. El cambio de paradigma se originó en el ámbito de la comparación de perfiles de ADN en los años noventa y el resto de las ciencias forenses empezaron poco después a emular su modelo. Es fundamental explicar sus características principales para entender la adopción del marco de relaciones de verosimilitud o marco bayesiano que se utiliza hoy en la mayoría de los peritajes e investigaciones en este ámbito. En el capí-

1. Introducción: ¿qué es la fonética forense?

15

tulo 6 explicamos los criterios para la selección de un parámetro robusto; los principales factores y límites de la variación inter- e intralocutor y revisamos algunos estudios que han explorado dichos límites con voces disimuladas. Finalmente, en el capítulo 7 presentamos los principales retos a los que se enfrenta esta disciplina; retos que abordan algunos proyectos de investigación financiados por organismos nacionales e internacionales en el ámbito de la ciberseguridad y las aplicaciones de inteligencia artificial centradas en la protección digital de los ciudadanos.

16

La fonética forense

2 Principales campos de actuación de la fonética forense1

Existen cinco áreas clásicas de aplicación de la fonética forense; esto es, las distintas tareas de las que se ocupan los fonetistas forenses o, en otras palabras, sus campos de actuación. Esta división en cinco grandes grupos ya la encontramos en los estudios pioneros en esta disciplina, sobre todo por parte de investigadores de la Universidad de York (p. ej.: French, 1994). A mediados de los años noventa, la fonética forense nace como disciplina lingüística y científica. Esto coincide con la creación de la Asociación Internacional de Fonética y Acústica Forense (IAFPA). En los siguientes apartados se describe sucintamente en qué consisten las cinco áreas de aplicación de la fonética forense. Puesto que la última que mencionaremos, la comparación forense de hablantes, es la más conocida y la que se solicita con más frecuencia al perito en fonética forense, a partir del capítulo 3 se desarrollarán con detalle los métodos más habituales en comparación forense de hablantes, así como los parámetros fonéticos que se utilizan mayoritariamente.

1.  Este capítulo, junto con la introducción, es una versión ampliada del artículo San Segundo (2023).

17

2.1. Elaboración del perfil fonético de un hablante desconocido El objetivo de esta tarea es extraer toda la información que se pueda a partir de la grabación de una voz desconocida. Al igual que se puede realizar un perfil lingüístico del autor desconocido de un texto, si existe una grabación de la que se desconoce la identidad del hablante, un experto en este ámbito puede realizar lo que se conoce como pasaporte vocal (Delgado, 1998). Los rasgos principales que un fonetista puede extraer, de forma fiable, a partir de una voz desconocida los resume Jessen (2007, 2020). Por un lado, se puede extraer información sobre el sexo o género de una persona, su edad aproximada, la variedad dialectal que habla y su sociolecto.2 Asimismo, se puede obtener algún indicio sobre su estado general de salud, posibles patologías de la voz o trastornos del habla, y presencia de acento extranjero. Este tipo de información es muy útil en las fases iniciales de una investigación policial, en las que todavía no se tiene a ningún sospechoso, como suele ocurrir en los secuestros. Son datos clave para ayudar a la policía mediante la identificación de una subsección de una población más grande a la que puede pertenecer el hablante; en otras palabras, acotar el campo de sospechosos. De ahí la importancia de que el fonetista forense tenga claro qué tipo de información se puede extraer de forma fiable a partir de una voz desconocida y cuál no es posible conocer, al menos en el estado actual de la investigación fonética hoy en día. A este respecto, la mayoría de los autores (p. ej.: Jessen, 2008) coinciden en que no se pueden extraer de manera fiable las características físicas de un hablante, como, por ejemplo, su altura o su peso, ni su edad exacta, ni rasgos psicológicos del hablante. De hecho, la asociación que mencionábamos antes 2.  Aunque no podemos detenernos a explicar cómo realizan los expertos un perfil lingüístico para cada uno de estos elementos, invitamos al lector interesado a consultar Köster et al. (2012) para conocer los métodos empleados por la policía alemana a la hora de identificar la variedad dialectal de un hablante desconocido, resumidos en: 1) análisis perceptivo, 2) análisis acústico, 3) consulta de corpus orales y 4) consulta de bibliografía sobre dialectología.

18

La fonética forense

(IAFPA) destaca en su reciente Código de Práctica (IAFPA, 2021; cf. punto 3.11) que no es el cometido de un fonetista forense hacer perfiles psicológicos ni valoraciones sobre la veracidad del mensaje de los hablantes. Finalmente, en esta primera área de aplicación de la fonética forense, aparte de la labor del fonetista como tal, a veces es posible presentar las muestras del hablante desconocido al público general, usando medios de comunicación como la televisión, la radio o internet (Jessen, 2020). Esto se suele hacer con el objetivo de que alguien cercano a la persona que se busca reconozca la voz del sospechoso. El caso más conocido en España donde se recurrió a este tipo de exposición de una grabación de voz desconocida en los medios fue en el secuestro de Anabel Segura. En 1995, el programa de televisión Quién sabe dónde emitió en repetidas ocasiones las cintas con la grabación de las voces de los secuestradores. Gracias a la difusión de estas voces se recibieron miles de llamadas; una de ellas sería clave para la resolución del caso, pues condujo a la policía hasta los secuestradores de Anabel Segura. Tras escuchar por televisión la voz de los secuestradores, un vecino de un municipio de Toledo telefoneó a la policía y dijo: «Esa voz es la del Candi, el fontanero de mi pueblo» (Hernández, 1995). En resumen, la colaboración ciudadana fue importante en este caso, pero no hay que olvidar tampoco la labor de lingüistas (fonetistas en este caso) forenses, pues ciertas palabras que se oían de fondo en la grabación permitieron ubicar a los secuestradores en una zona concreta de Toledo. De ahí la importancia de que el experto que realice este tipo de tareas sea un buen dialectólogo o colabore en equipos multidisciplinares con investigadores que tengan este tipo de conocimientos sobre regionalismos y localismos. Vemos, por tanto, que el conocimiento necesario para realizar este tipo de tareas no se restringe únicamente al conocimiento fonético, sino que requiere de conocimientos lingüísticos más amplios. Otra ocasión en la que se recurrió a la colaboración ciudadana, esta vez en el Reino Unido, fue durante la investigación del caso del destripador de Yorkshire, que mantuvo aterrorizada a la

2. Principales campos de actuación de la fonética forense

19

sociedad del norte de Inglaterra a mediados de los setenta del siglo pasado. A Peter Sutcliffe, el autor de una decena de muertes de mujeres, se lo conoce como el destripador de Yorkshire, porque su modus operandi era muy parecido al de Jack el Destripador, un asesino en serie del Londres victoriano. El caso de Peter Sutcliffe, en el que colaboró el fonetista británico Windsor Lewis, se describe en French, Harrison y Windsor Lewis (2006). Desde un punto de vista fonético, el interés forense de este caso radica en la existencia de una grabación de voz enviada a la policía en la que un hombre se atribuye los asesinatos y, dirigiéndose directamente al policía encargado de su caso, se burla de que la policía no ha sido capaz de encontrarlo y les informa de que está pensando en un próximo crimen. Los investigadores hicieron pública la grabación en una rueda de prensa multitudinaria con el fin de que algún ciudadano pudiera reconocer la voz. El principal problema de este caso fue que se le dio demasiada validez a la veracidad de las palabras del hablante, que se confesaba autor de los crímenes, sin sopesar que se podría tratar de una pista falsa. En realidad, la persona que hizo esta llamada a la policía no era el verdadero asesino, era alguien haciéndose pasar por él. Las consecuencias de centrar la investigación policial en una pista falsa (en este caso, la pista de la voz) fueron devastadoras, pues esta contribuyó a que tardaran en encontrar al auténtico asesino. De hecho, cuando al final detuvieron a Peter Sutcliffe, se descubrió que este ya había sido interrogado en muchas ocasiones por otras pistas policiales. Por ejemplo, su cara se parecía mucho a la del retrato robot que había hecho una víctima que había sobrevivido. Sin embargo, como el acento de Peter Sutcliffe era de Yorkshire, no encajaba con la zona de donde era el acento del bromista que llamaba a la policía (acento de Newcastle), y al final siempre lo descartaban. Sutcliffe fue finalmente arrestado y juzgado en 1981. El jurado lo declaró culpable de asesinato y fue condenado a cadena perpetua. Con todo, la identidad del bromista que hizo las llamadas a la policía seguía siendo un misterio sin resolver. Como señalan French, Harrison y Windsor Lewis (2006: 256):

20

La fonética forense

El hecho de que no lo descubrieran era aún más desconcertante si tenemos en cuenta que, en los meses previos a la detención del asesino, su voz se había reproducido en la televisión y la radio nacionales y en los sistemas de megafonía en campos de fútbol. Se apeló a la ciudadanía para que cualquiera que reconociera la voz informara a la policía. Sin embargo, el bromista permaneció sin identificar.3

John Samuel Humble, el autor de la pista falsa no fue identificado como sospechoso, y posteriormente detenido, hasta 2005. Esta detención fue posible gracias a una coincidencia inesperada. Puesto que Humble no solo realizaba llamadas a los policías encargados de su caso, sino que también les enviaba cartas, al analizar una muestra de ADN de una de las cartas falsas contra la base de datos nacional de ADN del Reino Unido, se pudo localizar a un hombre procedente de Sunderland, identificado como sospechoso. Fue arrestado y, tras ser entrevistado por la policía, fue acusado y condenado a ocho años de prisión por el engaño; esto es, por un delito tipificado como intento de obstrucción a la justicia. El caso de John Samuel Humble es de gran interés para todo aquel que se inicia en la lingüística forense, pues el peritaje lingüístico del caso supuso la convergencia de conocimientos y destrezas por parte de disciplinas muy variadas. Como señalan French, Harrison y Windsor Lewis (2006), el peritaje que se realizó en 2005, cuando Humble fue detenido, implicó tareas de perfil lingüístico, autenticación de grabaciones, comparación forense de voces, atribución de autoría de textos e incluso análisis grafológico de la letra usada en las cartas que escribió Humble. Retomaremos este caso en el apartado 2.5, cuando presentemos, a modo introductorio, la tarea de comparación forense de hablantes. Dentro de este apartado dedicado a explicar en qué consiste la determinación del perfil lingüístico de un hablante desconocido, cabe mencionar un tipo de tarea muy concreta conocida como 3.  Salvo que se indique lo contrario, todas las citas que se encuentran traducidas en este libro son traducciones de la autora.

2. Principales campos de actuación de la fonética forense

21

análisis lingüístico para la determinación del origen4 de los solicitantes de asilo (LADO en inglés, de language analysis for the determination of origin of asylum seekers). Aunque algunos autores, como French y Stevens (2013), explican que esta se puede considerar una aplicación de la elaboración de perfiles lingüísticos a partir de la voz, lo cierto es que el LADO cuenta con sus propios métodos y ha dado lugar a numerosas publicaciones en las últimas dos décadas. Como explica la Agencia de la ONU para los Refugiados (ACNUR): Un solicitante de asilo es quien solicita el reconocimiento de la condición de refugiado y cuya solicitud todavía no ha sido evaluada en forma definitiva.

Varios países europeos realizan pruebas lingüísticas, sobre todo del habla, pero también a partir de textos escritos, para establecer la nacionalidad,5 región u origen étnico de los solicitantes de asilo indocumentados. Así se definiría el LADO en la página web de la Dirección General de Migración y Asuntos de Interior de la Comisión Europea, donde, además, encontramos la siguiente información: Los análisis lingüísticos generalmente se realizan a petición de las agencias gubernamentales de inmigración/asilo que intentan verificar las solicitudes de asilo, pero también pueden realizarse como parte del proceso de apelación para solicitudes que han sido denegadas o pueden aplicarse en procedimientos de retorno de otros inmigrantes irregulares.

En las Directrices para el uso del análisis lingüístico en relación con cuestiones de origen nacional en casos de refugiados publicada en 4.  El glosario de la Dirección General de Migración y Asuntos de Interior de la Comisión Europea sugiere la traducción análisis lingüístico para la determinación del origen para el inglés language analysis for the determination of origin. 5.  Como indican Patrick, Schmid y Zwaan (2011) en su sitio web Language and Asylum Research Group: «La cuestión clave que puede abordarse científicamente no es la nacionalidad, sino aspectos de socialización lingüística y la pertenencia a una comunidad de habla, que es una cuestión sociolingüística».

22

La fonética forense

2004 por un grupo de lingüistas que firma como Language and National Origin Group LNOG no se hace referencia a la comunicación escrita. La tarea de determinación del origen que recoge la etiqueta LADO quedaría definida como: [...] el proceso para determinar si los casos de peticiones de solicitantes de asilo son auténticos. Tal análisis generalmente implica la consideración de una grabación del habla del solicitante de asilo para juzgar su país de origen. (LNOG - Language and National Origin Group, 2004: 261)

En estas directrices se recogen los requisitos mínimos y las garantías necesarias para un análisis lingüístico profesional competente. Pretenden servir como punto de referencia para que los gobiernos sepan cómo llevar a cabo este tipo de tarea de manera profesional. La principal polémica suscitada por esta tarea tiene que ver con quién debe diseñar y administrar este tipo de pruebas lingüísticas: 1) personas que compartan lengua materna con el solicitante, con la supervisión de un lingüista, aunque este no conozca el idioma; o 2) lingüistas conocedores del idioma, aunque no sea su lengua materna. En la Conferencia Anual de la IAFPA de 2009, celebrada en Cambridge (Reino Unido), se aprobó en la Reunión General Anual una resolución al respecto del LADO: En los casos que impliquen el análisis del lenguaje y el habla para la determinación de la identidad nacional, la IAFPA reconoce la contribución que deben hacer: 1. Lingüistas y hablantes nativos entrenados, estos últimos trabajando bajo la guía y supervisión de los primeros; 2. Lingüistas con un profundo conocimiento científico de la(s) lengua(s) en cuestión. No es una suposición válida que un hablante nativo, un lingüista o un lingüista especializado sea, por definición, también un analista cualificado, capaz de realizar el tipo de análisis al que se hace refe-

2. Principales campos de actuación de la fonética forense

23

rencia aquí. El análisis del lenguaje es una forma de análisis forense que requiere habilidades y competencias adicionales. Las competencias individuales y la experiencia afectan a la calidad de los análisis, independientemente del método. Por lo tanto, se recomienda una formación y pruebas específicas. La conclusión expresada debe en todos los casos reflejar no solo las fortalezas y debilidades del material analizado, sino también del personal involucrado.

Desde entonces hasta nuestros días se han sucedido las publicaciones al respecto, sobre todo en los primeros años (Broeders, 2010; Cambier-Langeveld, 2010; Eades, 2010; Patrick, 2010), incluyendo trabajos sobre los procedimientos empleados en España (Morgades, 2010). Uno de los trabajos más recientes es el volumen Language Analysis for the Determination of Origin: Current Perspectives and New Directions (Patrick, 2019). En él se explican algunos casos de estudio y se recogen los últimos avances en este terreno, por ejemplo, en cuestiones como los factores que afectan a la fiabilidad de la atribución dialectal, fenómenos como el multilingüismo, la atrición lingüística o los sesgos cognitivos.

2.2. Determinación de la autenticidad de una grabación Otra de las tareas de las que se ocupa la fonética forense es la determinación de la autenticidad de una grabación. El objetivo es determinar si una grabación ha sido editada o manipulada de algún modo. Esta aplicación es la más interdisciplinar, porque requiere conocimientos técnicos de procesamiento de la señal para los que el fonetista no siempre está formado, pero sí pueden estarlo otros miembros de su grupo de trabajo, pues es bastante habitual trabajar en equipos interdisciplinares cuando se realizan peritajes forenses fonéticos. Para realizar el examen de autenticidad de una grabación, como detectar cortes y manipulaciones, es habitual un método conocido como análisis de la fre-

24

La fonética forense

cuencia de la red eléctrica (Grigoras, 2005; Cooper, 2009). Se trata de una técnica forense que consiste en comparar, por un lado, los cambios de frecuencia en la red eléctrica que existen de fondo en cualquier grabación con, por otro lado, los registros históricos de alta precisión de cambios de frecuencia de la red eléctrica que se tienen en una base de datos. Estos registros históricos de los cambios en la frecuencia de la red los conserva guardados la policía de diversos países europeos. Aunque es un método relativamente reciente, algunos investigadores lo consideran uno de los desarrollos más significativos en análisis forense de audio. En esta técnica, la señal de zumbido de la red se trata como si fuera una marca de agua digital dependiente del tiempo (esto es, sabemos que ocurrió en un momento determinado) que puede ayudar a establecer si una grabación digital se creó en el momento en que se supone que se hizo, y con ello se puede detectar cualquier edición en ella (Grigoras, 2005). Esto se debe a que los generadores eléctricos emiten un zumbido continuo, pero no uniforme, ya que depende de la demanda eléctrica de cada momento. La clave de este método radica en que dicho zumbido no uniforme que corresponde a la señal eléctrica se puede encontrar en la señal acústica y, lo más importante, se puede comparar con unos registros de la corriente eléctrica de una localidad o una zona concreta que conserva la policía y, de esta forma saber si se hizo un corte o una manipulación. Si el patrón que se encuentra en la señal de la voz (ruido blanco eléctrico) no se corresponde con los patrones que se tengan registrados, es que se ha manipulado de algún modo. Grigoras (2005) presenta un caso real en el que se utilizó el método (también llamado criterio) de la frecuencia de la red eléctrica para investigar un archivo de audio creado con un sistema de vigilancia secreto. Cooper (2009) confirma la utilidad de dicho método en el Reino Unido y describe un enfoque automatizado para comparar las estimaciones de frecuencia de la red eléctrica encontradas en una grabación dubitada con una base de datos de valores frecuenciales de la red eléctrica. La investigación llevada a cabo por Cooper (2009) demuestra que su enfoque automatizado tiene la ventaja de producir datos estadísticos capaces de indicar la

2. Principales campos de actuación de la fonética forense

25

fuerza de la evidencia; en este caso, la similitud entre la muestra dubitada y la base de datos de referencia. Tanto el procedimiento para la extracción robusta de señales frecuenciales de la red eléctrica como las técnicas de procesamiento de señales descritos en Cooper (2009) han sido utilizados con éxito por el Laboratorio de Audio Forense de la Policía Metropolitana de Londres. No obstante, este método no está exento de limitaciones. Según Cicres (2011), la técnica descrita por Grigoras (2005) y Cooper (2009, 2011) solamente puede aplicarse a grabaciones de buena calidad, puesto que consiste en el análisis del ruido emitido por la red eléctrica a una frecuencia de 50 Hz. Como señala Cicres (2011: 30): Esas frecuencias son captadas por cualquier aparato grabador que esté conectado a la red eléctrica y que haga uso de un método de grabación y de un formato de archivo que realmente almacene estas frecuencias. En grabaciones hechas con formatos comprimidos o de baja calidad raramente estas frecuencias quedan registradas nítidamente y, por tanto, el método no es aplicable.

En cualquier caso, conviene remarcar que uno de los dos objetivos que se señalan en las Directrices del Grupo de Trabajo en Análisis Forense de Audio y Habla del ENFSI (en español, la Red Europea de Institutos de Ciencias Forenses) consiste precisamente en «promover el análisis ENF como una parte importante del proceso de autenticación de las grabaciones de audio digital, así como de audio/vídeo» (Grigoras, Cooper y Michalek, 2009: 2). Faundez-Zanuy, Lucena-Molina y Hagmüller (2010) discuten sobre las ventajas del método de la marca de agua, resaltando que su propuesta permite introducir información relevante como la fecha y hora de grabación, y todos los datos relevantes (esto no siempre es posible con los sistemas clásicos). Además, sus resultados experimentales revelan que el procedimiento de marca de agua del habla no interfiere de manera significativa con la identificación forense posterior del hablante. Por su parte, Cicres (2011) habla de tres posibles enfoques para determinar la autenticidad de una grabación: físico, auditi-

26

La fonética forense

vo y acústico. El físico se corresponde con el análisis frecuencial de la red eléctrica que acabamos de describir; el auditivo consistiría, en palabras de Cicres (2011: 30): En una escucha atenta por parte de un lingüista experto con el objetivo de detectar discontinuidades en la estructura discursiva o sintáctica, de patrones entonativos, de los patrones del ruido de fondo, etc.

Finalmente, para el enfoque acústico nos centraríamos en analizar las características acústicas de las grabaciones mediante representaciones gráficas, como oscilogramas y espectrogramas. Lucena Molina (2005) menciona seis etapas que han de seguirse en un estudio de autenticidad en grabaciones de audio en soportes magnéticos: examen físico del soporte de la grabación, escucha crítica, análisis de forma de onda, análisis frecuencial, análisis espectrográfico y análisis espacial. Además, Lucena Molina (2005: 8) menciona que: La autentificación digital necesita de la incorporación de sistemas de seguridad informáticos como la firma electrónica, la técnica del timestamping, los algoritmos hashing u otros sistemas de análogas características.

Lucena Molina, en calidad de comandante de la Guardia Civil española y jefe del Departamento de Acústica e Imagen del Servicio de la Guardia Civil, indica en Lucena Molina (2005: 7-8) que: Cuando un Juez solicita de un perito que examine si una grabación puede ser calificada de auténtica, lo que en nuestra opinión es importante es preguntarse por los siguientes elementos: indicios de originalidad, precisión, integridad, y ausencia de alteraciones inexplicables, entendiendo por tales las manipulaciones o los fenómenos cuya explicación escapa al control técnico de los peritos, teniendo en cuenta su formación y experiencia profesional.

En cuanto a la expresión de conclusiones en el ámbito de la autenticación de grabaciones, ya en 2005 Lucena sostiene que

2. Principales campos de actuación de la fonética forense

27

«las conclusiones deberían exponerse siguiendo la pauta propuesta por la valoración bayesiana de la evidencia» (Lucena Molina, 2005: 8). Es la misma idea que se recoge en las Directrices del Grupo de Trabajo del ENFSI en Análisis Forense de Audio y Habla que mencionamos antes; esto es, en el área de autenticación forense de audio digital y grabaciones de audio/video (apartado 6 de las Directrices «Evaluación e interpretación»). Aunque trataremos la cuestión del enfoque bayesiano en el ámbito forense con más detenimiento en el capítulo 6 de este libro (y la describimos brevemente en el apartado 2.5 de este capítulo cuando introducimos la comparación forense de voces), podemos utilizar el ejemplo de Lucena Molina (2005: 8) sobre cómo debería ser la expresión de conclusiones del perito que ha realizado la autenticación de una grabación: Una vez examinada la evidencia con los análisis establecidos por la instrucción técnica del Departamento, lo observado es más probable encontrarlo si la hipótesis de que la grabación es auténtica es cierta que si la hipótesis alternativa y, en este caso, complementaria, lo fuera.

2.3. Determinación del contenido de una grabación En este campo de actuación de la fonética forense, hay quien distingue entre la tarea de transcripción propiamente dicha y la de determinar el contenido de una grabación. Para algunas personas es lo mismo; hay investigadores que hablan de tareas distintas. Por transcripción nos referimos al proceso de reflejar por escrito lo que el hablante dice en la grabación; por tanto, se trata de un concepto muy general referido a la transcripción completa de un archivo sonoro. El análisis del contenido de la grabación haría referencia al proceso detallado de encontrar para una sección concreta de la grabación (sujeta a disputa) qué dice realmente el hablante. Podemos pensar, por ejemplo, en un peritaje en el que una palabra o una frase en concreto podrían ser incri-

28

La fonética forense

minatorias. La defensa insiste en que el acusado dice suerte, mientras que el fiscal sostiene que el acusado dice fuerte. En un espectrograma extraído de una grabación de buena calidad, se debería poder distinguir la fricativa alveolar sorda [s] de suerte de la fricativa labiodental sorda [f] de fuerte. No obstante, cuando la calidad de la grabación no es óptima (que suele ser la realidad de las grabaciones que nos encontramos en la práctica forense), aumentan las posibilidades de confundir los sonidos. De ahí la importancia de la intervención de un experto que dilucide cuál es el sonido o segmento que queda sujeto a duda, ya que el hecho de que una persona haya dicho una cosa u otra puede tener consecuencias legales importantes, como que algo pueda convertirse en una amenaza y la persona en cuestión pueda ir a la cárcel (French y Fraser, 2018). Es lo que se conoce como emisiones discutidas, del inglés disputed utterances. Para French y Stevens (2013), tanto la transcripción como esta tarea consistente en determinar expresiones poco claras o controvertidas pertenecen a lo que ellos llaman análisis de contenido del habla (cf. French y Stevens, 2013: 183-185). Las dos tareas ocupan los dos extremos de un continuum que va de la tarea más general, que sería la transcripción, a la más específica, que sería la determinación de emisiones discutidas, pero cualitativamente no se diferencian. En cualquier caso, es necesario precisar que la transcripción será siempre ortográfica; no fonética. Si bien el Alfabeto Fonético Internacional (AFI) es un recurso útil para los fonetistas en otros ámbitos, ya que nos permite referirnos a los sonidos con un símbolo concreto (que hace referencia a un modo y a un punto de articulación específicos), en el ámbito forense no se suele usar el AFI, ni otros alfabetos, como puede ser el SAMPA (speech assessment methods phonetic alphabet), un alfabeto fonético basado en el AFI pero legible por ordenador mediante caracteres ASCII de 7 bits (Wells, 1997). La razón por la cual no se utilizan estos alfabetos es porque no los conocen ni jueces ni abogados ni, en definitiva, ninguno de los interesados en solicitar este tipo de peritaje. Por tanto, cuando se solicita una transcripción, esta va a ser, por lo general, de tipo ortográfico. Lo que en principio

2. Principales campos de actuación de la fonética forense

29

puede resultar una tarea sencilla no lo es tanto si pensamos en la distorsión presente en este tipo de grabaciones (muchas veces grabaciones encubiertas), que puede deberse a muchos factores y que dificultan tanto el análisis auditivo como el análisis acústico de la grabación. De hecho, el motivo por el cual se solicita a un experto fonetista este tipo de peritajes es la falta de claridad y la mala calidad en las emisiones. Entre las causas más comunes, encontramos la existencia de ruido de fondo, porque las grabaciones se han hecho a escondidas, o bien en una calle con tráfico, o bien en un bar con mucha gente, por poner algunos ejemplos habituales. En otras ocasiones, la dificultad estriba simplemente en que la voz presente en la grabación es muy patológica, o bien tiene un fuerte acento extranjero. En cualquiera de esos dos casos, las voces resultan ininteligibles para un oído no entrenado y, en ocasiones, también para los expertos. Esta es precisamente una de las cuestiones que más le preocupan a la investigadora Helen Fraser, que se ha centrado en este campo concreto de aplicación de la fonética forense. En una de sus obras más recientes, French y Fraser (2018) explican por qué no debe ser la policía la que proporcione las transcripciones de las grabaciones de voz en el contexto forense. Asimismo, proponen algunos puntos de acción para promover métodos más fiables en el ámbito de la transcripción de grabaciones. Si bien es cierto que estos autores basan sus críticas en el contexto jurídico anglosajón (con la figura procesal clásica del jurado; ciudadanos que, no siendo jueces, participan en la administración de justicia, dictando el fallo o veredicto), sus propuestas de mejora son extrapolables a otros países y jurisprudencias. Por ejemplo, French y Fraser (2018) critican que se otorgue la etiqueta de experto ad hoc para la realización de transcripciones a los agentes o funcionarios de la policía simplemente por el hecho de haber tenido una prolongada y repetida exposición a las grabaciones que deben transcribirse. Estos autores argumentan que dichas transcripciones son propensas a una falta de fiabilidad importante, lo que conduce a los jurados a malinterpretar los contenidos de las conversaciones. Esto es así porque al jurado se le presenta, desde el principio, la grabación junto con la transcrip-

30

La fonética forense

ción realizada por la policía. El jurado no siempre es consciente del papel que desempeña el contexto y la susceptibilidad que tienen sus expectativas de percepción de ser manipuladas, en lo que se conoce como sesgo de percepción o priming, que sería un concepto con unas connotaciones menos negativas que sesgo, según los autores. En la mayoría de los casos, las expectativas contextuales del jurado son razonables y el priming, que podemos traducir como preparación o imprimación perceptiva, simplemente los ayuda a escuchar de forma eficiente y precisa. El problema radica, como esgrimen estos autores, en que en otras ocasiones la imprimación perceptiva puede ser engañosa, particularmente cuando las expectativas contextuales no son fiables. De este modo, French y Fraser (2018) llegan incluso a aseverar que, a día de hoy, son insuficientes los procedimientos judiciales actuales para mitigar los riesgos inherentes a la falta de fiabilidad en las transcripciones policiales. Cicres (2011: 28) ejemplifica el problema de las transcripciones en el ámbito judicial con un fragmento extraído de la sentencia sobre el juicio por los atentados terroristas del 11 de marzo de 2004 en Madrid.6 Por un lado, leemos lo siguiente: [...] las conversaciones de Rabei Osman EL SAYED AHMED en las que, según las acusaciones, se atribuye la autoría intelectual de los atentados al decir que «el hilo de lo de Madrid fue mío... era mi proyecto más querido», etc., son claramente equívocas –‌disco compacto único al folio 14229 y transcrita a los folios 15046, 16747, 24154 y ss.–.

Si leemos dos párrafos más adelante en esta sentencia, empezamos a ubicar el origen de los problemas surgidos con relación a esta transcripción en el hecho de que uno de los intérpretes no escuchó la cinta, sino que hizo una traducción sobre la transcripción en árabe de las conversaciones: 6.  Las sentencias absolutorias de Rabei Osman son: la de primera instancia dictada por la Audiencia Nacional el 31 de octubre de 2007 y la que resuelve el recurso de apelación dictado por el Tribunal Supremo el 17 de julio de 2008. Como indica Serranò (2012), estas sentencias han sido más comúnmente llamadas por los medios de comunicación «sentencias del 11-M».

2. Principales campos de actuación de la fonética forense

31

[...] el intérprete con número B-12 expuso cómo no oyó las cintas, sino que hizo las traducciones sobre las transcripciones en árabe de las conversaciones –‌ff. 83890 ratificación ante el instructor, 69066 y ss. entrega de la traducción–. Este intérprete aclaró que cuando se habla de grupo no es equivalente a organización y que la expresión «los jóvenes» es muy utilizada y no implica conocer a aquellos a los que se refiere.

En una segunda prueba pericial, practicada por los intérpretes a disposición del tribunal, estos afirmaron que: Al contrario de lo que dicen sus colegas italianos, en la conversación no se menciona a Al Qaeda y no existe la frase de atribución de los atentados de Madrid, concluyendo que carece de rigor y precisión. (ff. 8803 a 8854 del tomo 26 del rollo de Sala, Cicres, 2011: 28-29)

Lo cierto es que realizar una transcripción escrita de una conversación oral es ya lo suficientemente complicado, sin necesidad de ceñirnos al ámbito forense. Así se desprende de las investigaciones en el ámbito del análisis del discurso y del análisis conversacional (p. ej.: Cortés-Rodríguez y Camacho-Adarve, 2003; Tusón, 1995; Kerbrat-Orecchioni, 1996). Por más que existan convenciones de transcripción, cualquiera que se haya enfrentado a este tipo de tarea sabe que no está exenta de dificultades, debido a la existencia de ambigüedades y diversos matices pragmáticos presentes en el discurso oral (procedentes, por ejemplo, de la entonación, de cambios en la cualidad de voz del hablante, etc.) que son difíciles de plasmar en una transcripción escrita, por no mencionar la importancia del contexto, de los gestos y otros aspectos no verbales necesarios para comprender mejor la situación comunicativa. Desde la perspectiva del análisis del discurso y, más concretamente, desde los enfoques del análisis de la conversación, Haworth (2006) ha estudiado el discurso de las entrevistas policiales en el sistema judicial del Reino Unido. Está claro que este tipo de tarea incumbe a la lingüística forense (véanse los campos

32

La fonética forense

de actuación de esta, por ejemplo, en la página web de la International Association of Forensic and Legal Linguistics, IAFLL). Sin embargo, no se suele ubicar como una tarea propia de los fonetistas forenses, quizá porque los métodos usados en análisis del discurso trascienden los métodos habitualmente usados por fonetistas. En cualquier caso, muchas de las conclusiones a las que llegan estos investigadores, así como sus propuestas, no distan demasiado de las expuestas por French y Fraser (2018), que comentamos anteriormente. Por ejemplo, Haworth (2006) describe cómo la transcripción de una entrevista policial se puede presentar a un tribunal como prueba en un juicio y cómo estas a menudo influyen significativamente en el resultado de un caso. Esto puede llegar a ser problemático, ya que, en palabras de la autora (Haworth, 2006: 756): A través del proceso judicial, los datos de la entrevista se transforman e «interpretan» de una manera que pasa completamente desapercibida en los círculos legales, pero que es de gran importancia desde una perspectiva lingüística.

Como sigue explicando esta autora, primero el discurso original se graba, si bien la calidad de la grabación a menudo deja mucho que desear. Posteriormente, el contenido de dicha grabación es transcrito por los secretarios policiales. En su experiencia como fiscal, Haworth sostiene que ciertas características propias del discurso oral, como los solapamientos entre hablantes, las interrupciones y los marcadores del discurso se suelen omitir en este tipo de transcripciones. Además, se favorece el uso de la transcripción, casi exclusivamente, frente a la grabación sonora. Posteriormente, cuando llega el momento de presentar la entrevista como prueba en el tribunal, la costumbre, tildada como «extraña» por la propia Haworth, es que la transcripción se lea en voz alta, con el fiscal representando la parte del acusado y un policía leyendo en voz alta los turnos del entrevistador. La potencial distorsión de la evidencia a través de este proceso resulta obvia para el lingüista, pero no se reconoce prácticamente como tal dentro del sistema judicial.

2. Principales campos de actuación de la fonética forense

33

En el caso específico de las transcripciones efectuadas por los diferentes cuerpos de seguridad en España, Cicres (2011: 28) señala que la norma que se utiliza consiste en «transcribir ortográficamente con versiones legibles, aunque habitualmente se señalan también las marcas dubitativas». Mención aparte merecen los casos en los que el experto debe localizar y distinguir las distintas voces que intervienen en una conversación. Como destaca Cicres (2011), la tarea de transcripción lleva implícita la identificación de los diferentes interlocutores. Bien porque las voces de los participantes sean muy parecidas (mismo sexo y dialecto, edad parecida, etc.), bien por la mala calidad de la grabación, esta tarea puede presentar diversos grados de dificultad. Huelga decir que una separación errónea de los interlocutores en la conversación puede implicar graves consecuencias legales. Recientemente, los sistemas automáticos desarrollados para la comparación forense de hablantes (véase el apartado 3.5) se están especializando también en una tarea conocida como diarización de locutores, consistente en detectar los cambios de locutor en una grabación con múltiples participantes; esto es, determinar los intervalos de tiempo precisos en los que interviene cada hablante, generalmente sin ningún tipo de información adicional (como el canal o el ruido de fondo) que pueda ayudar con esta tarea (Anguera et al., 2012).

2.4. Diseño y validación de ruedas de reconocimiento A un fonetista forense también se le suele encargar que diseñe o valide una rueda de reconocimiento de voces, que sería el equivalente auditivo de las ruedas de reconocimiento visual, pero de lo que se trata aquí es de reconocer una voz, no una cara. Es un tipo de reconocimiento que, o bien una víctima, o bien un testigo, debe hacer después de delitos sufridos o presenciados en lugares oscuros o poco iluminados, o bien en lugares en los que el delincuente o agresor iba enmascarado. En definitiva, en todos

34

La fonética forense

aquellos casos en los que la pista visual no sirve, sino que la clave para encontrar al sospechoso es la voz, entendiendo que ha habido algún tipo de intercambio verbal o comunicación entre víctima y agresor. Como en las ruedas de reconocimiento visual, al testigo o víctima se le presentan diversas muestras para que elija la que cree que se corresponde con el autor del delito, si es que considera que alguna de las voces que se le presenta se corresponde con la que escuchó. Es decir, la no decisión por parte de la víctima también es una opción. Para simplificar, de ahora en adelante diremos víctima únicamente, y no víctima o testigo. No obstante, siempre que nos referimos a una víctima como persona que realiza la rueda de reconocimiento, hay que entender que también puede ser un testigo. Por otro lado, en el diseño de las ruedas de reconocimiento se puede optar por realizar ruedas de objetivo ausente o de objetivo presente (p. ej.: Manzanero, López y Contreras, 2009; Braun, 2012). De objetivo ausente quiere decir que el sospechoso no se incluye en la rueda de reconocimiento; de objetivo presente significa que sí que forma parte de la rueda. En su guía práctica para la elaboración de ruedas de reconocimiento de voz, De Jong-Lendle et al. (2015: 1) sugieren plantearse las siguientes preguntas antes de comenzar el diseño: 1. ¿Es realmente necesaria la rueda de reconocimiento? ¿Hay pruebas suficientes para que el juicio se celebre sin la elaboración de una rueda de reconocimiento o, por el contrario, no hay pruebas suficientes y una identificación positiva en la rueda de reconocimiento podría ser determinante como prueba en un juicio? Esta pregunta es importante, pues, como remarcan De Jong-Lendle et al. (2015), siempre existe el riesgo de un resultado negativo a pesar de que el sospechoso esté presente en la rueda (o sea, que la víctima realice una identificación incorrecta). Es importante reflexionar y discutir sobre el efecto que esa identificación incorrecta podría tener en un caso con pruebas suficientes que apunten en otra dirección a la que arrojan los resultados de la rueda de reconocimiento.

2. Principales campos de actuación de la fonética forense

35

2. La voz que se escucha en el momento del crimen, ¿es familiar o desconocida para la víctima? En función de una respuesta u otra, habrá que realizar una rueda de reconocimiento de un tipo o de otro. 3. ¿Cuánto tiempo ha pasado desde el momento del delito? En el caso de una voz desconocida, este lapso temporal es crucial, ya que la precisión del reconocimiento decae con el tiempo (Clifford, Rathborn y Bull, 1981). La cuestión de cuánto tiempo se puede demorar la realización de la rueda de reconocimiento tras el delito depende de factores como la duración y la naturaleza de la exposición a la voz del delincuente (Nolan y Grabe, 1996; Rietveld y Broeders, 1991), que son dos cuestiones que también hay que tener en cuenta para el diseño de una rueda de reconocimiento. En general, De Jong-­Lendle et al. (2015) recomiendan que no transcurran más de dos semanas entre el delito y la realización de la rueda, aunque en el caso de una voz familiar esta cuestión sería menos relevante. 4. ¿Se tiene acceso a grabaciones de, al menos, siete u ocho voces que sean compatibles con la voz del sospechoso, para usarlas como distractores? ¿O es la voz del sospechoso demasiado inusual o distintiva? 5. ¿Justifica la gravedad del delito los costes de la elaboración de la rueda de reconocimiento? Aunque es el último punto, De Jong-­Lendle et al. (2015) inciden con frecuencia en que este tipo de ruedas de reconocimiento conllevan mucha inversión de tiempo y son costosas. En relación con el quinto punto, conviene destacar que no se especifica en ningún momento qué hace especialmente costoso el diseño de estas pruebas. Se desprende del estudio de De Jong y sus colegas que lo que más encarece la creación de estas ruedas es el tiempo invertido por el experto en encontrar las muestras adecuadas para que el test sea justo para todas las partes (víctima y sospechoso). Por ejemplo, en dicho estudio, para crear las ocho muestras de voz que sirven como distractores, se recurre a grabaciones previas de entrevistas policiales relacionadas con

36

La fonética forense

otros crímenes en la misma área geográfica. Además, se busca que distractores y sospechoso coincidan en edad aproximada, por un lado, y, por otro, que sus entrevistas estén relacionadas con el tipo de crimen que se investiga. De entre todas las posibles grabaciones que cumplían esos requisitos, De Jong-Lendle et al. (2015) descartaron: 1. Aquellas que contenían muy poca cantidad de habla neta; es decir, con muchos silencios o partes de la grabación que no resultaban útiles. 2. Aquellas en las que la voz del hablante era demasiado diferente a la del sospechoso en cuanto a: a) acento regional (combinado con formación educativa); y b) cualidad de voz. 3. Aquellas con mala calidad de grabación. 4. Aquellas en las que el hablante estaba notablemente cansado, padecía un catarro o intoxicación alcohólica. Vemos, pues, que son varios los factores que hay que tener en cuenta para diseñar una rueda de reconocimiento. Aunque en algunos países existen directrices para llevar a cabo estos diseños (Nolan y Grabe, 1996; Nolan, 2003), todavía se siguen investigando muchas cuestiones relacionadas con este campo de actuación de la fonética forense, por ejemplo: cuántas voces deben presentarse como distractores y qué duración deben tener estas (Paver et al., 2021); cómo de similares han de ser entre sí y cómo medir esta similitud (Rietveld y Broeders, 1991; McDougall, 2013), incluyendo la similitud en cuanto a cualidad de voz de las muestras (San Segundo et al., 2017); cómo afecta el hecho de que la víctima no esté familiarizada con el idioma (San Segundo et al., 2016) o con el acento regional de la voz que se ha de reconocer. Esta última cuestión se ha investigado en diversos idiomas (Kerstholt et al., 2006; Stevenage et al., 2012; Braun et al., 2018; San Segundo y Marrero, 2022) y resulta de gran interés desde un punto de vista dialectal y sociolingüístico, pues abre importantes interrogantes sobre cómo el hecho de no estar familiarizado con las variedades de prestigio en una determinada comunidad en ocasiones puede conducir a falsas identificaciones.

2. Principales campos de actuación de la fonética forense

37

Por último, existen estudios perceptivos en este ámbito forense que se centran en cuestiones más específicas, como las habilidades de reconocimiento de voces por parte de invidentes (Braun, 2012), el papel que juega la formación musical del oyente en este tipo de reconocimiento (San Segundo, 2014b), o el efecto que tiene un posible disimulo de la voz a la hora de realizar el reconocimiento perceptivo (Gil y San Segundo, 2013).

2.5. Comparación forense de hablantes Finalmente, como quinto campo de actuación de esta disciplina, tenemos la comparación forense de hablantes. Esta es la aplicación más habitual en fonética forense y consiste en comparar la grabación de un hablante desconocido con la grabación de uno o varios sospechosos. Al primer tipo de grabación lo llamamos muestra dubitada; a las segundas, muestras indubitadas. El objetivo de esta tarea es averiguar si la muestra dubitada y las indubitadas pertenecen al mismo hablante. Tradicionalmente esta tarea se ha llamado identificación de hablantes o de locutores. Todavía hay quien prefiere esa terminología, pero actualmente está mucho más extendida la de comparación forense de hablantes o comparación forense de voces. Este cambio de nombre viene marcado por el llamado «nuevo paradigma para la evaluación de las ciencias forenses» (Saks y Koehler, 2005; Morrison, 2009a), que afecta tanto a la evaluación como a la presentación de la evidencia científica. El cambio de paradigma se originó en el ámbito de la comparación de perfiles de ADN en los años noventa y el resto de las ciencias forenses empezaron poco después a emular su modelo, cuyas características principales son (Morrison, 2009a; San Segundo, 2011): • Análisis probabilístico basado en datos. • Uso de bases de datos con características muestrales de una población de referencia relevante. • Cuantificación de las limitaciones de la comparación forense llevada a cabo mediante índices de error.

38

La fonética forense

Bajo esta perspectiva, la función del científico forense sería la de ofrecer al juzgador de los hechos (juez o jurado, generalmente) un informe con la fuerza de la evidencia en respuesta a la pregunta: «¿Cuánto más probable es que las diferencias observadas entre las muestras indubitada (muestra de origen conocido) y dubitada (muestra de origen desconocido) ocurran bajo la hipótesis de que ambas muestras tienen el mismo origen que bajo la hipótesis de que estas tienen un origen distinto?». Un cuarto y último componente del nuevo paradigma que Morrison (2009a) considera implícito en Saks y Koehler (2005) es la adopción del marco de relaciones de verosimilitud o marco bayesiano. De estas cuestiones trataremos más extensamente en el capítulo 5. Puesto que la comparación forense de hablantes es la tarea más conocida y la que se solicita con más frecuencia al perito en fonética forense (French, 1994), se desarrollará con más detalle en los siguientes capítulos. Dado que en este capítulo estamos describiendo de manera somera los cinco grandes grupos de actuación de la fonética forense con ejemplos prácticos tomados de casos forenses reales, retomamos ahora el caso de la pista falsa de John Samuel Humble en el caso investigado por la policía británica que describimos en el apartado 2.1 (el caso del destripador de Yorkshire). Como ya explicamos antes, el peritaje lingüístico incluía un cotejo de voces. En concreto, se comparó la grabación dubitada de 1979 (la llamada a la policía) con una grabación en dependencias policiales realizada a John Samuel Humble, cuando fue detenido en 2005 como sospechoso de hacerse pasar por el asesino de 13 mujeres, pervirtiendo, de este modo, el curso de la justicia. Si bien es cierto que entre las dos grabaciones median 26 años (y, como veremos en el capítulo 4, el paso del tiempo es un factor importante de variación intralocutor), los peritos forenses que llevaron este caso consideran que este «presta importante apoyo a la posición expuesta por Hollien y Schwartz (2000) de que para algunos individuos, sus características vocales y sus hábitos del habla perduran durante largos períodos de tiempo y que la comparación forense de hablantes no solo es posible en casos de cotejos de voces ampliamente separadas en el tiempo,

2. Principales campos de actuación de la fonética forense

39

sino que la misma está perfectamente justificada» (French, Harrison y Windsor Lewis, 2006: 271). Con base en el abrumador grado de similitud entre la voz dubitada y la indubitada, tanto a nivel segmental como prosódico, y ante la ausencia de diferencias importantes entre ambas muestras, estos fonetistas llegaron a la siguiente conclusión, expresada así en un informe firmado por French (French, Harrison y Windsor Lewis, 2006: 262): A pesar de la naturaleza no contemporánea de las dos grabaciones, varios puntos de similitud, muy llamativos y distintivos, surgieron de la comparación de ambas muestras en todas las dimensiones examinadas. Fonética y acústicamente, los patrones de la voz y el habla del bromista son consistentes con los del Sr. Humble en todos los aspectos significativos. Si bien, en el estado actual de los conocimientos, no se puede excluir la posibilidad de que existan otros individuos en la población que compartan la constelación de rasgos que comparten la muestra dubitada y la indubitada, con respecto a estas grabaciones en particular, consideraría que esa posibilidad es remota.

Es precisamente esa posibilidad de que existan otros individuos en la población que compartan los rasgos de las muestras de voz examinadas de lo que se ocupa explícita (o, si se prefiere, cuantitativamente) el marco bayesiano de evaluación de la evidencia forense; cuestión que retomaremos en el capítulo 5. En cuanto a los distintos métodos que existen para realizar el cotejo de voces y a los parámetros fonéticos más relevantes, hablaremos en el capítulo 4. A modo de ejemplo, el método que French, Harrison y Windsor Lewis (2006: 259) utilizaron en el peritaje que realizaron de la voz de Humble, fue «el método combinado auditivo-fonético y acústico-fonético que implica el análisis de, entre otras cosas, la cualidad de la voz, el ritmo, la entonación y diversos rasgos segmentales a través de la escucha asistida por la notación fonética, así como análisis acústicos realizados con programas informáticos, incluyendo la frecuencia fundamental media, espectrografía y análisis de formantes vocálicos». Para una relación exhaustiva de los fenómenos fonéticos

40

La fonética forense

analizados en estas grabaciones, véase French, Harrison y Windsor Lewis (2006: 259-262). La figura 1 muestra una carta de formantes con los valores frecuenciales centrales del primer y segundo formante (F1 y F2) de las vocales del español extraídas a partir de las frases pronunciadas por un hablante masculino en una tarea de lectura. Los valores frecuenciales (medidos en hercios, Hz) de F1 y F2 se representan como puntos en un eje de coordenadas, situando la frecuencia del primer formante en el eje de ordenadas y la frecuencia del segundo formante en el eje de abscisas. En este caso, se obtuvieron seis valores para cada vocal. Se representa con una vocal de mayor tamaño la frecuencia media de estos seis valores. Utilizamos la elipse para mostrar el campo de dispersión de los valores. Del mismo modo, French, Harrison y Windsor Lewis (2006) utilizan las cartas de formantes para representar gráficamente los valores frecuenciales de /ɪ/ y /a/ en la grabación dubitada y en la grabación indubitada en el caso del destripador de Yorkshire.

Figura 1.  Carta de formantes con los valores frecuenciales centrales (F1 y F2) de las vocales del español en un hablante masculino. Se obtuvieron seis valores para cada vocal. Se representa con una vocal de mayor tamaño la frecuencia media de estos seis valores.

2. Principales campos de actuación de la fonética forense

41

3 La comparación forense de hablantes: contextualización histórica

3.1. Introducción a la comparación forense de hablantes Como explicamos en el capítulo 2, la comparación forense de hablantes (CFH en adelante) es la tarea que se solicita con más frecuencia al experto en fonética forense (French y Stevens, 2013). Para realizar una CFH, son necesarias, por un lado, una o varias grabaciones de la voz de un hablante desconocido (esta grabación se asocia a un delito; la llamamos grabación dubitada), y, por otro, la existencia de, al menos, una grabación de un hablante del que se sospecha que sea el mismo que escuchamos en la grabación dubitada. A esta última grabación la denominamos indubitada. El objetivo de esta tarea es averiguar si la muestra dubitada y las indubitadas pertenecen al mismo hablante. En cuanto a los delitos que encontramos con más frecuencia en CFH, según recogen Nolan (2001) o Jessen (2008), tenemos amenazas de bombas, fraudes bancarios, secuestros en los que se pide un rescate por teléfono, conversaciones que tratan sobre tráfico de drogas o delitos de acoso. Aunque pueda parecer obvio señalar que la comparación de la muestra de habla dubitada y la indubitada se realiza con el objetivo final de identificar al hablante involucrado en alguno de los delitos que hemos descrito, existen algunas controversias

43

terminológicas que cuestionan la idoneidad del uso del término identificación, que es el que se ha usado tradicionalmente para referirse a esta tarea de la fonética forense. Como se explica en San Segundo (2014a), podría establecerse que la publicación de Saks y Koehler (2005) de alguna manera desencadena el cambio de denominación de «identificación forense de locutor» a «comparación forense de locutor». Los autores de este artículo sostienen que todas las ciencias forenses deberían emular el enfoque de la comparación de perfiles de ADN, donde un cambio de paradigma ya habría ocurrido a partir de los años noventa. González-­ Rodríguez et al. (2007) y Morrison (2009a) son dos artículos representativos donde se puede encontrar información más detallada sobre cómo la CFH podría avanzar hacia un riguroso marco destinado a cumplir con los criterios de admisibilidad de la evidencia actuales y donde se resumen las principales características del llamado «nuevo paradigma para la evaluación de las ciencias forenses» (Saks y Koehler, 2005; Morrison, 2009a), que afecta tanto a la evaluación como a la presentación de la evidencia científica (véase el apartado 3.3). Algunas de las características fundamentales de este nuevo paradigma radican en la importancia de construir «bases de datos de características de la muestra y usar estas bases de datos para apoyar un enfoque probabilístico para la identificación» (Saks y Kohler, 2005: 893). Quienes apoyan el uso de comparación sobre identificación basan su argumento en el hecho de que la tarea específica del fonetista forense en un caso de CFH no es realizar una identificación como tal, sino ofrecer una respuesta a la siguiente pregunta: «¿Cuánto más probable es que la magnitud de la diferencia entre muestras se deba a que provengan del mismo hablante que a que provengan de diferentes hablantes» (Rose, 2002: 89). La respuesta a esa pregunta se expresaría cuantitativamente como una razón de verosimilitud (LR, por likelihood ratio, en inglés). Aunque en el capítulo 5 definimos este concepto de manera más exhaustiva, es importante señalar en este punto que una LR es una expresión de la probabilidad de obtener la evidencia dada la hipótesis de mismo hablante frente a la hipótesis de diferente hablante, y no la probabilidad de las hipótesis dada la evidencia:

44

La fonética forense

Si el científico forense fuera a presentar la probabilidad de mismo origen frente a diferente origen, y las pruebas fueran potencialmente incriminatorias, entonces estaría usurpando el papel del juzgador de los hechos. (Morrison, 2009a: 300)

La principal razón para apoyar el uso de comparación frente a identificación se desarrolla más explícitamente en Morrison (2009a: 300): En el marco de las razones de verosimilitud el forense no realiza identificación o individualización, porque estos términos implican determinar la probabilidad a posteriori (véase Meuwly (2006) para más detalles sobre los problemas terminológicos y lógicos con el uso de los términos identificación e individualización en ciencias forense). Un término neutral como comparación es más apropiado. (Morrison, 2009a: 300)

Antes de Morrison, algunos autores como Rose (2002, 2006) ya habían señalado que los términos reconocimiento e identificación serían igualmente inapropiados para referirse a esta actividad dentro de la fonética forense. La sustitución de identificación de hablantes por comparación de hablantes no parece caprichosa, precisamente por lo que acabamos de explicar. Responde más bien a un afán de querer separar el rol del científico forense (o perito, si se prefiere) del papel del juzgador de los hechos (en España, el juez, por lo general). En la perspectiva bayesiana, el papel de uno y otro está claramente diferenciados. Quien identifica es siempre el juez. Como señala Morrison (2011: 8), si el perito afirmara que su tarea es identificar a un hablante, estaría usurpando el papel al juez, que es quien decide en última instancia, teniendo en cuenta no solo el informe del científico (la LR que le haya proporcionado para la evidencia de voz en concreto), sino también el resto de la información del caso; sobre todo las probabilidades a priori. Puesto que es el juez el que conoce esa probabilidad a priori, es el único que puede llegar a la probabilidad a posteriori, que es la que decidirá el caso, y no el informe del perito. La preferencia del uso de comparación, fren-

3. La comparación forense de hablantes: contextualización histórica

45

te a identificación, tendría que ver con la importancia de que el perito no presente la probabilidad de las hipótesis (mismo hablante frente a distinto hablante) dada la evidencia. En la lógica bayesiana que subyace a este paradigma, de esa manera se estaría incurriendo en una transposición del condicional (Evett, 1995). Determinar la probabilidad de la culpabilidad frente a la probabilidad de la inocencia no es el cometido del perito. Como se explica en San Segundo, Univaso y Gurlekian (2019), el uso de los términos identificación e individualización, o bien adjetivos como única para referirse a la voz de una persona es especialmente preocupante, sobre todo cuando dichos sustantivos van acompañados, en los peritajes de voz, de otras palabras como absoluta, incuestionable o expresiones como «más allá de toda duda razonable». Saks y Koehler (2008) o Saks (2010) inciden en estas cuestiones y llegan a hablar incluso de la falacia de la individualización que existe en muchas ciencias forenses. Finalmente, hay que señalar que, en la bibliografía actual, sobre todo en inglés, existe alternancia entre «comparación forense de hablantes» (p. ej.: Foulkes y French, 2012; San Segundo, 2014a) y «comparación forense de voces» (p. ej.: Morrison, 2010; San Segundo, 2011), sin que exista necesariamente un motivo de peso para elegir una denominación u otra. La opción preferida por la European Network of Forensic Science Institutes (ENFSI) en su reciente manual de buenas prácticas (ENFSI, 2021) es comparación forense de hablantes. Este es el nombre que hemos adoptado también en este libro, aunque en ocasiones lo alternamos con cotejo de voces, que es un término muy utilizado también en el contexto pericial en España.

3.2. La polémica técnica del voiceprint Actualmente existe bastante consenso entre los fonetistas forenses de todo el mundo en torno a los métodos empleados para realizar CFH. Como veremos en el capítulo 4, los expertos en este ámbito suelen utilizar una metodología mixta o híbrida; a veces se habla de método combinado, precisamente porque combi-

46

La fonética forense

na enfoques y técnicas lingüístico-fonéticas, de tipo perceptivo y acústico, junto con la utilización de métodos automáticos (p. ej.: sistemas de reconocimiento automático de hablantes). No obstante, no siempre ha existido este consenso con respecto a la metodología mixta. Los inicios de la CFH han estado ligados inexorablemente a la controversia suscitada por las primeras técnicas que se aplicaron con el fin de comparar voces. Nos referimos a la técnica del voiceprint, popularizada a partir de la Segunda Guerra Mundial gracias al desarrollo del sonógrafo, también llamado espectrógrafo. Se trata de un instrumento de análisis acústico de la onda sonora mediante su descomposición en armónicos. Esta es la descripción realizada por Albalá (2014) sobre el espectrógrafo (figura 2) de Kay Elemetrics, que data de 1970 y se encuentra en el Laboratorio de Fonética del CSIC: Esa descomposición se lleva a cabo mediante el procedimiento matemático conocido como análisis de Fourier. El espectrógrafo o sonógrafo realiza automáticamente ese análisis, y presenta el resultado de forma visual en un sonograma o espectrograma. El sonógrafo permite grabar la voz, analizar las duraciones y las frecuencias de las ondas sonoras, y medir la intensidad. El sonograma muestra el espectro acústico del sonido, en el que alternan manchas oscuras, en las frecuencias donde hay energía, y zonas blancas en las regiones donde no la hay. El grado de ennegrecimiento de las manchas es el reflejo gráfico de la intensidad. Este sonógrafo, de Kay Elemetrics, de 1970, inscribía el sonograma en un papel sensible a las señales eléctricas y, a diferencia de los modelos más antiguos, presentaba los distintos instrumentos de análisis (el espectrógrafo propiamente dicho, el cilindro para el papel con la aguja inscriptora, y el módulo para calcular la línea envolvente de intensidad) integrados en un solo elemento.

Efectivamente, la técnica del voiceprint se empezó a utilizar dentro del ámbito policial y forense en Estados Unidos en la década de los sesenta, gracias a la aparición del espectrógrafo dos décadas antes. Aunque sus aplicaciones de identificación de hablantes gozaron de gran popularidad durante la Segunda Guerra

3. La comparación forense de hablantes: contextualización histórica

47

Figura 2.  Espectrógrafo Kay Elemetrics. Fuente: sitio web del Museo Virtual de la Ciencia del CSIC. Autor: Esteban Moreno Gómez (Plan de Recuperación de Instrumentación Histórica del CSIC).

Mundial, como recalca Eriksson (2005: 3), «la motivación original detrás del desarrollo del espectrógrafo fue el estudio fonético del habla». Antes de utilizarse con fines forenses, se había utilizado en investigaciones de habla y música, como una ayuda para el entrenamiento en la pronunciación de pacientes sordos y también como un recurso para la enseñanza de la pronunciación de lenguas extranjeras.

48

La fonética forense

La polémica con respecto al uso de la técnica del voiceprint surge en los años sesenta de la década pasada cuando un investigador de los laboratorios Bell, G. Kersta, empieza a utilizar el sonógrafo para identificar a las personas por su voz. Debemos señalar que la polémica es doble. Por un lado, es controvertido el propio nombre de la técnica: voiceprint. Por otro, la técnica en sí tampoco está exenta de críticas. Si nos centramos en el nombre voiceprint, independientemente de que fuera acuñado por el propio Kersta (Lucena Molina, 2005) o de que ya existiera este término en los primeros informes internos publicados por Grey y Kopp (1944), la asociación metafórica con el término fingerprint parece evidente, y resulta ciertamente desafortunada, ya que sirvió para difundir erróneamente la idea de que una voz es igual que una huella dactilar. Efectivamente, Kersta partió de la hipótesis de que la voz de cada individuo es tan única como su huella dactilar y afirmaba que, gracias al análisis espectrográfico, era posible determinar lo que él llamaba la huella acústica de un hablante. Kersta sostenía que esa unicidad de la voz se debía a los propios mecanismos fisiológicos que producen la señal acústica: la anatomía de cada individuo; esto es, sus cavidades vocales o resonadores y los articuladores (lengua, dientes, labios, entre otros). Así, Kersta no contemplaba la posibilidad de encontrar a dos personas idénticas en cuanto a la disposición anatómica o al uso de sus articuladores. Sin embargo, como sabemos la mayoría de los investigadores en fonética forense, la cuestión de la identificación de las características que individualizan a un hablante que se puedan encontrar en la señal acústica no es un asunto baladí, debido, entre otros factores, a la variabilidad intralocutor (véase el capítulo 5). Respecto a las técnicas empleadas, en sus investigaciones de laboratorio, Kersta (1962) solo lleva a cabo análisis visuales, con diez palabras muy comunes en inglés: a, and, I, is, it, me, on, the, to y you, grabadas de forma aislada. Los resultados de sus investigaciones muestran que, visualizando únicamente una de estas palabras, la tasa de error es de un 1 %, aproximadamente, siempre y cuando el evaluador fuera alguien con entrenamiento en la

3. La comparación forense de hablantes: contextualización histórica

49

realización de este tipo de tareas. La tasa de error sería incluso más baja si los evaluadores comparan varias de las palabras indicadas anteriormente. Las técnicas de Kersta son admitidas por primera vez en un juicio en el caso People v Straehle en 1966. Después de este caso, Kersta sigue actuando como perito en varios casos más. Sus técnicas son admitidas en los juicios por dos razones, fundamentalmente: 1) el silencio de la comunidad científica, del cual se desprende una aceptación tácita de sus métodos, y 2) el hecho de que la técnica en sí no incumple el estándar Frye, que es la prueba utilizada en los tribunales estadounidenses en ese momento y que establece que la evidencia científica presentada ante el tribunal debe ser interpretada por el tribunal como «generalmente aceptada» por un segmento significativo de la comunidad científica relevante. En 1967 la comunidad científica comienza a interesarse por esta cuestión y el método de Kersta es escudriñado, discutido y, finalmente, puesto en cuestión. El estudio de Young y Campbell (1967) demuestra que, para una muestra de cinco hablantes, la tasa de identificación correcta es del 78,4 % cuando se usan palabras aisladas, pero solo del 37,3 % si se utilizan palabras extraídas de enunciados de habla espontánea. Tanto Young y Campbell (1967) como Stevens et al. (1968) demostraron con sus estudios que algunos hablantes (atendiendo únicamente a sus espectrogramas) son considerablemente más difíciles de reconocer que otros. Por mencionar algún estudio más de los que se publicaron en estos años, Endres et al. (1971) probaron las variables edad, disimulo de la voz e imitación de la voz con el fin de evaluar si estas afectaban a los resultados de identificación siguiendo la metodología de Kersta. Los análisis realizados con seis hablantes de edades comprendidas entre los 29 y los 43 años ofrecen resultados inequívocos, como destaca Meuwly (2003: 224): Ni la estructura de los formantes de las vocales ni la frecuencia fundamental son independientes de la edad. La posibilidad de que la estructura formántica de las vocales y la frecuencia fundamental

50

La fonética forense

cambien debido a un disimulo deliberado de la voz es considerable. En el caso de la imitación de la voz, las características imitadas permiten asociar auditivamente la voz del imitador con aquella de la persona imitada, pero estas características son difíciles de definir y localizar en los espectrogramas.

Como vemos, son numerosos los estudios que se sucedieron con resultados similares. Las tasas de error en la identificación de hablantes utilizando la técnica del voiceprint arrojan resultados dispares, con tasas de error bastante más altas que las obtenidas por Kersta, aunque lo cierto es que la técnica de comparación visual de espectrogramas siguió contando con defensores (Tosi et al., 1972a, 1972b; Tosi y Nash, 1973); incluso la seguirían utilizando algunos detectives privados y «expertos» fuera del ámbito académico, en palabras de Eriksson (2011: 5). El lector interesado puede encontrar todos los argumentos expuestos por los detractores de esta técnica en las siguientes publicaciones: Bolt et al. (1969, 1970, 1973). A este respecto, hay que destacar que las publicaciones fueron fruto de un encargo por parte del Comité Técnico de Comunicación Oral de la Sociedad Acústica de Estados Unidos, que solicita a seis investigadores célebres en el campo de las ciencias del habla (Bolt, Cooper, David, Denes, Pickett y Stevens) un informe sobre la técnica del voiceprint en el que debían tener en cuenta una serie de cuestiones que generaban gran controversia en torno a la metodología. Efectivamente, en su respuesta, los autores ponen el énfasis en las lagunas metodológicas de Kersta y la técnica de comparación visual de espectrogramas. En el Congreso Anual de la IAFPA de 2007, celebrado en Plymouth (Reino Unido), se aprobó una resolución en la Asamblea General Anual de la asociación con el fin de presentar la posición de la organización en relación con las huellas de voz. La resolución dice así (sitio web de la IAFPA): La IAFPA se desvincula del enfoque de comparación forense del habla conocido como «voiceprints» o «voicegram» en el sentido descrito en Tosi (1979). Este enfoque para la identificación forense de

3. La comparación forense de hablantes: contextualización histórica

51

hablantes implica la comparación holística –‌es decir, no analítica– de espectrogramas de voz en ausencia de una interpretación basada en la comprensión de cómo los patrones espectrográficos se relacionan con los reflejos acústicos de los eventos articulatorios y las configuraciones del tracto vocal. La Asociación considera que este enfoque carece de base científica y no debe utilizarse en los peritajes de voz.

3.3. El cisma del nuevo paradigma Como explicamos en el apartado 3.2, desde que la voz se utiliza como evidencia forense han existido controversias metodológicas; la polémica suscitada por la técnica del voiceprint desde mediados de los años sesenta se puede considerar el primer cisma metodológico en el ámbito de la comparación forense de hablantes. A comienzos del siglo xix encontramos el segundo cisma que, de alguna manera, divide de nuevo a la comunidad científica internacional en el campo de la fonética forense. Esta división la produce la llegada del llamado nuevo paradigma para la evaluación de las ciencias forenses (Saks y Koehler, 2005; Morrison, 2009a), que explicamos sucintamente en el apartado 3.1 y que trataremos con más detalle en el capítulo 5. El cisma del nuevo paradigma se puede explicar a partir de seis publicaciones clave que se sucedieron desde 2005 y que reflejan las distintas opiniones, a veces enfrentadas, de algunos de los fonetistas forenses más relevantes. Explicaremos, a continuación, el intercambio de artículos científicos, publicados en diversas revistas en un breve espacio de tiempo (entre 2005 y 2010) y que prenden la mecha de un debate que, de alguna forma, continúa hasta nuestros días, aunque podemos decir que en el momento en que se escribe este libro, ya se ha producido una convergencia importante hacia el nuevo paradigma por parte de la mayoría de los investigadores que trabajan en CFH. No obstante, sigue existiendo un contraste importante entre las investigaciones en el ámbito académico (que se han inclinado hacia el uso de LR) y la realidad de la práctica forense internacional,

52

La fonética forense

donde todavía el experto se encuentra diversos escollos para poder realizar un peritaje de CFH bajo el marco bayesiano. De alguna manera, existe una similitud entre el cisma de los voiceprints y el del nuevo paradigma. Por enlazar la cuestión con lo que acabamos de explicar en el apartado 3.2, hemos explicado que, en los años sesenta, Lawrence G. Kersta y sus seguidores basaron su técnica de comparación visual de espectrogramas en un modelo de ciencia forense muy concreto, el de las huellas dactilares. Salvando las diferencias, lo que ocurre con el cisma del nuevo paradigma es que el nuevo modelo de ciencia forense en el que los fonetistas empiezan a fijarse es el de la comparación de perfiles de ADN. Claramente, la voz no es ni una huella dactilar ni un perfil de ADN, y mucho menos el habla, que es un fenómeno excepcionalmente complejo, y esto entraña dificultades por parte de muchos fonetistas a la hora de aceptar el nuevo paradigma. Como veremos con detalle en el capítulo 4, en CFH los peritos generalmente analizan un conjunto muy amplio de aspectos relacionados no solo con la voz, sino con el habla. Mientras que, en la comparación de perfiles de ADN, la naturaleza de los datos es discreta, las características que analiza el fonetista forense pueden ser continuas, discretas o incluso ambas. Hughes et al. (2014; s. p.) nos señalan los siguientes ejemplos: [...] las vocales pueden analizarse de manera continua, usando frecuencias formánticas, o discreta, considerando la realización de diferentes alófonos. Los datos lingüísticos pueden tener una distribución normal o no normal, y las características varían sistemáticamente dentro de los hablantes y entre ellos de acuerdo con una amplia gama de factores sociales, estilísticos y fonológicos.

Efectivamente, todos estos factores causan importantes dificultades a la hora de aplicar el marco de LR a la evidencia fonética, al menos desde las fórmulas originales, puesto que estas no fueron diseñadas para tratar con datos lingüístico-fonéticos y, por lo general, no dan cuenta adecuadamente de la complejidad y la interrelación de sus características. Es importante tener

3. La comparación forense de hablantes: contextualización histórica

53

en cuenta esto para entender la polémica que suscitó entre los fonetistas forenses la llegada de un paradigma que nace para la comparación de perfiles de ADN, en los años noventa del siglo pasado, y desde ese ámbito y esa década lleva extendiéndose progresivamente a otras ramas de las ciencias forenses, afectando tanto a la evaluación como a la presentación de la evidencia científica. En 2005, Michael J. Saks y Johathan Koehler, dos profesores de Derecho especializados en Ciencias Forenses, publican un artículo en Science en el que recomiendan que todas las ciencias tradicionales de comparación forense deberían seguir los métodos de la comparación del ADN. Eso incluye la construcción de bases de datos de las características de las muestras y la utilización de estas bases de datos para apoyar un enfoque probabilístico. Destacan que uno de los puntos fuertes de la comparación forense de perfiles de ADN es que utiliza un enfoque estadístico (Saks y Koehler, 2005): Los expertos evalúan las coincidencias entre el ADN de un sospechoso y la evidencia de ADN encontrada en la escena del crimen en términos de probabilidad de coincidencias aleatorias entre diferentes poblaciones de referencia (p. ej.: diferentes etnias). [...]. Las ciencias forenses tradicionales podrían y deberían emular este enfoque. Cada subcampo debe construir bases de datos de características de la muestra y usarlas para apoyar un enfoque probabilístico de identificación.

Otro de los aspectos que se señalan en este artículo como una de las características fundamentales de toda ciencia forense es la cuantificación de las limitaciones de la comparación forense llevada a cabo mediante la medida de índices de error. Las primeras reacciones al artículo de Saks y Koehler (2005) llegan por parte de los fonetistas forenses británicos. French y Harrison (2007) publican una declaración de posicionamiento que se conoce como «The Position Statement concerning use of impressionistic likelihood terms in forensic speaker comparison cases». Está firmada por nueve firmantes principales y 16 exper-

54

La fonética forense

tos más que trabajan en peritajes forenses de voz en el Reino Unido. En este documento se constata la necesidad de desarrollar un marco conceptual para la expresión de conclusiones de la evidencia forense en voz (figura 3). Este marco consiste en dos etapas: 1) evaluación de la consistencia, y 2) evaluación de la distintividad. En primer lugar, se decide si las muestras dubitada e indubitada son compatibles o consistentes con haber sido producidas por el mismo hablante (French y Harrison, 2007: 141):

Figura 3.  Diagrama de flujo que representa el marco para la evaluación de la evidencia en la comparación forense de hablantes según el UK Position Statement (French y Harrison, 2007). Figura traducida y adaptada a partir del diagrama realizado por Rose y Morrison (2009).

3. La comparación forense de hablantes: contextualización histórica

55

Al considerar la consistencia, se evaluaría el grado en que las características observables son similares o diferentes. Al evaluar las muestras, se consideraría que las diferencias pesan contra la compatibilidad a menos que puedan explicarse mediante modelos de variación acústica, fonética o lingüística (por ejemplo, haciendo referencia a diferentes características del canal, factores sociolingüísticos, psicológicos y/o físicos). La presencia de diferencias sustantivas no explicadas entre las muestras se tomaría como justificación para juzgarlas incompatibles con el hecho de haber sido producidas por el mismo hablante. En algunos casos puede que no sea posible llegar a una decisión sobre la consistencia.

En una segunda fase, se evalúa la distintividad de las voces. Esta etapa es muy importante, porque no basta que dos muestras sean consistentes con haber sido producidas por el mismo hablante (primera fase). Es necesario que las características que conducen a la decisión de consistencia sean distintivas o inusuales. De lo contrario, estaríamos ante rasgos vocales o del habla compartidos por un número sustancial de miembros de la misma comunidad de hablantes. Finalmente, en la declaración de posicionamiento de French y Harrison (2007), los autores deciden usar comparación en lugar de identificación, pues admiten que es necesario un cambio en el papel que debe tener el experto con respecto a la prueba de voz. El experto no hace identificaciones, sino que su papel consiste en proporcionar una evaluación con respecto a si la voz en la grabación dubitada concuerda con la descripción del sospechoso. Un par de años después, P. Rose y G. S. Morrison, investigadores asentados en Australia y con publicaciones en las que ya utilizan el marco de las LR con datos fonéticos (Rose, 2002; Rose, Osanai y Kinoshita, 2003) escriben un artículo en respuesta a French y Harrison (2007). En Rose y Morrison (2009) aplauden la iniciativa británica de reconocer que hace falta un cambio en CFH. Sobre todo, aplauden que usen el término comparación y que abandonen los anteriores: identificación, verificación y reconocimiento. No obstante, identifican tres puntos débiles en su documento. Por un lado, parece que en la Declaración

56

La fonética forense

de Posicionamiento Británico se trata el habla como si sus parámetros fueran discretos e invariantes, como el DNA. Por otro, Rose y Morrison (2009) notan inconsistencias en la propuesta británica, en concreto en la fase de «distintividad». Finalmente, los investigadores australianos notan que tampoco queda clara en la propuesta cómo relacionar las dos fases: consistencia y distintividad. La réplica de los fonetistas forenses británicos no tarda en llegar. En French et al. (2010) recapitulan cuáles son los puntos de encuentro y los puntos divergentes con Rose y Morrison (2009). Parten de que el marco propuesto en French y Harrison (2007) no está «grabado en piedra», sino que «constituye un paso hacia la adopción de conceptos bayesianos» (French y Harrison, 2007: 150), añadiendo lo siguiente: Estamos, además, totalmente abiertos a la posibilidad de que, a medida que avance nuestra comprensión de la caracterización de los hablantes y nuestras técnicas, el marco tenga que ser modificado. De hecho, podemos considerar la adopción de un marco explícitamente bayesiano para la expresión de conclusiones. (French y Harrison, 2007: 150)

Resulta interesante que French et al. (2010: 147) enumeran hasta 11 parámetros1 que se consideran habitualmente en CFH (muchos de los cuales los describiremos en el capítulo 4) y añaden que «está claro que esta lista se extiende sustancialmente más allá de un subconjunto de frecuencias o trayectorias formánticas. Intentar recopilar y analizar datos de referencia adecuados que incluyan toda esta variedad de características sería 1.  Los once parámetros que destacan French et al. (2010: 146-147) son los siguientes: 1) cualidad de voz; 2) entonación; 3) tono, medido como media y variación de la frecuencia fundamental; 4) velocidad de articulación; 5) rasgos rítmicos; 6) procesos de habla continua (connected speech); 7) rasgos consonánticos en fricativas, oclusivas, nasales y líquidas; 8), rasgos vocálicos, incluyendo configuraciones formánticas, pero también densidades, anchos de banda, etc.; 9), rasgos de alto nivel, incluyendo marcadores del discurso, elecciones léxicas y variación sintáctica; 10) rasgos patológicos; 11) características no lingüísticas como respiración audible, carraspeo, diversos tipos de clics y fenómenos relacionados con las pausas sonoras y llenas.

3. La comparación forense de hablantes: contextualización histórica

57

prohibitivamente difícil». Seguramente la referencia a las trayectorias formánticas se debe a que las primeras investigaciones en fonética forense que utilizaron el marco bayesiano para la expresión de conclusiones en LR abordaron precisamente el análisis de trayectorias formánticas en diptongos del inglés australiano (Morrison y Kinoshita, 2008; Morrison, 2009b). Podemos decir que desde 2010 hasta nuestros días se han sucedido las investigaciones que expresan las conclusiones en forma de LR analizando muchos de los rasgos fonéticos señalados por French et al. (2010). Como veremos con más detalle en el capítulo 4, existen estudios que se han centrado, desde una perspectiva bayesiana, en la cualidad de voz (Hughes et al., 2017), gran diversidad de parámetros consonánticos (Kavanagh, 2012), velocidad de articulación (Gold, 2012) e incluso clics (Gold, French y Harrison, 2013), por no mencionar que se han multiplicado los estudios sobre trayectorias formánticas en diversas secuencias vocálicas (no solo diptongos) y numerosas lenguas, además del inglés australiano (p. ej.: Enzinger, 2010; San Segundo, 2014a; Zuo y Mock, 2015; San Segundo y Yang, 2019). Por todo ello, podemos decir que el nuevo paradigma está ya prácticamente aceptado por completo, como lo demuestran las investigaciones científicas publicadas en la última década. En cuanto a los peritajes llevados a cabo adoptando el marco de LR, atendiendo a los distintos cuestionarios que se han planteado para preguntar por esta cuestión a los peritos de distintos países, sabemos que también en la práctica judicial de muchos países se utilizan LR para la expresión de conclusiones en CFH (véase el capítulo 5). Por todo ello, parece apropiado empezar a abandonar el adjetivo nuevo cuando hablamos de este paradigma, heredero del marco de expresión de conclusiones en la comparación forense de ADN en los años noventa, pero ampliamente extendido y aceptado entre los fonetistas forenses desde la primera década del siglo. En una de sus últimas publicaciones hasta la fecha, Morrison (2022) pronostica un «cambio generacional» con más practicantes del nuevo paradigma, al que propone llamar, simplemente, ciencia forense de datos:

58

La fonética forense

No espero que la adopción del nuevo paradigma sea rápida, pero espero tasas más altas de adopción entre los practicantes y aprendices júnior, lo que conducirá a un cambio generacional. Me han preguntado varias veces a lo largo de los años si podría sugerir un nombre para el nuevo paradigma que no sea «nuevo». Aquí propongo que el nuevo paradigma podría denominarse «ciencia forense de datos». Mi esperanza es que, después de que se complete el cambio de paradigma, simplemente se llame «ciencia forense». (Morrison, 2022: 6)

3. La comparación forense de hablantes: contextualización histórica

59

4 Aproximaciones metodológicas y parámetros más utilizados en comparación forense de hablantes

4.1. Aproximaciones metodológicas Existen diversos métodos para realizar un cotejo de voces, que van desde los llamados análisis auditivo-acústicos tradicionales hasta métodos automáticos y semiautomáticos. Prácticamente todos los expertos coinciden hoy en día en que lo ideal es una metodología híbrida; esto es, aquella que combina diferentes métodos (Künzel, 2011; Morrison et al., 2016). No obstante, no siempre ha habido consenso con respecto a esta cuestión y todavía hoy es frecuente que en algunas partes del mundo exista una preferencia por el uso de unos métodos frente a otros. Precisamente con el fin de arrojar cierta luz sobre los métodos empleados para comparar una muestra dubitada y una o varias muestras indubitadas con fines forenses, diversos investigadores han diseñado cuestionarios específicos para documentar las prácticas más habituales en cuanto a enfoques metodológicos, incluyendo preguntas sobre los parámetros más comúnmente extraídos y analizados a partir de las grabaciones de voz. En este apartado resumimos los resultados de las encuestas realizadas por Gold y French (2011, 2019) y Morrison et al. (2016) para mostrar a continuación algunos ejemplos de uso de los métodos principales que estos autores identifican en la práctica forense internacional.

61

Tabla 1.  Enfoques metodológicos en CFH y países que los emplean, según el cuestionario recogido por Gold y French (2011). Método

Países que lo usan

Auditivo solo

Estados Unidos y Países Bajos

Acústico solo

Italia

Auditivo-acústico

Alemania, Australia, Austria, Brasil, China, España, Estados Unidos, Países Bajos, Reino Unido y Turquía

Automático solo

Ningún país

Automático con supervisión humana

Alemania, Corea del Sur, España, Estados Unidos y Suecia

Tabla 2.  Enfoques metodológicos en CFH y número de participantes que los emplean, según el cuestionario recogido por Morrison et al. (2016). Método

Número de participantes que lo usan

Auditivo

15

(Auditivo)-espectrográfico

21

Auditivo-acústico (fonético)

25

Acústico-fonético (estadístico)

15

Automático con supervisión humana

20

Automático sin supervisión humana

9

Si bien los cuestionarios realizados por Gold y French (2011) y Morrison et al. (2016) no son exactamente iguales (y, por tanto, los resultados no son comparables), atendiendo a las tablas 1 y 2 podemos extraer conclusiones interesantes. Conviene señalar que en la encuesta de 2011 participaron 36 expertos de 13 países diferentes, mientras que la de 2016 fue distribuida a 190 agencias policiales de países miembros de la INTERPOL, la Organización Internacional de Policía Criminal o Policía Internacional, a través de algunos investigadores de su sede central en Lyon. Morrison et al. (2016) recibieron 91 respuestas de 69 países diferentes. En Gold y French (2011) se propone una clasificación de métodos que distingue cinco tipos básicos: auditivo solo, acústico solo, auditivo y acústico, automático solo y automático con

62

La fonética forense

supervisión humana. De todos ellos, el más popular sería el que combina métodos fonéticos de tipo auditivo y acústico, seguido del método automático, que implica la CFH mediante sistemas automáticos de reconocimiento de locutores en combinación con el análisis humano, esto es, realizado por un experto, generalmente un fonetista. Por un lado, es importante señalar que ninguno de los participantes informó de la utilización del cuarto tipo de método: el uso de sistemas de reconocimiento de locutores de manera aislada. El uso de sistemas automáticos estaría acompañado de lo que ellos llaman análisis humano. Por otro lado, observamos (tabla 1) que en algunos países participó más de un experto, perito, o laboratorio. Así encontramos que en España los métodos utilizados pueden ser tanto el auditivo-­ acústico como el automático con supervisión humana; al menos, claro, si consideramos a los participantes que contestaron a esta encuesta. En el caso de Morrison et al. (2016) nos encontramos unas respuestas bastante parecidas, aunque hay que tener en cuenta tanto la diferencia de la muestra como la presentación de los resultados de la encuesta por parte de los investigadores; en este caso, los resultados aparecen por número de participantes y no por país. El método más utilizado internacionalmente sigue siendo el que combina el enfoque auditivo y acústico, como en Gold y French (2011), pero seguido de cerca por el método auditivo-­espectrográfico y por el automático con supervisión humana. El menos usado es el enfoque automático sin supervisión humana, lo que de nuevo coincide con los resultados de Gold y French (2011). Finalmente, hay que tener en cuenta que muchos de los encuestados respondieron que usaban más de uno de estos enfoques. Más recientemente, Gold y French (2019) elaboraron una nueva encuesta para conocer las prácticas internacionales en CFH, aunque las preguntas no son exactamente iguales que en la encuesta de 2011 y, por tanto, no podemos analizar correctamente la evolución o cambios metodológicos en esta disciplina. Sí podemos observar, no obstante, un aumento en el uso de los métodos automáticos. Frente al 17 % de participantes que res-

4. Aproximaciones metodológicas y parámetros más utilizados en comparación forense...

63

pondieron que usaban el método automático (con supervisión humana) en 2011, en 2019 encontramos que el 41,2 % utiliza métodos automáticos, de manera aislada o en combinación con enfoques tradicionales (fonético auditivo y acústico). Esta segunda encuesta (Gold y French, 2019) la respondieron 39 expertos de 23 países. El estudio de Cambier-Langeveld (2007), aunque difiere de las encuestas realizadas por Gold y French, o por Morrison, resulta de gran interés para la comunidad científica. La investigadora holandesa diseña un ejercicio colaborativo para el cual crea un caso falso, pero verosímil, con varias grabaciones que proporciona a diversos expertos, miembros de la IAFPA, para que realicen el cotejo de voces y elaboren un informe pericial como si fuera un caso real; esto es, exactamente como si presentaran los resultados a un cliente real. Cambier-Langeveld (2007) analiza los resultados de un total de doce informes periciales realizados por expertos internacionales y señala la existencia de tres subgrupos básicos de métodos: auditivo-acústico, semiautomático y automático, aunque admite que esto puede ser una simplificación inapropiada.1 En resumen, el método combinado, que incluye análisis auditivos y acústicos (y que podemos llamar también mixto o híbrido, si lo acompañamos de sistemas automáticos de reconocimiento de locutor) es el método más completo, como también explica San Segundo en su tesis doctoral (San Segundo, 2014a).

4.1.1. El método auditivo Con relación al método auditivo, suele ser la primera fase del método tradicional (recordemos, el que combina lo acústico y lo perceptivo). Es decir, lo primero que hace el experto en fonética forense es escuchar las grabaciones y determinar si existen carac1.  «Quizá referirse al campo de la identificación forense de locutores como una disciplina en la que se emplean tres subgrupos de métodos, como he hecho hasta ahora, sea inapropiado; igualmente, se podría hablar de varias disciplinas que abordan el mismo problema (el de la identificación forense de locutores) desde diferentes ángulos» (Cambier-Langeveld, 2007: 240).

64

La fonética forense

terísticas comunes e inusuales que posteriormente se pueden analizar acústicamente (Jessen, 2008; Rose, 2002). Por tanto, el método perceptivo no se suele usar de forma aislada, sino en combinación con el método acústico. No obstante, obsérvense los resultados de los cuestionarios explicados en el apartado 4.1, ya que es posible encontrar expertos de algunos países que usan solo este método. Como explica Erikson (2012), la escucha atenta de las grabaciones se realiza, en una primera etapa del método combinado auditivo-acústico, con el fin de evaluar características como la duración y la calidad del sonido, así como para detectar los aspectos fonéticos sobre los que se realizará el análisis acústico. De entre todos los parámetros fonéticos que se pueden analizar, aquel para el cual el método perceptivo cobra mayor relevancia es probablemente la cualidad de voz. Ello no obsta para que la cualidad de voz se pueda analizar también acústicamente (tabla 3; apartado 4.2). En este apartado nos centraremos en describir uno de los métodos perceptivos más utilizados para evaluar la cualidad de voz, puesto que en los últimos años se ha experimentado un notable aumento de investigaciones sobre esta cuestión. Efectivamente, uno de los protocolos de evaluación perceptiva de la cualidad de voz más usados en el ámbito forense, según se desprende de la encuesta realizada por San Segundo (2021), es el Vocal Profile Analysis (VPA de ahora en adelante). Recordemos, no obstante, que cuando explicamos el intercambio de artículos entre los fonetistas británicos (Declaración de posicionamiento sobre el uso de LR en CFH) y los investigadores australianos, ya se señalaba la cualidad de voz como uno de los primeros aspectos fonéticos en los que se fijaban los expertos a la hora de realizar CFH (French et al., 2010: 146-147). En concreto, el protocolo que vamos a explicar (esto es, el VPA) ocupa varias páginas de los trabajos sobre cualidad de voz publicados por el fonetista Francis Nolan (Nolan, 1983; Nolan, 2005; Nolan, 2007; apud Gil y San Segundo, 2014). El VPA fue diseñado por fonetistas de la Universidad de Edimburgo en los años ochenta (Laver, 1980). La idea funda-

4. Aproximaciones metodológicas y parámetros más utilizados en comparación forense...

65

mental de este protocolo es que cada uno de los órganos del aparato vocal contribuye a la cualidad de voz del hablante (Laver, 1980; Klatt y Klatt, 1990; Beck, 2005). Esta es una definición amplia del concepto cualidad de voz; en este sentido, otros autores usan los términos timbre o color característico de una voz (Laver, 1975; Trask, 1996). No obstante, también se puede entender la cualidad de voz en un sentido estrecho, esto es, restringido a los efectos derivados de la actividad de las cuerdas vocales únicamente. Dos ideas principales subyacen en la definición amplia de cualidad de voz. Por una parte, se trata de una característica cuasipermanente. Como señala Abercrombie (1967: 91), la cualidad de voz se refiere a «aquellas características que están presentes más o menos todo el tiempo que una persona está hablando». Por otra parte, la cualidad de voz se refiere al mismo tiempo a aspectos fisiológicos de la producción del sonido y a fenómenos psicoacústicos, pues las cualidades resultantes de dicha producción son aprehendidas, evaluadas y clasificadas a través de procesos perceptivos en un proceso complejo. De ahí que algunos autores consideren la cualidad de voz como «una interacción entre un oyente y una señal» (Kreiman y Sidtis, 2011: 9). En este contexto, el VPA se erige como un protocolo muy útil para distintos fines fonéticos. Esling (1978) y Stuart-Smith (1999) lo utilizaron para describir la cualidad de voz de hablantes ingleses de distintas variedades regionales, pero también se conocen aplicaciones clínicas del VPA, como la descripción de pacientes con disartria (San Segundo y Delgado, 2021). Este protocolo presenta la ventaja de incluir un gran número de parámetros (que en el VPA se llaman ajustes articulatorios) para dar cuenta de cómo los distintos órganos del aparato vocal contribuyen a nuestra percepción de la cualidad de voz del hablante. No obstante, al tiempo que cubre un amplio espectro de dimensiones posibles en las que se fundamenta la cualidad de voz, el protocolo permite cierta flexibilidad en su utilización. En la figura 4 observamos el protocolo VPA utilizado en San Segundo et al. (2019). Es una versión con algunas modificaciones con respecto al protocolo VPA usado internamente por JPA

66

La fonética forense

Figura 4.  Protocolo VPA usado en San Segundo et al. (2019).

French Associates para realizar peritajes de voz. En él encontramos 32 ajustes que se dividen en tres grandes grupos. El grupo A es el más extenso, ya que incluye todos aquellos rasgos del tracto vocal, también llamados supralaríngeos, pues hacen referencia a las cavidades que se encuentran encima de la laringe. El grupo B hace referencia a la tensión muscular, que se puede referir al tracto vocal o a la laringe. El grupo C comprende los distintos modos de fonación, o rasgos laríngeos, pues la fonación se produce con las cuerdas vocales, situadas en la laringe. Destacamos, a continuación, las principales consideraciones que se deben tener en cuenta a la hora de utilizar este protocolo:

4. Aproximaciones metodológicas y parámetros más utilizados en comparación forense...

67

• Los ajustes individuales se definen en relación con un ajuste neutro. Esto sirve como referencia para que los evaluadores juzguen si una voz es o no es neutra. Esto es, cada hablante puede ser neutro para cada uno de estos ajustes o desviarse del neutro dentro de una escala del 1 al 3.2 • Según explica Beck (2007), la evaluación de las voces es un proceso de dos etapas. En una primera fase, los evaluadores han de notar si las voces son neutras o no para cada configuración; en la segunda fase, los evaluadores especifican la naturaleza exacta de la desviación con respecto al «neutro», otorgando un valor entre 1 y 3, donde 1 significa desviación ligera, 2 significa desviación marcada y 3 desviación extrema. • En el protocolo original es posible escribir «i» para marcar que un ajuste está presente en una voz de forma intermitente. Con todo, Ball, Esling y Dickson (1995: 72) señalan que «cualquier ajuste particular solo tendrá un efecto intermitente a lo largo de un enunciado». Esto es, cuando los evaluadores marcan un ajuste del protocolo como presente en una voz no significa que todos los segmentos del habla se pronuncien con esa configuración del ajuste. Ball, Esling y Dickson (1995: 72) ponen este ejemplo: «una voz nasalizada no significa que todos los sonidos sean pronunciados con un velo bajado; más bien, el término sugiere un uso perceptualmente mayor que el normal de las articulaciones nasales y nasalizadas». Por tanto, el uso de la convención «i» ha sido cuestionado. La escala que se suele utilizar en el VPA es una escala ordinal, al menos así ha sido tradicionalmente. Sin embargo, una modificación que se ha llevado a cabo recientemente (San Segundo y Skarnitzl, 2021) consiste en transformar la escala original en una Escala Visual Analógica (EVA), más frecuente en el ámbito clínico. Una EVA es un instrumento de medición de determinadas características en el que se especifica el grado o nivel de la característica indicando una posición a lo largo de una línea continua 2.  En otras versiones del protocolo la escala se encuentra entre el 1 y 6.

68

La fonética forense

entre dos puntos (figura 5). Además, en San Segundo y Skarnitzl (2021) se redujeron considerablemente el número de ajustes articulatorios del VPA y se diseñó una versión en línea con el fin de facilitar su uso (esto es, la herramienta permite un proceso sencillo tanto en la subida de ficheros de audio como en la realización de la evaluación perceptiva propiamente dicha y la posterior extracción de resultados numéricos).

Figura 5.  Interfaz gráfica de usuario de la herramienta VAS-VPA descrita en San Segundo y Skarnitzl (2021).

Para evitar la subjetividad inherente a los métodos auditivos, se recomienda que el análisis lo lleve a cabo más de una persona entrenada en el protocolo perceptivo. De hecho, los equipos multidisciplinares se recomiendan no solo en los enfoques perceptivos, sino en el ámbito forense en general, para evitar posibles sesgos. Así lo indica el Código de práctica y conducta para peritos del Sistema de Justicia Criminal en el Reino Unido, propuesto por el Regulador de Ciencias Forenses (Forensic Science Regulator, 2016a), y también el apéndice a dicho código para servicios de voz y audio (Forensic Science Regulator, 2016b). Finalmente, conviene señalar que, antes de utilizar este protocolo (y, probablemente, cualquier otro enfoque perceptivo) para evaluar la cualidad de voz, se aconseja realizar una fase de calibración previa a la caracterización vocal de los hablantes. Esa es la propuesta metodológica que realizan San Segundo et al. (2019) en un estudio en el que tres fonetistas analizaron percep-

4. Aproximaciones metodológicas y parámetros más utilizados en comparación forense...

69

tivamente la cualidad de voz de 99 hablantes con el fin de evaluar la fiabilidad de este método para caracterizar hablantes y distinguirlos entre sí. Puesto que el análisis perceptivo lo realiza más de una persona, idealmente hay que calcular estadísticamente el acuerdo interevaluador, con el fin de ofrecer unos índices de error del método, ofreciendo, así, una medida de su fiabilidad y validez. Tanto los índices de error como el concepto de calibración son de suma importancia en la práctica pericial; esto aplica a cualquier método, no afecta solo a los sistemas de reconocimiento automático. Frente a lo que habitualmente se cree, los métodos acústicos no son per se menos subjetivos que los perceptivos y, sin embargo, escasean las investigaciones para examinar la consistencia entre evaluadores a la hora de realizar mediciones acústicas. Duckworth et al. (2011) representan una excepción dentro de los estudios en fonética forense. Estos autores examinan la solidez de las mediciones de frecuencias formánticas efectuadas por varios fonetistas, antes y después de acordar un procedimiento de medición común. Los resultados muestran en qué medida el analista, la metodología, la vocal y el hablante afectan a la consistencia de los valores extraídos. Se recomienda que los profesionales acuerden un protocolo para el análisis forense de formantes con el fin de facilitar la validación de la evidencia.

4.1.2. El método acústico En cuanto al método acústico, es la técnica predominante en comparación forense de hablantes, sobre todo cuando se combina con una primera fase auditiva, la cual se ha explicado en el apartado anterior (Eriksson, 2012). En el apartado 4.2 describiremos sucintamente los distintos parámetros que se analizan bajo el enfoque metodológico acústico. Con el fin de explicar el método en sí, en este apartado nos centraremos en uno de los parámetros más investigados por fonetistas de todo el mundo y más frecuentemente utilizados en los cotejos de voz. Nos referimos a las frecuencias formánticas en secuencias vocálicas.

70

La fonética forense

Las frecuencias de los formantes se han utilizado tradicionalmente en CFH, debido a que son uno de los más claros correlatos acústicos de las resonancias del tracto vocal. Existen diversas maneras de analizar las frecuencias formánticas; por ejemplo, mediante el estudio de los valores centrales en los cuatro primeros formantes de las vocales (F1-F4). Este enfoque se conoce como estático, mientras que la aproximación que considera las características formánticas a lo largo del tiempo se llama enfoque dinámico. En el estudio de las secuencias vocálicas es más habitual el enfoque dinámico, puesto que en la transición de una vocal a otra se dibujan unas trayectorias o curvas que se consideran bastante idiosincráticas de cada hablante, por reflejar el movimiento entre targets u objetivos acústicos. Por ejemplo, en una secuencia vocálica como el diptongo español /ei̯ / existe una transición desde la vocal de abertura media [e] hasta la vocal más cerrada y anterior [i]. Esto implica ciertos cambios en la cavidad oral, principalmente en el movimiento de la lengua hacia adelante y hacia arriba; estas modificaciones se reflejan acústicamente en un espectrograma como el de la figura 6. Aunque en todos los hablantes de castellano que pronuncien esta secuencia vocálica encontraremos una trayectoria similar en F1 y F2 (lo que permite que los oyentes puedan interpretar esa señal acústica como /ei̯ / y no como otro diptongo), en el ámbito forense lo importante es que en cada hablante (por su anatomía y fisiología particular, además de sus hábitos aprendidos) existe cierto margen individual en cuanto al movimiento de los articuladores para lograr la transición entre los dos objetivos acústicos. Es un tipo de flexibilidad de movimiento que McDou­gall (2006: 121) compara con otras actividades motoras humanas: Las investigaciones futuras deberían prestar más atención a las propiedades dinámicas del habla en lugar de las estáticas, partiendo de la base de que las características que varían en el tiempo reflejan el movimiento de los articuladores de un hablante y, al igual que las personas exhiben sus propios estilos personales al realizar acti-

4. Aproximaciones metodológicas y parámetros más utilizados en comparación forense...

71

vidades motoras especializadas, como caminar y correr, también utilizan sus articuladores de una manera individual a la hora de hablar.

Las primeras investigaciones que exploraron el potencial de las propiedades dinámicas de los diptongos en CFH (McDou­ gall, 2004) consistían en dividir cada secuencia vocálica en 10 intervalos de la misma duración y después obtener nueve puntos, a partir de los cuales se extraían los tres primeros formantes, que se usarían para caracterizar a cada hablante y comprobar si efectivamente las diferencias entre hablantes eran altas y, por tanto, el método tenía capacidad discriminatoria. Los estudios posteriores optaron por parametrizar las curvas descritas por las trayectorias formánticas mediante distintos métodos. Los métodos más conocidos son el ajuste por medio de ecuaciones polinomiales y por transformadas discretas de cosenos. Este método se ha utilizado con diptongos en inglés australiano (Morrison, 2008, 2009b), alemán vienés (Enzinger, 2010) y mandarín estándar (Zhang, Morrison y Thiruvaran, 2011). En español, el único estudio conocido hasta la fecha que utiliza este tipo de parametrización en todas las secuencias vocálicas del español es la tesis doctoral de San Segundo (2014a) y algunas publicaciones posteriores (San Segundo y Yang, 2019). El término secuencia vocálica se usa para referirse tanto a la combinación de dos vocales como a la combinación de una semivocal (glide) y una vocal. Al primer tipo de secuencias lo denominamos hiatos y al segundo, diptongos (Aguilar, 1999), aunque todavía existe cierta discusión con respecto a la naturaleza fonológica de los diptongos o a la interpretación de las glides (véanse Alarcos Llorach, 1965; Anderson, 1985; Aguilar, 1999; Hualde, 1991; Navarro Tomás, 1946; RAE, 2011). Los hiatos también se denominan combinaciones heterosilábicas (es decir, los elementos que forman el conjunto vocálico pertenecen a diferentes sílabas), mientras que la etiqueta combinaciones tautosilábicas (es decir, pertenecientes a la misma sílaba) se utiliza para designar tanto diptongos como triptongos (RAE, 2011). Sin embargo, estos últimos autores enfatizan que el límite entre

72

La fonética forense

combinaciones tautosilábicas y heterosilábicas no está siempre claro. A pesar de todas estas cuestiones, la diferenciación entre hiatos y diptongos se considera un rasgo genuino del español (Aguilar, 1999). Como explica esta investigadora: El hecho de que una secuencia pueda pronunciarse como un hiato –‌es decir en dos sílabas separadas– o deba ser pronunciado como diptongo –‌es decir, en una sola sílaba– es una propiedad léxica: la adquisición de una nueva palabra implica el conocimiento sobre su silabeo. (Aguilar, 1999: 59)

Por todo esto, San Segundo (2014a) consideró que, con fines de comparación forense de hablantes, resultaría de especial interés investigar todas las combinaciones posibles de secuencias vocálicas en español,3 puesto que tanto las pronunciaciones diptongadas como en forma de hiato se permiten a veces en español, como hemos comentado brevemente más arriba. Así pues, se espera una variación considerable entre hablantes para la mayoría de las secuencias vocálicas españolas. Como el objetivo de este apartado es explicar el método acústico, a continuación explicaremos las dos fases habituales que realiza el perito ante un caso de CFH: fase de etiquetado, y fase de extracción y análisis. En el capítulo 5 trataremos la cuestión de la presentación de resultados bajo el enfoque bayesiano. Este método (que aquí explicamos con ejemplos de trayectorias formánticas en secuencias vocálicas, extraídos de San Segundo, 2014a) es extrapolable al método que se utiliza para analizar otro tipo de parámetros acústicos. No obstante, puede haber diferencias en cuanto al programa de análisis utilizado. Por ejemplo, es frecuente que los laboratorios de fonética forense utilicen Praat 3.  En principio, se esperaría encontrar 20 secuencias vocálicas, resultantes de combinar de dos en dos las cinco vocales del español (exceptuando combinaciones de la misma vocal). Sin embargo, San Segundo (2014a) encontró que casi no existían palabras patrimoniales con la combinación ou; tan solo la palabra compuesta estadounidense. El resto eran préstamos extranjeros (por ejemplo, glamour, soul, country, boutique), que ni siquiera se pronuncian en todos los casos como /ou/.

4. Aproximaciones metodológicas y parámetros más utilizados en comparación forense...

73

u otros programas informáticos gratuitos en lugar de Matlab. Con todo, las distintas etapas que se describen a continuación no varían demasiado si se analizan unos parámetros acústicos u otros. Primera fase: pretratamiento y etiquetado de la muestra Antes del análisis acústico propiamente dicho, suele ser necesario etiquetar y extraer los segmentos del habla que estemos interesados en analizar. Es importante que exista un número suficientemente grande de elementos analizables, como recomienda el ENFSI (ENFSI, 2021) y como explicaremos en el apartado 4.2. Si las grabaciones son lo suficientemente largas, es probable que encontremos varias ocurrencias de las secuencias vocálicas más frecuentes en español. También puede ocurrir que los archivos de sonido sean excepcionalmente largos y sea necesario cortarlos en archivos más pequeños con el fin de asegurar un proceso de etiquetado más fácil. Este es el caso de las grabaciones de San Segundo (2014a). Se trata de conversaciones de alrededor de 20 a 30 minutos que se segmentaron en archivos más pequeños (10 min), para, a continuación, fraccionarse en múltiples archivos usando el software Sound File Cutter Upper (Morrison, 2010b). Este programa desecha los fragmentos silenciosos que en muchas ocasiones encontramos en conversaciones espontáneas. Para el etiquetado, se pueden utilizar distintos programas. En San Segundo (2014a) utilizamos SoundLabeller (Morrison, 2012) para etiquetar secuencias vocálicas. Al igual que otros programas que permiten etiquetar archivos de sonido, como la función TextGrid de Praat, este software muestra la forma de onda y el espectrograma de un archivo de sonido, lo que permite al usuario marcar el principio y final de ciertos segmentos, así como utilizar determinadas etiquetas para que los fragmentos así marcados puedan seleccionarse, extraerse o directamente analizarse con mayor facilidad posteriormente. Este proceso se puede realizar de forma manual o bien de forma automática mediante los llamados scripts. En este último caso, es recomendable realizar una revisión manual tras el etiquetado automático.

74

La fonética forense

Figura 6.  Arriba: espectrograma de un fragmento de una grabación. Abajo: oscilograma y ejemplo de etiquetado. En la fila 1 se etiquetan las secuencias vocálicas [i ̯e] y [ei ̯], mientras que la fila 2 se usa para el etiquetado de las palabras donde aparecen dichas secuencias. En este ejemplo, ambas secuencias aparecen en la palabra dieciséis.

Segunda fase: extracción y análisis Los fragmentos etiquetados siguiendo los pasos descritos en el apartado anterior se analizan luego con el mismo u otro programa. En el caso de las trayectorias formánticas en secuencias vocálicas, se puede utilizar (dentro del mismo entorno de Matlab) el programa FormantMeasurer: software para la medición eficiente de trayectorias formánticas supervisada por humanos, desarrollado por Morrison y Nearey (2011). Este software mide las trayectorias de los formantes de los segmentos utilizando el procedimiento descrito en Nearey, Assmann y Hillenbrand (2002). Como se especifica en su manual (Morrison y Nearey, 2011: 3): El software mide las trayectorias formánticas utilizando una serie de parámetros para la codificación predictiva lineal (LPC), ejecuta algunas heurísticas para intentar identificar la mejor trayectoria para cada uno de los tres primeros formantes (F1, F2, F3), y presenta los resultados a un ser humano para su verificación.

4. Aproximaciones metodológicas y parámetros más utilizados en comparación forense...

75

Las trayectorias formánticas se extraen usando el algoritmo descrito en Markel y Gray (1976) y se detectan los formantes ocho veces usando ocho valores de corte diferentes para F3 (2500-4000 Hz). Como se recoge en la figura 7, cada uno de los ocho conjuntos de trayectorias se muestran en pantalla para su observación por parte del investigador. Las trayectorias dibujadas con líneas gruesas son las que el algoritmo determinó como las mejores (Morrison y Nearey, 2011). Si el investigador no está de acuerdo con la trayectoria preseleccionada, puede elegir otra. La figura 8 muestra las mejores trayectorias formánticas para F1, F2 y F3 en una de las ocurrencias de [i̯ a] de uno de los hablantes analizados.

Figura 7.  Se muestran ocho posibles conjuntos de trayectorias formánticas (F1, F2 y F3) en un espectrograma para el diptongo [i ̯a] obtenidos mediante el programa FormantMeasurer.

En el caso de medir trayectorias formánticas, generalmente el análisis acústico no se detiene en la medición de cada punto de la curva que observamos en la figura 8, sino que tras la medición se realiza una parametrización de las trayectorias F1-F3 de cada secuencia vocálica. A cada trayectoria se le ajustan dos tipos de curvas paramétricas: 1) polinomios de primer, segundo y tercer orden; y 2) transformadas discretas de coseno (DCT) de primer a tercer orden.

76

La fonética forense

Figura 8.  Mejor conjunto de trayectorias formánticas (F1, F2, F3) seleccionado para el diptongo [i ̯a] usando el programa FormantMeasurer.

Los procedimientos de ajuste de curvas están destinados a transformar un conjunto de puntos, datos u observaciones (en este caso, los puntos que constituyen las trayectorias formánticas) en un pequeño conjunto de coeficientes, realizando, así, una reducción de datos. El primer tipo de ajuste por curvas aproxima los puntos de datos usando funciones polinómicas de diferentes grados. La función polinomial básica es el polinomio de primer grado, que incluye una constante (α0) y un coeficiente de pendiente (α1) que corresponde a la función lineal y(x) = α0 + α1x. La función polinomial de segundo grado incluye un término cuadrático con coeficiente α2 (ecuación y(x) = α0 + α1x + α2x2). Para construir las funciones polinómicas de tercer orden, se le suma a la ecuación anterior un término cúbico de coeficiente a3 (ecuación y(x) = α0 + α1x + α2x2 + a3x3). La construcción de una función DCT sigue la misma idea subyacente que el ajuste de la curva polinomial, pero, en lugar de usar las funciones lineal, cuadrática y cúbica como elementos básicos, la DCT hace uso de la suma de funciones de coseno con diferentes amplitudes y frecuencias como sus bloques de construcción o componentes. Los valores obtenidos a partir de esta parametrización son los que utilizamos para comparar la muestra dubitada y la muestra indubitada. Dependiendo del número de secuencias vocálicas

4. Aproximaciones metodológicas y parámetros más utilizados en comparación forense...

77

que encontremos en las muestras usadas para nuestro cotejo, es habitual combinar los valores o coeficientes obtenidos para cada secuencia vocálica. Este proceso de combinación o fusión se puede realizar de varias maneras. Una de las más conocidas es la regresión logística. Como estas forman una parte esencial de la expresión de resultados en forma de LR y, por tanto, de la formulación de conclusiones del cotejo, la explicaremos en el capítulo 5.

4.1.3. El método semiautomático Tradicionalmente se ha distinguido entre sistemas de reconocimiento de hablantes de tipo automático y de tipo semiautomático (Delgado, 2001). Serían sistemas semiautomáticos aquellos en los que existe cierta interacción entre el perito y el sistema automático. Esta interacción haría referencia sobre todo a la toma de decisiones por parte del perito en dos momentos clave: a la hora de seleccionar la población de referencia (hablamos de este concepto sucintamente en el capítulo 2 y lo retomaremos en el capítulo 5) y a la hora de interpretar los resultados. No obstante, como veremos a continuación, cada vez es más frecuente que el perito que utiliza un método semiautomático no sea únicamente un usuario de este, sino que también haya desarrollado el sistema, o contribuido a su diseño; de ahí que la toma de decisiones se extienda más allá de las dos mencionadas para abarcar otras como la decisión de incluir «impostores» en el cotejo de voces. Por el contrario, en el enfoque metodológico completamente automático, la interacción entre el perito y el sistema automático es muy limitada. Básicamente el perito es un usuario del sistema de CFH. Se encarga de introducir las muestras dubitada e indubitada en él y, de acuerdo con los ajustes especificados en el manual, obtendrá los resultados proporcionados por el algoritmo del sistema. Este tipo de enfoques ha sido criticado, porque supone una visión de los sistemas automáticos como una «caja negra» de la cual se desconoce el funcionamiento interno. A la hora de realizar un informe pericial y defenderlo posteriormente en

78

La fonética forense

un juicio, este último enfoque, usado de manera aislada, no es el ideal, pues un perito debería comprender bien las distintas metodologías que utiliza (véase el capítulo 5). A este respecto, Hughes et al. (2017: 1) comentan lo siguiente: Los sistemas de reconocimiento automático de hablantes son a menudo percibidos como «cajas negras» (es decir, sus mecanismos internos y sus algoritmos son opacos, ya sea por falta de accesibilidad a los mismos o por falta de comprensión de estos), tanto por parte de expertos fuera del ámbito de las tecnologías del habla como por abogados y tribunales. Esto se debe principalmente a que los parámetros espectrales de ventana corta extraídos por estos sistemas son «difíciles de relacionar (con) los rasgos fisiológicos de un individuo» (Franco-Pedroso y González Rodríguez, 2016). Esto hace que los hallazgos sean difíciles de explicar, en contraste con las características fonéticas, que pueden ser descritas en un juicio en términos no técnicos, y demostradas por el experto mediante la reproducción de muestras de habla.

Lo cierto es que las críticas hacia los sistemas automáticos, al denominarlos cajas negras, no están siempre fundadas, pues los parámetros en los que estos sistemas están basados se conocen desde hace tiempo y existen numerosas publicaciones y cursos formativos para que los investigadores puedan comprender la naturaleza de esos parámetros. Nos referimos a los parámetros cepstrales que menciona la cita extraída de Hughes et al. (2017) y que explicaremos a continuación. Conviene indicar también que los sistemas automáticos van experimentando mejoras y están en constante evolución. De hecho, existen competiciones y evaluaciones de los sistemas de reconocimiento automático, como las organizadas por el Instituto Nacional de Estándares y Tecnología (NIST en inglés) en Estados Unidos desde finales de los noventa del siglo pasado. La Asociación Internacional de Comunicación del Habla (International Speech Communication Association, ISCA, en inglés) también organiza los llamados retos, en los que participan investigadores de todo el mundo para poner a prueba sus respectivos sistemas. Todos los participantes

4. Aproximaciones metodológicas y parámetros más utilizados en comparación forense...

79

utilizan los mismos datos de voz, puestos a su disposición por los organizadores del reto, y se trata de comparar los resultados a los que cada equipo llega, en función de los distintos sistemas automáticos que cada uno utiliza. Como explican San Segundo y Künzel (2015), cada una de las cavidades del tracto vocal tiene un perfil de resonancia, que de alguna manera es idiosincrático para cada hablante, al menos de forma similar a lo que ocurre con otras partes de la anatomía humana, que son más o menos individuales (Künzel, 2010). Los métodos automáticos de reconocimiento de hablantes extraen un conjunto de características que representan el perfil de resonancia de las cavidades supraglóticas y crean un vector multidimensional. Estos son el tipo de parámetros (también llamados características de bajo nivel de información) utilizados en este tipo de análisis, en contraste con las características de alto nivel de información, que harían referencia a todos aquellos aspectos lingüísticos en los que se centra el método tradicional utilizado por los fonetistas (método auditivo-acústico) y que también sirven para caracterizar a un hablante, como patrones de entonación, duración y tipo de pausas, etc. (véase Kinnunen y Li, 2010; Künzel y Alexander, 2014). No obstante, con respecto a la cuestión clasificatoria de parámetros, existen diferencias entre los autores. Por ejemplo, Doddington (1985) considera parámetros de alto nivel informativo los referidos al dialecto o al estilo, mientras que denomina parámetros de bajo nivel informativo a los siguientes: amplitud espectral, frecuencia del tono de voz, frecuencias formánticas y otros aspectos acústicos. En el enfoque (semi)automático, no se distinguen unidades lingüísticas o fonéticas (fonemas o alófonos). Esta es la razón por la que Jessen (2008) clasifica este tipo de métodos automáticos como holísticos: Se determina la distribución de los MFCC a lo largo de toda la grabación de un hablante [...] sin segmentación del flujo de habla en diferentes categorías lingüísticas, como consonantes, vocales o sílabas. (p. 699)

80

La fonética forense

Figura 9.  Corte sagital del tracto vocal humano donde podemos observar, de abajo arriba, la cavidad faríngea, la cavidad oral y la cavidad nasal. Fuente: Wikipedia Commons (licencia Creative Commons CC0 1.0).

Efectivamente, los parámetros básicos en los que están basados la mayoría de los sistemas automáticos comerciales hoy en día se conocen como coeficientes cepstrales4 (MFCCs, mel frequency cepstral coefficients) y representan la geometría del tracto vocal (figura 9). Su proceso de extracción implica cierto conocimiento 4.  Introducidos por primera vez por S. Furui: «Cepstral analysis technique for automatic speaker verification», en IEEE-ASSP, núm. 29, 1981 (pp. 254-272).

4. Aproximaciones metodológicas y parámetros más utilizados en comparación forense...

81

de técnicas de procesado de la señal de voz. Una descripción general de estas características espectrales a corto plazo la encontramos en Kinnunen y Li (2009: 3): Como su nombre indica, se calculan a partir de frames o ventanas pequeñas de aproximadamente 20-30 milisegundos de duración [...] que suelen ser descriptores de la envolvente espectral a corto plazo, que es un correlato acústico del timbre, es decir, el «color» del sonido, así como de las propiedades de resonancia del tracto vocal supralaríngeo.

La razón para dividir la señal en ventanas cortas es la siguiente. Como la señal del habla cambia continuamente, debido a los movimientos articulatorios, la señal debe descomponerse en intervalos cortos en los que se supone que la señal permanece estacionaria (Kinnunen y Li, 2009: 4). Después de esta descomposición en ventanas, se puede extraer un vector espectral de cada una de ellas. En el caso del sistema comercial Batvox, Künzel (2010: 256) especifica que el vector de características de 38 dimensiones se calcula cada 10 ms. Por lo general, el marco se enfatiza previamente y se multiplica por una función de ventana suave antes de proceder con los siguientes pasos (Kinnunen y Li, 2009: 4). Como se explica en Jessen (2008: 699): Como el fin de suavizar la forma espectral es hacer que el resultado sea psicoacústicamente más realista, el espectro pasa luego a través de un banco de filtros basado en la escala Mel no lineal. Los logaritmos de los coeficientes del filtro se transfieren al cepstrum mediante la aplicación de la transformada discreta del coseno. Los vectores resultantes ahora se llaman coeficientes cepstrales.

Para más información sobre las tres etapas secuenciales en el proceso de reconocimiento automático de hablantes (extracción de parámetros, modelado de parámetros y cálculo de distancias), véase Jessen (2008), González-Rodríguez et al. (2006) o Müller (2007). En la encuesta elaborada por Gold y French (2019) se recogen los nombres de algunos de los sistemas comerciales más

82

La fonética forense

Figura 10.  Proceso de extracción de coeficientes cepstrales a partir de la señal acústica en un sistema de reconocimiento automático de hablantes. Figura adaptada a partir del esquema realizado por Shen (2018).

4. Aproximaciones metodológicas y parámetros más utilizados en comparación forense...

83

utilizados por peritos de todo el mundo.5 En Morrison y Enzinger (2019) se detallan los distintos tipos de modelado de parámetros y cálculo de distancias en los que se basan los sistemas automáticos de los participantes en un experimento propuesto por los autores para trabajar a partir de los mismos datos acústicos, que, además, reflejaban las condiciones de un peritaje real.6

4.2. Parámetros fonéticos más utilizados Existe una gran diversidad de parámetros acústicos que podemos analizar para comparar las muestras dubitada e indubitada. Las referencias bibliográficas más recientes que compendian los principales rasgos discriminatorios entre hablantes son Jessen (2018) y ENFSI (2021). A partir de estas dos obras se ha elaborado la tabla 3, a modo de resumen ampliado, pues, además, incluye referencias bibliográficas que investigan aspectos fonéticos del español. Muchos de los parámetros descritos en la tabla 3 se pueden analizar perceptiva y acústicamente. Además, como señala el manual del ENFSI (ENFSI, 2021: 6): Los parámetros que el experto opta por analizar pueden variar de un peritaje a otro, dependiendo del material disponible en las grabaciones y de qué considere importante cada experto.

Por otro lado, hay que tener en cuenta las características de las grabaciones en el ámbito forense. Por ejemplo, las muestras de habla con las que trabaja el perito suelen tener una duración 5.  Otros sistemas automáticos que no aparecen en esa encuesta son los descritos en Gómez-Vilda et al. (2014), San Segundo, Tsanas y Gómez-Vilda (2017) y San Segundo, Univaso y Gurlekian (2019). Los dos primeros añaden a los MFCCs parámetros biomecánicos estimados a partir de la onda glótica. El tercero es un sistema multiparamétrico que combina parámetros tradicionales segmentales y suprasegmentales. El sistema descrito en Gómez-Vilda et al. (2014) se llama BioMet®Soft. 6.  Los distintos tipos de modelado de parámetros y cálculo de distancias utilizados en el experimento propuesto por Morrison y Enzinger (2019) son: GMM-UBM, GMM i-vector, DNN bottleneck, DNN senone, x-vector.

84

La fonética forense

relativamente corta y pueden presentar ruido de fondo, así como distorsiones de la señal acústica de diverso tipo, como la compresión derivada de distintos formatos, reverberación, etc. Por otro lado, las muestras dubitadas suelen ser grabaciones telefónicas, lo que implica el filtrado de algunas frecuencias, con sus consecuencias para el análisis de formantes, de la cualidad de voz, etc. (p. ej.: Künzel, 2001; Byrne y Foulkes, 2004). Finalmente, se ha de tener presente que, para elegir buenos parámetros fonético-forenses, idealmente estos deben presentar mucha variabilidad interlocutor y poca variabilidad intralocutor (Nolan, 1983). Existen otros criterios, como disponibilidad o resistencia al disimulo (véanse también los criterios de cantidad, calidad y comparabilidad que describe Rose, 2002). No obstante, los que más se repiten son los referidos a la variabilidad intrae interlocutor. Entre hablantes distintos, un buen parámetro forense debería variar cuanto más mejor; o sea, ser muy distintivo o idiosincrático de una persona. En un mismo hablante, debería ser lo más consistente posible. Esto es, un parámetro será robusto si se mantiene estable en los hablantes pese al paso del tiempo y pese a los posibles fenómenos que causan variación en un mismo hablante, como el estado de salud o emocional (que abarca desde un resfriado o cansancio extremo hasta situaciones de estrés), el consumo de algún tipo de droga (habitualmente alcohol) o simplemente la situación comunicativa, por citar algunos ejemplos de causas de variación intralocutor. La robustez de un parámetro fonético frente a las inevitables fuentes de variación intralocutor ha sido siempre (y probablemente seguirá siendo) el gran reto al que se enfrenta esta disciplina y que, por supuesto, no sufren de la misma manera otras ciencias forenses, como puede ser el ámbito del ADN o de las huellas dactilares. Dado el carácter multidimensional de la voz y las características específicas de las grabaciones en el ámbito forense, en cuanto a calidad y cantidad, la cuestión de qué parámetros discriminan mejor entre hablantes sigue estando abierta. En el capítulo 6 nos centraremos en estudios que se han ocupado específicamente de explorar los límites de la variación inter- e intralocutor.

4. Aproximaciones metodológicas y parámetros más utilizados en comparación forense...

85

Tabla 3.  Parámetros fonéticos más utilizados en comparación forense de hablantes.

86

Parámetro

Notas y referencias bibliográficas

Frecuencia fundamental (f0)

Generalmente se mide la f0 media (Jessen, Köster y Gfroerer, 2005), pero también la moda y la mediana (Hudson et al., 2007), así como el valor máximo y mínimo (Lindh y Eriksson, 2007) y la variabilidad de f0, mediante la desviación estándar y mediante el coeficiente de variación Varco (desviación estándar dividida por la media).

Frecuencias formánticas (F1, F2, F3)

Las frecuencias formánticas se pueden medir localmente; esto es, por vocal (Rose, 2002) o de forma global por medio de distribuciones formánticas a largo plazo (Long Term Formant Distributions; p. ej.: Nolan y Grigoras, 2005). Además, es posible medir las trayectorias formánticas en diptongos y otras secuencias vocálicas (McDougall, 2006; Morrison, 2008; San Segundo, 2014a). Este último es el llamado enfoque dinámico, con mayor capacidad discriminatoria que los métodos estáticos (Jessen, 2018).

Cualidad de voz

La cualidad de voz –‌o timbre característico de una persona– se puede evaluar perceptiva y acústicamente. Es un aspecto fonético multidimensional que hace referencia tanto a aspectos glóticos como supraglóticos; esto es, referidos a las resonancias del tracto vocal. Perceptivamente, está muy extendido el uso del protocolo VPA (cf. apartado 4.1.1). Para análisis acústicos de la cualidad de voz, algunos autores han propuesto el uso del denominado Long Term Average Spectrum (LTAS), o, en español, espectro medio a largo plazo (véase el resumen de investigaciones al respecto en Gil y San Segundo, 2014). Otros estudios más recientes se han centrado en el análisis de parámetros glóticos (Gómez-Vilda et al., 2014).

Parámetros rítmicos

Se suele medir la velocidad de articulación, o número de sílabas por segundo, excluyendo pausas y otras disfluencias (Jessen, 2007; Cao y Wang, 2011). Otros enfoques rítmicos se centran en la variabilidad de la duración de intervalos vocálicos y consonánticos (Leemann, Dellwo y Kolly, 2014).

Pausas y disfluencias

Las pausas llenas o sonoras, así como los alargamientos, disfluencias y otras marcas de duda son parámetros forenses útiles, como han demostrado diversos estudios en varias lenguas (Cicres, 2007a; Braun y Rosin, 2015; Tsanas, San Segundo y Gómez-Vilda, 2017). Los hablantes pueden diferir, por ejemplo, en la frecuencia de aparición de estos fenómenos o en cómo se manifiestan acústicamente.

Otros

Combinación de fenómenos fonéticos y fonológicos frecuentes en una variedad lingüística, como el VOT (Voice Onset Time) o distintos tipos de epéntesis (Jessen, 2018); también aspiraciones de sonidos o distintos fenómenos de debilitamiento; pronunciaciones particulares de sonidos consonánticos, como nasales y fricativas (Kavanagh, 2012) o róticas (Blecua, Cicres y Gil, 2014); características entonativas (Cicres, 2007b); aspectos paralingüísticos y extralingüísticos, como risas o distintos tipos de clics (Gold, French y Harrison, 2013); y aspectos relacionados con patologías del habla (Nolan, 1997).

La fonética forense

5 La expresión de resultados en comparación forense de hablantes: una introducción al marco bayesiano de evaluación de la evidencia forense con datos fonéticos

En el capítulo 3 (apartado 3.1) introdujimos el marco bayesiano de evaluación de la evidencia forense en CFH y explicamos que se trata de un paradigma que comparte la CFH con otras ciencias forenses. Asimismo, nos detuvimos en explicar con detalle el cisma metodológico que este paradigma provocó a principios de siglo entre los fonetistas forenses (apartado 3.3) y, finalmente, comentamos cómo se empieza a vislumbrar una tendencia hacia un cambio de nombre para referirnos a lo que en la publicación de Saks y Koehler (2005) se llama el nuevo paradigma. Este cambio de nombre vendría impulsado por la mayor aceptación del marco bayesiano, también en el ámbito de la fonética forense, para la evaluación de la evidencia y la expresión de los resultados en un informe pericial. En este capítulo nos centraremos en explicar con cierto detalle el concepto de razón de verosimilitud (likelihood ratio, LR, en inglés), de forma teórica en primer lugar y, a continuación, con datos fonéticos extraídos de los análisis acústicos a los que nos referimos en el capítulo 4.

87

5.1. ¿Qué es una razón de verosimilitud (likelihood ratio, LR)? En un peritaje de voz (en la tarea de CFH en concreto), la labor del perito no es realizar una identificación como tal, sino ofrecer una respuesta a la siguiente pregunta: ¿Cuánto más probables son las propiedades observadas en las muestras dubitada e indubitada bajo la hipótesis de que la muestra dubitada tiene el mismo origen que la muestra indubitada que bajo la hipótesis de que tiene un origen diferente? (Morrison, 2009: 299)

Unos años antes, Rose (2002: 89) lo había formulado con otras palabras, aunque se trata de la misma idea: ¿Cuánto más probable es la magnitud de la diferencia entre muestras [dubitada e indubitada] si estas provinieran del mismo hablante que si provinieran de diferentes hablantes?

LR =

P( E | Hml ) P( E | H dl )

donde E es la evidencia (es decir, las diferencias medidas entre la muestra de origen conocido y la de origen desconocido), Hml es la hipótesis del mismo locutor y Hdl es la hipótesis de diferente locutor. La fórmula de arriba se puede leer de la siguiente manera: una LR es igual a la probabilidad (p) de la evidencia (E) dada la hipótesis (H) del mismo locutor (ml) frente a la probabilidad (p) de la evidencia (E) dada la hipótesis (H) de distinto locutor (dl). El numerador nos informa sobre la similitud entre muestra dubitada e indubitada; el denominador se refiere a la tipicidad; esto es, ¿cómo de típica es la voz dentro de la población de referencia relevante? Una población de referencia es una base de datos representativa de la población relevante a la que pertenece la voz dubitada:

88

La fonética forense

En comparación forense de hablantes, esta [población] por lo general se puede restringir al menos a los hablantes del mismo sexo y edad aproximada, con el mismo idioma y dialecto que se pueden inferir de la voz dubitada a partir de su grabación. [...] La naturaleza exacta de la población relevante depende, sin embargo, de la naturaleza exacta de la hipótesis de hablante diferente propuesta por la defensa. (Morrison, 2010a: 3054-3054)

Es decir, depende de la proposición alternativa, como veremos más adelante. En resumen, dado que una LR contiene un término de similitud y un término de tipicidad, correspondientes al numerador y denominador, respectivamente, de la fórmula anterior, la población relevante es necesaria para la estimación cuantitativa de la tipicidad de las muestras dubitada e indubitada. En este punto resulta muy importante recalcar que el perito (o el científico forense, como prefieren otros autores) no calcula la probabilidad de la hipótesis del mismo origen frente a la hipótesis de origen diferente. Para realizar dicho cálculo, sería necesario aplicar el teorema de Bayes, pero esa no es la función del perito; si acaso, sería la del juez. La ecuación para llevar a cabo el cálculo es (Morrison, 2009a): P  Hml | E  P  E | Hml  P  Hml     P  H dl | E  P  E | H dl  P  H dl  Si nos fijamos, el producto (probabilidad a posteriori) es el resultado de multiplicar la LR (el primer factor de la multiplicación es la misma ecuación que indicamos arriba para definir la LR) por el segundo factor de la multiplicación, que denominamos probabilidad a priori. Por tanto, para el cálculo de la probabilidad a posteriori, que es realmente lo que le interesa al juez, es necesario conocer la probabilidad a priori, y esta información generalmente no está disponible para el científico forense. Véase Morrison (2009a) para una descripción de las diferentes interpretaciones de probabilidades a priori. El lector interesado también puede consultar Champod y Meuwly (2000), Ramos-Castro (2007) o San Segun-

5. La expresión de resultados en comparación forense de hablantes

89

do (2014a) para profundizar en las ecuaciones que subyacen detrás de las relaciones de verosimilitud y cómo calcularlas cuando la evidencia forense está relacionada con aspectos de la voz.

Figura 11.  Esquema del teorema de Bayes: únicamente la LR es responsabilidad del científico forense; la apuesta a posteriori y la apuesta a priori son responsabilidad del juzgador de los hechos. Figura adaptada a partir de la propuesta de Morrison (2010).

En resumen, una LR nos ofrece información sobre la fuerza de la evidencia, pero ¿cómo interpretamos el valor numérico? A la hora de interpretar las LR, un valor mayor que 1 indica que es más probable que la evidencia ocurra bajo la hipótesis de mismo origen que bajo la hipótesis de diferente origen. Una LR menor que 1 indica que es más probable que la evidencia ocurra bajo la hipótesis de diferente origen que bajo la hipótesis de mismo origen. La magnitud de cada LR, además, mide cuánto más probable es una hipótesis u otra. Así, una LR mayor que 1 apunta hacia la hipótesis del fiscal (mismo hablante) tanto más cuanto más alto sea el valor. Si la LR es menor que la unidad, apunta hacia la hipótesis de la defensa (distinto hablante), tanto más cuanto menor sea el valor. Aquí hay que tener especial cuidado en no incurrir en la falacia del fiscal: no es que las LR mayores que 1 indiquen mayor probabilidad de la hipótesis del fiscal, sino que es mayor la probabilidad de la evidencia si se cumpliese la hipótesis del mismo locutor.

90

La fonética forense

Decimos que la magnitud de ese número refleja la fuerza relativa de la evidencia. Imaginemos que, a partir de nuestros análisis acústicos, obtenemos una LR de 4. La expresión de la conclusión de nuestro cotejo de voz sería «es cuatro veces más probable observar la evidencia (esto es, encontrar las características acústicas que se observan en las muestras) si la hipótesis de que proceden del mismo hablante es cierta que si lo fuera la hipótesis de distinto hablante». Si la LR obtenida fuera de 1 o en torno a 1, deberíamos concluir que nuestra evidencia fonética no tiene gran peso. Ha podido ocurrir con la misma probabilidad bajo una hipótesis que bajo la otra. Recordemos que, si el resultado de dividir un número entre otro número es 1, es que numerador y denominador son lo mismo. La siguiente pregunta que podemos plantearnos es: ¿qué hace el juez con esa información que el perito le ha dado? Es decir, con la LR = 4, por seguir con el mismo ejemplo. Como explica Morrison (2022), sea cual sea su creencia anterior sobre la probabilidad de que la voz es del sospechoso contra la probabilidad de que sea la de otra persona, después de escuchar el informe del perito con la relación de verosimilitud, el juez debe cambiar su creencia de tal manera que ahora debe pensar que la probabilidad de que sea la voz del sospechoso contra de que sea otro locutor será 4 veces más alta de lo que fuera antes. Por ejemplo, si antes pensaba que la hipótesis de mismo locutor y la de diferente locutor eran igual de probables (esa era su apuesta a priori), después de escuchar al perito, debería pensar que la probabilidad de la hipótesis de mismo locutor es cuatro veces más probable que la hipótesis de diferente locutor. Esta última es la apuesta a posteriori, tras actualizar su conocimiento. En conclusión, los puntos fundamentales que conviene retener son: • La estadística bayesiana es probabilística. • El teorema de Bayes expresa la probabilidad condicional de que suceda un determinado evento considerando información previa sobre otro. • Se trata de lógica, no de fórmulas matemáticas o cientificismo.

5. La expresión de resultados en comparación forense de hablantes

91

Finalmente, otros dos puntos básicos que hay que destacar son, por un lado, la utilización mayoritaria de LR en escala logarítmica (log-likelihood ratios o LLRs en inglés), debido a las magnitudes de valores que se suelen manejar, y, por otro, la existencia de equivalentes verbales a los que se pueden convertir los valores numéricos para los informes periciales (ENFSI, 2015). El uso de estas escalas verbales no es universal y algunos investigadores son partidarios de ofrecer en los informes únicamente el valor numérico (véase el debate en Marquis et al., 2016), pues consideran que es subjetivo convertir un rango de números en adjetivos como limitado y moderado para referirse a los valores numéricos que apoyan una hipótesis u otra. No obstante, en la práctica pericial esta conversión a equivalentes verbales puede resultar útil. De hecho, el ENFSI (2015) propone la utilización de la tabla que mostramos a continuación y que hemos traducido al español (tabla 4). Nótese que en las directrices del ENFSI es más frecuente el concepto de proposición para lo que en este libro hemos venido denominando hipótesis. Así, en la terminología del ENFSI, debe existir una primera proposición y (al menos) una proposición alternativa. Generalmente una proposición está basada en el relato de los eventos de una de las partes y la otra está basada en un relato alternativo de los hechos (el de la parte contraria). Si no puede formularse una proposición alternativa, no puede evaluarse el valor de los hallazgos. De acuerdo con los resultados del cuestionario de Gold y French (2019), 26,3 % de los encuestados usa LR con equivalentes verbales, mientras que las LR numéricas las usa el 13,2 % de los peritos internacionales encuestados. En la encuesta recogida en 2011, estos porcentajes eran más bajos (11,4 % de los encuestados usaba las escalas verbales; 8,6 % usaba LR numéricas) frente a otros marcos de expresión de conclusiones en los informes periciales.1

1.  Otros marcos de expresión de resultados que se señalan en esta encuesta (Gold y French, 2019) son UK Position Statement, resultados binarios o probabilidad clásica.

92

La fonética forense

Tabla 4.  Escala verbal propuesta en las Directrices para la estandarización y mejora de los informes periciales (de tipo evaluativo) en el conjunto de las disciplinas forenses (ENFSI, 2015). Proposición que apoya la LR

LR

Escala verbal

Apoyo a la primera proposición (frente a la proposición alternativa)

1 < LR ≤ 10

Apoyo ligero / limitado

10 < LR ≤ 100

Apoyo moderado

100 < LR ≤ 1000

Apoyo moderadamente fuerte

1000 < LR ≤ 10 000

Apoyo fuerte

LR > 10 000

Apoyo muy fuerte

0.1 ≤ LR < 1

Apoyo ligero / limitado

0.01 ≤ LR < 0.1

Apoyo moderado

0.001 ≤ LR < 0.01

Apoyo moderadamente fuerte

0.0001 ≤ LR < 0.001

Apoyo fuerte

LR < 0.0001

Apoyo muy fuerte

Apoyo a la proposición alternativa (frente a la primera proposición)

Tabla 5.  Conversión de valores LR a escala logarítmica (tabla traducida a partir de la propuesta por Champod y Evett, 2000). LR

Log (LR) o LLR

1

0

10

1

100

2

1000

3

10 000

4

100 000

5

1 millón

6

1 billón

9

De la misma manera para valores de LR por debajo de 1 (LLR = de –‌1 a –‌9)

En cuanto a la otra cuestión que mencionábamos anteriormente, es frecuente utilizar los valores de LR en escala logarítmica; estos se llaman log-likelihood ratios o LLRs. Como se puede observar en la tabla 4, sobre todo cuando se trata de apoyo muy

5. La expresión de resultados en comparación forense de hablantes

93

fuerte a una hipótesis u otra, los valores numéricos pueden ser muy altos. En esos casos es más manejable una escala logarítmica, que también resulta más práctica con fines gráficos (véase el apartado 5.2). Champod y Evett (2000) ofrecen una tabla de conversión de valores LR a la escala logarítmica (tabla 5).

5.2. Evaluación del rendimiento de los sistemas que expresan los resultados en LR Si lo que queremos hacer es un cotejo de voz bajo el marco bayesiano, nos bastaría con conocer qué es una LR y cómo se calculan. Recordemos, no obstante, que este enfoque de expresión de conclusiones requería proporcionar también índices de error sobre nuestro método, como señalaron Saks y Koehler (2005); véase el capítulo 3 (apartado 3.3). Estos índices de error sirven para informar al juez del valor probatorio de la evidencia. En el ámbito de CFH se habla de medidas de la precisión (accuracy) de un sistema de comparación forense y del concepto de validación. A este respecto, hay que remarcar que por sistema no se entiende únicamente el de tipo automático; es decir, un sistema comercial como los descritos en el capítulo 4 (apartado 4.1.3). También se llama sistema a aquel basado en la extracción de parámetros acústicos siguiendo el método que describimos en el capítulo 4 (apartado 4.1.2). En el apartado 5.3 de este capítulo presentamos un ejemplo de evaluación y validación de la evidencia forense en el marco bayesiano utilizando datos fonéticos a partir del análisis de trayectorias formánticas que explicamos en el capítulo 4. Antes de ello, es necesario explicar que existen distintas medidas (que también podemos llamar métricas) y algunos tipos específicos de gráficos que nos permiten precisamente comparar la precisión de distintos sistemas. En una reciente publicación titulada Consenso sobre la validación en comparación forense de hablantes (Morrison et al., 2021), que firman trece investigadores internacionales en el ámbito de la fonética forense, se resumen estas medidas y gráficos, que son, básicamente, la función de coste de la razón de verosimilitud logarítmica y el gráfico Tippett.

94

La fonética forense

5.2.1. La función de coste de la razón de verosimilitud logarítmica (Cllr ) Evaluar la precisión de un sistema de comparación forense es un aspecto muy relevante en todas las ciencias forenses. Por eso existen diversas maneras de medir esta precisión. La función de coste de la razón de verosimilitud logarítmica (Cllr), originalmente utilizada para la validación de sistemas automáticos de reconocimiento de locutores (Brümmer y du Preez, 2006; van Leeuwen y Brümmer, 2007), pronto empezó a utilizarse también en estudios de comparación forense basados en parámetros acústicos tradicionales (p. ej.: González-Rodríguez et al., 2007; Morrison y Kinoshita, 2008). Las características fundamentales del Cllr son (Morrison, 2010a; Morrison et al., 2021): el hecho de que se basan en LLRs y su carácter continuo; esto es, los peores resultados se penalizan más, como veremos a continuación. Esta medida se calcula usando la siguiente ecuación: 1 1 Cllr   2  N Hp 

N Hp

 1  1 log 2 1    LRi  N Hd i 1 



N Hd

 log 1  LR   j 1

2

j



donde NHp son los valores totales de LR para la Hp (hipótesis de la acusación; p del inglés prosecution) y NHd son los valores totales de LR para la Hd (hipótesis de la defensa). A los primeros se les denomina LRi y a los segundos LRj. En la situación forense más habitual, como ya hemos indicado más arriba, la hipótesis de la acusación o del fiscal es que las muestras dubitada e indubitada tienen el mismo origen (mismo hablante), mientras que la hipótesis de la defensa es que las muestras tienen un origen distinto (esto es, pertenecen a hablantes distintos). El Cllr depende de estas hipótesis. Sin embargo, en ocasiones la defensa puede establecer una hipótesis diferente, como la siguiente: «la voz de la grabación dubitada no es la del sospechoso (grabación indubitada), sino la de su hermano gemelo» (o, simplemente, la voz de su hermano). Esas son las posibles hipótesis de la defensa que se plantearon en el estudio lle-

5. La expresión de resultados en comparación forense de hablantes

95

vado a cabo en San Segundo (2014a) y que discutiremos en el apartado 5.3. En cualquier caso, de acuerdo con la ecuación anterior, debemos interpretar que cuanto menor sea el Cllr, más preciso será el rendimiento del sistema. Esta medida se puede utilizar para comparar varios sistemas que se basan en el mismo conjunto de datos. Por ejemplo, en San Segundo (2014a) se compara el rendimiento de 19 sistemas posibles, uno por cada secuencia vocálica. Asumiendo que, para que un sistema forense funcione de manera óptima, las comparaciones de un hablante consigo mismo (LRi) deberían arrojar valores de LR altos y las comparaciones de un hablante con alguien que no es él (LRj) deberían arrojar valores de LR bajos, cualquier desviación de esta situación ideal es castigada, tanto más cuanto mayor sea la desviación con respecto a la llamada ground truth; esto es, la verdad base de nuestros datos. Puesto que se trata de una investigación con muchas comparaciones de dos en dos, algunas son de tipo «mismo hablante» (se compara una grabación de un hablante con otra del mismo hablante grabada en otro momento); otras comparaciones son de tipo «distinto hablante»; es decir, son de un hablante con otro hablante distinto. Estos datos son conocidos; esta es la ground truth. En un cotejo real, sin embargo, no existe ground truth. Por consiguiente, podemos resumir los puntos principales de este tipo de métrica de la siguiente manera: • La función Cllr otorga mayor penalización (es decir, obtenemos valores más altos de Cllr) cada vez que el sistema realiza una comparación «mismo hablante» y obtiene LLR negativas; y viceversa con las comparaciones «distinto hablante» y la obtención de LLR negativas (cf. González-Rodríguez et al., 2007: 2107). • Puesto que estamos en la escala logarítmica, los valores de LLR próximos a cero no proporcionan un fuerte apoyo para una hipótesis u otra; por tanto, se les asignan valores Cllr moderados. • Los valores más pequeños de Cllr indican un mejor rendimiento.

96

La fonética forense

• Los valores de Cllr no pueden ser menores o iguales que 0. • Para sistemas bien calibrados, los valores de Cllr se encuentran en el rango de 0 a 1, aproximadamente. • Un valor Cllr menor que 1 no implica necesariamente que el sistema esté bien calibrado; la mala calibración puede ser evidente en el gráfico Tippett (Morrison et al., 2021: 307).

5.2.2. El gráfico Tippett Los gráficos Tippett representan un método visual para evaluar el rendimiento de un sistema de comparación forense, pero, a diferencia de la función de coste Cllr, que aporta un único valor como medida global de la precisión del sistema, los gráficos Tippett ofrecen más información sobre los sistemas de CFH que expresan los resultados en forma de LR o LLR. Este tipo de gráfico fue propuesto por Evett y Buckleton (1996) en el campo del análisis de ADN y debe su nombre al trabajo de Tippett et al. (1968; cf. Drygajlo, Meuwly y Alexander, 2003). En este tipo de gráfico se muestran dos curvas. Cada una representa la probabilidad de una de las hipótesis: Hp o Hd.

Figura 12.  Gráfico Tippett. Línea derecha (roja en la publicación digital): comparaciones del mismo hablante. Línea izquierda (azul en la publicación digital): comparaciones de hablantes diferentes.

5. La expresión de resultados en comparación forense de hablantes

97

La figura 12 proporciona un ejemplo de un gráfico Tippett realizado a partir de un sistema de comparación forense de hablantes. La línea que asciende desde el eje de abscisas hacia la derecha representa la distribución acumulada de LLR menores o iguales al valor indicado en el eje x, calculado para comparaciones del mismo hablante. La línea que asciende desde el eje de abscisas hacia la izquierda muestra la distribución acumulada de LLR mayores o iguales que el valor indicado en el eje x, calculado para comparaciones de hablantes diferentes. El gráfico Tippett dibujado en la figura 12 representa un sistema con un rendimiento forense relativamente bueno. Por un lado, la mayoría de las comparaciones de un hablante consigo mismo son valores positivos, aunque observamos que algunos puntos de la línea azul entran dentro del cuadrante izquierdo (con la línea divisoria discontinua en el punto cero). Esos valores representan las comparaciones que el sistema ha clasificado con LLR negativas cuando la ground truth indicaba que eran comparaciones del mismo hablante; por ende, un sistema perfecto solo debería haber arrojado LLR positivas. Por otro lado, la mayoría de las comparaciones entre distintos hablantes arrojan valores de LLR negativos, lo que de nuevo apunta a la ground truth y, en consecuencia, a un sistema de comparación fiable. Como se puede observar en el gráfico, tan solo unas pocas comparaciones de este tipo obtienen LLR positivas.

5.3. Un ejemplo de evaluación de la evidencia forense en el marco bayesiano Ya hemos explicado qué son las razones de verosimilitud (LR), cuál es la ecuación con la que llegamos a ellas y cómo debe interpretarse su magnitud. En función del tipo de datos que tengamos, existen diversas fórmulas para el cálculo de LR. En este apartado explicaremos cómo calculamos LR en el estudio llevado a cabo en San Segundo (2014a) a partir de las trayectorias formánticas de las secuencias vocálicas del español.

98

La fonética forense

Para el cálculo de esos datos acústicos específicos, cuyo método de extracción y análisis describimos en el capítulo 4, utilizamos la fórmula de la estimación de la densidad de kernel multivariante descrita en Aiken y Lucy (2004) e implementada por Morrison (2007). Con esta fórmula es posible obtener LR a partir de datos multivariados continuos. Originalmente se concibió para la evaluación de pruebas de evidencia forense en forma de fragmentos de vidrio, pero también se ha utilizado en CFH (p. ej.: Enzinger, 2010; Morrison y Kinoshita, 2008; Rose, Kinoshita y Alderman, 2006). Esta fórmula permite una evaluación de: a) la similitud de dos muestras de voz con respecto a la variación intrahablante, y b) la tipicidad de las muestras de voz con respecto a una estimación de la densidad de probabilidad de una población de referencia. En esta fórmula, «la varianza intrahablante se estima a través de una distribución normal, y la densidad de probabilidad de la población interhablante se estima a través de un modelo kernel» (Morrison, 2009b: 2390). En Aitken y Lucy (2004) se pueden encontrar más detalles sobre los fundamentos matemáticos de esta fórmula. Los datos multivariantes utilizados en San Segundo (2014a) son los coeficientes obtenidos después de aproximar las trayectorias formánticas de las secuencias vocálicas del español mediante funciones polinómicas y DCT. Además, en dicho estudio se adoptó un procedimiento de validación cruzada para el cálculo de cada LR. Mediante este procedimiento, se comparó la primera sesión de grabación de cada uno de los 54 hablantes que participaron en el estudio con: a) Su segunda sesión (esto permite obtener comparaciones intrahablante no contemporáneas). b) La segunda sesión de su hermano u otro interlocutor (esto permite obtener comparaciones de diferentes hablantes del siguiente tipo: entre gemelos monocigóticos, entre gemelos dicigóticos y entre hermanos, o simplemente comparaciones entre hablantes sin parentesco; estas últimas eran mayoritariamente compañeros de trabajo o amigos que acudieron juntos a la grabación).

5. La expresión de resultados en comparación forense de hablantes

99

c) La primera sesión de todos los demás hablantes que componen el corpus (esto genera más comparaciones de tipo «hablantes distintos»). Por lo tanto, las LR con validación cruzada se calcularon por separado para cada secuencia vocálica, representada por los coeficientes extraídos del ajuste de curvas de cada una de sus trayectorias formánticas F1-F3, como se explicó anteriormente. Los formantes se combinan directamente en la fórmula de Aitken y Lucy (2004), mientras que los diptongos necesitan una fusión posterior. En San Segundo (2014a) se combinaron las trayectorias de F2 y F3, dejando de lado F1 por las razones que se especifican a continuación. Por un lado, estudios previos como Morrison (2009b) o Enzinger (2010) compararon el rendimiento de un sistema que incluía las trayectorias de F1, F2 y F3 con el rendimiento de un sistema que solo incluía las trayectorias de F2 y F3. Los dos estudios antes mencionados encontraron resultados similares en los sistemas que fusionaban dos formantes y tres formantes, lo cual indica que el rendimiento de un sistema no se deteriora sustancialmente cuando no se consideran las trayectorias de F1 (Morrison, 2009b: 2395). Por otro lado, es bien sabido (Künzel, 2001) que el primer formante suele estar comprometido por el paso banda de la red telefónica (0,3-3,4 kHz) y la transmisión telefónica es un factor que afecta a las grabaciones que se suelen comparar en los peritajes forenses. Por estas razones, en San Segundo (2014a) se fusionaron solo los coeficientes F2 y F3, y no se tuvieron en cuenta los de F1. Después de haber obtenido las LR para cada secuencia vocálica utilizando los diferentes tipos de curvas paramétricas que explicamos en el capítulo 5, y después de haber realizado el procedimiento de validación cruzada que acabamos de describir, el siguiente paso consiste en combinar los resultados de las comparaciones obtenidos por secuencia vocálica. Esto se hace con el fin de mejorar el rendimiento del sistema. Siguiendo a González-­ Rodríguez et al. (2007) y a Morrison (2009b), existen varios métodos para combinar (sumar o fusionar) los resultados arrojados

100

La fonética forense

por diferentes sistemas. En nuestra investigación, tenemos 19 sistemas de comparación forense diferentes (tantos como secuencias vocálicas) que ofrecen los resultados de las comparaciones en forma de scores (la forma de llamar a las LR prefusionados) y nuestro objetivo es fusionarlos todos en una única LR. A continuación, describiremos dos tipos de procedimientos de fusión. Para ello, se optó por elegir solo los resultados procedentes de la curva paramétrica que mejor ajustaba las trayectorias formánticas. En lo que se refiere a las técnicas de fusión, se pueden hacer dos distinciones básicas. El primer procedimiento asume la independencia estadística de los scores que se van a combinar, mientras que el segundo no, y, por ello, necesita cierta calibración. Este segundo procedimiento se llama fusión de regresión logística. Seguidamente, describiremos ambos tipos de procedimientos. Bayes «ingenuo» con media aritmética En un primer paso combinamos los scores obtenidos en cada sistema simplemente multiplicándolos. Este procedimiento se llama en inglés Naïve Bayes (también Idiot’s Bayes o Independence Bayes, cf. Rose, 2006: 171) y asume que las variables son independientes; es decir, que no están correlacionadas. Por consiguiente, el valor de la LR combinada (LRc) se calculará como sigue: LRc = Score1 × Score2 × Score3 × ⋯ Score19

No obstante, para evitar un exceso de confianza en la LRc obtenida, en un paso posterior se procedió a calcular la raíz 19 del producto; es decir, se obtiene la media geométrica. Esto se hace así porque, al asumir independencia estadística donde realmente hay correlación entre variables, este tipo de fusión «ingenua» de Bayes tiende a producir LR sobreestimadas. Por tanto, para compensar este exceso de confianza se recomienda el cálculo de la media geométrica de todos los 19 scores, en lugar del producto simple (Daniel Ramos, comunicación personal). Así, tenemos: LRc  19 Score1  Score2  Score3   Score19

5. La expresión de resultados en comparación forense de hablantes

101

Regresión logística En relación con el segundo tipo de fusión de scores, utilizamos la regresión logística, un método bien conocido de clasificación estadística (p. ej.: Hastie, Tibshirani y Friedman, 2009: 119-128). En su aplicación forense, el uso de la regresión logística no solo sirve para fusionar, sino también para calibrar (Brümmer y Du Preez, 2006; González et al., 2007; Morrison y Kinoshita, 2008; Ramos-Castro, 2007; Van Leeuwen y Brummer, 2007; en Morrison, 2010a: 3061). Por un lado, la calibración es el proceso de diseño y optimización de la transformación de los scores brutos (calculados por diferentes sistemas) en LR de tal manera que se minimiza la función de coste. Por otro, la fusión convierte múltiples conjuntos de scores en LR. Lo que hacen los scores es «cuantificar el grado de similitud de pares de muestras a la vez que tiene en cuenta su tipicidad» (Morrison, 2010a: 3061). Estos scores también se pueden llamar LR no calibradas; no tienen un significado absoluto por sí mismos. Pero el valor de la LR después de la calibración sí que representa el peso de la evidencia. Como explica Morrison (2013: 177): Una LR se puede calcular secuencialmente para cada punto de datos, pero lo que se necesita es una LR que caracterice la fuerza de la evidencia con respecto a la totalidad de la muestra dubitada, no con respecto a múltiples porciones individuales de la grabación.

Para más detalles sobre la aplicación de la regresión logística a los datos extraídos a partir de secuencias vocálicas, véase San Segundo (2014a: 101-102). Centraremos ahora nuestra atención en la presentación de los resultados o la expresión de conclusiones cuando los sistemas están basados en valores de LR. En la figura 13 observamos 10 tipos de comparaciones distintas: las dos cajas más a la izquierda representan las comparaciones de un hablante consigo mismo. Los valores son fundamentalmente mayores que 1, como corresponde a las comparaciones de tipo «mismo hablante». Los valores de la mayoría de las comparaciones de este tipo (recordemos

102

La fonética forense

que son 54 hablantes en total; por tanto, 54 comparaciones de un hablante consigo mismo) caen en la franja de valores entre 2 y 4. Como indicamos al comienzo de este capítulo, una LR de 4 se debe interpretar como «es cuatro veces más probable observar la evidencia (esto es, encontrar las características acústicas que se observan en las muestras; en este caso las trayectorias formánticas de las 19 secuencias vocálicas del español) si la hipótesis de que proceden del mismo hablante es cierta, frente a si lo fuera la hipótesis de distinto hablante». De la tercera caja del gráfico a la décima encontramos las distintas comparaciones de un hablante con otro hablante distinto. Aquí lo ideal sería encontrar valores de LR menores que 1. Esto ocurre mayoritariamente en algunos tipos de comparaciones (las de hablantes sin parentesco) o en el caso de hermanos no gemelares. Por supuesto, el sistema no es perfecto y para algunas comparaciones de distintos hablantes, este sistema en concreto nos da como resultados valores de LR positivos, que serían los errores

Figura 13.  Diagramas de caja que muestran la distribución de los valores de LR (combinados bajo el procedimiento de la media geométrica) por tipo de comparación: IS (comparaciones intrahablante), MZ (comparaciones entre parejas de gemelos monocigóticos), DZ (comparaciones entre parejas de gemelos dicigóticos), B (comparaciones entre hermanos) y US (comparaciones entre pares de hablantes no emparentados). La línea horizontal divide el gráfico en LR > 1 y LR < 1. DCT3 y POLY3 representan el tipo de parametrización de las curvas: DCT de tercer grado y polinomial cúbica, respectivamente.

5. La expresión de resultados en comparación forense de hablantes

103

del sistema. Esto se observa también en la figura 14, que representa un gráfico Tippett (con las LR en escala logarítmica). Véase, por ejemplo, la línea que invade (mínimamente) el cuadrante del gráfico del cero a la izquierda. El gráfico Tippett nos permite conocer la precisión de nuestro sistema en distintas situaciones de comparación. Así, aparte de la situación más típica (comparación de mismo hablante y de distinto hablante), podemos observar el rendimiento de las siguientes comparaciones del tipo «entre parejas de hermanos»: el azul es para los gemelos monocigóticos, el verde para los dicigóticos y el magenta para hermanos no gemelares. De algún modo, mediante la inclusión de distintas combinaciones de parejas (de mayor a menor similitud en la voz, en principio), estamos sometiendo al sistema a una prueba de estrés, para validarlo en situaciones extremas de parecido entre hablantes. Esta exploración de

Figura 14.  Gráfico Tippett que muestra la distribución acumulativa de LLR utilizando POLY3 y la fusión con el método de la media geométrica a partir del método «Bayes ingenuo». Líneas finas: la de la derecha (roja en la publicación digital) se utiliza para las comparaciones del mismo hablante y la de la izquierda (negra en la publicación digital) para las comparaciones de diferentes hablantes. Líneas gruesas que crecen hacia la izquierda: comparaciones de tipo «entre parejas de hermanos»; 1) línea de puntos (azul) = monocigóticos, 2) línea de puntos y rayas (verde) = dicigóticos; 3) línea de rayas (magenta) = hermanos no gemelares (los colores se refieren a la publicación digital).

104

La fonética forense

los límites de la variación interlocutor (y también intralocutor) la volveremos a tratar en el capítulo 6. Finalmente, podemos señalar que en San Segundo (2014a), entre otras hipótesis, se consideró que los resultados del sistema de CFH no serían mucho mejores con un método de ajuste de curvas que con el otro. Efectivamente, así se corroboró. Por un lado, se concluyó que las funciones de tercer grado son la mejor manera de ajustar las trayectorias formánticas, ya sean funciones polinómicas o DCT. Esto se comprobó con las 19 secuencias vocálicas del español, observándose la misma tendencia para todas ellas. Asimismo, se obtuvo el mismo resultado independientemente de si se consideraba F2 o F3, que son formantes que en general no tienden a verse afectados negativamente por las características de filtrado telefónico.

5. La expresión de resultados en comparación forense de hablantes

105

6 Los límites de la variación inter- e intralocutor

6.1. Criterios para la selección de un parámetro robusto En el capítulo 4 presentamos algunos de los parámetros fonéticos más utilizados en CFH (apartado 4.2). También indicamos sucintamente que existen ciertos criterios para orientar al perito en la elección de un buen parámetro. Idealmente, este debe presentar mucha variabilidad interlocutor y poca variabilidad intralocutor (Nolan, 1983). Esto quiere decir que, entre hablantes distintos, un buen parámetro forense debería variar cuanto más mejor; o sea, ser muy distintivo o idiosincrático de una persona. En un mismo hablante, debería ser lo más consistente posible. Esta situación se puede representar mediante un gráfico, como el de la figura 15. En la figura 15 observamos una representación esquemática de dos situaciones hipotéticas. En ambos gráficos se representan dos parámetros (en el eje vertical y horizontal, respectivamente) y cada uno de los óvalos representa la localización de un hablante distinto en ese espacio imaginario si midiéramos sus valores para cada uno de los parámetros imaginarios. Es una represen­ tación bidimensional del campo de dispersión de la variación inter- e intralocutor. Mientras que en el gráfico de la izquierda no existe solapamiento entre hablantes, en el gráfico de la derecha

107

Figura 15.  Ilustración de la variación interlocutor e intralocutor para dos parámetros imaginarios. Izqda.: cuatro hablantes distintos representados mediante elipses que no se solapan; existe mucha variación interlocutor y poca variación intralocutor. Dcha.: cuatro hablantes representados mediante elipses que se solapan; existe poca variación interlocutor y mucha variación intralocutor. Figura adaptada a partir de la propuesta por Jessen (2018).

sí que existe solapamiento entre todos los hablantes (poca variación interlocutor) y, además, los campos de dispersión son muy grandes (mucha variación intralocutor). Sin conocer de qué tipo de parámetros podría tratarse, podemos hipotetizar que los parámetros del gráfico de la izquierda son capaces de distinguir a los cuatro hablantes representados, mientras que los dos parámetros de la derecha difícilmente permiten separar (y, por tanto, individualizar) a los cuatro hablantes. Probablemente los estudios pioneros que han indagado en las características que debe reunir un parámetro fonético para su utilización forense se remontan a la investigación de Wolf (1972). Desde entonces, otros autores han repetido estos criterios, con más o menos variantes. En la tabla 6 incluimos los seis criterios básicos ya establecidos por Wolf (1972) y redefinidos por Nolan (1983). Entre todas las condiciones que debe cumplir un parámetro fonético-forense, las dos primeras en la lista de Nolan (1983) son las más relevantes, ya que su valor forense se ha repetido en muchas publicaciones posteriores; el primer criterio a veces con más énfasis que el segundo:

108

La fonética forense

Las propiedades del sonido en las que debe centrarse un análisis perceptivo o acústico son aquellas para las que se sabe que existen grandes diferencias entre hablantes; es decir, las que tienen una gran «variación interlocutor». (Jessen, 2008: 687) Las propiedades acústicas del habla serán útiles desde el punto de vista forense en la medida en que tengan gran variación entre hablantes y una variación relativamente pequeña dentro de cada hablante. (Morrison, 2010a: 6054)

Al respecto de la variación intralocutor, cabe señalar que en la mayoría de las investigaciones en el ámbito de la fonética foTabla 6.  Criterios para la elección de un parámetro fonético forense, de acuerdo con Wolf (1972) y Nolan (1983). Wolf (1972: 2044)

Nolan (1983: 11)

«Debería variar tanto como sea posible entre hablantes».

Alta variabilidad entre hablantes: «el parámetro debe exhibir un alto grado de variación de un hablante a otro».

«Debería ser lo más consistente posible para cada hablante».

Baja variabilidad dentro del hablante: «tendrá que mostrar consistencia a lo largo de las emisiones orales de un individuo; y preferiblemente que no le afecte su estado de salud, su estado emocional o el contexto comunicativo».

«No debería cambiar con el tiempo ni verse afectado por la salud del hablante». «No debería ser modificable conscientemente por el hablante o, al menos, debería ser poco probable que se vea afectado por los intentos de disimular la voz».

Resistencia a intentos de disimulo o imitación: «el parámetro necesita resistir los intentos, por parte del hablante, de disfrazar su voz o imitar la de otro, ya sean estos la consecuencia acústica de una característica fisiológica del hablante que no es capaz de alterar a voluntad, o por ser de alguna manera un atributo del habla “menos obvio” que escapa a su atención durante los intentos de disimulo o imitación».

«Debería ocurrir de forma natural y frecuente en el habla normal».

Disponibilidad: «es de poca utilidad basar el reconocimiento del hablante en un parámetro que rara vez ocurre en el habla y, por lo tanto, requiere una gran cantidad de datos tanto en los corpus de prueba como en los de referencia».

«No debería verse afectado por un ruido de fondo razonable ni depender de características de transmisión específicas».

Robustez en la transmisión: «la utilidad de un parámetro se verá limitada si su información se pierde o se reduce en la transmisión telefónica o en el proceso de grabación».

«Debería ser fácilmente medible».

Mensurabilidad: «la extracción del parámetro en cuestión no debe ser prohibitivamente difícil».

6. Los límites de la variación inter- e intralocutor

109

rense se graban las voces de los participantes al menos en dos ocasiones, llamadas también sesiones no contemporáneas, separadas por un lapso que generalmente oscila entre dos y tres semanas (Morrison, Rose y Enzinger, 2012; San Segundo, 2014a). De esta manera, es posible medir la variación intralocutor de un parámetro y conocer si es mayor o menor que la variación interlocutor. Los seis criterios básicos resumidos en la tabla 6 también aparecen en las referencias bibliográficas que tratan específicamente sobre sistemas de reconocimiento automático de locutor. Por ejemplo, Kinnunen y Li (2010) se refieren a las mismas características para un parámetro idóneo. Además, añaden que «la cantidad de características debería ser también relativamente baja» (Kinnunen y Li, 2010: 3), ya que esto reduce un problema conocido en reconocimiento automático de hablantes como la «maldición de la dimensionalidad» (Jain, Duin y Mao, 2000): Los modelos estadísticos tradicionales como el modelo de mezclas gaussianas (Reynolds, Quatieri y Dunn, 2000; Reynolds y Rose, 1995) no pueden manejar datos de alta dimensión. El número de muestras de entrenamiento requerido para una estimación de densidad fiable crece exponencialmente con el número de características. Este problema se conoce como la maldición de la dimensionalidad (Jain, Duin y Mao, 2000). Los ahorros computacionales también son obvios con características de baja dimensión. (Kinnunen y Li, 2010: 3)

6.2. Factores de variación intra- o interlocutor Gracias a diversos estudios (Nolan, 1983; Watt, 2010; Marrero et al., 2017), tenemos un conocimiento extenso de los principales factores que conllevan variación en un mismo hablante y entre hablantes distintos. Hansen y Boril (2018) es una excelente y reciente revisión bibliográfica en la que los autores proporcionan una exhaustiva relación de distintos factores de variación, clasificados en tres grupos: a) factores que dependen del hablan-

110

La fonética forense

te; b) factores que dependen de la conversación, y c) factores que dependen de la tecnología, el ambiente o el ruido. Aunque el interés de Hansen y Boril (2018) parece residir en remarcar los factores que afectan al desajuste o discordancia (mismatch) entre los datos de entrenamiento y los datos de prueba necesarios en el desarrollo de diversas tecnologías del habla, como los sistemas de reconocimiento de hablantes, nos ha parecido oportuno seguir su clasificación, pues tiene en cuenta los últimos avances tecnológicos que han dado lugar a nuevas formas de comunicación (las llamadas interacciones humano-máquina) a través de dispositivos móviles. Este es un ámbito que evoluciona a un ritmo muy rápido y está abriendo nuevas líneas de investigación no solo en el campo de la fonética (Gessinger, 2022), sino también en campos afines como la pragmática (Beneteau et al., 2019). Basta con pensar en los procesos de acomodación que surgen en nuestra forma de interactuar con los distintos asistentes de voz disponibles en el mercado. En la tabla 7 presentamos un resumen de la clasificación de factores de variación llevada a cabo por Hansen y Boril (2018), que hemos adaptado y completado con otros estudios de destacados fonetistas que han investigado también estas cuestiones desde un punto de vista sociolingüístico y forense. Realmente, los factores que se recogen en la tabla 7 no pertenecen a apartados estancos, sino que están tan relacionados entre sí que convendría estudiarlos conjuntamente, como indican Hansen y Boril (2018). Por ejemplo, el ruido ambiental no solo afecta a la distorsión de la señal acústica, sino que también puede inducir el efecto Lombard, y esto a su vez generar un estilo de habla concreto por parte del hablante. Como indica Marrero (2015: 133): El efecto Lombard es una estrategia para incrementar la perceptibilidad de la señal en entornos ruidosos (Lombard, 1911). Tal efecto se consigue principalmente elevando el tono, aumentando las frecuencias formánticas, subiendo la intensidad y disminuyendo la tasa de habla.

6. Los límites de la variación inter- e intralocutor

111

Dependientes de factores tecnológicos y ambientales

Dependientes de la conversación

Dependientes del hablante (Tradicionalmente llamados factores de variación intrínsecos)

Tabla 7.  Posibles factores de variación entre las muestras de habla. Adaptada a partir de la propuesta de Hansen y Boril (2018).

112

(a) Factores de variación interlocutor: a. Sexo / Género b. Edad* c. Variación fisiológica: –– diferencias en el tamaño del tracto vocal y de la laringe d. Variación sociolingüística y dialectal: –– diferencias debidas al bagaje educativo y procedencia regional * Se suele distinguir edad biológica y edad cronológica. La primera se refiere al envejecimiento de los tejidos y órganos que intervienen en la producción vocal. La segunda hace referencia únicamente al tiempo transcurrido desde el nacimiento de una persona. (b) Factores de variación intralocutor: a. Tipo de tarea (p.ej. conducir un vehículo mientras se habla con un manos libres) b. Esfuerzo vocal y situación comunicativa (p. ej.: susurro o gritos) c. Efecto Lombard. Este ocurre cuando se habla en presencia de ruido. Puede estar relacionado con cambios en el esfuerzo vocal, pero debido a que es el entorno el que provoca esos cambios subconscientes, Hansen y Boril (2018) lo consideran distinto a (b). d. Sonidos humanos no lingüísticos o paralingüísticos (p. ej. tos o silbidos). e. Emociones (enfado, tristeza, alegría, etc.). f. Aspectos fisiológicos. Hansen y Boril (2018) solo incluyen: enfermedades, intoxicación por alcohol e influencia de medicamentos. Marrero et al. (2017) distinguen: i. alteraciones de la voz (disfonías) ii. alteraciones de la articulación (disglosias y dislalias) iii. alteraciones en la fluidez del habla (disfemias) (a) Conversación entre humanos Se suele producir cuando dos o más individuos interactúan. Este escenario se ve afectado por las características personales y sociolingüísticas de los interlocutores (véanse los factores de variación interlocutor). Otro factor es el modo de comunicación: una comunicación puede ser cara a cara, mediada por tecnología, involucrando canales audiovisuales o solo de audio, etc. (b) Conversación humano-máquina El hablante se dirige a alguna tecnología (por ejemplo, un sistema de diálogo hablado a través de un teléfono, un teléfono inteligente, un teléfono fijo o un ordenador). (a) Factores electromecánicos – Canal de transmisión – Dispositivo telefónico (móvil, inalámbrico, fijo) – Micrófono (b) Factores ambientales – Ruido de fondo – Acústica de la habitación – Reverberación (c) Calidad de los datos – Duración – Frecuencia de muestreo – Calidad de la grabación – Códec del audio / tipo de compresión

La fonética forense

No obstante, estas modificaciones varían en función del tipo de ruido y del contenido de la señal. En CFH el perito suele comparar al menos dos muestras de habla, como ya hemos indicado. Si una de ella se produce con un excesivo ruido de fondo y la otra no, podemos encontrar grandes diferencias entre la voz y el habla de una y otra; factores que pueden llevar a pensar que estamos ante dos hablantes distintos cuando en realidad podría tratarse del mismo. De ahí la importancia de, por un lado, considerar todos estos factores conjuntamente en los peritajes de voz y, por otro lado, tratarlos como posibles fuentes de variación tanto interlocutor como intralocutor. Existen otras clasificaciones posibles de los factores de variación inter- e intralocutor. Por ejemplo, en Marrero et al. (2017), la variación geolectal, sociolectal y la condicionada por la situación comunicativa (en la cual cabe distinguir registros y niveles de lengua, así como fenómenos de hiper e hipoarticulación) se consideran factores extrínsecos. En Watt (2010) encontramos alguna explicación más detallada de las causas de las diferencias fisiológicas, que pueden observarse tanto entre hablantes como en un mismo hablante en dos momentos vitales distintos. Por mencionar algunas de ellas, Watt (2010) se refiere a presencia de objetos, como ortodoncia o piercings en la lengua; procesos unidos el envejecimiento, como osificación de los cartílagos laríngeos o pérdida de dientes; adquisición de hábitos como el tabaquismo; o fallos en el funcionamiento del aparato articulador, como problemas en el descenso del velo del paladar, que provocan una cualidad de voz adenoidal. En cualquier caso, no existe una lista cerrada de factores de variación inter- e intralocutor. Pueden existir muchos otros que todavía no se hayan investigado en profundidad o que se estén empezando a estudiar. Por ejemplo, una línea de investigación interesante es aquella que se centra en los patrones de convergencia e imitación que ocurre entre hablantes en el curso de una interacción conversacional (p. ej.: Pickering y Garrod, 2004; Pardo, 2006; Truong y Trouvain, 2012). Existen algunos estudios enfocados especialmente en la convergencia de característi-

6. Los límites de la variación inter- e intralocutor

113

cas fonéticas en hablantes que son conocidos cercanos (Kalmanovitch, 2012), o compañeros de residencia universitaria (Pardo et al., 2012). Dado que los enfoques metodológicos de estas investigaciones recientes (deudoras de la teoría de la acomodación –‌Giles, Coupland y Coupland, 1970; Coupland, 1984–) no se han aplicado todavía a la fonética forense propiamente dicha, constituyen una posible fuente de investigaciones futuras. Gracias a diversas investigaciones sociolingüísticas y pragmáticas, sabemos que un hablante no solo adopta elementos lingüísticos de su interlocutor con la intención de mostrar pertenencia al grupo, o bien de ganar su aprobación o expresar solidaridad de algún modo, sino que también puede utilizar diversas estrategias de cortesía y atenuación discursiva dependiendo de la imagen que quiera proyectar sobre el oyente o su interés en buscar la aceptación de este (Ávila Muñoz, 2021). Desde un punto de vista fonético, los estudios que han investigado la acomodación o convergencia entre hablantes (a veces se utiliza también el término entrainment para referirse al fenómeno de «arrastre», sincronización o alineamiento entre interlocutores) han examinado aspectos fonéticos muy variados. Por mencionar algunos de ellos (véase Pardo, 2013 para una revisión bibliográfica más detallada), se ha estudiado la duración de sonidos (Goldinger, 1998; Pardo, 2010); la velocidad del habla (Pardo et al., 2010), la f0 y el contorno tonal (Gregory et al., 1997; Goldinger, 1998; Pardo, 2010), la intensidad (Levitan y Hirschberg, 2011) y la cualidad de voz (Levitan y Hirschberg, 2011). Uno de los estudios más recientes en este ámbito es el de Zimina y Evdokimova (2021), que investigan la acomodación del habla en los diálogos de dos interlocutores mientras juegan a un juego de cartas. Los resultados del estudio muestran la presencia de convergencia en los valores formánticos de las vocales tónicas examinadas. Además, el grado de familiaridad entre los interlocutores afectaría a la rapidez con la que los interlocutores empiezan a converger. Igualmente, el estudio sugiere que el grado de acomodación puede verse afectado por la diferencia de edad entre hablantes y por su estatus social.

114

La fonética forense

6.3. El zoo biométrico: un ejemplo de comparación forense de hablantes Es inevitable relacionar los factores de variación inter- e interlocutor que explicamos en el apartado anterior con los diversos estudios biométricos que se han realizado con el fin de comprender mejor los errores producidos por los sistemas automáticos de reconocimiento. En este apartado explicaremos cómo se puede clasificar a los hablantes en función del tipo de errores que producen en un sistema de CFH y qué papel juega la variación inter- e intralocutor en esta clasificación. En el ámbito del reconocimiento automático de hablantes (y también en otros campos de la biometría y la antropometría –‌Escajedo, 2015–) es habitual utilizar nombres de animales para denominar a distintos tipos de hablantes en función de su comportamiento en un sistema de reconocimiento automático. En Doddington et al. (1998) proponen distintas pruebas estadísticas para «cazar» a cuatro tipos básicos de hablantes: ovejas, cabras, corderos y lobos. Esto es lo que se conoce como zoo biométrico (en inglés biometric menagerie). Algunos años más tarde, Yager y Dunstone (2007) propusieron una ampliación del zoo de Doddington et al. (1998) que incluye gusanos, camaleones, fantasmas y palomas. Para simplificar, aquí nos centraremos únicamente en los cuatro animales originales del zoo. En ocasiones, en la literatura especializada, leemos que las etiquetas «cabra», «cordero» y «lobo» se aplican a los llamados usuarios problemáticos. De esta forma se hace referencia a los hablantes que son «usuarios» de un sistema de verificación; por ejemplo, un sistema de acceso a banca que requiere autenticación vocal. Aunque no hemos hecho referencia a esta especialización terminológica, en los sistemas automáticos es frecuente diferenciar entre «reconocimiento» (aplicación forense) y «verificación» (aplicación comercial). El lector interesado puede encontrar más detalles al respecto en Bimbot, Chollet y Paoloni (1995) o Müller (2007). En los sistemas de verificación distinguimos dos tipos fundamentales de errores: falsos negativos (missed hits) y falsos positi-

6. Los límites de la variación inter- e intralocutor

115

vos (o falsas alarmas). En los primeros el sistema falla porque no identifica al verdadero hablante; en los segundos, el sistema falla porque identifica erróneamente a un impostor como si fuera el hablante al que tiene que identificar. Teniendo en cuenta estos aspectos, los cuatro animales del zoo biométrico son: • Ovejas: –– Son los hablantes prototípicos. –– El rendimiento del sistema es óptimo cuando se pone a prueba con este tipo de hablantes. –– Este tipo de hablantes son los predominantes en la población. • Cabras: –– Son los hablantes particularmente difíciles de reconocer. –– Afectan especialmente al rendimiento de los sistemas, pues suponen un porcentaje importante de los falsos negativos. • Corderos: –– Se trata de los hablantes que son particularmente fáciles de imitar. –– Los corderos tienden a afectar adversamente al rendimiento de los sistemas; suponen un porcentaje importante de las falsas alarmas. • Lobos: –– Son aquellos hablantes que logran imitar fácilmente a otros hablantes. –– Existe una alta probabilidad de que un sistema les confunda con otros hablantes distintos. –– Los lobos tienden a afectar negativamente al rendimiento de los sistemas, ya que provocan un porcentaje importante de falsas alarmas. En un sistema de verificación, cualquiera de los animales que acabamos de describir, menos las ovejas, son motivo de preocupación para los investigadores que diseñan esos sistemas. En el ámbito forense, el principal problema reside en la existencia de cabras y de lobos. De los lobos (e, indirectamente, de los corderos) nos ocuparemos en el siguiente apartado de este capítulo

116

La fonética forense

(apartado 6.4). Las cabras son aquellos hablantes que provocan falsos negativos, como hemos indicado anteriormente. Un falso negativo es un tipo de error que nos debe preocupar en CFH, pues supone que nuestro sistema nos indica que es más probable observar la evidencia si la hipótesis de distinto hablante fuera cierta que si fuera cierta la hipótesis del mismo hablante. Si obtenemos este resultado en nuestro cotejo de voz cuando la grabación dubitada e indubitada realmente pertenecen a la misma persona, en última instancia el culpable de un delito podría evitar su condena; aunque ya hemos indicado que esto lo decide siempre el juez. En los estudios llevados a cabo por San Segundo (2014a) y San Segundo y Gómez-Vilda (2014), basados en el análisis glótico de las pausas llenas del español en 54 hablantes, descubrimos la presencia de uno de estos hablantes (del tipo «cabra») y nos preguntamos a qué podría deberse que el sistema de CFH arrojara una LR negativa de gran magnitud al comparar dos muestras de habla de la misma persona. En la tabla 8 incluimos los valores de LLR obtenidos por una docena de hablantes de nuestro corpus cuando los comparábamos consigo mismos. Como se puede observar, mayoritariamente los valores eran positivos; y si eran negativos, estaban próximos a cero. Excepcionalmente, el hablante número 25 obtuvo un valor de LLR muy bajo y negativo. En principio, cualquiera de los factores de la tabla 7 puede ser la causa de que un hablante resulte ser una «cabra» cuando lo comparamos consigo mismo. No obstante, en estudios controlados, en los que no varían ni los materiales de grabación ni las tareas que se les pide a los participantes, resulta fundamental recoger información suficiente sobre cuestiones como el estado de salud para intentar explicar los motivos que puede haber detrás de este tipo de casos excepcionales. De este modo, esos metadatos se pueden asociar a las bases de datos (esto es, a las voces) con las que se entrenan los sistemas de CFH. A este respecto, Hansen y Boril (2018) indican que hoy en día, si bien es muy fácil encontrar muchos datos de voz para entrenar los sistemas, los metadatos asociados a dichas grabaciones son muy limitados.

6. Los límites de la variación inter- e intralocutor

117

Tabla 8.  Resultados de las comparaciones de un mismo hablante (primera sesión con segunda sesión) en los estudios de San Segundo (2014a) y San Segundo y Gómez-Vilda (2014). Hablante

LLR

25

–42.2

26

–0.7

27

10.2

28

11.9

29

–0.2

30

7.5

31

6.1

32

5.2

51

–4.9

52

4.9

53

8.1

54

5.7

En la figura 16 encontramos una hoja del formulario que rellenó el hablante 25 del estudio de San Segundo (2014a), que resulta clave para interpretar su LLR discordante. Este tipo de anamnesis, que es el término que se utiliza en las ciencias de la salud, permite al investigador recopilar datos útiles para formular un diagnóstico y elaborar un tratamiento. En nuestro caso, nos permiten entender que, al recoger datos para obtener una población de referencia, no se pueden controlar todos los factores de variación y que las causas que pueden esconderse detrás de hablantes del tipo «cabra» pueden ser muy diversas. Efectivamente, la figura 16 revela que el hablante 25 presentaba hipotiroidismo. No se consideró un motivo para descartarlo del estudio, pues en la segunda sesión de grabación, que tuvo lugar dos semanas después de la primera, el hablante no indicó ningún cambio, ni con respecto a su situación endocrina, ni ningún otro tipo de cambio que podamos achacar al falso negativo obtenido en el estudio (figura 16). Aun así, habría que tener en

118

La fonética forense

Figura 16.  Fragmento de la página 5 (sección «Salud») del formulario completado por el hablante 25 para la realización de la tesis doctoral de San Segundo (2014a).

cuenta este aspecto en futuros estudios forenses, pues la disfonía no es infrecuente en sujetos que presentan algún tipo de patología tiroidea (véase la revisión bibliográfica llevada a cabo recientemente por León-Gómez et al., 2022).

6. Los límites de la variación inter- e intralocutor

119

6.4. Estudios de voces disimuladas Hasta ahora hemos explicado métodos que daban por hecho que en las grabaciones no existía ningún tipo de enmascaramiento de la voz o intento de disimulo por parte del hablante, pero sabemos que no son infrecuentes los casos delictivos en los que se intenta ocultar o camuflar la identidad a través de cambios en la voz. En Eriksson (2010) encontramos las siguientes estadísticas sobre la frecuencia de la aparición de algún tipo de disimulo en casos reales y en diversos países: • Según Künzel (2000: 149), «durante las últimas dos décadas, entre el 15 y el 20 por ciento de los casos anuales tratados en la BKA (Bundeskriminalamt, Oficina Criminal Federal Alemana) exhibía al menos un tipo de disfraz». • De acuerdo con Masthoff (1996: 161), «menos del 5 por ciento de los casos analizados en la Universidad de Tréveris durante los últimos siete años implicó algún disfraz de voz», aunque también indica que en la BKA existe una ocurrencia general del 52 por ciento de disimulo de la voz si el acusado cree que puede estar siendo grabado (Masthoff, 1996: 160). • Por su parte, la empresa JP French Associates (Reino Unido) estima que aproximadamente uno de cada cuarenta casos implica algún tipo de disfraz (Clark y Foulkes, 2007: 198). • Figueiredo y Britto (1996: 168) indican que el disimulo de la voz es «muy común» en casos de secuestro en Brasil. Existen numerosos estudios que se han centrado en investigar el efecto del disimulo de la voz en varias tareas de las que se ocupa la fonética forense; es decir, no solo en CFH. Encontramos estudios perceptivos centrados en investigar la habilidad de los oyentes para identificar las voces en las ruedas de reconocimiento, aun en presencia de disimulo. En la revisión bibliográfica llevada a cabo por Gil y San Segundo (2013), se distinguen tres tipos de investigaciones en el ámbito de las voces disimuladas: aquellas que se centran en investigar si el disimulo es fácilmente detectable, aquellas que investigan qué tipo de transformaciones

120

La fonética forense

de la voz son más habituales y cómo afectan a la señal acústica, y aquellas que se preguntan hasta qué punto tales variaciones disminuyen la capacidad identificatoria de los oyentes. A partir de esta clasificación tripartita, hemos elaborado la tabla 9, en la que añadimos algún estudio reciente que no aparece en la revisión de 2013 de Gil y San Segundo. Estos estudios exploran los límites de la variación intralocutor y son de utilidad para el fonetista forense, por ejemplo, para comprender qué convierte a un hablante en un «cordero» (aquellos hablantes fáciles de imitar). Por otro lado, si existen corderos es porque existen «lobos»: hablantes con facilidad para imitar a otros individuos. De hecho, las habilidades de algunos imitadores profesionales también han sido ampliamente estudiadas. Este tipo de investigaciones se centran en otro tipo de disimulo de la voz; esta vez, por imitación. Es lo que en Gil y San Segundo (2013: 325) denominamos conversión, frente al disimulo que se realiza simplemente con el fin de enmascarar la voz, que podemos denominar, simplemente, transformación. Algunos de los estudios más conocidos son los llevados a cabo por la investigadora Elisabeth Zetterholm para el sueco (Zetterholm, 1997; 2002; 2003; 2010), pero existen otros en lenguas diferentes (Sullivan et al., 2002; Cerdà, 2009; López et al., 2013). Si bien es posible la imitación de una persona en concreto (y no solo el enmascaramiento de la voz mediante alguno de los procedimientos indicados en la tabla 9), hasta donde sabemos no existe ningún caso forense real que haya involucrado a un imitador profesional en un acto delictivo (Eriksson, 2011). Únicamente existe alguna investigación experimental, como la de Blomberg et al. (2004), en la que un imitador profesional participó en un experimento diseñado con el fin de poner a prueba un sistema automático de verificación, en el que se solicitaba al actor que imitara las voces de dos personas concretas. Esto no deja de ser una prueba de estrés a la que se puede someter un sistema automático, similar a la que describimos en el capítulo 5 cuando se explicó por qué existen estudios que comparan las voces de gemelos. De hecho, en el capítulo 7 abordaremos cuáles son los mecanismos (no humanos, sino electrónicos)

6. Los límites de la variación inter- e intralocutor

121

que se utilizan desde hace pocos años para imitar la voz de una persona con fines delictivos. Así, en el último capítulo, cubriremos cuestiones como el peligro del auge de los deepfakes de voz y la existencia de los gemelos (o dobles) de voz. Tabla 9.  Estudios sobre la identificación de voces disimuladas. Tipo de estudio

Notas y principales referencias bibliográficas

Investigaciones sobre la capacidad – La capacidad perceptiva humana ofrece mejor rendimiende los oyentes o de los sistemas to que los sistemas automáticos. de reconocimiento automático de – Bibliografía en orden cronológico: Reich (1981), Künzel, hablantes para detectar la presen- González y Ortega (2004); Perrot, Aversano y Chollet cia de disimulo en la voz (2007), Zhang y Tan (2008). Investigaciones sobre los distintos – Los procedimientos de disimulo (sin incluir las transfortipos de disimulo y sus consemaciones electrónicas) más frecuentes se pueden clasificuencias acústicas car en: 1. Los que afectan a la fuente del sonido (alteración de la fonación y de algunos rasgos prosódicos ligados a ella). 2. Los que modifican las cavidades de resonancia recurriendo al empleo de cuerpos extraños (p. ej.: obstáculo en la boca) o de técnicas que interfieren en la producción del habla (p. ej.: nariz pinzada). 3. Los que se basan en la modificación voluntaria de segmentos y suprasegmentos para que se asocien a un sistema distinto o para que no se perciban con claridad (p. ej.: imitación de acento extranjero). – Bibliografía en orden cronológico: Orchard y Yarmey (1995); Künzel (2000); Molina de Figuereido y Souza Britto (2000); Moosmüller (2001); Zhang y Tan (2008); Simpson y Neuhauser (2010); Alves et al. (2012); Gil y San Segundo (2013); San Segundo, Alves y Fernández Trinidad (2013); Cicres y Fernández Trinidad (2017). Investigaciones sobre la habilidad de los oyentes para identificar las voces en presencia de disimulo

122

La fonética forense

– La habilidad de los oyentes para identificar voces en presencia de disimulo depende de muchos factores, como el grado de familiaridad con el hablante, el tamaño de la muestra, la mayor sensibilidad auditiva de unos individuos con respecto a otros, la formación y especialización fonética y musical de los oyentes, etc. – Bibliografía en orden cronológico: Markham (1999); Eriksson et al. (2004); Sjöström et al. (2006); San Segundo (2014b).

7 Nuevos retos y nuevas líneas de investigación en fonética forense

7.1. El reto de estudiar voces de gemelos Las investigaciones que han abordado el estudio de las similitudes y las diferencias entre la voz de un hablante y la de su hermano gemelo no son nuevas. Realmente, el parecido entre gemelos es una cuestión que ha fascinado tradicionalmente al ser humano. Buena prueba de ello es que desde la ficción se han escrito innumerables comedias basadas en los distintos equívocos y situaciones de confusión que provoca el hecho de que en la naturaleza existan humanos con un alto grado de similitud. Este es el caso de La Comedia de las Equivocaciones (The Comedy of Errors), escrita por William Shakespeare en el siglo xvi, y basada en la obra de Plauto Menaechmi, comedia escrita entre el año 216 y el 186 a. C. En el plano investigador (y si nos centramos en la voz de los gemelos en particular) los estudios que existen se han planteado principalmente con dos finalidades, según la revisión bibliográfica llevada a cabo por San Segundo (2014a): a) Encontrar un componente genético en la variación de ciertas características de la voz, o estimaciones de la heredabilidad en los órganos articuladores (Dediu et al., 2022), principalmente mediante métodos que buscan las diferencias entre pares de

123

gemelos monocigóticos y dicigóticos (Decoster et al., 2000; Debruyne et al., 2002; Przybyla, Horii y Crawford, 1992). b) En un escenario forense, el fin último suele ser poner a prueba el rendimiento de un sistema de reconocimiento automático, o bien de uno o varios parámetros fonéticos, examinando si es posible que distingan a un hablante de su gemelo (p.  ej.: Ariyaeeinia, Morrison, Malegaonkar y Black, 2008; Homayounpour y Chollet, 1995; Künzel, 2010; Loakes, 2006; Nolan y Oh, 1996; Scheffer, Bonastre, Ghio y Teston, 2004). Lo cierto es que distinguir gemelos es un reto para cualquier ciencia forense, porque estos individuos son físicamente muy similares. Por ejemplo, en ámbitos biométricos como el de las huellas dactilares (Pankanti, Prabhakar y Jain, 2002) o las huellas de la palma de la mano (Kong, Zhang y Lu, 2006) han investigado a distintas parejas de gemelos para estudiar las sutiles diferencias observadas frecuentemente entre ellos. La CFH se basa en gran medida en la idea de que una voz está determinada no solo por la anatomía del hablante, sino también por factores no biológicos o conductuales. Estos factores incluyen principalmente aspectos sociales o dialectales, pero también son posibles otras influencias ambientales. Nolan y Oh (1996) destacaron que los distintos aspectos de la cualidad de voz de cada individuo están determinados por su herencia anatómica, por la imitación de rasgos de otras personas, o bien son arbitrariamente elegidos para marcar la propia personalidad. Esta dicotomía entre lo orgánico y lo aprendido (Nolan, 1997; Nolan y Oh, 1996) puede ser una buena traducción en términos fonéticos de la conocida dicotomía naturaleza-crianza (en inglés nature-nurture), esbozada por primera vez por sir Francis Galton en 1875 (Galton 1875, en Segal, 1993: 45). Esta distinción (naturaleza frente a crianza) ha dado lugar a fructíferas investigaciones con gemelos en muchas disciplinas en las que la heredabilidad o las tasas de concordancia se calculan para ciertos rasgos con el fin de determinar si estos podrían tener una influencia genética. Esto sucede cuando hay mayor similitud para dicho rasgo entre pares de gemelos monocigóticos (MZ)

124

La fonética forense

que entre gemelos dicigóticos (DZ). Los primeros comparten el 100 % de sus alelos, mientras que los gemelos DZ, en general, comparten solo la mitad su información genética. Por otro lado, en ambos tipos de gemelos, cada pareja comparte esencialmente los mismos entornos prenatales y posnatales (Stromswold, 2006). Esta es la esencia del diseño gemelar clásico, que requiere partir de una importante asunción: la del mismo entorno (en inglés, equal environment assumption). Es decir, se asume que los dos tipos de gemelos tienen una experiencia ambiental similar. Reconociendo la existencia de estas dos «fuerzas», esto es, la naturaleza y la crianza (alternativamente, también denominados factores orgánicos y factores aprendidos, respectivamente) para explicar las similitudes y las diferencias entre gemelos no significa que su importancia relativa pueda separarse claramente. Es más, hay un tercer elemento, la epigenética, que a menudo no se menciona en los estudios gemelares, pese a jugar un papel muy importante para explicar cómo los cambios en la expresión de los genes, causados ​​por mecanismos distintos de los cambios en la secuencia de ADN subyacente, pueden ocasionar divergencias en los gemelos; lo que puede explicar las sorprendentes diferencias encontradas a veces entre los gemelos MZ. Por ejemplo, un proceso epigenético conocido como metilación del ADN (Martino et al., 2013; Philips, 2008) puede hacer que la expresión de los genes sea más débil o más fuerte. En el ámbito de la fonética forense, el lector interesado puede acudir a la lectura de San Segundo (2014a), donde encontrará una minuciosa discusión de los resultados derivados de estudios fonéticos sobre gemelos, clasificados en cuatro grandes grupos, dependiendo de si representan enfoques perceptivos, acústicos, articulatorios o automáticos. En la tesis doctoral de San Segundo (2014a), la cuestión de la similitud de voz en hermanos gemelos y no gemelos fue abordada desde tres perspectivas diferentes. Primero, se analizaron las trayectorias formánticas de 19 tipos de secuencias vocálicas; esto es, diptongos e hiatos. Como segundo tipo de análisis se consideró otro aspecto vocal, completamente diferente a los formantes; a saber, rasgos glóticos. Mientras que los formantes se refieren a la configuración del tracto

7. Nuevos retos y nuevas líneas de investigación en fonética forense

125

vocal de un hablante, los aspectos glóticos analizados representan el estado y la dinámica de las cuerdas vocales durante la fonación. Finalmente, un tercer tipo de análisis consistió en probar el rendimiento del sistema de reconocimiento automático de hablantes Batvox (versión 4.1) con una población masculina de 24 gemelos monocigóticos (MZ), 10 gemelos dicigóticos (DZ), 8 hermanos no gemelos y 12 hablantes no emparentados. Dado que las características cepstrales en las que se basa el sistema automático utilizado en el tercer tipo de análisis dependen en gran medida de fundamentos anatómico-fisiológicos (véase el apartado 4.1.3), planteamos la hipótesis de que tales características deberían depender de los genes. Por ello, se deberían encontrar valores de similitud más altos en gemelos MZ (100 % de genes compartidos) que en gemelos DZ, en hermanos (H) o en una población de referencia de hablantes no emparentados (REF). Los resultados corroboraron la escala decreciente esperada MZ > DZ > H > REF, ya que los coeficientes de similitud arrojados por el sistema automático para estos hablantes decrecieron exactamente en la misma dirección que disminuye el grado de parentesco de los cuatro grupos de hablantes. Esto sugiere que las características en las que se basa el sistema están condicionadas genéticamente en gran medida y que, por lo tanto, son útiles y robustas para comparar muestras de voz no gemelares, que son los casos habituales en cotejos de CFH. Además, el 9,9 % EER (equal error rate) obtenido al probar el sistema con pares de gemelos MZ se sitúa en torno al mismo valor (11 % EER) encontrado en Künzel (2010) con gemelos alemanes. La idea principal que subyace en los estudios sobre gemelos tiene que ver con probar la robustez de un sistema en casos de similitud máxima entre hablantes. Como ya indicamos en el capítulo 5, la utilización de este tipo de hablantes supone someter a un sistema de CFH a una prueba de estrés muy útil, ya que sirve para medir la fiabilidad del sistema en situaciones extremas de parecido entre hablantes. En un sentido estricto, un gemelo es una posible fuente de suplantación de identidad. El desarrollo de sistemas antiataques de suplantación de identidad es precisamente uno de los retos a

126

La fonética forense

los que se enfrentan los investigadores en el ámbito de la ciberseguridad hoy en día, particularmente en un contexto de incremento y mejoras constantes de las técnicas empleadas para la generación de los llamados deepfakes. De esta nueva línea de investigación trataremos en el siguiente apartado (apartado 7.2). Los estudios sobre voces de gemelos (p. ej.: San Segundo, 2014a; San Segundo y Künzel, 2015; San Segundo y Yang, 2019) son una base científica importante para comprender en qué aspectos de la voz debemos fijarnos para saber qué hace humana a una voz y cómo distinguirla de las muestras creadas mediante síntesis de voz que hacen que en ocasiones sea difícil distinguir una voz original de una que ha sido manipulada. En resumen, San Segundo (2014a) representa el primer intento de investigar tres grupos de hablantes con voces similares, además de los gemelos idénticos. Los sujetos reclutados incluyeron gemelos no idénticos y hermanos no gemelos, así como gemelos idénticos. La investigación mostró que, aunque los gemelos idénticos representan el mayor desafío para los tres sistemas que se pusieron a prueba, los grados más pequeños de relación de parentesco, como los de los hermanos no gemelos, también pueden representar una amenaza importante para la CFH. En otro estudio reciente (San Segundo y Yang, 2019), se realizó una extensa revisión de la bibliografía sobre las voces de gemelos y hermanos; una línea de investigación que sigue atrayendo la atención de los investigadores en el campo biométrico y forense en la actualidad. En aplicaciones biométricas, el uso de voces de gemelos se ha considerado recientemente como la prueba de estrés definitiva de un sistema de reconocimiento de hablantes (Sabatier, 2019). No es de extrañar que este sea el caso, particularmente después de casos de suplantación de identidad como el que ocurrió en 2017, cuando el sistema de reconocimiento de voz del banco HSBC fue atacado por el gemelo de un cliente (Collinson, 2017). Si bien esta infracción de seguridad no permitió al gemelo retirar dinero, sí pudo acceder a saldos y transacciones recientes, y se le ofreció la posibilidad de transferir dinero entre cuentas. Este caso es de particular interés, ya que eran gemelos dicigóticos, no monocigóticos o idénticos. Como ya he-

7. Nuevos retos y nuevas líneas de investigación en fonética forense

127

mos explicado, los gemelos dicigóticos generalmente comparten la mitad de su información genética, exactamente igual que dos hermanos no gemelos. No obstante, como demuestra este caso, su voz resultó ser lo suficientemente parecida como para que uno de ellos pudiera acceder a la cuenta del banco de su hermano sin su consentimiento. En aplicaciones propiamente forenses, y no biométricas o de verificación, como la que acabamos de comentar, también se han producido algunos delitos recientes. Por ejemplo, en 2015 la policía francesa arrestó a una pareja de gemelos monocigóticos, acusada de seis agresiones sexuales (Calderwood, 2015).1 Si bien las víctimas afirmaron que la agresión fue perpetrada por una sola persona, atendiendo a la evidencia de ADN la policía no pudo determinar cuál de los dos gemelos cometió el crimen. La razón expuesta por la policía fue que el ADN es el mismo para los gemelos idénticos. El caso, finalmente, se resolvió cuando uno de los gemelos confesó el crimen, después de haber sido descubierto con un tartamudeo que su hermano no tenía, y que resultó clave para inculparlo. Si bien la ocurrencia de gemelos MZ no es frecuente en la población mundial (se cree que los nacimientos de gemelos MZ ocurren a una tasa relativamente constante de entre 3,5 y 4 por cada 1000 nacimientos), es mucho más frecuente la existencia de gemelos DZ y de hermanos que no son gemelos. Por ello, es habitual también que existan delitos que involucren a estos dos últimos tipos de hablantes, como en el caso del ataque de suplantación de identidad en el banco HSBC que hemos descrito antes. Rose (2002) menciona otro caso que involucra hermanos. Por su parte, Charlet y Lecha (2007) ponen a prueba un sistema de reconocimiento de hablantes con 33 familias y encuentran que los principales errores del sistema se producen cuando se utilizan muestras de hermanos. De estos casos se desprende que son muy necesarias más investigaciones sobre una gama amplia de hablantes que suenen similares (hoy en día, voces clonadas artificialmente), que deben 1.  Otro caso involucró a una pareja de gemelos en un robo en Berlín (Himmelreich, 2009).

128

La fonética forense

abordarse preferiblemente desde varios ángulos diferentes, como sugiere San Segundo (2014a) en su estudio sobre gemelos, mellizos y hermanos.

7.2. Los deepfakes de voz y los gemelos digitales De los estudios sobre las voces de gemelos y hermanos no gemelares en el ámbito forense (apartado 7.1) llegamos a la conclusión de que las investigaciones con este tipo de hablantes permiten explorar los límites de la similitud y de la variación interlocutor en el ser humano. Hasta ahora, un gemelo, o incluso un hermano, eran los mejores impostores de voz que podían existir, salvo un imitador profesional, aunque ya vimos en el capítulo 6 que no existe, hasta donde sabemos, ningún caso forense real que haya involucrado a un imitador profesional en un acto delictivo (Eriksson, 2011). Recientemente, gracias al auge de las redes neuronales profundas y su aplicación a las tecnologías del habla, la situación ha cambiado, y nos encontramos con clonaciones artificiales de la voz de una persona tan realistas que se han convertido en los nuevos «mejores impostores» de una voz real. Los deepfakes son voces extremadamente similares a las humanas, pero que, en realidad, han sido generadas mediante mecanismos de inteligencia artificial. Los deepfakes pueden ser tanto de voz como de vídeo (generalmente una combinación de ambas) y, aunque se han propuesto términos alternativos a la voz inglesa, como ultrafalso, lo cierto es que el término deepfake está ampliamente extendido. Si bien este avance tecnológico reporta enormes beneficios en el ámbito clínico (clonación de voz para pacientes con trastornos neurodegenerativos, por ejemplo) y en el área de la inteligencia artificial (permitiendo dotar de características naturales a los asistentes de voz), en las manos equivocadas esta tecnología pone en riesgo el uso de grabaciones de voz con fines biométricos en el ámbito de la seguridad informática, así como el uso de muestras de voz como prueba forense. De ahí que sea de suma importancia implementar una metodología que identifique qué

7. Nuevos retos y nuevas líneas de investigación en fonética forense

129

muestras de voz son reales y cuáles son clonaciones. En otras palabras, se hace imprescindible descubrir científicamente qué hace humana a una voz para distinguirla de los deepfakes. Este es precisamente el objetivo del proyecto de investigación ¿Qué hace humana a una voz? Hacia una mejor comprensión de las características fonéticas que permiten distinguir voces reales de deepfakes (proyecto PID2021-124995OA-l00 financiado por MCIN/AEI/ 10.13039/501100011033 y por FEDER Una manera de hacer Europa) para el período 2022-2025. Seguramente huelga decir que el objetivo de este proyecto redundará en la protección ciudadana (en el ámbito de la ciberseguridad, en concreto) y en la construcción de sociedades más justas y seguras; pero ese es justamente el objetivo 16 de la Agenda 2030 para el Desarrollo Sostenible de las Naciones Unidas. Por ello se trata de un ámbito científico que ha suscitado el interés de varios investigadores a nivel internacional. El estudio de los deepfakes enlaza con una línea de investigación reciente hacia la que han volcado su atención los científicos forenses, los ingenieros y también los lingüistas. Se trata de los ataques de suplantación de identidad (en inglés, spoofing attacks), a los que son vulnerables los sistemas de reconocimiento de voz. Debido a que cada vez es más frecuente obtener datos biométricos a partir de la voz de una persona, por ejemplo, en redes sociales, es necesario desarrollar contramedidas para evitar ataques de suplantación de identidad, mejorando, así, la seguridad de los sistemas biométricos. En la bibliografía especializada, en el desarrollo de estas contramedidas se puede encontrar el término detección de presentación de ataques (del inglés presentation attack detection, PAD). El ataque de suplantación de identidad (ASI de ahora en adelante) se refiere a un ataque malicioso realizado a un sistema biométrico para hacerse pasar por una persona autorizada, por ejemplo, en un sistema de reconocimiento de voz, obteniendo acceso no autorizado a él. Tan et al. (2021) realizan una revisión bibliográfica sistemática para describir el estado actual de la investigación en este ámbito e identificar aquellas áreas que requieren más investigaciones en el futuro. Puesto que se trata del estudio de revisión más

130

La fonética forense

reciente hasta la fecha, resumiremos sus principales conclusiones, tras una breve introducción a los tipos de ASI. Existen tres categorías principales de ASI; a saber: imitación, repetición, y ataques con síntesis de voz y conversión de voz. Son habituales los ataques que combinan varios de estos tipos o todos ellos. 1. La imitación es un tipo de suplantación de identidad que no requiere la ayuda de dispositivos electrónicos. Se lleva a cabo imitando la forma de hablar de una persona específica. No resulta un método demasiado efectivo (Korshunov y Marcel, 2017), aunque Tan et al. (2021) mencionan que no debe infravalorarse, pues existen casos reales de infracciones de seguridad en las que se utilizó este método. Se refieren al caso que citamos en el apartado 7.1, en el que un hermano gemelo no idéntico se hizo pasar por su hermano para acceder a sus cuentas bancarias. En el capítulo 6 ya explicamos que a comienzos de los años 2000 surgieron algunas investigaciones (Blomberg et al., 2004) con el fin de poner a prueba los sistemas automáticos de verificación utilizando muestras de voz de un imitador profesional. Recientemente han aparecido nuevos estudios en esta misma línea, como el de Neelima y Santiprabha (2020), que utiliza redes neuronales convolucionales para detectar la imitación de voz. Son estudios que han surgido de nuevo en el ámbito biométrico, solo que ahora en el contexto de mejora de los sistemas antiataques de suplantación de identidad. 2. El segundo tipo de ASI es la repetición (en inglés, replay attack). Se trata del tipo de suplantación de identidad más popular, ya que es el más simple de ejecutar. De hecho, como explican Tan et al. (2021), los puede realizar cualquier persona que use dispositivos de grabación como los integrados en los teléfonos inteligentes. Puesto que este tipo de ASI es más sencillo, en comparación con los ataques por medio de síntesis de voz o de conversión de voz, es más probable que lo realicen personas no profesionales. El ataque consiste en la reproducción de un audio pregrabado, lo que implica poco o nulo conocimiento del procesamiento de señales de audio.

7. Nuevos retos y nuevas líneas de investigación en fonética forense

131

3. El tercer tipo de ASI cubre la síntesis de voz y la conversión de voz. A diferencia de la repetición, este tipo de ataque requiere conocimiento del procesamiento de señales (Korshunov y Marcel, 2017) y resulta ser uno de los métodos más efectivos para atacar los sistemas automáticos de verificación. En este tipo de ataque se utiliza la tecnología Text-To-Speech (TTS); esto es, conversión de texto a voz mediante la concatenación de fragmentos de datos de voz (Sánchez et al., 2005). Recientemente, se han incorporado varios detectores de voz sintética para proteger los sistemas de verificación de hablantes de los ataques de síntesis de voz (Sahidullah, Kinnunen y Hanilçi, 2015), si bien la mayoría de ellos solo son efectivos cuando la síntesis se ha realizado con un tipo de vocoder concreto. La palabra vocoder es un acrónimo de voice y encoder (codificador de voz) que se utiliza para referirse a los sintetizadores de voz. Este tipo de ASI se denomina conversión de voz, porque se realiza convirtiendo la voz de un atacante falso en la voz del hablante objetivo para engañar a los sistemas automáticos de verificación. Existen algunos indicadores para detectar una «voz convertida», como la ausencia de información de fase característica del habla natural. Como indican Tan et al. (2021: 32732): Se pueden extraer características como la normalización del coseno y la derivada de frecuencia de la información del espectro de fase para detectar el habla convertida (Evans et al., 2009).

La International Speech and Communication Association (ISCA) organiza retos internacionales, en los congresos que celebra cada año, con el fin de promover el desarrollo de contramedidas para detectas ataques de suplantación de identidad variados e inesperados. Participan investigadores de diversas universidades y países, que utilizan el mismo conjunto de datos, protocolos y métricas de evaluación proporcionadas por los organizadores. Por ejemplo, en 2021 ISCA coorganizó la cuarta edición del «Desafío de suplantación de identidad y contramedidas de verificación automática de locutores (ASVspoof Challenge

132

La fonética forense

2021)» que se celebró en el congreso Interspeech 2021 en Brno (Chequia). Anteriormente se habían organizado tres retos más, en 2015, 2017 y 2019. La comparación de la tasa de detección de ASI entre ASVspoof 2015 y ASVspoof 2017 sugiere que la detección de ataques de repetición es más difícil que los de síntesis de voz y conversión de voz (Tan et al., 2021). En 2019 se adopta la función de coste de decisión en tándem (t-DCF) como medida principal de evaluación del rendimiento de los sistemas en el desafío, junto con el equal error rate (EER), que es la única medida que se usaba en los retos anteriores. Puesto que, en la situación actual, cuando se lanzan ataques de suplantación de identidad, no hay conocimiento previo del tipo de ataque o ataques que se utilizan, es necesario desarrollar sistemas que detecten estos ataques de suplantación de identidad independientemente del subtipo que sea. Tan et al. (2021) también concluyen que el uso de métodos de aprendizaje profundo (deep learning) como clasificadores en este tipo de sistemas ha incrementado desde 2016. A diferencia de los clasificadores convencionales, el aprendizaje profundo es un tipo de aprendizaje automático que se compone de redes capaces de aprender sin supervisión a partir de datos etiquetados. Algunas de las carencias que Tan et al. (2021) exponen con respecto al estado de la cuestión actual en este ámbito de investigación son: • La mayoría de las contramedidas que se están desarrollando son específicas de cada subtipo de ASI. Un sistema que sirve para detectar ASI desarrollados con síntesis de voz puede no ser efectivo contra un ataque de repetición, y viceversa. • El rendimiento de los sistemas anti-ASI puede ser inconsistente cuando se evalúa utilizando diferentes bases de datos. Esto se debe a que la calidad del audio de estas es diferente. Por tanto, no se pueden generalizar los resultados entre distintos conjuntos de datos. • Las bases de datos actuales son muy limitadas, lo que dificultad la validez de la efectividad de los sistemas que se desarrollan.

7. Nuevos retos y nuevas líneas de investigación en fonética forense

133

• Los clasificadores convencionales como GMM-UBM para la identificación y verificación del hablante son vulnerables a los ataques de conversión de voz (Pal y Saha, 2015). Dado que la mayoría de los sistemas actuales de verificación de hablantes están basados ​​en modelos de mezclas gaussianas (gaussian mixture models, GMM), es preciso incorporar pasos adicionales en los sistemas de verificación de hablantes basados ​​en GMM para capturar las señales artificiales (Evans et al., 2009). Esto se debe a que dichos clasificadores convencionales no tienen la capacidad de abstracción de funciones, que se puede encontrar en clasificadores de aprendizaje profundos (Patil y Kamble, 2018). • La mayoría de los sistemas anti-ASI actuales (el 76,51 % de ellos, según el estudio realizado por Tan et al., 2021) se evaluaron en un solo conjunto de datos. Por lo tanto, se necesitan evaluaciones de conjuntos de datos cruzados para garantizar que los sistemas propuestos son lo suficientemente robustos contra ataques de suplantación de identidad desconocidos. Finalmente, uno de los estudios más recientes sobre la cuestión de los ataques por síntesis de voz basados en el aprendizaje profundo (Wenger et al., 2021) destaca la necesidad de crear nuevas sinergias entre equipos de investigación para luchar contra estos ataques. Estos autores realizaron una encuesta entre 200 participantes que mostró que los humanos pueden distinguir el habla sintética de los hablantes reales con una precisión aproximada del 50 % para voces desconocidas, pero cerca del 80 % para voces familiares. Esta es, probablemente, una de las primeras investigaciones sobre la cuestión de los deepfakes abordada desde un punto de vista interdisciplinar; es decir, combinando métodos usados tradicionalmente por ingenieros para medir la precisión de un sistema que distinga voces reales de voces falsas, con métodos que se emplean habitualmente en ciencias humanas y sociales (fonética y psicolingüística, por ejemplo), consistentes en el diseño de experimentos de percepción destinados a probar diferentes tipos de habilidades de identificación y/o reconocimiento de un oyente. Estamos de acuerdo con los autores

134

La fonética forense

en que dicho estudio proporciona un punto de referencia sólido para futuras investigaciones multidisciplinares y, además, añadimos que creemos que eso sucederá idealmente con las aportaciones de fonetistas. Por ejemplo, en un estudio reciente sobre el efecto de la variación fonética en la detección de ataques de repetición (Suthokumar et al., 2019) se ha demostrado que algunos fonemas son más útiles que otros para detectar ataques de este tipo, lo que sugiere que tener en cuenta el contenido fonético de una grabación puede ser muy beneficioso para el desarrollo de medidas contra la suplantación de identidad. A pesar de que estas investigaciones son prometedoras, el potencial que puede ofrecer el estudio de los detalles fonéticos en este tipo de grabaciones aún no se ha explorado por completo. Observamos, así, que existe un interés científico creciente por abordar la cuestión de los deepfakes de voz. Si bien los problemas descritos anteriormente (suplantación de la identidad por medios tecnológicos con fines delictivos) pueden parecer futuristas, lo cierto es ya estamos presenciando un número creciente de casos en los que se utilizaron muestras de voz falsificadas para engañar a los sistemas de autenticación de voz. Los más conocidos de este tipo son los implementados para el acceso bancario. En octubre de 2021, la revista Forbes (Brewster, 2021) publica un artículo en el que explica con detalle cómo un gerente de banco en Hong Kong recibió una llamada de un hombre cuya voz reconoció como un cliente recurrente, solo para descubrir más tarde que esa voz había sido clonada con el fin de persuadirlo para que autorizara una transferencia bancaria de una cantidad importante de dinero. Igual de preocupante para la sociedad es el hecho de que se han utilizado deepfakes para falsificar grabaciones de audio con el fin de difamar a figuras públicas, como políticos o actrices, o para hacer que emitan mensajes falsos. Por ejemplo, se hizo muy popular el deepfake de Mark Zuckerberg en el que supuestamente decía que poseía los datos robados de un billón de personas, o el deepfake de Barack Obama, cuya voz fue manipulada para insultar a Trump. Aparte de esos dos casos, que, como señala el divulgador científico Tom Chivers en The Guardian (Chivers, 2019),

7. Nuevos retos y nuevas líneas de investigación en fonética forense

135

fueron realizados con fines satíricos en programas de humor para hacer reflexionar al público sobre los peligros de la manipulación mediática, también encontramos casos más serios, como el considerado el primer deepfake usado en un conflicto armado. Nos referimos a un vídeo falso del presidente de Ucrania Zelenski que apareció al principio del conflicto bélico con Rusia en 2022 (Kardoudi, 2022). En el vídeo, que se publicó en un tabloide ucraniano en lengua rusa, aparece el líder ucraniano pidiendo la rendición de sus tropas. Pese a que el medio acusó a hackers enemigos de crear y publicar ese deepfake en su web, y el propio Zelenski también lo desmintió, lo cierto es que la proliferación de este tipo de vídeos ocasiona que cada vez sea más difícil distinguir las noticias reales de las falsas, o bulos (en inglés fake news). De ahí que estemos presenciando una falta de confianza sin precedentes en los medios, con las consecuencias políticas y sociales que esto puede generar. Como explicamos al principio, las tecnologías detrás de estos deepfakes no han de entenderse necesariamente con un fin malicioso. Por ejemplo, son útiles en el ámbito clínico para la clonación de voz para pacientes con trastornos neurodegenerativos. El actor Bruce Willis, que anunció en 2022 que padecía afasia, un trastorno del lenguaje de origen neurológico que afecta, entre otros aspectos, a la expresión oral, pudo participar virtualmente en un anuncio gracias a la creación de un gemelo digital. Esto permitió que el actor volviera a las pantallas sin tener que pasar por un set de grabación, ya que se había retirado del mundo de la actuación tras ser diagnosticado con afasia. Surge así el concepto de gemelos digitales, lo que ha ocasionado que aumenten también las investigaciones en fonética forense en torno a los gemelos de voz, que Gerlach et al. (2022: 1) definen como «hablantes diferentes y no emparentados que suenan extremadamente similares entre sí». Estos gemelos de voz serían una suerte de dobles o Doppelgänger (si usamos el término en alemán) pero de voz, en lugar de dobles de cara, a los que la ciencia ha prestado bastante más atención (Joshi et al., 2022). Para terminar, y volviendo al ámbito legal y judicial, que es en el que se centra nuestra obra, podemos recordar las palabras

136

La fonética forense

del fonetista forense alemán Hermann J. Künzel, que ya en el año 2000 señalaba el problema que suponía la manipulación electrónica de las grabaciones dubitadas: «“tomar prestada” la voz de otra persona y editar dicho material de voz en un ordenador para la reproducción de mensajes prefabricados ha creado un gran problema» (Künzel 2000: 149). Es cierto que, tradicionalmente, las investigaciones llevadas a cabo por fonetistas forenses en el campo de la manipulación electrónica de las voces no son las más frecuentes (Clark y Foulkes, 2007), en comparación con otros tipos de disimulo de la voz, que han sido más estudiados. La explicación para esto se encuentra en el hecho de que, para realizar transformaciones de la voz por medio de técnicas informáticas, al menos hace unos años, eran necesarios ciertos conocimientos técnicos avanzados en procesamiento de la señal. Sin embargo, esta situación ha empezado a cambiar en los últimos años, con el desarrollo de los teléfonos móviles inteligentes y el auge de las aplicaciones de fácil descarga y uso gratuito para manipular y distorsionar las voces de diversas maneras. Watt et al. (2020) reseñan algunos de los principales programas de «clonación de voz» que existen actualmente: como Adobe VoCo, Lyrebird, CandyVoice, CereVoice Me o Deep Voice de Baidu (Ping et al., 2018). Todo esto ha provocado que se haya empezado a hablar del concepto de propiedad para la voz humana, y que los expertos comiencen a otorgarles la debida consideración a las implicaciones jurídicas de esto. En palabras de Watt et al. (2020): La carencia actual de claridad con respecto a los derechos otorgados a individuos y organizaciones en esta área es algo que debe abordarse con cierta urgencia, dado que las muestras de voz ahora se recopilan en una escala sin precedentes, con o sin el conocimiento o consentimiento de la(s) persona(s) que emitieron dichas muestras de voz.

Watt et al. (2020) discuten en qué casos la voz puede ser objeto de apropiación indebida o de un uso poco ético o incluso ilegal. Esto entronca con uno de los objetivos de nuestro proyecto

7. Nuevos retos y nuevas líneas de investigación en fonética forense

137

de investigación («How deepfake is your voice»), que es la propuesta de un código ético y unas directrices para regular el uso de deepfakes de voz. Existen algunas recomendaciones y libros blancos que abordan los aspectos legales y éticos derivados de las aplicaciones de inteligencia artificial (Stankovic et al., 2017), pero es necesario actualizarlos para que aborden específicamente los casos de deepfakes. En Estados Unidos existe un proyecto de ley (DEEP FAKES Accountability Act)2 para actualizar la ley, a raíz de los avances tecnológicos actuales. Entre otros objetivos, este proyecto de ley requeriría a los creadores de deepfakes poner marcas de agua en sus vídeos con una advertencia que identifique la falsificación (Ullrich, 2021). Sin embargo, pocos países han abordado aún el desafío jurisdiccional que los nuevos ciberdelitos plantean a la sociedad. Por ello, podemos decir que estamos ante uno de los mayores retos a los que se enfrenta la sociedad hoy en día. Las investigaciones más destacadas en este ámbito serán necesariamente fruto de equipos multidisciplinares formados, entre otros, por ingenieros, lingüistas y juristas.

2. Aquí DEEP FAKE es un acrónimo de Defending Each and Every Person from False Appearances by Keeping Exploitation Subject to Accountability. Referencia completa: DEEP FAKES Accountability Act, H.R. 3230, 116th Cong. (2019) (como se señala en H. Subcomm. Terrorism & Homeland Sec., 28 de junio, 2019).

138

La fonética forense

Referencias bibliográficas

Aguilar, L. (1999). Hiatus and diphthong: Acoustic cues and speech situation differences. Speech Communication, 28(1), 57-74. Aguilar, L. (2010). Vocales en grupo. Madrid: Arco Libros. Aitken, C. y Lucy, D. (2004). Evaluation of trace evidence in the form of multivariate data. Journal of the Royal Statistical Society: Series C (Applied Statistics), 53(1), 109-122. Alarcos Llorach, E. (1965). Fonología española (4.ª ed.). Madrid: Gredos. Albalá, M. J. (2014). Museo Virtual de la Ciencia del CSIC. Aparatos e Instrumentos Científicos del CSIC. Espectrógrafo. https://museovirtual. csic.es/csic75/instrumentos/espectrografo/espectrografo.html#tabr1 Alves, H., Fernández Trinidad, M., Gil Fernández, J., Infante, P., Lahoz, J. M., Pérez Sanz, C. y San Segundo, E. (2012). Disguised voices: a perceptual experiment. 3rd European Conference of the International Association of Forensic Linguistics. Oporto (pp. 15-18). Anderson, S. (1985). Phonology in the twentieth century. Chicago: University of Chicago Press. Anguera, X., Bozonnet, S., Evans, N., Fredouille, C., Friedland, G. y Vinyals, O. (2012). Speaker diarization: A review of recent research. IEEE Transactions on audio, speech, and language processing, 20(2), 356-370. http://dx.doi.org/10.1109/TASL.2011.2125954 Ariyaeeinia, A., Morrison, C., Malegaonkar, A. y Black, S. (2008). A test of the effectiveness of speaker verification for differentiating between identical twins. Science & Justice, 48(4), 182-186.

139

Ávila Muñoz. A. (2021). La atenuación discursiva en el contexto de la acomodación comunicativa. Análisis de casos. Pragmalingüística, 29, 27-43. Ball, M. J., John H. E. y B. C. Dickson. (1995). The VoQS system for the transcription of voice quality. Journal of the International Phonetic Association, 25(2), 71-80. Battaner, E., Gil, J., Marrero, V., Llisterri, J., Carbó, C., Machuca, M., Ríos, A. et al. (2003). VILE: Estudio acústico de la variación inter e intralocutor en español. En: SEAF 2003: Actas del II Congreso de la Sociedad Española de Acústica Forense (pp. 59-70). Beck, J. M. (2005). Perceptual analysis of voice quality: the place of Vocal Profile Analysis. En: Hardcastle y Beck (eds.). A figure of speech: A Festschrift for John Laver (pp. 285-322). Londres y Mahwah: Laurence Erlbaum. Beck, J. M. (2007). Vocal profile analysis scheme: A user’s manual. Edimburgo: Queen Margaret University College–QMUC, Speech Science Research Centre. Beneteau, E., Richards, O. K., Zhang, M., Kientz, J. A., Yip, J. y Hiniker, A. (2019). Communication breakdowns between families and Alexa. En: Proceedings of the 2019 CHI conference on human factors in computing systems (pp. 1-13). Bimbot, F., Bonastre, J., Fredouille, C., Gravier, G., Magrin-­Chagnolleau, I. y Meignier, S., Reynolds, D. et al. (2004). A tutorial on text-­ independent speaker verification. EURASIP Journal on Applied Signal Processing, 4, 430-451. https://link.springer.com/content/pdf/ 10.1155/S1110865704310024.pdf Blecua, B., Cicres, J. y Gil, J. (2014).Variación en las róticas del español y su implicación en la identificación del locutor. Revista de Filología Románica, 31, 13-35. http://dx.doi.org/10.5209/rev_RFRM.2014. v31.n1.51021 Blomberg, M., Elenius, D. y Zetterholm, E. (2004). Speaker verification scores and acoustic analysis of a professional impersonator. En: Proc. 17th Swedish Phonetics Conference (Fonetik 2004) (pp. 84-87). University of Stockholm. Boersma, P. y Weenink, D. (2022). Praat: doing phonetics by computer [programa informático, versión 6.2.05). Bolt, R. H., Cooper, F. S., David Jr, E. E., Denes, P. B., Pickett, J. M. y Stevens, K. N. (1969). Identification of a speaker by speech spectro-

140

La fonética forense

grams: How do scientists view its reliability for use as legal evidence? Science, 166(3903), 338-343. Bolt, R. H., Cooper, F. S., David Jr, E. E., Denes, P. B., Pickett, J. M. y Stevens, K. N. (1970). Speaker identification by speech spectrograms: a scientists’ view of its reliability for legal purposes. The Journal of the Acoustical Society of America, 47(2B), 597-612. Bolt, R. H., Cooper, F. S., David Jr, E. E., Denes, P. B., Pickett, J. M. y Stevens, K. N. (1973). Speaker identification by speech spectrograms: some further observations. The Journal of the Acoustical Society of America, 54(2), 531-534. Braun, A. (2012). Speaker-recognition ability of blind and sighted subjects. International Journal of Speech, Language and the Law, 19(2), 159-187. http://dx.doi.org/10.1558/ijsll.v19i2.159 Braun, A., Llamas, C., Watt, D., French, J. P. y Robertson, D. (2018). Sub-regional «other-accent» effects on lay listeners’ speaker identification abilities: a voice line-up study with speakers and listeners from the North East of England. International Journal of Speech, Language and the Law, 25(2), 231-255. https://doi.org/10.1558/ijsll.37340 Braun, A. y Rosin, A. (2015). On the speaker specificity of hesitation markers. En: Proceedings of the 18th International Congress of Phonetic Sciences (ICPhS). University of Glasgow. Brewster, T. (2021). Fraudsters Cloned Company Director’s Voice in $35 Million Bank Heist, Police Find. Forbes Magazine. https://www. forbes.com/sites/thomasbrewster/2021/10/14/huge-bank-frauduses-deep-fake-voice-tech-to-steal-millions/?sh=75dd610b7559 Broeders, A. P. A. (2010). Decision-making in LADO: A view from the forensic arena. En: Zwaan, K., Muysken, P. y Verrips, M. (eds.). Language and Origin. The Role of Language in European Asylum Procedures: A Linguistic and Legal Survey (pp. 51-60). Nimega: Wolf Legal Publishers. Brümmer, N. y Du Preez, J. (2006). Application-independent evaluation of speaker detection. Computer Speech & Language, 20(2), 230-275. Byrne, C. y Foulkes, P. (2004). The mobile phone effect on vowel formants. International Journal of Speech, Language and the Law, 11(1), 83-102. http://dx.doi.org/10.1558/sll.2004.11.1.83 Calderwood, I. (2015, septiembre). Mystery of which identical twin committed a series of rapes in France is finally solved as one brother confesses

Referencias bibliográficas

141

after he was given away by a stutter, Mailonline. https://www.dailymail. co.uk/news/article-3225467/Mystery-identical-twin-committedseries-rapes-France-finallysolved-one-brother-confesses-given-awaystutter.html Cambier-Langeveld, T. (2007). Current methods in forensic speaker identification: Results of a collaborative exercise. International Journal of Speech, Language and the Law, 14(2), 223-243. Cambier-Langeveld, T. (2010). The role of linguists and native speakers in language analysis for the determination of speaker origin. International Journal of Speech, Language and the Law, 17(1), 67-93. Cao, H. y Wang, Y. (2011). A Forensic Aspect of Articulation Rate Variation in Chinese. En: Proceedings of the International Congress of Phonetic Sciences (pp. 396-399). Cerdà, R. (2009). Camps de dispersió vocàlica en imitacions de veu: Primers indicis d’un experiment sobre identificació de locutor. Estudios de Fonética Experimental, 18, 65-88. Champod, C. y Evett, I. W. (2000). Commentary on APA Broeders (1999). Some observations on the use of probability scales in forensic identification. Forensic Linguistics 6(2), 228-241. International Journal of Speech, Language and the Law, 7(2), 239-243. https:// journal.equinoxpub.com/IJSLL/article/view/6519 Champod, C. y Meuwly, D. (2000). The inference of identity in forensic speaker recognition. Speech communication, 31(2-3), 193-203. Chivers, T. (2019). What do we do about deepfake video? The Guardian. https://www.theguardian.com/technology/2019/jun/23/whatdo-we-do-about-deepfake-video-ai-facebook Cicres, J. (2007a). Análisis discriminante de un conjunto de parámetros fonético acústicos de las pausas llenas para identificar hablantes. Síntesis Tecnológica, 3(2), 87-96, http://dx.doi.org/10.4206/sint. tecnol.2007.v3n2-04 Cicres, J. (2007b). Aplicació de l’anàlisi de l’entonació i de l’alineació tonal a la identificació de parlants en fonètica forense (tesis doctoral no publicada). Universitat Pompeu Fabra. Cicres, J. (2011). Transcripció i autenticació de gravacions en contextos judicials. LSC–Llengua, societat i comunicació, 9, 26-32. Cicres, J. y Fernández Trinidad, M. (2017). Análisis de los sonidos fricativos en un corpus de acento no nativo disimulado. En: Marrero, V.

142

La fonética forense

y Estebas, E. (eds.). Current Trends in Experimental Phonetics: Cross-disciplines in the Hundredth Anniversary of Manual de Pronunciación Española (Tomás Navarro Tomás) (pp. 308-312). Madrid: UNED. Cirnes Zuñiga, S. H. (2000). Diccionarios jurídicos temáticos. Volumen 6: Criminalística y Ciencias forenses. Oxford University Press. Clark, J. y Foulkes, P. (2007). Identification of voices in electronically disguised speech. International Journal of Speech, Language and the Law, 14(2), 195-221. Clifford, B. R., Rathborn, H. y Bull, R. (1981). The effects of delay on voice recognition accuracy. Law and Human Behavior, 5(2), 201-208. http://dx.doi.org/10.1007/BF01044763 Collinson, P. (2017, mayo). HSBC voice recognition system breached by customer’s twin. The Guardian. https://www.theguardian.com/ business/2017/may/19/hsbc-voice-recognition-system-breachedby-customers-twin Cooper, A. J. (2009). An automated approach to the Electric Network Frequency (ENF) criterion: theory and practice. International Journal of Speech, Language & the Law, 16(2). http://dx.doi.org/10.1558/ ijsll.v16i2.193 Cooper, A. J. (2011). Further considerations for the analysis of ENF data for forensic audio and video applications. International Journal of Speech, Language & the Law, 18(1). http://dx.doi.org/10.1558/ ijsll.v18i1.99 Cortés Rodríguez, L. y Camacho Adarve, M. M. (2003). ¿Qué es el análisis del discurso? Barcelona: Octaedro. De Jong-Lendle, G., Nolan, F., McDougall, K. y Hudson, T. (2015). Voice lineups: a practical guide. En: Proceedings of the International Congress of Phonetic Sciences (pp. 10-14). Debruyne, F., Decoster, W., Van Gijsel, A. y Vercammen, J. (2002). Speaking fundamental frequency in monozygotic and dizygotic twins. Journal of Voice, 16(4), 466-471. Decoster, W., Van Gysel, A., Vercammen, J. y Debruyne, F. (2000). Voice similarity in identical twins. Acta Oto-Rhino-Laryngologica Belgica, 55(1), 49-55. Dediu, D., Jennings, E. M., Van’t Ent, D., Moisik, S. R., Di Pisa, G., Schulze, J., Boomsma, D. I. et al. (2022). The heritability of vocal

Referencias bibliográficas

143

tract structures estimated from structural MRI in a large cohort of Dutch twins. Human Genetics, 141(12), 1905-1923. Delgado, C. (1998). Pasaporte vocal: utilidad de la estratificación del uso lingüístico. Ciencia policial: revista del Instituto de Estudios de Policía, 40, 57-89. Delgado, C. (2001). La identificación de locutores en el ámbito forense (tesis doctoral). Universidad Complutense de Madrid. Doddington, G. (1985) Speaker recognition. Identifying people by their voices. En: Proc. IEEE 73 (pp. 1651-1664). Doddington, G., Liggett, W., Martin, A., Przybocki, M. y Reynolds, D. (1998). Sheep, Goats, Lambs and Wolves: A Statistical Analysis of Speaker Performance in the NIST 1998 Speaker Recognition Evaluation. En: Proceedings of the 5th International Conference on Spoken Language Processing (artículo 0608). Sídney, 1998, 30 nov-4 dic. Drygajlo, A., Meuwly, D. y Alexander, A. (2003). Statistical methods and Bayesian interpretation of evidence in forensic automatic speaker recognition. En: Proceedings of the 8th European Conference on Speech Communication and Technology (Eurospeech 2003) (pp. 689-692). Duckworth, M., McDougall, K., De Jong, G. y Shockey, L. (2011). Improving the consistency of formant measurement. International Journal of Speech, Language & the Law, 18(1). Eades, D. (2010). Language analysis and asylum cases. En: Coulthard, M. y Johnson, A. (eds.). Routledge Handbook of Forensic Linguistics (pp. 411-422). Londres: Routledge. Endres, W., Bambach, W. y Flösser, G. (1971). Voice spectrograms as a function of age, voice disguise, and voice imitation. Journal of the Acoustical Society of America, 49, 1842-1848. ENFSI (2015). ENFSI guideline for evaluative reporting in forensic science. European Network of Forensic Science Institutes (ENFSI). ENFSI (2021). Best Practice Manual for the Methodology of Forensic Speaker Comparison, European Network of Forensic Science Institutes (ENFSI). Enzinger, E. (2010). Characterising Formant Tracks in Viennese Diphthongs for Forensic Speaker Comparison. En: Proceedings of the 39th International AES Conference: Audio Forensics, Practices and Challenges (pp. 47-52).

144

La fonética forense

Eriksson, A. (2005). Tutorial on forensic speech science. En: Proc. European Conf. Speech Communication and Technology (pp. 4-8). Eriksson, A. (2010). The Disguised Voice: Imitating Accents or Speech Styles and Impersonating Individuals. En: Llamas, C. y Watts, D. (eds.). Language and identities (pp. 86-96). Edinburgh Univ. Press. Eriksson, A. (2012). Aural/acoustic vs. automatic methods in forensic phonetic case work. Forensic Speaker Recognition (pp. 41-69). Nueva York: Springer. http://dx.doi.org/10.1007/978-1-4614-0263-3_3 Eriksson, E., Green, J., Sjöstrom, M., Sullivan, K. P. y Zetterholm, E. (2004). Perceived age: a distracter for voice disguise and speaker identification?. En: Proceedings of Fonetik 2004 (pp. 80-83). Dept. of Linguistics, Stockholm University. Escajedo San Epifanio, L. (2015). Reconocimiento e identificación de las personas mediante biometrías estáticas y dinámicas (tesis doctoral). Universidad de Alicante. Esling, J. H. (1978). Voice quality in Edinburgh: A sociolinguistic and phonetic study (tesis doctoral). Universidad de Edimburgo. Evans, N., Alegre, F., Wu, Z., Kinnunen, T. (2009). Encyclopedia of biometrics. Boston: Springer. https://doi.org/10.1007/978-3-642-27733-7 Evett, I. W. (1995). Avoiding the transposed conditional. Science and Justice, 35(2), 127-132. http://dx.doi.org/10.1016/S1355-0306(95) 72645-4 Evett, I. y Buckleton, J. (1996). Statistical analysis of STR data. En: Carraredo, A., Brinkmann, B. y Bär, W. Advances in Forensic Haemogenetics (pp. 79-86). Heidelberg: Springer-Verlag. Faundez‐Zanuy, M., Lucena‐Molina, J. J. y Hagmüller, M. (2010). Speech watermarking: an approach for the forensic analysis of digital telephonic recordings. Journal of forensic sciences, 55(4), 1080-1087. Figueiredo, R. M. D. y Britto, H. D. S. (1996). A report on the acoustic effects of one type of disguise. Forensic Linguistics, 3, 168-175. Forensic Science Regulator (2016a). Codes of practice and conduct for forensic science providers and practitioners in the Criminal Justice System, 3. Birmingham: Forensic Science Regulator Publications. Forensic Science Regulator (2016b). Codes of practice and conduct for forensic science providers and practitioners in the Criminal Justice System, Appendix: Speech and Audio Forensic Services, FSR-C134, 1. Bir­ mingham: Forensic Science Regulator Publications.

Referencias bibliográficas

145

Foulkes, P. y French, P. (2012). Forensic speaker comparison: A linguistic-­ acoustic perspective. En: Solan, L. y Tiersma, P. (eds.). The Oxford handbook of language and law (pp. 557-572). Oxford: Oxford University Press. Franco-Pedroso, J. y Gonzalez-Rodriguez, J. (2016). Linguistically-­ constrained formant-based i-vectors for automatic speaker recognition. Speech Communication, 76, 61-81. French, P. (1994). An overview of forensic phonetics with particular reference to speaker identification. International Journal of Speech Language and the Law, 1(2), 169-181. http://dx.doi.org/10.1558/ijsll.v1i2.169 French, P. y Fraser, H. (2018). Why «ad hoc experts» should not provide transcripts of indistinct forensic audio, and a proposal for a better approach. Criminal Law Journal, 42(5), 298-302. French, P. y Harrison, P. (2007). Position Statement concerning use of impressionistic likelihood terms in forensic speaker comparison cases, with a foreword by Peter French & Philip Harrison. International Journal of Speech, Language and the Law, 14(1), 137-144. https://doi. org/10.1558/ijsll.v14i1.137 French, P., Harrison, P. y Lewis, J. W. (2006). R v John Samuel humble: The Yorkshire ripper hoaxer trial. International Journal of Speech, Language and the Law, 13(2), 255-273. French, P., Nolan, F., Foulkes, P., Harrison, P. y McDougall, K. (2010). The UK position statement on forensic speaker comparison; a rejoinder to Rose and Morrison. International Journal of Speech, Language and the Law, 17(1), 143-152. French, P. y Stevens, L. (2013). Forensic speech science. En: Jones, M. J. y Knight, R. A. (eds.). Bloomsbury companion to Phonetics (pp. 183197). Londres: Continuum. Furui, S. (1981). Cepstral analysis technique for automatic speaker verification. IEEE Transactions on Acoustics, Speech, and Signal Processing, 29(2), 254-272. Galton, F. (1875). The history of twins, as a criterion of the relative powers of nature and nurture. Journal of the Anthropological Institute of Great Britain and Ireland, 5, 391-406. Gerlach, L., McDougall, K., Kelly, F. y Alexander, A. (2022). Seeking voice twins –‌an exploration of VoxCeleb using automatic speaker recognition and two clustering methods. Annual Conference of the

146

La fonética forense

International Association for Forensic Phonetics and Acoustics (IAFPA), 10-13 julio 2022, Praga. Gessinger, I. (2022). Phonetic accommodation of human interlocutors in the context of human-computer interaction (tesis doctoral). Universidad del Sarre. Gibbons, J. (1999). Linguistics and the Law. Annual Review of Applied Linguistics, 19, 156-173. Gil, J., Alves, H. y J. A. Hierro (2012). Proposition raisonnée de protocole de capture de voix connue à des fins judiciaires. Revue Internationale de Criminologie et de Police Scientifique et Technique, lxv, 319-345. Gil, J. y San Segundo, E. (2013). El disimulo de la cualidad de voz en fonética judicial: un estudio perceptivo para un caso de pinzamiento de nariz. En: Penas, A. (ed.). Panorama de la Fonética Española Actual (pp. 321-366). Madrid: Arco Libros. Gil, J. y San Segundo, E. (2014). La cualidad de voz en fonética judicial. En: Garayzábal, E., Jiménez, M. y Reigosa, M. (eds.). Lingüística Forense: La lingüística en el ámbito policial y judicial (pp. 153-197). Madrid: Euphonía. Gold, E. (2012). Articulation rate as a discriminant in forensic speaker comparisons, En: Proceedings of UNSW Forensic Speech Science Conference. Sídney. Gold, E. y French, P. (2011). International Practices in Forensic Speaker Comparison. International Journal of Speech, Language and the Law, 18(2), 293-307. Gold, E. y French, P. (2019). International practices in forensic speaker comparisons: second survey. International Journal of Speech Language and the Law, 26(1), 1-20. Gold, E., French, P. y Harrison, P. (2013). Clicking behavior as a possible speaker discriminant in English. Journal of the International Phonetic Association, 43(3), 339-349. Goldinger, S. D. (1998). Echoes of echoes? An episodic theory of lexical access. Psychol. Rev., 105, 251-279. Gómez, P., San Segundo, E., Mazaira, L. M., Álvarez, A. y Rodellar, V. (2014). Using dysphonic voice to characterize speaker’s biometry. Language and Law/Linguagem e Direito, 1(2). González-Rodríguez, J., Drygajlo, A., Ramos-Castro, D., García-Gomar, M. y Ortega-García, J. (2006). Robust estimation, interpretation and

Referencias bibliográficas

147

assessment of likelihood ratios in forensic speaker recognition. Computer Speech & Language, 20(2), 331-355. González-Rodríguez, J., Rose, P., Ramos, D., Toledano, D. y Ortega-­ García, J. (2007). Emulating DNA: Rigorous quantification of evidential weight in transparent and testable forensic speaker recognition. IEEE Transactions on Audio, Speech and Language Processing, 15(7), 2104-2115. Gregory, S. W., Dagan, K. y Webster, S. (1997). Evaluating the relation of vocal accommodation in conversation partners’ fundamental frequencies to perceptions of communication quality. J. Nonverbal Behav., 21, 23-43. Grey, G. y G. A. Kopp (1944). Voiceprint identification. Bell Telephone Laboratories Report (pp. 1-14). Grigoras, C. (2005). Digital audio recording análisis –‌the electric net­ work frequency criterion. International Journal of Speech Language and the Law, 12(1), 63-76. http://dx.doi.org/10.1558/sll.2005.12. 1.63 Grigoras, C., Cooper, A. y Michalek, M. (2009). Forensic speech and audio analysis Working Group Best Practice Guidelines for ENF analysis in forensic authentication of digital evidence. European Network of Forensic Science Institutes (ENFSI). Hansen, J. H. y Bořil, H. (2018). On the issues of intra-speaker variability and realism in speech, speaker, and language recognition tasks. Speech Communication, 101, 94-108. Hastie, T., Tibshirani, R. y Friedman, J. (2009). The elements of statistical learning. Nueva York: Springer. Haworth, K. (2006). The dynamics of power and resistance in police interview discourse. Discourse & Society, 17(6), 739-759. http:// dx.doi.org/10.1177/0957926506068430 Hernández, J. A. (1995, 5 de octubre). «Esta voz es la de mi fontanero», fue el testimonio clave sobre Anabel Segura. El País. https://elpais. com/diario/1995/10/05/madrid/812895881_850215.html#:~: text=La%20pista%20fiable%20que%20condujo,el%20fontanero %20de%20mi%20pueblo%22 Himmelreich, C. (2009). Despite DNA Evidence, Twins Charged in Heist Go Free. Time. http://content.time.com/time/world/article/ 0,8599,1887111,00.html.

148

La fonética forense

Hollien, H. y Schwartz, R. (2000). Aural-perceptual speaker identification: problems with non-contemporary samples, Forensic Linguistics: The International Journal of Speech, Language and the Law, 7(2), 199211. Homayounpour, M. y Chollet, G. (1995). Discrimination of voices of twins and siblings for speaker verification. En: Proceedings of Euro­ speech (pp. 345-348). Hualde, J. I. (1991). On Spanish syllabification. En: Campos, H. y Martínez Gil, F. (eds.). Current Studies in Spanish Linguistics (pp. 475493). Washington: Georgetown University Press. Hudson, T., De Jong, G., McDougall, K., Harrison, P. y Nolan, F. (2007). F0 statistics for 100 young male speakers of Standard Southern British English. En: Proceedings of the 16th International Congress of Phonetic Sciences (vol. 6, núm. 10). Hughes, V., Gold, E., Foulkes, P., French, P., Harrison, P., Stevens, L., Aitken, C. y Neocleous, T. (2014). Modelling features for forensic speaker comparison, Annual Conference of the International Association for Forensic Phonetics and Acoustics (IAFPA). Universidad de Zúrich, 2014, 1-3 septiembre. Hughes, V., Harrison, P. T., Foulkes, P., French, J. P., Kavanagh, C. y San Segundo, E. (2017). Mapping across feature spaces in forensic voice comparison: the contribution of auditory-based voice quality to (semi-) automatic system testing. En: Proceedings of Interspeech 2017. Jain, A., Duin, R. y Mao, J. (2000). Statistical pattern recognition: A review. IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(1), 4-37. Jessen, M. (2007). Speaker classification in forensic phonetics and acoustics. En: Speaker classification I (pp. 180-204). Berlín, Heidelberg: Springer. http://dx.doi.org/10.1007/978-3-540-74200-5_10 Jessen, M. (2008). Forensic phonetics. Language and linguistics compass, 2(4), 671-711. http://dx.doi.org/10.1111/j.1749-818X.2008.00066.x Jessen, M. (2018). Forensic Voice Comparison. En: Visconti, J. (ed.). Handbook of Communication in the Legal Sphere. Berlín: De Gruyter Mouton. http://dx.doi.org/10.1515/9781614514664-012 Jessen, M. (2020). Speaker profiling and forensic voice comparison. En: Coulthard, M., May, A. y Sousa-Silva, R. (eds.). The Routledge

Referencias bibliográficas

149

Handbook of Forensic Linguistics. Nueva York: Routledge. http://dx. doi.org/10.4324/9780429030581-31 Jessen, M., Koster, O. y Gfroerer, S. (2005). Influence of vocal effort on average and variability of fundamental frequency. International Journal of Speech, Language and the Law, 12(2), 174-213. http://dx.doi. org/10.1558/sll.2005.12.2.174 Joshi, R. S., Rigau, M., García-Prieto, C. A., de Moura, M. C., Piñeyro, D., Moran, S., Esteller, M. et al. (2022). Look-alike humans identified by facial recognition algorithms show genetic similarities. Cell Reports, 40(8), 111257. Kardoudi, O. (2022). El primer «deep fake» usado en un conflicto armado muestra a Zelenski rindiéndose. El Confidencial. https://www. elconfidencial.com/tecnologia/novaceno/2022-03-17/hackersrusos-difunden-un-video-falso-de-zelensky-ordenando-larendicion_3393225 Kavanagh, C. (2012). New consonantal acoustic parameters for forensic speaker comparison (tesis doctoral). Universidad de York. Kerbrat-Orecchioni, C. (1996). La conversation. París: Seuil. Kerstholt, J. H., Jansen, N. J. M., Van Amelsvoort, A. G. y Broeders, A. P. A. (2006). Earwitnesses: effects of accent, retention and telephone, en Applied Cognitive Psychology, 20(2), 187-197. Kersta, L. G. (1962). Voiceprint identification. Nature, 196: 12531257. Kinnunen, T. y Li, H. (2010). An overview of text-independent speaker recognition: from features to supervectors. Speech Communication, 52(1), 12-40. Klatt, D. H. y L. C. Klatt (1990). Analysis, synthesis, and perception of voice quality variations among female and male talkers. The Journal of the Acoustical Society of America, 87(2), 820-857. Kong, A. W. K., Zhang, D. y Lu, G. (2006). A study of identical twins’ palmprints for personal verification. Pattern Recognition, 39(11), 2149-2156. Korshunov P. y Marcel, S. (2016). Cross-database evaluation of audio-­ based spoofing detection systems. En: Proc. Interspeech 2016 (pp. 1705-170). Korshunov, P. y Marcel, S. (2017). Impact of score fusion on voice biometrics and presentation attack detection in cross-database evalua-

150

La fonética forense

tions. IEEE J. Select Top Signal Process, 11(4), 695-705. https://doi. org/10.1109/JSTSP.2017.2692389 Köster, O., Kehrein, R., Masthoff, K. y Boubaker, Y. H. (2012). The tell-­ tale accent: identification of regionally marked speech in German telephone conversations by forensic phoneticians. International Journal of Speech, Language & the Law, 19(2). Kreiman, J. y Sidtis, D. (2011). Foundations of Voice Studies. Oxford: Wiley-­Blackwell. Künzel, H. J. (2000). Effects of voice disguise on speaking fundamental frequency. Forensic Linguistics 7, 149-179. Künzel, H. J. (2001). Beware of the «telephone effect»: the influence of telephone transmissions on the measurement of formant frequencies. Forensic Linguistics, 8(1), 80-99. http://dx.doi.org/10.1558/ijsll.v8i1.80 Künzel, H. J. (2010). Automatic speaker recognition of identical twins. International Journal of Speech, Language and the Law, 17(2), 251277. http://dx.doi.org/10.1558/ijsll.v17i2.251 Künzel, H. J. (2011). La prueba de voz en la investigación criminalística. Ciencia Forense, INACIPE-Academia Iberoamericana de Criminalística y Estudios Forenses, 1(1), 37-50. Künzel, H. J. y Alexander, P. (2014). Forensic automatic speaker recognition with degraded and enhanced speech. Journal of the Audio Engineering Society, 62(4), 244-253. Künzel, H. J., González, J. y Ortega, J. (2004). Effect of voice disguise on the performance of a forensic automatic speaker recognition system. En: Proc. of Odissey 2004. The Speaker and Language Recognition Workshop. Laver, J. (1975). Individual features in voice quality (tesis doctoral). Universidad de Edimburgo. Laver, J. (1980). The phonetic description of voice quality. Cambridge: Cambridge University Press. Leemann, A., Kolly, M. J. y Dellwo, V. (2014). Speaker-individuality in Suprasegmental Temporal Features: Implications for Forensic Voice Comparison. Forensic Science International, 238, 59-67. León Gomez, N. M., Delgado Hernandez, J., Luis Hernandez, J. y Artazkoz del Toro, J. J. (2022). Objective analysis of voice quality in patients with thyroid pathology. Clinical Otolaryngology, 47(1), 8187.

Referencias bibliográficas

151

Levitan, R. y Hirschberg, J. (2011). Measuring acoustic-prosodic entrainment with respect to multiple levels and dimensions. En: Interspeech-2011 (pp. 3081-3084). Florencia. Lindh, J. y Eriksson, A. (2007). Robustness of long time measures of fundamental frequency. En: Eighth Annual Conference of the International Speech Communication Association. LNOG - Language and National Origin Group (2004). Guidelines for the use of language analysis in relation to questions of national origin in refugee cases. International Journal of Speech, Language and the Law, 11(2), 261-66. Loakes, D. (2006). A forensic phonetic investigation into the speech patterns of identical and non-identical twins (tesis doctoral). University of Melbourne. Lombard, É. (1911). Le signe de l’élévation de la voix. Annales des Maladies de l’Oreille et du Larynx, 37(2), 2, 101-9. López, S., Riera, P., Assaneo, M. F., Eguía, M., Sigman, M. y Trevisan, M. A. (2013). Vocal caricatures reveal signatures of speaker identity. Scientific Reports, 3(1), 1-7. Lucena Molina, J. J. (2005). La acústica forense. Instituto Universitario sobre seguridad interior. Universidad Nacional de Educación a distancia. http://portal.uned.es/pls/portal/docs/PAGE/UNED_MAIN/ SERVICIOSGENERALES/IUISI/COLABORACIONES/032%20 DOC037-2005.PDF Manzanero, A. L., López, B. y Contreras, M. J. (2009). Efectos de interferencia en el reconocimiento de personas: Exactitud, discriminabilidad y sesgo de respuesta. En: Expósito, F. y Peña, S. (eds.). Procesos Judiciales. Psicología Jurídica de la Familia y del Menor (pp. 21-28). Murcia: Sociedad Española de Psicología Jurídica y Forense. Markham, D. (1999). Listeners and disguised voices: the imitation and perception of dialectal accent. International Journal of Speech, Language and the Law, 6(2), 290-299. Markel, J. y Gray, A. (1976). Linear prediction of speech. Berlín: Springer-­ Verlag. Marrero-Aguiar, V. (2015). La percepción del habla en ruido. Estudio experimental sobre una aplicación para la evaluación audiológica infantil. Revista Española de Lingüística, 45(1), 129-151.

152

La fonética forense

Marrero-Aguiar, V. (coord.). (2017). Introducción a la fonética judicial: variación inter e intralocutor en español, el proyecto VILE. Tirant lo Blanch. Marquis, R., Biedermann, A., Cadola, L., Champod, C., Gueissaz, L., Massonnet, G., Hicks, T. et al. (2016). Discussion on how to implement a verbal scale in a forensic laboratory: Benefits, pitfalls and suggestions to avoid misunderstandings. Science & Justice, 56(5), 364-370. Martínez-Celdrán E. y Fernández-Planas, A. (2007). Manual de fonética española. Barcelona: Ariel. Martino, D., Loke, Y. J., Gordon, L., Ollikainen, M., Cruickshank, M. N., Saffery, R. y Craig, J. M. (2013). Longitudinal, genomescale analysis of DNA methylation in twins from birth to 18 months of age reveals rapid epigenetic change in early life and pair-specific effects of discordance. Genome Biology, 14(5), R42. http://dx.doi.org/ 10.1186/gb-2013-14-5-r42 Masthoff, H. (1996). A report on a voice disguise experiment. Forensic Linguistics 3, 160-167. McDougall, K. (2004). Speaker-specific formant dynamics: an experiment on Australian English /ai/. International Journal of Speech Language and the Law, 11(1), 103-130. McDougall, K. (2006). Dynamic features of speech and the characterization of speakers: Toward a new approach using formant frequencies. International Journal of Speech Language and the Law, 13(1), 89126. http://dx.doi.org/10.1558/sll.2006.13.1.89 McDougall, K. (2013). Assessing perceived voice similarity using Multidimensional Scaling for the construction of voice parades. International Journal of Speech, Language and the Law, 20(2), 163-172. http:// dx.doi.org/10.1558/ijsll.v20i2.163 Meuwly, D. (2003). Le mythe de «L’empreinte vocale» (I). Revue internationale de criminologie et de police technique et scientifique 56(2), 219-236. Meuwly, D. (2006). Forensic individualisation from biometric data. Science & Justice, 46(4), 205-213. Molina de Figueiredo, R. (2000). Algumas considerações sobre o disfarce de voz. Estudos Lingüísticos, xxix, 543-548. Moosmüller, S. (2001). The influence of creaky voice on formant frequency changes. International Journal of Speech, Language and the Law, 8(1), 10-112.

Referencias bibliográficas

153

Morgades, S. (2010). The asylum procedure in Spain: The role of language in determining the origin of asylum seekers. En: Zwaan, K., Muysken, P. y Verrips, M. (eds.). Language and Origin. The Role of Language in European Asylum Procedures: A Linguistic and Legal Survey (pp. 159-175). Nimega: Wolf Legal Publishers. Morrison, G. S. (2007). Matlab implementation of Aitken & Lucy’s (2004) forensic likelihoodratio software using multivariate-kernel-density estimation. http://geoffmorrison.net/#MVKD. Morrison, G. S. (2008). Forensic voice comparison using likelihood ratios based on polynomial curves fitted to the formant trajectories of Australian English/aI/. International Journal of Speech, Language & the Law, 15(2). Morrison, G. S. (2009a). Forensic voice comparison and the paradigm shift. Science & Justice, 49(4), 298-308. http://dx.doi.org/10.1016/j. scijus.2009.09.002 Morrison, G. S. (2009b). Likelihood-ratio forensic voice comparison using parametric representations of the formant trajectories of diphthongs. The Journal of the Acoustical Society of America, 125(4), 2387-2397. Morrison, G. S. (2010a). Forensic Voice Comparison. En: Freckelton, I. y Selby, H. Expert Evidence. Sídney: Thomson Reuters. Morrison, G. S. (2010b). Sound File Cutter Upper [programa informático]. http://geoff-morrison.net/#CutUp Morrison, G. S. (2011). La comparación forense de la voz y el cambio de paradigma. Estudios Fónicos/Cuadernos de Trabajo, 1, 1-38. Morrison, G. S. (2012). SoundLabeller: Ergonomically designed software for marking and labelling sections of sound files [programa informático]. http://geoffmorrison.net/#SndLbl Morrison, G. S. (2013). Tutorial on logistic-regression calibration and fusion: Converting a score to a likelihood ratio. Australian Journal of Forensic Sciences, 45(2), 173-197. Morrison, G. S. (2022). Advancing a paradigm shift in evaluation of forensic evidence: The rise of forensic data science. Forensic Science International: Synergy, 100270. Morrison, G. S. y Enzinger, E. (2019). Multi-laboratory evaluation of forensic voice comparison systems under conditions reflecting those of a real forensic case (forensic_eval_01). Conclusion. Speech Communication, 112, 37-39.

154

La fonética forense

Morrison, G. S., Enzinger, E., Hughes, V., Jessen, M., Meuwly, D., Neumann, C., Anonymous, B. et al. (2021). Consensus on validation of forensic voice comparison. Science & Justice, 61(3), 299-309. Morrison, G. S. y Kinoshita, Y. (2008). Automatic-type calibration of traditionally derived likelihood ratios: Forensic analysis of Australian English /o/ formant trajectories. En: Proceedings of Interspeech (pp. 1501-1504). Morrison, G. S. y Nearey, T. (2011). FormantMeasurer: Software for efficient human-supervised measurement of formant trajectories [programa informático]. http://geoffmorrison.net/#FrmMes Morrison, G. S., Rose, P. y Zhang, C. (2012). Protocol for the collection of databases of recordings for forensic-voice-comparison research and practice. Australian Journal of Forensic Sciences, 44(2), 155-167. Morrison, G. S., Sahito, F. H., Jardine, G., Djokic, D., Clavet, S., Berghs, S. y Dorny, C. G. (2016). INTERPOL survey of the use of speaker identification by law enforcement agencies. Forensic Science International, 263, 92-100. http://dx.doi.org/10.1016/j.forsciint.2016.03. 044 Müller, C. (2007). Speaker classification. Berlín: Springer. Navarro Tomás, T. (1946). Estudios de fonología española. Syracuse: Syracuse University Press. Nearey, T., Assmann, P. y Hillenbrand, J. (2002). Evaluation of a strategy for automatic formant tracking. The Journal of the Acoustical Society of America, 112(5), 2323-2323. Neelima M. y Santiprabha, I. (2020). Mimicry voice detection using convolutional neural networks. En: Proc. 2020 International Conference on Smart Electronics and Communication (ICOSEC), IEEE (pp 314-318). https://doi.org/10.1109/ICOSEC49089.2020.9215407 Nolan, F. (1983). The phonetic bases of speaker recognition. Cambridge: Cambridge University Press. http://dx.doi.org/10.1016/0167-6393 (87)90039-2 Nolan, F. (1997) Speaker recognition and forensic phonetics. En: Hardcastle, W. y Laver, J. (eds.). A Handbook of Phonetic Science. Oxford: Blackwell. Nolan, F. (2001). Speaker identification evidence: Its forms, limitations and roles. En: Proceedings of the conference Law and language: Prospect and retrospect (pp. 1-19). Levi, Finnish Lapland.

Referencias bibliográficas

155

Nolan, F. (2003). A recent voice parade. The International Journal of Speech, Language and the Law, 10(2), 277-291. http://dx.doi.org/ 10.1558/sll.2003.10.2.277 Nolan, F. (2005). Forensic speaker identification and the phonetic description of voice quality. En: Hardcastle, W. J. y Mackenzie-Beck, J. (eds.). A Figure of Speech. A Festschrift for John Laver (pp. 385-411). New Jersey: Lawrence Erlbaum Associates. Nolan, F. (2007). Voice quality and forensic speaker identification. GOVOR, 24(2), 111-128. Nolan, F. y Grabe, E. (1996). Preparing a voice lineup. International Journal of Speech, Language and the Law, 3(1), 74-94. http://dx.doi. org/10.1558/ijsll.v3i1.74 Nolan, F. y Grigoras, C. (2005). A case for formant analysis in forensic speaker identification. International Journal of Speech, Language and the Law, 12(2), 143-173. http://dx.doi.org/10.1558/sll.2005.12.2. 143 Nolan, F. y Oh, T. (1996). Identical twins, different voices. International Journal of Speech Language and the Law, 3(1), 39-49. Olsson, J. (2004). Forensic linguistics: an introduction to Language, crime and the law. Londres - Nueva York: Continuum. Orchard, T. y Yarmey, A. (1995). The effects of whispers, voice sample duration and voice distinctiveness on criminal speaker identification. Applied Cognitive Psychology, 31, 249-260. Pal, M., Saha, G. (2015). On robustness of speech based biometric systems against voice conversion attack. Appl, Soft, Comput, J., 30, 214228. https://doi.org/10.1016/j.asoc.2015.01.036 Pankanti S., Prabhakar S. y Jain A. K. (2002). On the individuality of fingerprints, IEEE Trans. Patter. Anal. Mach. Intell., 24(8), 10101025. Pardo, J. S. (2010). Expressing oneself in conversational interaction. En: Morsella, E. (ed.). Expressing Oneself/Expressing One’s Self: Communication, Cognition, Language, and Identity (pp. 183-196). Londres: Taylor and Francis. Pardo, J. S., Cajori Jay, I. y Krauss, R. M. (2010). Conversational role influences speech imitation. Atten. Percept. Psychophys, 72, 2254-2264. Pardo, J. S. (2013). Measuring phonetic convergence in speech production. Frontiers in Psychology, 4, 559.

156

La fonética forense

Patil, H. A. y Kamble, M. R. (2018). A survey on replay attack detection for automatic speaker verification (ASV) system. En: 2018 Asia-­ pacific signal and information processing association annual summit and conference, APSIPA ASC, IEEE (pp. 1047-1053). https://doi.org/ 10.23919/APSIPA.2018.8659666 Patrick, P. L. (2010). Language variation and LADO (Language Analysis for Determination of Origin). En: Zwaan, K., Muysken, P. y Verrips, M. (eds.). Language and Origin. The Role of Language in European Asylum Procedures: A Linguistic and Legal Survey (pp. 73-87). Nimega: Wolf Legal Publishers. Patrick, P. L., Schmid, M. y Zwaan, M. (2011) Language and asylum research group (sitio web). Copyright 2011 University of Essex. Patrick, P. L., Schmid, M. S. y Zwaan, K. (2019). Language analysis for the determination of origin. Current Perspectives and New Directions. Cham: Springer. Paver, A., Smith, H. M., Pautz, N., McDougall, K., Mueller-Johnson, K. y Nolan, F. (2021). Voice parade parameters: Investigating the effect of parade size and voice sample duration on earwitness identification accuracy. Póster presentado en el Cambridge Language Sciences Interdisciplinary Research Centre, julio de 2021. Perrot, P., Aversano, G. y Chollet, G. (2007). Voice Disguise and Automatic Detection: Review and Perspectives. En: Stylianou, Y., Faundez-­Zanuy, M. y Esposito, A. (eds.). Progress in Nonlinear Speech Processing. Lecture Notes in Computer Science, vol 4391 (pp. 101 117). Berlín: Springer Verlag. Philips, T. (2008). The role of methylation in gene expression, Nature Education, 1(1), 116. Ping, W., Peng, K., Gibiansky, A., Arık, S. O., Kannan, A., Narang, S., Raiman, J. y Miller, J. (2018). Deep Voice 3: scaling text-to-speech with convolutional sequence learning. En: Proceedings of the 6th International Conference on Learning Representations (ICLR). Vancouver, 2018, abril-mayo. https://arxiv.org/pdf/1710.07654.pdf Przybyla, B., Horii, Y. y Crawford, M. (1992). Vocal fundamental frequency in a twin sample: looking for a genetic effect. Journal of Voice, 6(3), 261-266. Ramírez Salado, M. (2017). Antecedentes de la lingüística forense: ¿desde cuándo se estudia el lenguaje como evidencia? Pragmalingüística,

Referencias bibliográficas

157

25, 525-539. http://dx.doi.org/10.25267/Pragmalinguistica.2017. i25.26 Ramos-Castro, D. (2007). Forensic evaluation of the evidence using automatic speaker recognition systems (tesis doctoral). Universidad Autónoma de Madrid. Real Academia Española y Asociación de Academias de la Lengua Española (RAE) (2011). Nueva gramática de la lengua española. Fonética y Fonología (pp. 332-354). Madrid: Espasa. Reich, A. (1981). Detecting the presence of vocal disguise in the male voice. Journal of the Acoustical Society of America, 69(5), 1458-60. Reynolds, D. y Rose, R. (1995). Robust text-independent speaker identification using Gaussian mixture speaker models. IEEE Transactions on Speech and Audio Processing, 3(1), 72-83. Reynolds, D., Quatieri, T. y Dunn, R. (2000). Speaker verification using adapted Gaussian mixture models. Digital Signal Processing, 10(1), 19-41. Rietveld, A. C. M. y Broeders, A. P. A. (1991). Testing the fairness of voice parades: the similarity criterion. En: Proc. of the 12th International Congress of Phonetic Sciences. Aix-en-Provence (5, pp. 46-49). Université de Provence, Service des Publications. Rose, P. (2002). Forensic speaker identification. Londres: Taylor & Francis. Rose, P. (2006). Technical forensic speaker recognition: Evaluation, types and testing of evidence. Computer Speech & Language, 20(2), 159-191. Rose, P., Kinoshita, Y. y Alderman, T. (2006). Realistic extrinsic forensic speaker discrimination with the diphthong /ai/. En: Proceedings of the 11th Australasian International Conference on Speech Science and Technology (pp. 329-334). Rose, P. y Morrison, G. (2009). A response to the UK position statement on forensic speaker comparison. The international journal of speech, language and the law, 16(1), 139. Rose, P., Osanai, T. y Kinoshita, Y. (2003). Strength of forensic speaker identification evidence: multispeaker formant-and cepstrum-based segmental discrimination with a Bayesian likelihood ratio as threshold. Forensic Linguistics, 10, 179-202. Sabatier, S. B., Trester, M. R. y Dawson, J. M. (2019). Measurement of the impact of identical twin voices on automatic speaker recognition. Measurement, 134, 385-389.

158

La fonética forense

Sahidullah, M., Kinnunen, T. y Hanilçi, C. (2015). A comparison of features for synthetic speech detection. En: Proceedings of the Annual Conference of the International Speech Communication Association, Interspeech (pp. 2087-209). Saks, M. J. (2010). Forensic identification: from a faith-based «Science» to a scientific science. Forensic Science International, 201(1-3), 14-17. Saks, M. J. y Koehler, J. J. (2005). The coming paradigm shift in forensic identification science. Science, 309(5736), 892-895. Saks, M. J. y Koehler, J. J. (2008). The individualization fallacy in forensic science evidence. Vand. L. Rev., 61, 199. Sánchez, J., Saratxaga, I., Hernaez, I., Navas, E., Erro, D. y Raitio, T. (2015). Toward a universal synthetic speech spoofing detection using phase information. IEEE Transactions on Information Forensics and Security, 10(4), 810-820. San Segundo, E. (2011). Acústica forense basada en relaciones de verosimilitud: representaciones paramétricas de las trayectorias formánticas de algunas combinaciones vocálicas del español peninsular. Tecniacústica, número especial de la Revista de Acústica, 128(3-4), 1-8. San Segundo, E. (2014a). Forensic speaker comparison of Spanish twins and non-twin siblings. (tesis doctoral). Consejo Superior de Investigaciones Científicas - Universidad Internacional Menéndez Pelayo. San Segundo, E. (2014b). El entrenamiento musical y otros factores que pueden influir en el reconocimiento perceptivo de hablantes. En: Fonética experimental, educación superior e investigación (pp. 571588). Madrid: Arco Libros. San Segundo, E. (2021). International survey on voice quality: Forensic practitioners versus voice therapists. Est. de Fonética Exper., 30, 9-34. San Segundo, E. (2023). La fonética forense: qué es y cuáles son sus principales áreas de aplicación. Círculo de Lingüística Aplicada a la Comunicación, 94, 175-187. San Segundo, E., Alves, H. y Trinidad, M. F. (2013). CIVIL corpus: Voice quality for speaker forensic comparison. Procedia-Social and Behavioral Sciences, 95, 587-593. San Segundo, E. y Delgado, J. (2021). A preliminary approach to the acoustic-perceptual characterization of dysarthria. En: Proceedings of the 3rd International Symposium on Applied Phonetics (ISAPh 2021) (pp. 63-66). DOI: 10.21437/ISAPh.2021-11

Referencias bibliográficas

159

San Segundo, E, Foulkes, P., French, P., Harrison, P., Hughes, V. y Kavanagh, C. (2019). The use of the Vocal Profile Analysis for speaker characterization: Methodological proposals. Journal of the International Phonetic Association, 49(3), 353-380. http://dx.doi.org/10.1017/ S0025100318000130 San Segundo, E., Foulkes, P. y Hughes, V. (2016). Holistic perception of voice quality matters more than L1 when judging speaker similarity in short stimuli. En: Proc. 16th Australas. Int. Conf. Speech Sci. Technolog (pp. 309-312). San Segundo, E. y Gómez-Vilda, P. (2014). Evaluating the forensic importance of glottal source features through the voice analysis of twins and non-twin siblings. Language and Law/Linguagem e Direito, 1(2), 22-41. San Segundo, E. y Künzel, H. (2015). Automatic speaker recognition of Spanish siblings: (monozygotic and dizygotic) twins and non-twin brothers. Loquens, 2(2), e021-e021. San Segundo, E. y Marrero, V. (2022). Earwitness identification accuracy: the «other accent» effect in a forensic voice parade experiment. Comunicación presentada en el 4th European Conference of the International Association of Forensic Linguistics, Oporto, 2022, 8-21 julio. San Segundo, E. y J. Mompeán (2017). A simplified Vocal Profile Analysis Protocol for the assessment of voice quality and speaker similarity. Journal of Voice 31(5), 644.e11-644.e27. http://dx.doi. org/10.1016/j.jvoice.2017.01.005 San Segundo, E., Schwab, S., Dellwo, V., He, L. y Mompeán, J. A. (2017). Perception of vocal tract tension: Exploring possible prosodic correlates. En: Marrero, V. y Estebas, E. (eds.). Current Trends in Experimental Phonetics: Cross-disciplines in the Hundredth Anniversary of Manual de Pronunciación Española (Tomás Navarro Tomás) (pp. 7982). Madrid: UNED. San Segundo, E. y Skarnitzl, R. (2021). A Computer-Based Tool for the Assessment of Voice Quality Through Visual Analogue Scales: VAS-Simplified Vocal Profile Analysis. Journal of Voice, 35(3), 497e9. http://dx.doi.org/10.1016/j.jvoice.2019.10.007 San Segundo, E., Tsanas, A. y Gómez-Vilda, P. (2017). Euclidean distances as measures of speaker similarity including identical twin pairs: a forensic investigation using source and filter voice characteristics. Forensic Science International, 270, 25-38.

160

La fonética forense

San Segundo, E., Univaso, P. y Gurlekian, J. (2019). Sistema multiparamétrico para la comparación forense de hablantes. Estudios de fonética experimental, 28, 13-45. San Segundo, E. y Yang, J. (2019). Formant dynamics of Spanish vocalic sequences in related speakers: A forensic-voice-comparison investigation. Journal of Phonetics, 75, 1-26. Scheffer, N., Bonastre, J., Ghio, A. y Teston, B. (2004). Gémellité et reconnaissance automatique du locuteur. Actes des Journées d’Étude sur la Parole (JEP) (pp. 445-448). Segal, N. (1993). Implications of twin research for legal issues involving young twins. Law and Human Behavior, 17(1), 43. Serranò, A. (2012). Algunos problemas jurídicos relativos al caso de los atentados del 11 de marzo de 2004 en Madrid. Anuario de acción humanitaria y derechos humanos= Yearbook of humanitarian action and human rights, 10, 37-54. Shen, Y. (2018). Using Contextual Information to Improve Hidden Markov Model Recognition of Wrist Motions During Eating Activities (tesis doctoral). Universidad Clemson, Carolina del Sur. Simpson, A. P. y Neuhauser, S. (2010). The persistency of epiphenomenal sound production in foreign accent disguise. En: Proc. Annual Conference of the International Association for Forensic Phonetics and Acoustics. Department of Phonetics, Trier University, Alemania. Sjöström, M., Eriksson, E. J., Zetterholm, E., Sullivan, K. P. H. (2006). A switch of dialect as disguise. En: Proceedings of the 19th Swedish Phonetics Conference (Fonetik 2006) (pp. 113-116). University of Stockholm. Stankovic, M., Gupta, R., Rossert, B. A., Myers, G. I. y Marco, N. (2017). Exploring Legal, Ethical and Policy Implications of Artificial Intelligence. Law, Justice & Development White Paper. Stevenage, S. V., Clarke, G. y Mcneill, A. (2012). The «other-accent» effect in voice recognition, en Journal of Cognitive Psychology, 24(6), 647-653. Stevens, K. N. et al. (1968). Speaker authentication and identification: A comparison of spectrographic and auditory presentations of speech material. Journal of the Acoustical Society of America, 44, 15961607. Stromswold, K. (2006). Why aren’t identical twins linguistically identical? Genetic, prenatal and postnatal factors. Cognition, 101(2), 333-384.

Referencias bibliográficas

161

Sullivan, K., Zetterholm, E., Van Doorn, J., Green, J., Kügler, F. y Eriksson, E. (2002). The effect of removing s emantic information upon the impact of voice imitation. En: Proc. 9th Australian International Conference on Speech Science and Technology. Melbourne. Suthokumar, G., Sriskandaraja, K., Sethu, V., Wijenayake, C. y Ambikairajah, E. (2019). Phoneme Specific Modelling and Scoring Techniques for Anti Spoofing System. En: ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 6106-6110). Tippett, C., Emerson, V., Fereday, M., Lawton, F., Richardson, A., Jones, L. y Lampert, M. (1968). The evidential value of the comparison of paint flakes from sources other than vehicles. Journal of the Forensic Science Society, 8(2), 61-65. Tosi, O. (1979). Voice Identification: Theory and Legal Applications. Baltimore: University Park Press. Tosi, O. et al. (1972a). Experiment on voice identification. Journal of the Acoustical Society of America, 51, 2030-2043. Tosi, O. et al. (1972b). Michigan state university voice identification Project. En: Voice Identification Research (pp. 35-60). U.S. Department of Justice, Law enforcement assistance administration, National Institute of Law Enforcement and Criminal Justice: Washington, EE. UU. Tosi, O. y Nash, E. W. (1973). Voiceprint identification. Rules for evidence. Trial, 9(1), 44- 48. Trask, R. L. (1996). A dictionary of phonetics and phonology. Londres: Routledge. Tsanas, A., San Segundo, E. y Gómez-Vilda, P. (2017). Exploring Pause Fillers in Conversational Speech for Forensic Phonetics: Findings in a Spanish Cohort Including Twins. En: IET Conference Proceedings. The Institution of Engineering & Technology. Tusón, A. (1995). El análisis de la conversación. Barcelona: Ariel. Ullrich, Q. J. (2021). Is This Video Real? The Principal Mischief of Deepfakes and How the Lanham Act Can Address It. Columbia Journal of Law and Social Problems, 55, 1. Univaso, P. (2017). Forensic speaker identification: A tutorial. IEEE Latin America Transactions, 15(9), 1754-1770. Van Leeuwen, D. y Brümmer, N. (2007). An introduction to application-­ independent evaluation of speaker recognition systems. En: Müller,

162

La fonética forense

C. Speaker Classification I: Fundamentals, Features, and Methods (pp. 330-353). Heidelberg: Springer-Verlag. Yager, N. y Dunstone, T. (2008). The biometric menagerie. IEEE transactions on pattern analysis and machine intelligence, 32(2), 220-230. Young, M. A. y Campbell, R. A. (1967). Effects of context on talker identification. Journal of the Acoustical Society of America, 42, 1250-1254. Watt, D. (2010). The identification of the individual through speech. En: Llamas, C. y Watts, D. (eds). Language and identities (pp. 76-85). Edinburgh Univ. Press. Watt, D., Harrison, P. S. y Cabot-King, L. (2020). Who owns your voice? Linguistic and legal perspectives on the relationship between vocal distinctiveness and the rights of the individual speaker. International Journal of Speech, Language and the Law, 26(2), 137-180. Wells, J. C. (1997). SAMPA computer readable phonetic alphabet. Hand­ book of standards and resources for spoken language systems, 4, 684-732. Wenger, E., Bronckers, M., Cianfarani, C., Cryan, J., Sha, A., Zheng, H. y Zhao, B. Y. (2021). «Hello, It’s Me»: Deep Learning-based Speech Synthesis Attacks in the Real World. En: Proceedings of the 2021 ACM SIGSAC Conference on Computer and Communications Security (pp. 235-251). Wolf, J. (1972). Efficient acoustic parameters for speaker recognition. The Journal of the Acoustical Society of America, 51(6B), 2044-2056. Zetterholm, E. (1997). Impersonation: a phonetic case study of the imitation of a voice. Lund University, Department of Linguistics Working Papers, 46, 269-287. Zetterholm, E. (2002). A comparative survey of phonetic features of two impersonators. En: Proceedings of Fonetik 2002 (TMH Quarterly Progress Status Report, 44, pp. 129-132). Zetterholm, E. (2003). The same but different. Three impersonators imitate the same target voices. En: Proc. 15th International Congress of Phonetic Sciences. Barcelona. Zetterholm, E. (2010). Detection of imitated voices: Who are reliable earwitnesses? International Journal of Speech, Language and the Law, 17, 25 44. Zhang, C., Morrison, G. S. y Thiruvaran, T. (2011). Forensic voice comparison using Chinese/iau/. En: Proceedings 17th International Congress of Phonetic Sciences (pp. 2280-2283).

Referencias bibliográficas

163

Zhang, C. y Tan, T. (2008). Voice disguise and automatic speaker recognition. Forensic Science International, 175, 118-122. Zimina, S. y Evdokimova, V. (2021). Acoustic Characteristics of Speech Entrainment in Dialogues in Similar Phonetic Sequences. En: International Conference on Speech and Computer (pp. 818-825). Springer, Cham. Zuo, D. y Mok, P. P. K. (2015). Formant dynamics of bilingual identical twins. Journal of Phonetics, 52, 1-12.

164

La fonética forense

Índice

1. Introducción: ¿qué es la fonética forense?. . . . . . . . . . . . . . 11 2. Principales campos de actuación de la fonética forense .

. 17 2.1. Elaboración del perfil fonético de un hablante desconocido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2. Determinación de la autenticidad de una grabación. . . . . . 24 2.3. Determinación del contenido de una grabación. . . . . . . . . 28 2.4. Diseño y validación de ruedas de reconocimiento . . . . . . . 34 2.5. Comparación forense de hablantes. . . . . . . . . . . . . . . . . . . 38

3. La comparación forense de hablantes: contextualización histórica . . . . . . . . . . .

. . . . . . . . . . . . . . .

3.1. Introducción a la comparación forense de hablantes . . . . . 3.2. La polémica técnica del voiceprint . . . . . . . . . . . . . . . . . . . . 3.3. El cisma del nuevo paradigma. . . . . . . . . . . . . . . . . . . . . . .

43 43 46 52

4. Aproximaciones metodológicas y parámetros más utilizados en comparación forense de hablantes . . . . . . . . 61 4.1. Aproximaciones metodológicas . . . . . . . . . . . . . . . . . . . . . 4.1.1. El método auditivo . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.2. El método acústico . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.3. El método semiautomático . . . . . . . . . . . . . . . . . . . . 4.2. Parámetros fonéticos más utilizados. . . . . . . . . . . . . . . . . .

61 64 70 78 84

165

5. La expresión de resultados en comparación forense de hablantes: una introducción al marco bayesiano de evaluación de la evidencia forense con datos fonéticos. . . 87 5.1. ¿Qué es una razón de verosimilitud (likelihood ratio, LR)?. 5.2. Evaluación del rendimiento de los sistemas que expresan los resultados en LR . . . . . . . . . . . . . . . . . . . . . . . 5.2.1. La función de coste de la razón de verosimilitud logarítmica (Cllr ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2. El gráfico Tippett . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3. Un ejemplo de evaluación de la evidencia forense en el marco bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6. Los límites de la variación inter- e intralocutor.

. . . . . . . .

6.1. Criterios para la selección de un parámetro robusto. . . . . . 6.2. Factores de variación intra- o interlocutor. . . . . . . . . . . . . . 6.3. El zoo biométrico: un ejemplo de comparación forense de hablantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4. Estudios de voces disimuladas . . . . . . . . . . . . . . . . . . . . . .

88 94 95 97 98 107 107 110 115 120

7. Nuevos retos y nuevas líneas de investigación en fonética forense . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 7.1. El reto de estudiar voces de gemelos . . . . . . . . . . . . . . . . . . 123 7.2. Los deepfakes de voz y los gemelos digitales. . . . . . . . . . . . . . 129

Referencias bibliográficas .

166

La fonética forense

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

139

La fonética forense Nuevos retos y nuevas líneas de investigación Este es un libro pensado, sobre todo, para docentes y estudiantes del área de la lingüística aplicada. Dado que se plantea como una introducción a la investigación en fonética forense, explicada de manera sencilla y sin demasiados tecnicismos, su lectura es asequible para cualquier lector interesado en descubrir una disciplina novedosa y con gran demanda en el mercado laboral. También se puede concebir como un sintético manual para todo aquel que se esté formando en este ámbito en distintos grados universitarios: Lengua Española, Estudios Hispánicos, o Lingüística y Lenguas Aplicadas, así como en grados como Criminología. El objetivo primordial de este libro es presentar un campo de especialización de la lingüística aplicada conocido como fonética forense. Se trata de una subdisciplina de la lingüística forense que podemos definir como la aplicación de conocimiento fonético para la resolución de problemas legales. Gracias a la pormenorizada revisión bibliográfica llevada a cabo por la autora, con más de diez años de experiencia investigadora en este ámbito, en esta obra se describen las áreas de aplicación de la fonética forense más importantes, haciendo hincapié en la comparación forense de hablantes. Se explican las principales aproximaciones metodológicas actuales y los parámetros fonéticos más utilizados por los fonetistas forenses. Los últimos capítulos pueden resultar de especial interés para aquellos lectores que deseen conocer los avances en este campo en los últimos años, así como las perspectivas de investigación futuras. La autora, investigadora principal de un proyecto sobre deepfakes de voz, financiado por el Ministerio de Ciencia e Innovación, nos introduce los retos más ineludibles a que se enfrenta hoy la fonética forense; retos que marcarán el futuro de esta disciplina lingüística en el terreno de la ciberseguridad y de la inteligencia artificial y que habrán de resolverse en un contexto multidisciplinar e internacional. Eugenia San Segundo Fernández. Licenciada en Filología Hispánica y Filología Inglesa. Realizó su tesis doctoral sobre fonética forense en el laboratorio de fonética del CSIC. Tras desarrollar gran parte de su carrera investigadora en el extranjero, principalmente en Inglaterra y Suiza, en la actualidad imparte docencia en la UNED. Desde 2023 es científica titular del CSIC, en el área de la fonética experimental y aplicada. Proyecto PID2021-124995OA-l00 financiado por:

Horizontes Universidad