Lingüística de corpus y lingüística histórica iberorrománica 9783110462357, 9783110460223

How and in which direction(s) is research in Ibero-Romance historical linguistics evolving? Now that the initial enthusi

231 98 6MB

Galician Pages 455 [456] Year 2016

Report DMCA / Copyright

DOWNLOAD FILE

Polecaj historie

Lingüística de corpus y lingüística histórica iberorrománica 9783110462357, 9783110460223

How and in which direction(s) is research in Ibero-Romance historical linguistics evolving? Now that the initial enthusi

166 82 11MB Read more

Corpus Hermeticum y Asclepio 8478444904

En este libro se incluyen dos tratados fundamentales: el griego Corpus Hermeticum y el latino Asclepio. Esta nueva versi

1,722 230 17MB Read more

Csar y Clepatra : comedia histrica en cinco actos y en prosa

371 74 6MB Read more

Corpus balear de epigrafía árabe

527 93 8MB Read more

Corpus hermeticum e Discurso de iniciação

A Idade Média, época de um fervilhar do intelecto e do espírito humano, tão fértil que se torna de difícil entendimento

525 92 38MB Read more

Corpus benedictionum pontificalium: Perspectives de recherche 9782503016252

193 113 15MB Read more

Lingüística de Corpus: de la teoría a la empiria 9783865278715

Se discuten algunas de las nuevas conceptualizaciones que caracterizan a la Lingüística de Corpus y propone una nueva mi

136 42 2MB Read more

Corpus de prières grecques et romaines 2 2503509533, 9782503509532

203 81 19MB Read more

Le corpus des sceaux de l'empire byzantin [2] 2222025052

349 74 36MB Read more

Le corpus des sceaux de l'empire byzantin (V: L'église. Planches)

327 84 162MB Read more

Lingüística de corpus y lingüística histórica iberorrománica
9783110462357, 9783110460223

Author / Uploaded
Johannes Kabatek (editor)
Carlota de Benito Moreno (editor)

Table of contents :
Índice
Un nuevo capítulo en la lingüística histórica iberorrománica: el trabajo crítico con los corpus. Introducción a este volumen
I. Contribuciones a la lingüística de corpus desde las lenguas iberorrománicas
Sobre la noción de perspectiva en lingüística de corpus: algunas ventajas de los corpus paralelos
Traducción y tradición en los corpus: nuevas perspectivas para la lingüística histórica
Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno (ca. 1675–1825)
Tres propuestas en el ámbito de la lingüística de corpus
II. Corpus iberorrománicos
Iluminar los Séculos Escuros: Gondomar, un corpus para el estudio del gallego en la Edad Moderna
O CIPM – Corpus Informatizado do Português Medieval, fonte de um Dicionário exaustivo
La documentación medieval de Miranda de Ebro: Presentación del corpus y rasgos lingüísticos
A idade dos «desvios»: diacronia, variação social e linguística de corpus
Citius, maius, melius: del CREA al CORPES XXI
III. Corpus y análisis cuantitativos
Notas sobre la aportación del análisis estadístico a la lingüística de corpus
Entrenchment and frequency effects in the diffusion and replacement of modal periphrases in Spanish: a diachronic variationist analysis
La posposición pronominal con futuros y condicionales en el códice escurialense I.i.6: un examen de varias hipótesis morfosintácticas
El nacimiento de la letra jota como grafía consonántica
El castellano en los orígenes del cambio gramatical: el pretérito imperfecto de la 2ª y 3ª conjugación (–ié / –ía)
Análisis de la sufijación en el corpus DITECA
IV. Cuestiones lingüísticas diacrónicas iberorrománicas y lingüística de corpus
Argumentos dialectológicos y sociolingüísticos que ayudan a la caracterización del español en la nueva España en el siglo XVI
Manifestaciones de la variación del español colonial en un corpus epistolar multidimensional
«Se le quedó mirando»: la atracción de clíticos en un corpus de idiolectos (s. XIX–XXI)

Citation preview

Lingüística de corpus y lingüística histórica iberorrománica

Beihefte zur Zeitschrift für romanische Philologie

Herausgegeben von Claudia Polzin-Haumann und Wolfgang Schweickard

Band 405

Lingüística de corpus y lingüística histórica iberorrománica Editado por Johannes Kabatek Con la colaboración de Carlota de Benito Moreno

ISBN 978-3-11-046022-3 e-ISBN (PDF) 978-3-11-046235-7 e-ISBN (EPUB) 978-3-11-046050-6 ISSN 0084-5396

Library of Congress Cataloging-in-Publication Data A CIP catalog record for this book has been applied for at the Library of Congress. Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.dnb.de abrufbar. © 2016 Walter de Gruyter GmbH, Berlin/Boston Satz: jürgen ullrich typosatz, Nördlingen Druck und Bindung: CPI books GmbH, Leck ♾ Gedruckt auf säurefreiem Papier Printed in Germany www.degruyter.com

Índice Johannes Kabatek Un nuevo capítulo en la lingüística histórica iberorrománica: el trabajo crítico con los corpus. Introducción a este volumen

1

I. Contribuciones a la lingüística de corpus desde las lenguas iberorrománicas Andrés Enrique-Arias Sobre la noción de perspectiva en lingüística de corpus: algunas ventajas de los corpus paralelos 21 Santiago del Rey Quesada Traducción y tradición en los corpus: nuevas perspectivas para la lingüística histórica

40

Álvaro S. Octavio de Toledo y Huerta Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno (ca. 1675–1825) Joan Torruella Tres propuestas en el ámbito de la lingüística de corpus

57

90

II. Corpus iberorrománicos Rosario Álvarez y Ernesto González Seoane Iluminar los Séculos Escuros: Gondomar, un corpus para el estudio del gallego en la Edad Moderna 115 Maria Francisca Xavier O CIPM – Corpus Informatizado do Português Medieval, fonte de um Dicionário exaustivo 137

VI

Índice

Vicente J. Marcet Rodríguez y M.ª Nieves Sánchez González de Herrero La documentación medieval de Miranda de Ebro: Presentación del corpus y rasgos lingüísticos 157 Catarina Carvalheiro, Ana Luísa Costa, Rita Marquilhas, Clara Pinto, Fernanda Pratas e Gael Vaamonde A idade dos «desvios»: diacronia, variação social e linguística de corpus Guillermo Rojo Citius, maius, melius: del CREA al CORPES XXI

197

III. Corpus y análisis cuantitativos Dorien Nieuwenhuijsen Notas sobre la aportación del análisis estadístico a la lingüística de corpus 215 Kim Schulte and José Luis Blas Arroyo Entrenchment and frequency effects in the diffusion and replacement of modal periphrases in Spanish: a diachronic variationist analysis

238

Miriam Bouzouita La posposición pronominal con futuros y condicionales en el códice escurialense I.i.6: un examen de varias hipótesis morfosintácticas

270

María Jesús Torrens Álvarez y Hiroto Ueda El nacimiento de la letra jota como grafía consonántica

299

Mª Carmen Moral del Hoyo El castellano en los orígenes del cambio gramatical: el pretérito imperfecto de la 2ª y 3ª conjugación (–ié / –ía) 322 Inés Carrasco Cantos y Livia Cristina García Aguiar Análisis de la sufijación en el corpus DITECA 358

175

Índice

VII

IV. Cuestiones lingüísticas diacrónicas iberorrománicas y lingüística de corpus Beatriz Arias Álvarez y Juan Antonio Hernández Mendoza Argumentos dialectológicos y sociolingüísticos que ayudan a la caracterización del español en la nueva España en el siglo XVI 385 Marta Fernández Alcaide Manifestaciones de la variación del español colonial en un corpus epistolar multidimensional 401 Olivier Iglesias «Se le quedó mirando»: la atracción de clíticos en un corpus de idiolectos (s. XIX–XXI) 424

Johannes Kabatek

Un nuevo capítulo en la lingüística histórica iberorrománica: el trabajo crítico con los corpus. Introducción a este volumen 1 Introducción a la introducción Mucho se ha escrito en los últimos años sobre la lingüística histórica y los corpus y mucho se ha trabajado en el ámbito de las lenguas iberorrománicas para mejorar tanto los corpus como los trabajos que se basan en ellos. El volumen que presentamos a continuación se enmarca en una nueva etapa de la lingüística de corpus, una etapa caracterizada por una visión crítica, tal vez menos entusiasta que hace veinte o treinta años, pero también más refinada y más adecuada a su objeto de estudio. Mientras que hace unos años la aparición de los primeros grandes corpus históricos de las lenguas iberorrománicas (sobre todo del español) fue recibida con general entusiasmo ante las posibilidades casi interminables de observar muy fácilmente fenómenos cuyo estudio antes exigía un arduo y dificultoso trabajo a mano, en la actualidad la disponibilidad masiva de datos y el fácil acceso a ellos se considera algo ya completamente normal y forma parte del día a día de investigadores y estudiantes. Al mismo tiempo, como es habitual en el avance de una disciplina, junto con las nuevas posibilidades aparecieron también nuevos problemas y surgieron nuevas tareas. Una mirada menos entusiasta, más sobria y más crítica ha creado nuevas exigencias, basadas en (a) el cuestionamiento de la relación entre datos primarios e historia de la lengua; (b) el cuestionamiento de los mismos datos primarios; (c) la crítica hacia el diseño de los corpus; (d) la crítica hacia las posibilidades ofrecidas por los corpus y los bancos de datos. Pero, como es natural, los investigadores no solo se han dedicado a la crítica, sino también al remedio. Gracias a ello, hoy en día ya disponemos de más y mejores corpus, de más y mejores herramientas para el tratamiento de los datos y, finalmente, de una serie de nuevos estándares más o menos establecidos en la comunidad, algunos de ellos presentados a lo largo de las páginas de este libro.

Johannes Kabatek: Universität Zürich

2

Johannes Kabatek

2 Lenguas iberorrománicas Antes de entrar en el debate acerca de los cuatro puntos mencionados, me parece oportuno decir algo sobre el enfoque iberorrománico de este libro. Por un lado, las limitaciones areales y tipológicas son en cierta medida arbitrarias y se deben a circunstancias a veces casuales. Por otro lado, si frente a las visiones monolingües existe, con amplia tradición, una filología románica bien establecida que se justifica por el origen común de las lenguas neolatinas, no podemos decir lo mismo de las lenguas romances de la Península Ibérica. Hay, sin embargo, una serie importante de antecedentes, sobre todo en geografía lingüística (si pensamos por ejemplo en el ALPI) o en obras que relacionan la historia de la lengua con la historia de los espacios, como el famoso manual de Baldinger (1971). Aun así, es más común que los espacios investigados tomen como punto de partida las configuraciones políticas actuales y no las geográficas. Pero no hay que olvidar que la consideración de un determinado espacio histórico a partir de espacios nacionales actuales corresponde a la tan citada «teleología invertida» (Oesterreicher 2007), difícilmente justificable desde la perspectiva de la emergencia histórica y debida en gran parte a limitaciones derivadas de fronteras actuales y de posibilidades de financiación de proyectos, marcadas por un pensamiento territorial y político. Es fuera de los ámbitos políticos peninsulares —muchas veces por falta de recursos y de posibilidades de crear departamentos separados, pero también por una tradición que privilegia lo plural frente a lo monolítico y que es consciente del provecho de la comparación— donde la iberorromanística es ya un hecho establecido, y su tarea consiste precisamente en propagar el mensaje de que la comparación de lo semejante puede ser altamente provechosa.1 Los corpus históricos no escapan al efecto de esta «teleología invertida»: suelen estar hechos por instituciones nacionales o de un ámbito lingüístico actual determinado y construyen el pasado a partir del presente, ignorando por tanto el hecho de que los límites claros se van borrando conforme retrocedemos en el tiempo. Así pues, juntar aquí trabajos sobre diferentes lenguas iberorrománicas tiene una doble finalidad: por un lado, las razones están en los mismos objetos de

1 La base de la mayoría de las contribuciones a este volumen fueron los trabajos presentados en el marco del Tercer Coloquio Internacional sobre Corpus diacrónicos en lenguas iberorrománicas (CODILI III), celebrado en la Universidad de Zúrich en verano del 2014 (www.codili.ch). Algunas de las reflexiones aquí presentadas también se deben a las discusiones llevadas al cabo durante el curso de invierno ALPES (Abriendo Líneas en el Pasado del Español) en Kandersteg, Berna, en enero de 2016. Agradezco a los participantes de ambos encuentros (en parte coincidentes) sus valiosas contribuciones, y al Fondo Nacional Suizo y a la Confederación de las Universidades Suizas su generoso apoyo.

Un nuevo capítulo en la lingüística histórica iberorrománica

3

estudio, en los datos y fenómenos relacionados, y, por otro lado, en el hecho de que el intercambio y la comparación son útiles en sí mismos, especialmente en una disciplina no muy antigua y a la vez muy dinámica como es la lingüística de corpus.

3 Lingüística de corpus y lingüística con corpus Resulta claro que el término «lingüística de corpus» hoy en día comprende disciplinas relativamente diferenciadas (véase Parodi 2010 y Torruella, en este volumen), en las que deberíamos distinguir al menos tres vertientes y finalidades: por un lado, la lingüística de corpus se ocupa de la creación de corpus, es decir, de los pasos que van desde la recolección de los datos primarios hasta su presentación en una plataforma consultable (ver, p. ej. Rojo, con el caso del CORPES, o Xavier, con el del CIPM, ambos en este volumen). Una segunda disciplina es la que está en estrecha relación con la informática y se ocupa, por un lado, del tratamiento de los datos y de su etiquetaje, y por otro lado, de los análisis cuantitativos y estadísticos a los que invitan los propios datos del corpus. Finalmente, la tercera vertiente es la más presente en este volumen: la que hace una lingüística «con corpus», ocupándose de fenómenos concretos de la historia de la lengua y basando su análisis en datos de corpus. Entre las tres vertientes hay, obviamente, una estrecha relación y, en tanto que un corpus no es un fin en sí, sino que se crea para algo, se necesita un intercambio continuo del creador del corpus con los usuarios que lo utilizan para un estudio concreto. Entre ambos puede haber discrepancias, ya que sus objetivos y condicionamientos son diferentes: el usuario pide el mayor número de datos posible, a poder ser libremente disponibles y fielmente editados, etiquetados y con acceso a los textos plenos, mientras que el que configura el corpus lucha con limitaciones técnicas, recursos de tiempo y de personal, derechos de autores y, a veces, limitaciones institucionales. Afortunadamente, en el mundo de las lenguas iberorrománicas, los que crean corpus y los que trabajan con ellos generalmente no están separados ni viven en mundos diferentes; en varios de los trabajos de este volumen se ve que la creación del corpus y la investigación de los fenómenos está en las mismas manos.

4 Corpus, lengua, representatividad Tal vez el tema más discutido en los últimos años —y también presente a lo largo de los trabajos de este volumen— sea el de la representatividad de los datos y la cuestión de la relación entre los corpus y la historia de la lengua. Mientras que en

4

Johannes Kabatek

los albores de la lingüística de corpus moderna todavía era frecuente encontrar un postulado abstracto de representatividad absoluta de un corpus para la historia de una lengua, hoy en día ya pocos creen que algo así pueda existir y se habla más bien de una representatividad relativa, es decir, una representatividad con respecto a algo. Aquí hay que introducir una serie de precisiones: en primer lugar, hay que tener cuidado con la frecuente equiparación entre corpus y lengua y hay que recordar siempre que la lengua no es un fenómeno comparable a los fenómenos de la naturaleza que se limitan, en general, a la evolución material de lo físicamente medible. Los corpus son colecciones de textos que nos permiten tener una visión indirecta de la lengua, ya que la producción de textos a partir de la competencia lingüística de los individuos está condicionada por una serie de factores que el corpus no permite ver (factores pragmáticos, sociales, individuales). Por ello, los datos de los corpus no nos ofrecen la historia de la lengua como tal, sino que son datos que hay que interpretar con respecto a todos los factores de su producción, en el sentido de una recontextualización (Oesterreicher 2001). La recontextualización es una tarea interminable, no limitable a dos o tres factores; es una tarea hermenéutica y, por lo tanto, siempre abierta. El corpus contiene lengua, naturalmente, pero el corpus no contiene la lengua, ni como objeto abstracto, ni como objeto concreto y mental. El corpus se limita a una colección de producciones casuales de lengua: nos ofrece una ventana que permite acceder a una parte de esta, pero no al todo, y deja, por tanto, abierta la especulación acerca de lo que no se puede ver. Aun así, incluso lo invisible tiene que suponerse como existente y los principios de actualidad y de empatía2 nos llevan a identificar a partir del corpus factores necesariamente existentes pero no aparentemente presentes: sabemos que la lengua no es un sistema homogéneo y unitario y que los textos no son, pese a lo que se haya creído en algún momento, producto de una competencia lingüística generadora de textos que se puede reconstruir directamente sobre la base de estos. Sabemos también que una lengua histórica no es un solo sistema, sino un diasistema complejo, y que cada hablar se determina diatópica, diastrática y diafásicamente. También sabemos que el hablar no solo corresponde a una sintopía, sinestratía y sinfasía, sino que también está inserto en tradiciones discursivas, en moldes repetitivos anclados en configuraciones pragmáticas identificables y semióticamente relevantes. Y sabemos, por último, que el hablar presenta rasgos

2 El llamado «principio de la actualidad» suele atribuirse hoy en día a Labov (1974) aunque fue ya muy claramente formulado por Osthoff y Brugmann (1878, IX–X) en su manifiesto neogramático. Es este un principio que deriva de la empatía que tenemos como hablantes con cualquier otro hablante y, a partir de ahí, con cualquier situación lingüística, presente o pasada (cf. Kabatek 2015).

Un nuevo capítulo en la lingüística histórica iberorrománica

5

individuales, tradiciones que un mismo individuo crea y cultiva y que lo distinguen frente a los demás: su «estilo» personal.3 ¿Y con todas estas precisiones queremos hacer lingüística histórica? ¿Puede haber un corpus que nos permita distinguir tanta variación? ¿O es la lingüística histórica basada en corpus simplemente una ilusión, una reducción a pocos factores que nunca llegará a descubrir las dimensiones totales de su objeto? Me parece que la respuesta debe ser la de todo trabajo científico: no llegaremos nunca a una ciencia «total» o perfecta: nunca llegaremos a describir el objeto de nuestro estudio de manera completa, pero la utopía debe ser la de un paulatino acercamiento al objeto y una continua distinción entre lo que se aproxima más a él y lo que está más distante. En este sentido, llegamos también a lo que se ha venido a llamar «la paradoja de Enrique» («Enrique’s paradox», cf. Enrique-Arias 2012, 96): «Una paradoja de la composición de los corpus diacrónicos es que, por una lado, deben ser heterogéneos (tienen que incluir textos de diferentes autores, épocas, géneros, registros, dialectos) y a la vez deben ser homogéneos (es decir, los diferentes cortes sincrónicos representados en el corpus tienen que ser comparables entre sí)».4 La paradoja es solo aparente: para llegar a una descripción válida, es imprescindible que identifiquemos los factores de heterogeneidad. Solo a partir de esa identificación será posible garantizar que los factores heterogéneos estén lo suficientemente representados y que no estemos comparando peras con manzanas. Por ejemplo, solo sabiendo cuál es el papel de las tradiciones textuales en un caso concreto podemos averiguar si un cambio observado es un cambio de la lengua o solo una particularidad de una tradición textual particular. Tenemos, pues, que vivir con lo que parece ser una paradoja: en ella reside, en realidad, la tensión de nuestro trabajo de reconstrucción histórica de los fenómenos.

3 Para dar cuenta de los hechos individuales, Mario Barra ha insistido últimamente en lo que ha denominado el «método idiolectal» (Barra 2015; ver también Iglesias, en este volumen), consistente en el estudio de la historia de la lengua basado en «gramáticas individuales». Aunque me parece problemática la noción de «gramática individual», medir el espectro de posibilidades gramaticales de las que dispone un individuo sí resulta un acercamiento muy interesante que habría, en todo caso, que relacionar con su interacción con variedades y tradiciones discursivas para la reconstrucción de lo que al final llamaremos diacronía. 4 Se desarrolla este principio en Rosemeyer/Enrique-Arias (en prensa): «Longitudinal analyses of syntactic change, however, need language examples that differ with regard to the state of development of the language rather than their usage contexts. This methodological challenge has been formulated in terms of a comparability paradox in historical corpus design (EnriqueArias 2012, 97): a historical corpus has to be diverse because it must contain texts that represent different periods, genres or dialects. At the same time this corpus must be uniform (that is, the distribution of content type, genres or dialects along the different chronological sections in the corpus must be as similar as possible so they can be compared).»

6

Johannes Kabatek

5 Nuevos estándares 5.1 La base: los documentos y las ediciones Mientras que la primera fase de la lingüística moderna de corpus históricos estaba basada en una tradición que venía de las ediciones tradicionales en papel, en la actualidad en muchos casos los documentos se preparan ya con vistas a su presentación en un corpus digitalizado. Esto cambia radicalmente la concepción del corpus y abre toda una serie de posibilidades nuevas. Especialmente en el caso de los textos medievales, la edición en papel suponía siempre una decisión por parte del editor entre fidelidad paleográfica, enmienda e intervención y los corpus diacrónicos se basaban en ediciones de diversa índole.5 Al introducir los textos en el corpus, hubo generalmente que prescindir del aparato de notas y de las variantes: así, lo que aparecía en la versión digitalizada solía ser el resultado del escaneo de ediciones publicadas que habían pasado por un proceso OCR y una corrección manual más o menos meticulosa, dependiendo del caso. Esta técnica sigue contribuyendo a la ampliación de la cantidad de datos históricos disponibles, aunque, obviamente, ha mejorado sustancialmente y ahora nos encontramos a leguas de los problemas que presentaba el reconocimiento automatizado de texto hace no tantos años. Hoy en día, un sencillo programa de reconocimiento que podamos manejar en nuestro ordenador da mejores resultados que las técnicas más sofisticadas de hace no muchos años, y la microtomografía está empezando a permitir incluso la lectura de documentos sin abrirlos. Aun así, casos debidos a errores de reconocimiento, como el muy citado de mafia en CORDE, siguen estando presentes en algunos corpus.6 Sin embargo, existen también otras posibilidades y, en el mundo de la lingüística iberorrománica histórica se puede decir que el estándar que encuentra

5 En el caso del español, un caso excepcional es el ya histórico ADMYTE, nacido en circunstancias particularmente afortunadas y que desde el inicio trabajó con ediciones hechas para su integración en el corpus, véase Marcos Marín 1993. 6 El italianismo mafia parece a primera vista ser muy temprano en español según el CORDE (ya en el s. XVI hay ejemplos como «con mafia y trato de algunos de sus contrarios», de 1579), pero su existencia se debe a malas lecturas del escaneo de maña. Aunque el caso es conocido sigue presente en CORDE. También hay una serie de casos desde el siglo XVI en el Corpus del español de Mark Davies. Sin embargo, en el Corpus del Nuevo Diccionario Histórico de la RAE, que incorpora los textos del CORDE, el ejemplo citado está corregido por maña. Se ve aquí que la nueva generación de los corpus académicos no solo da un salto con respecto a las herramientas técnicas sino también con respecto a la calidad de los datos.

Un nuevo capítulo en la lingüística histórica iberorrománica

7

cada vez más aplicación hoy en día es el establecido por la red CHARTA,7 según el cual el corpus no se limita a una edición cualquiera, sino que presenta una «edición múltiple», con la versión paleográfica al lado de una edición crítica y con acceso a la imagen de manuscrito, que permite comprobar la fiabilidad de ambas versiones. Varios de los trabajos aquí presentes trabajan con datos de CHARTA o de otros corpus relacionados con esta red, como CODEA (cf. Marcet Rodríguez & Sánchez González de Herrero; Moral del Hoyo, en este volumen).8

5.2 La mirada crítica de los corpus existentes: el «CORDEmáforo» Como indicábamos más arriba, otro aspecto esencial de la nueva lingüística de corpus es la mirada crítica hacia herramientas establecidas. En el mundo hispánico, no cabe duda de que el corpus histórico más establecido es el CORDE de la RAE,9 plataforma imprescindible para los estudios de la historia del español. Es innegable que el CORDE permitió una enorme ampliación de la base de datos históricos disponibles y, pese a cualquier posible crítica de detalles, es una empresa que ha dado un enorme rendimiento. En los últimos años se ha observado que el CORDE, además de las limitaciones técnicas del banco de datos, presenta una serie de fuentes de posibles errores, las cuales, sin embargo, no son

7 Véanse los criterios de edición en http://www.charta.es/criterios-de-edicion-/ Cf. también Sánchez-Prieto Borja/Torrens Álvarez (2012). 8 Otra de las innovaciones de los últimos años consiste en la llamada «edición social», en la que varias personas colaboran según el principio wiki (Price 2016). 9 Desconozco si también es el más utilizado, ya que carecemos de datos sobre la utilización de los corpus. Probablemente el corpus histórico español más usado sea el Corpus del español de Mark Davies. Se trata de un corpus que, sobre todo en sus inicios, tuvo un impacto importante, dada la enorme rapidez de su sistema de búsqueda. En una segunda fase, llamó la atención por la presentación parcialmente etiquetada de los datos y por la integración de un módulo muy útil de visualización y es usado bastante hasta la actualidad (véase Nieuwenhuijsen, en este volumen). Sin embargo, es también un corpus muy controvertido, en primer lugar por la falta de fiabilidad filológica de parte de los datos y los criterios algo arbitrarios de su configuración. Además, desde hace algún tiempo el corpus se presenta también con fines comerciales. En la actualidad, Mark Davies anuncia en su página una nueva versión tanto del Corpus del español como del Corpus do português (elaborado en colaboración con Michael Ferreira), modernizada y ampliada: el corpus del español tendrá 2.000 millones de palabras y el del portugués, 1.000 millones. Ambos se pondrán a disposición del público en 2016. Estos corpus tendrán información POS y anotación sintáctica y permitirán también el acceso a los textos planos. El aumento de la cantidad de textos se refiere sobre todo a la época moderna. Véase la información en http:// corpus.byu.edu/neh2015.asp.

8

Johannes Kabatek

razón para el rechazo del CORDE como fuente, sino que exigen una utilización crítica del corpus. Por ejemplo, como acabamos de señalar, existen casos de erratas que se deben a errores de pasaje de los datos primarios y sería de agradecer que hubiese un mecanismo de corrección continua del corpus. Otra cuestión que se ha señalado (cf. Octavio de Toledo, en este volumen) es la del desequilibrio textual: la cantidad de los textos varía considerablemente en las diferentes épocas y también varía, lógicamente, la gama de tradiciones discursivas disponible de cada época. No obstante, el mayor problema del CORDE tal vez sea, por lo menos para las épocas remotas, el de las fechas de los documentos, que es en realidad un problema no exclusivo del CORDE, sino de la lingüística histórica como tal. Una práctica bastante general en la tradición de la disciplina (y no solo en el mundo iberorrománico) solía ser suponer que la fecha de supuesta o comprobada composición de una obra era la relevante, proporcionándose solo esta, sin importar que el texto manejado procediera de copias o de ediciones posteriores. La RAE, poniendo a disposición del público el Corpus del Nuevo Diccionario Histórico del Español (CDH / CNDHE), ha puesto remedio a ese defecto, indicando entre corchetes la información sobre la fecha del «testimonio base», es decir, del manuscrito, frente a la supuesta fecha de composición del texto «original». Sin embargo, sigue siendo frecuente encontrar en trabajos de historia de la lengua un texto como el Calila e Dimna, por poner un ejemplo, como representante del siglo XIII, aunque sabemos que los dos manuscritos en los que se basan las ediciones son del siglo XV y que el lapso de dos siglos no se produjo sin dejar huellas en el texto. Hay suficientes estudios de originales y copias (cf. p. ej. Morala 2002; Santiago 2004; Díez de Revenga 2012; Miguel Franco 2012) en diferentes ámbitos textuales como para poder afirmar que la idea tradicional de que en el acto de copia del texto se preserva lo fundamental (o que, como mucho, se cambian algunas grafías) carece de fundamento empírico. Para poner remedio a ese problema, Octavio de Toledo / Rodríguez Molina (en prensa) han preparado una lista de los documentos contenidos en el CORDE en la que se evalúa la calidad de estos para los estudios diacrónicos, llegando a establecer una tripartición entre documentos perfectamente válidos y bien fechados (luz verde), documentos algo problemáticos (ámbar) y documentos muy problemáticos (rojo) —en los que la fecha de composición no coincide con la fecha del documento utilizada en el corpus—. Tal «Cordemáforo» permitirá, pues, limitar los estudios a los documentos fiables o, incluso, comparar un estudio que no aplique el filtro de calidad de documento con otro que sí lo tome en consideración, lo que seguramente ofrecerá resultados sorprendentes en algunos casos. Evidentemente, la diferencia entre las tres categorías no es tajante, sino relativa, pero permite en todo caso establecer «jerarquías de fiabilidad» de los textos: un original siempre es más fiable que una copia, un fenómeno basado en varios testimonios es siempre más fiable que un hápax, etc.

Un nuevo capítulo en la lingüística histórica iberorrománica

9

5.3 Nuevos corpus, nuevas herramientas Más allá de los corpus grandes de generaciones anteriores, en el presente estamos asistiendo a tres tendencias en cuanto a la configuración de los corpus históricos: primero, hay una nueva generación de grandes corpus históricos que, desde el punto de vista técnico, superan ampliamente a los corpus anteriores; segundo, asistimos a una masificación de los datos disponibles en los corpus, sobre todo de la lengua actual, que permite la elaboración de estudios microdiacrónicos y la observación de las tendencias actuales en la evolución de la lengua,10 y, por último, están apareciendo cada vez más corpus especializados, ya sean regionales o con finalidades particulares. Al mismo tiempo, los trabajos de corpus permiten, dada la gran amplitud de la base de datos, incluir más factores, que pueden tanto derivar de variables propiamente gramaticales como tener un carácter más bien «externo», como la importancia de una distinción clara de las distintas variedades o tradiciones discursivas, algo que, particularmente en los estudios de las lenguas iberorrománicas, se ha hecho prácticamente general. La mayor cantidad de datos disponibles abre también nuevas vías para los análisis cuantitativos: el «giro cuantitativo» se hace notar también en la lingüística histórica iberorrománica, sin que por ello se pierda de vista la base filológica de los textos.

5.4 Nuevos datos, nuevos factores, nuevas posibilidades Si intentamos resumir las tendencias predominantes en la lingüística iberorrománica histórica basada en corpus tal como se presenta ahora en comparación con las épocas anteriores (cf. p. ej. Pusch/Kabatek/Raible 2005), vemos una particularidad interesante: si con la llegada de las nuevas técnicas de búsqueda de datos algunos pensaban que la lingüística histórica iba a ser más sencilla y más fácil, la realidad ha demostrado lo contrario. Así, los problemas tradicionales de reconstrucción siguen siendo los mismos y el acceso a más datos ha causado nuevos desafíos. Las cuestiones de la frecuencia, de la estadística y de la ponderación de datos se han planteado de forma nueva y, al mismo tiempo, nuevos factores se han añadido a la lista larga de posibles condicionantes del cambio lingüístico: la teoría del cambio lingüístico ha ido identificando, en las últimas décadas, un número creciente de factores sintácticos, semánticos, fónicos y pragmáticos que pueden condicionar los cambios y, dependiendo del fenómeno estudiado, la lista

10 Rojo (en este volumen) menciona, al lado del CORPES XXI, el Gigacorpus esTenTen, el mayor corpus del español disponible actualmente.

10

Johannes Kabatek

puede ser larga (cf. p. ej. Bouzouita, o Schulte/Blas Arroyo, en este volumen). A los factores lingüísticos se añaden factores extralingüísticos (históricos, sociales, culturales). Así, al considerar las dimensiones de variación arriba mencionadas, además de la tradicionalidad discursiva de los fenómenos y la posible individualidad de su uso concreto, puede parecer que los árboles son tan numerosos y diversos que ya no hay bosque visible. Esto no es así, sin embargo: una lingüística histórica con una base de datos fiables más amplia es precisamente la que produce los análisis más complejos y completos de las evoluciones y permite que nos acerquemos más a la reconstrucción adecuada del cambio. Por otro lado, resulta evidente que no todos los factores tienen el mismo peso en cada cuestión empírica concreta y que la tarea del lingüista no consiste únicamente en la recolección de datos y la enumeración de factores, sino en su ponderación e interpretación. Nos hallamos, pues, en una fase de la lingüística histórica en la que hay más complejidad, más datos y más factores de lo que solía haber, pero también nuevas posibilidades de ordenar los datos y de presentarlos de forma que nos ofrezcan una imagen cada vez más acertada de lo ocurrido en la historia de las lenguas.

6 Los trabajos de este volumen Los 18 trabajos reunidos en este volumen se inscriben en esta nueva generación de la lingüística histórica basada en corpus. Hemos dividido los trabajos en cuatro apartados, sin que la repartición corresponda a una separación tajante. La primera sección contiene trabajos cuyo objetivo consiste en reflexionar, a partir de casos y cuestiones empíricas concretas, acerca de problemas generales de la lingüística de corpus. La segunda sección se dedica a la presentación de corpus; la tercera, a los análisis cuantitativos y la cuarta se ocupa de análisis diversos (cualitativos, variacionales, idiolectales) basados en trabajos con corpus. El libro se abre con las reflexiones de Andrés Enrique-Arias acerca de lo que el autor llama el «parámetro perspectiva». Se trata de «la perspectiva de sus usuarios [los del corpus], es decir, la manera en que los estudiosos acceden a los datos lingüísticos». Con el ejemplo del corpus Biblia medieval, Enrique-Arias muestra las ventajas de los corpus paralelos, enumerando toda una serie de factores que conforman el valor heurístico añadido de estos: mientras que habitualmente un corpus solo nos permite encontrar aquello que buscamos explícitamente (según el procedimiento semasiológico de la búsqueda), en un corpus paralelo de textos traducidos, dado que la traducción pasa por una fase semasiológica y otra onomasiológica, encontramos también soluciones inesperadas para el mismo contenido

Un nuevo capítulo en la lingüística histórica iberorrománica

11

o un contenido semejante. Claro está que los corpus paralelos no son de por sí mejores que otros corpus, pero permiten otro tipo de acercamiento a la materia y complementan en el estudio diacrónico a los corpus que el autor llama «convencionales». En la misma línea, Santiago del Rey Quesada también subraya la utilidad de los corpus paralelos: su aportación es una apología de los estudios de traducción basados en corpus (Corpus-based Translation Studies o CTS) para el estudio de la historia de la lengua. Sus reflexiones se basan en un corpus paralelo de los Colloquia de Erasmo de Rotterdam y desarrollan temas como la relevancia de la lengua de origen, las tradiciones discursivas y el estilo personal en las traducciones. El autor postula la necesidad de disponer de más corpus paralelos con textos traducidos para poder medir el impacto de la traducción en comparación con las producciones originales de una lengua en diferentes épocas. La contribución de Álvaro Octavio de Toledo y Huerta tiene, por un lado, una finalidad práctica y ejemplar, a saber, la de mostrar cómo se puede sacar provecho del CORDE como herramienta para el estudio del «primer español moderno» —definido por él como el español del periodo que comprende desde finales del siglo XVII hasta principios del XIX—. Así, el autor insiste en la importancia de esa época para el estudio de la historia del español, a pesar de la tendencia de la lingüística histórica de prestarle poca atención. Pero, más allá de la finalidad empírica (demostrada con una serie de ejemplos), el trabajo insiste en la necesidad de la ponderación de los datos y de la preparación equilibrada de lo que en el corpus se encuentra de una forma más bien desequilibrada, e identifica diferentes tipos de «difusión de los fenómenos y su dinámica variacional». Estas reflexiones van mucho más allá del periodo estudiado y muestran retos importantes para la lingüística diacrónica basada en trabajos con corpus. También son de índole general las reflexiones de Joan Torruella, que, aunque versan acerca de una serie de propuestas concretas de mejora del Corpus Informatitzat del Català Antic (CICA), tratan también de la cuestión general de la representatividad del corpus y del equilibrio de los datos contenidos en él. Torruella se refiere a la cuestión de los cortes diacrónicos en un corpus (para lo que propone cortes de 50 años), el equilibrio textual (en una línea parecida a de Octavio de Toledo) y la comparabilidad de diferentes secciones de corpus, intentando ofrecer soluciones a la paradoja entre homogeneidad y heterogeneidad arriba mencionada. Además, el autor discute la pertinencia de diversos parámetros lexicométricos, diseñados con el fin de que el corpus represente, en la medida de lo posible, la mayor riqueza léxica posible de la lengua estudiada. Abre la segunda sección, dedicada a la presentación de nuevos corpus o de proyectos de corpus, el trabajo de Rosario Álvarez Blanco y Ernesto González

12

Johannes Kabatek

Seoane, quienes presentan el corpus gallego Gondomar. Como es sabido, el gallego, después de una primera fase de producción escrita en la Edad Media (documentada en los corpus TMILG y COTAGAL), pasa a través de la época que se suele denominar los séculos escuros (‘siglos oscuros’), con escasa producción escrita hasta el llamado rexurdimento del siglo XVIII. GONDOMAR recoge todo tipo de testimonios de esa época, clasificados según los parámetros que imponen los propios textos e incluyendo parodias del gallego y textos gallegos en el contexto del castellano, arrojando así algo de luz sobre esa época y permitiendo crear un eslabón entre la época medieval y la contemporánea. Por su parte, Maria Francisca Xavier dedica su contribución a la presentación de la historia y las posibilidades del CIPM, Corpus Informatizado do Português Medieval, de la Universidade Nova de Lisboa. Es este un corpus diseñado ya en los años 1990 y ampliado y completado desde entonces. En este corpus, como en otros (por ejemplo, el CDH para el español), existe un vínculo directo entre corpus y lexicografía, ya que el CIPM sirve como base para el Dicionário do Português Medieval, un diccionario modular (con partes dedicadas a los verbos, los nombres propios y comunes y los términos) que viene publicándose desde 1999. Otro corpus medieval, esta vez de ámbito regional, es presentado por Vicente Marcet Rodríguez y M.ª Nieves Sánchez González de Herrero. Se trata de un proyecto reciente, lanzado hace solo unos años, de recogida de la documentación de la zona —de gran importancia para la historia del castellano— de Miranda de Ebro, en el norte de Burgos. El corpus está formado por un total de 203 documentos de dos archivos, elaborados según los criterios de la red CHARTA. En este trabajo se presentan dichos documentos y se analizan teniendo en cuenta variables gráficas y morfosintácticas. El corpus Post Scriptum, de la Universidade de Lisboa, es presentado por Catarina Carvalheiro, Ana Luísa Costa, Rita Marquilhas, Clara Pinto, Fernanda Pratas y Gael Vaamonde, y recoge datos tanto del portugués como del español moderno: cartas privadas de ambos lados del atlántico, conservadas en la documentación oficial de los tribunales españoles y portugueses. Los autores muestran la utilidad de este corpus para estudiar la geografía y la diacronía de ciertos fenómenos lingüísticos mediante tres ejemplos: el marcador discursivo pois y el relativo cujo en portugués así como la cuestión de leísmo, laísmo y loísmo en español. Frente a los corpus que se dedican a la documentación de épocas remotas, el trabajo de Guillermo Rojo traza la línea entre el CREA y el CORPES XXI, los dos corpus del español actual de la RAE. El autor, responsable de los proyectos de corpus en la Academia, no solo presenta el último de estos corpus, sino que trata también cuestiones generales de gran importancia, como la representatividad o el salto cuantitativo y cualitativo que hay entre la versión original del CREA (lan-

Un nuevo capítulo en la lingüística histórica iberorrománica

13

zada en 1998) y la nueva plataforma del CORPES XXI: la nueva generación de los corpus de la RAE permite búsquedas mucho más sofisticadas; visualizaciones de diferentes épocas y de diferencias regionales; búsquedas por formas, lemas y categorías gramaticales. Es fundamental resaltar que la interfaz del CORPES XXI no se ha creado únicamente para este corpus, sino que también se ha usado para la modernización de los corpus anteriores: así, la nueva versión de CREA presenta los textos hasta 2000 con la misma anotación que el CORPES XXI (que enlaza con el CREA a partir de 2000) y el CDH presenta los textos de CORDE con las nuevas herramientas de búsqueda. Por último, es de notar que el CORPES XXI, puesto que se presenta en diferentes secciones de cinco años cada una, ofrece también el acceso inmediato a la microdiacronía y el «change in progress». En la tercera sección se discuten cuestiones cuantitativas y se presentan análisis frecuenciales de diferentes fenómenos. Dorien Nieuwenhuijsen muestra la utilidad del trabajo estadístico al presentar un análisis cuantitativo de las oraciones subordinadas interrogativas indirectas y negadas dependientes del verbo saber, que se investigan a la luz de diversas variables (tipo de interrogación, modo verbal, tiempo, región), llegando así a dar una imagen de la evolución del fenómeno a ambos lados del atlántico. El trabajo de Kim Schulte y José Luis Blas Arroyo se dedica a la evolución de cinco perífrasis modales. Los autores trabajan con un amplio corpus propio de textos de «inmediatez comunicativa» (Koch/Oesterreicher 2007) del siglo XVI al XX y efectúan un análisis multifactorial y frecuencial que les permite identificar correlaciones estadísticamente relevantes. Miriam Bouzouita, por su parte, estudia un fenómeno concreto en el corpus Biblia medieval, interesándose por los futuros y condicionales sintéticos medievales seguidos de pronombre. La autora evalúa tres hipótesis que condicionan dicha construcción, aplicando un análisis estadístico que permite reconstruir la casuística que rige las posiciones pronominales y que incluye factores sintácticos, factores morfológicos y factores condicionados por las fuentes de la traducción. Siguiendo con los análisis frecuenciales, pero en un ámbito muy distinto, el trabajo de María Jesús Torrens Álvarez y de Hiroto Ueda se ocupa de la grafía cuando esta tiene valor consonántico. El análisis estadístico con el programa LETRAS (diseñado por el propio Ueda) permite trazar la línea del «nacimiento», en el corpus CORHEN, de dicha letra, que, a partir de ciertas variantes gráficas de la , se especializa en la representación de la consonante. Este trabajo no muestra solo la importancia de la estadística, sino también de la paleografía como base de datos fiables, fundamento imprescindible para el análisis cuantitativo. También analiza datos del CORHEN el trabajo de Carmen Moral del Hoyo: sobre la base de una selección de 278 documentos procedentes de este corpus y

14

Johannes Kabatek

elegidos según criterios diatópicos y diacrónicos, la autora muestra convincentemente cómo la variación y la evolución de las formas –ié / –ía de imperfecto evoluciona en una interacción entre factores espaciales y factores estructurales. La productividad léxica es el tema del artículo de Inés Carrasco Cantos y de Livia Cristina García Aguiar, que está dedicado al análisis del total de los sufijos contenidos en el corpus DITECA (Diccionario de textos concejiles de Andalucía), un corpus de textos jurídicos del siglo XIII al siglo XVIII. El análisis frecuencial permite tanto identificar el grado de productividad de los diferentes sufijos analizados como observar cómo los diferentes sufijos se van especializando funcionalmente a lo largo de los siglos. En la cuarta sección encontramos diferentes cuestiones de la lingüística diacrónica iberorrománica, planteadas a partir de los datos de corpus. Del español en el siglo XVI se ocupan tanto el trabajo de Beatriz Arias Álvarez y Juan Antonio Hernández Mendoza como el de Marta Fernández Alcaide: el primero, del español de Nueva España, y el segundo, de la comunicación entre el Nuevo Mundo y España. Así, Arias Álvarez y Hernández Mendoza presentan el Corpus Electrónico del Español Colonial Mexicano (COREECOM) y muestran cómo, a partir de los datos de este corpus, puede estudiarse la variación y evolución de ciertos fenómenos. Fernández Alcaide, en cambio, combina un pormenorizado análisis textual con algunas observaciones de índole general, que destacan la importancia del acceso a información sobre las primeras décadas de la colonia —infrarrepresentadas en los grandes corpus—, acceso solo recientemente alcanzable gracias a la recuperación de textos en proyectos como CHARTA o CORDIAM. Por último, el citado método idiolectal es aplicado por Olivier Iglesias para investigar la evolución de la subida de clíticos —es decir, la variación entre lo puedo decir y puedo decirlo— en los últimos dos siglos. El autor investiga producciones textuales de seis individuos y confirma lo que con otros métodos se había observado con respecto de la evolución del siglo XIX al XX, pero no lo que se había supuesto para la evolución posterior, dando la razón, por tanto, a lo dicho arriba (ver nota 3): el método idiolectal presenta nuevos retos y complementa los resultados obtenidos a partir de otros enfoques. En suma, el panorama presentado en este libro es amplio y permite ver algunas de las principales áreas de los estudios que, con datos de corpus, intentan reconstruir la historia de las lenguas iberorrománicas. Estos trabajos dan muestra de una fase nueva de la lingüística histórica, una fase en la que se plantean nuevos retos, pero en la que, al mismo tiempo, se perfilan nuevas soluciones.

Un nuevo capítulo en la lingüística histórica iberorrománica

7 Lista de corpus y bancos de datos citados ADMYTE – Archivo Digital de Manuscritos y Textos Españoles, http://www.admyte.com. ALPI – Atlas Lingüístico de la Península Ibérica, http://westernlinguistics.ca/alpi/more_info.php?global_lang=sp. Biblia medieval – Andrés Enrique-Arias, Corpus Biblia medieval, http://www.bibliamedieval.es. CHARTA – Corpus Hispánico y Americano en la Red: Textos Antiguos, http://www.charta.es/. CICA – Joan Torruella, Corpus Informatitzat del Català Antic, http://cica.cat. CIPM – Corpus Informatizado do Português Medieval, http://cipm.fcsh.unl.pt. CODEA – Corpus de Documentos Españoles anteriores a 1700, http://demos.bitext.com/codea/. CODEA+2015 – Corpus de Documentos Españoles Anteriores a 1800, http://textoshispanicos.es. CODEMA – Corpus diacrónico de documentación malagueña, http://www.corpuscharta.es/grupos.html. CORDE – Real Academia Española, Corpus Diacrónico del Español, http://corpus.rae.es/cordenet.html. CORDEREGRA – Corpus diacrónico del español del reino de Granada (1492–1833), http://www.corpuscharta.es/grupos.html. CORDIAM – Virginia Bertolotti / Concepción Company, Corpus Diacrónico y Diatópico del Español de América, http://www.cordiam.org. COREECOM – Corpus electrónico del español colonial mexicano, http://www.iifl.unam.mx/coreecom/. CORHEN – Corpus Histórico del Español Norteño, http://www.corpuscharta.es/grupos.html. CORPES XXI – Real Academia Española, Corpus del español del siglo XXI, http://web.frl.es/CORPES/view/inicioExterno.view. CORPUSDELESPANOL – Mark Davies, Corpus del Español, http://www.corpusdelespanol.org. CORPUSDOPORTUGUES – Mark Davies/Michael Ferreira, Corpus do português, http://www.corpusdoportugues.org. COSER – Inés Fernández-Ordóñez, Corpus Oral y Sonoro del Español Rural, http://www.lllf.uam.es/coser/index.php. COTAGAL – Corpus de Textos Antiguos de Galicia, http://www.corpuscharta.es/grupos.html. CDH – Real Academia Española, Corpus del Nuevo diccionario histórico del español, http://web.frl.es/CNDHE/view/inicioExterno.view. CREA – Real Academia Española, Corpus de referencia del español actual, http://corpus.rae.es/creanet.htm. CREA (anotado) – Real Academia Española, Corpus de Referencia del Español Actual (CREA. Versión anotada), http://web.frl.es/CREA/view/inicioExterno.view.

15

16

Johannes Kabatek

DITECA – Diccionario de Textos Concejiles de Andalucía, http://www.arinta.uma.es. esTenTen – Sketch Engine, Spanish Gigacorpus, https://www.sketchengine.co.uk GONDOMAR – Corpus dixital de textos galegos da Idade Moderna, http://ilg.usc.es/gl/proxectos. IMPACT-es – Diachronic corpus of historical Spanish, http://www.digitisation.eu/tools-resources/language-resources/impact-es/. P.S. – Post Scriptum – Arquivo digital da escrita quotidiana em Portugal e Espanha na época moderna, http://www.clul.ul.pt/pt/recursos/462-post-scriptum-home. TMILG – Tesouro Medieval Informatizado da Lingua Galega, https://ilg.usc.es/tmilg/.

8 Referencias bibliográficas Baldinger, Kurt, La formación de los dominios lingüísticos en la Península Ibérica, trad. de E. Lledó y M. Macau, 2a. ed. corr. y aum., Madrid, Gredos, 1971. Barra Jover, Mario, Método y teoría del cambio lingüístico: argumentos en favor de un «método idiolectal», in: García Martín, José María (dir.), Actas del IX Congreso Internacional de Historia de la Lengua Española (Cádiz 2012), Madrid, Iberoamericana/Vervuert, 2015, 263–292. Díez de Revenga, Pilar, La tradición textual en la Edad Media: una muestra de los siglos XIII y XIV, in: Torrens Álvarez, María Jesús/Sánchez-Prieto Borja, Pedro (edd.), Nuevas perspectivas para la edición y el estudio de documentos hispánicos antiguos, Bern et al., Lang, 2012, 47–58. Enrique-Arias, Andrés, Dos problemas en el uso de corpus diacrónicos del español: perspectiva y comparabilidad, Scriptum Digital 1 (2012), 85–106. Kabatek, Johannes, ¿Es posible una lingüística histórica basada en un corpus representativo?, Iberoromania 77 (2013), 8–28. Kabatek, Johannes, Lingüística empática, Rilce 30–3 (2014), 705–723. Kabatek, Johannes, reseña de Torrens Álvarez/Sánchez-Prieto Borja, Nuevas perspectivas para la edición y el estudio de documentos hispánicos antiguos, Bern et al., Lang, 2012, Romanische Forschungen 128 (2016), 243–248. Koch, Peter/Oesterreicher, Wulf, Lengua hablada en la Romania: francés, italiano, español, trad. de Araceli López Serena, Madrid, Gredos, 2007. Labov, William, The use of the present to explain the past, in: Heilmann, L. (ed.), Proceedings of the 11th International Congress of Linguistics, Bologna, il Mulino, 1975, 825–851. Marcos Marín, Francisco, La biblioteca electrónica en el Archivo Digital de Manuscritos y Textos Españoles, Lexis XVII, (1993), 33–56. Miguel Franco, Ruth, Documentos originales y cartularios del archivo de la Catedral de Toledo: propuestas para un estudio comparativo, in: Torrens Álvarez, María Jesús/Sánchez-Prieto Borja, Pedro (edd.), Nuevas perspectivas para la edición y el estudio de documentos hispánicos antiguos, Bern et al., Lang, 2012, 197–218. Morala, José Ramón, «Originales y copias», El proceso de castellanización en el área leonesa, in: María Teresa Echenique Elizondo/Juan Sánchez Méndez (edd.), Actas del Quinto Congreso

Un nuevo capítulo en la lingüística histórica iberorrománica

17

Internacional de Historia de la Lengua Española (Valencia, 31.1.–4.2. 2000), vol. 1, Madrid, Gredos, 2002, 1335–1345. Octavio de Toledo y Huerta, Álvaro/Rodríguez Molina, Javier, La imprescindible distinción entre texto y testimonio: el CORDE y los criterios de fiabilidad lingüística, Scriptum Digital 5 (2016) (en prensa). Oesterreicher, Wulf, La «recontextualización» de los géneros medievales como tarea hermenéutica, in: Jacob, Daniel/Kabatek, Johannes (edd.), Lengua medieval y tradiciones discursivas en la Península Ibérica. Descripción gramatical – pragmática histórica – metodología, Frankfurt am Main/Madrid, Vervuert/Iberoamericana, 2001, 199–232. Oesterreicher, Wulf, Mit Clio im Gespräch. Zu Anfang, Entwicklung und Stand der romanistischen Sprachgeschichtsschreibung, in: Hafner, Jochen/Oesterreicher, Wulf (edd.), Mit Clio im Gespräch. Romanische Sprachgeschichten und Sprachgeschichtsschreibung, Tübingen, Narr, 2007, 1–35. Osthoff, Hermann/Brugmann, Karl, Morphologische Untersuchungen auf dem Gebiete der indogermanischen Sprachen, Leipzig, Hirzel, 1878. Parodi, Giovanni, Lingüística de Corpus: de la teoría a la empiria, Frankfurt/Madrid, Iberoamericana, 2010. Price, Kenneth M., Social Scholarly Editing, in: Schreibman, Susan/Siemens, Ray/Unsworth, John, A New Companion to Digital Humanities, New York, Wiley, 2016, 137–149. Pusch, Claus D./Kabatek, Johannes/Raible, Wolfgang (edd.), Romance Corpus Linguistics II. Corpora and Diachronic Linguistics, Tübingen, Gunter Narr, 2005, Rosemeyer, Malte/Enrique-Arias, Andrés, A match made in heaven. Using parallel corpora and multinomial logistic regression to analyze the expression of possession in Old Spanish, Language Variation and Change, 2016 (en prensa). Santiago Lacuesta, Ramón, Originales y copias en la documentación del monasterio de Sahagún, in: Orígenes de las lenguas romances en el Reino de León. Siglos IX–XII, León, Archivo Histórico Diocesano, 2004, 533–563. Torrens Álvarez, María Jesús/Sánchez-Prieto Borja, Pedro (edd.), Nuevas perspectivas para la edición y el estudio de documentos hispánicos antiguos, Bern et al., Lang, 2012.

I. Contribuciones a la lingüística de corpus desde las lenguas iberorrománicas

Andrés Enrique-Arias

Sobre la noción de perspectiva en lingüística de corpus: algunas ventajas de los corpus paralelos 1 Introducción1 La investigación en diacronía del español se ha visto beneficiada en los tiempos recientes por la disponibilidad de grandes bases de datos textuales de uso libre en la red. La funcionalidad más inmediata de estos recursos —la posibilidad de rastrear en un instante a lo largo de millones de palabras de textos históricos— ha facilitado la aplicación de análisis cuantitativos a gran escala en los estudios de la historia del español. La amplia aceptación de estos nuevos recursos entre los investigadores se ha visto acompañada de un número apreciable de trabajos que examinan diversos problemas metodológicos relacionados con la aplicación de los corpus informatizados a investigaciones de orientación diacrónica. En términos generales estos análisis críticos se centran en señalar problemas relacionados con los parámetros de representatividad (carencias de la composición de los corpus) (Kabatek 2013); calidad (cuestiones filológicas relacionadas con los criterios de edición y presentación de los textos) (Sánchez-Prieto Borja 2012) y acceso (inconvenientes que dificultan ciertos tipos de búsquedas) (Rojo 2010; Davies 2009). Sin embargo, no es tan frecuente detenerse a analizar el aspecto de los corpus informatizados que sin duda conlleva el cambio metodológico más radical respecto de los medios tradicionales; me refiero al parámetro de perspectiva, entendido como la manera en que el usuario del corpus accede a los datos lingüísticos. En el

1 Una parte sustancial de las investigaciones reflejadas en este trabajo se llevaron a cabo durante una estancia de investigación en el Departamento de Lingüística de Harvard University (2013–2015). Quisiera expresar mi gratitud a Francisco J. Pueyo Mena, autor de los desarrollos informáticos del proyecto Biblia Medieval, por su continuado apoyo y por sus atinadas observaciones. También estoy en deuda con Luis M. Girón Negrón por su asesoramiento en cuestiones relacionadas con la Biblia Hebrea, con Malte Rosemeyer por los análisis estadísticos del trabajo de los posesivos y con Claudio Garrido Sepúlveda por haberme proporcionado los ejemplos de estructuras condicionales. Cualquier error es la sola responsabilidad del autor. Andrés Enrique-Arias: Universitat de les Illes Balears

22

Andrés Enrique-Arias

ámbito de la visión en el espacio físico entendemos que la perspectiva es el «conjunto de objetos que desde un punto determinado se presentan a la vista del espectador». En la investigación a base de corpus definiré perspectiva como el conjunto de estructuras lingüísticas que una técnica metodológica nos permite observar (y simultáneamente el conjunto de estructuras que quedan fuera de nuestro alcance). Los corpus informatizados suponen un cambio drástico en lo que se refiere al parámetro de perspectiva pues, frente a la lectura lineal del texto completo que se daba en las investigaciones anteriores a la llegada de los grandes corpus en línea, en estas nuevas herramientas se accede a los datos mediante una máquina de búsqueda. Esta vía de acceso a los datos condiciona de manera fundamental la investigación de fenómenos de variación y cambio diacrónicos a partir de los corpus informatizados. En este trabajo me propongo llamar la atención sobre los problemas metodológicos del uso de corpus que tienen relación con el parámetro de perspectiva a partir del análisis de fenómenos diversos de la diacronía del español. Al mismo tiempo me propongo mostrar cómo el estudio de la variación lingüística a partir de versiones paralelas permite encontrar vías alternativas para aliviar estos problemas. El artículo está estructurado como sigue. En la sección 2 presento una descripción general de los corpus diacrónicos del español de uso más frecuente así como las características del corpus Biblia Medieval (en adelante BM), un corpus paralelo de traducciones bíblicas medievales. A continuación en la sección 3 me centro en la noción de perspectiva e identifico las diferentes características que respecto de este parámetro caracterizan a la investigación tradicional con textos impresos, con corpus informatizados convencionales y con un corpus paralelo como BM. Seguidamente en la sección 4 muestro algunos ejemplos concretos de investigaciones de fenómenos de la historia del español a partir de datos extraídos del corpus BM para mostrar cómo la comparación de textos paralelos puede ayudar a superar algunas de las limitaciones de los corpus convencionales.

2 Corpus convencionales y corpus paralelos Las grandes bases textuales de uso común entre los investigadores de la diacronía del español, como los corpus académicos (CORDE y CDH ) o el Corpus del español de Mark Davis (en adelante CE) además de otros corpus de menor tamaño que han ido surgiendo en los últimos años constituyen ejemplos prototípicos de lo que puede considerarse un corpus convencional. Tales corpus constan de una base de datos informatizada que contiene textos históricos de diferentes épocas y una herramienta de búsqueda para recuperar información de los textos. Con el fin de

Sobre la noción de perspectiva en lingüística de corpus

23

acceder a los datos, los usuarios necesitan introducir una palabra o frase en un cuestionario de consulta y la aplicación de búsqueda crea una concordancia que muestra todos los ejemplos del texto buscado en el corpus junto a su contexto de aparición, con información básica sobre el texto de origen, como título, autor y fecha de composición. A diferencia de las bases de datos textuales que acabo de describir, BM es un corpus paralelo, es decir, una colección de textos originales y sus equivalentes de traducción. En los corpus paralelos los textos están alineados de tal forma que es posible identificar palabras o frases en el texto original y emparejarlas con la expresión correspondiente en las demás versiones paralelas.2 En el caso de BM el corpus está compuesto por la Biblia hebrea y la Vulgata Latina, que son los textos originales, y las versiones en español medieval.3 Así, cuando el usuario introduce una consulta para cualquiera de las versiones paralelas en el corpus, ya sea en el texto original, o en cualquiera de las trece versiones en español medieval que contiene, la aplicación de búsqueda muestra todas las ocurrencias de la consulta en la versión correspondiente al lado de los equivalentes de traducción en todas las demás versiones. El corpus BM, consta de más de cinco millones de palabras de textos compuestos entre ca. 1200 y 1450, y va acompañado de 17.000 imágenes digitales de los códices bíblicos medievales. El corpus permite dos tipos básicos de búsquedas: por pasaje y por palabra. Cuando se busca por pasaje el usuario selecciona el libro y el capítulo correspondiente a la sección que quiere consultar y la pantalla muestra todas las versiones disponibles para ese pasaje en particular. Todo el texto que aparece en la interfaz web es, al mismo tiempo, un enlace que descarga imágenes digitales del manuscrito en que aparece el texto en cuestión. Además de las consultas sencillas que muestran las diferentes versiones de la Biblia en un pasaje concreto, también es posible realizar búsquedas de una palabra o frase en una versión particular, o en el latín o el texto hebreo, para a continuación, comparar la forma en que la palabra o frase se expresa en las otras versiones de la Biblia. Es posible además hacer búsquedas con parámetros complejos, como por ejemplo buscar los versículos que contienen una expresión dada en una de las versiones que coinciden con otra expresión en otra versión, o incluso búsquedas negativas (por ejemplo buscar los versículos que no contengan determinada expresión). Otra funcionalidad importante es que tanto la totalidad del

2 Para un estado de la cuestión sobre la metodología de los corpus paralelos véase McEnery / Xiao (2007). 3 Para cuestiones relacionadas con la solidez metodológica del uso de textos bíblicos en la investigación lingüística, véase Resnik et al. (1999); Kaiser (2005); De Vries (2007); Enrique-Arias (2008, 2009, 2012).

24

Andrés Enrique-Arias

corpus como las búsquedas concretas hechas por el usuario se pueden descargar como archivo de texto; de este modo el investigador puede modificar o analizar los textos usando los programas de su preferencia.4

3 Perspectiva El diseño y la arquitectura de un corpus condicionan la perspectiva de sus usuarios, es decir, la manera en que los estudiosos acceden a los datos lingüísticos. Como ya he señalado, los formatos electrónicos han supuesto un cambio sustancial desde el punto de vista del acceso al texto por parte de los destinatarios (Enrique-Arias 2015a, 398). En el libro impreso en soporte físico la vía de acceso a los datos históricos se produce mediante la lectura lineal, de la que se pueden derivar incursiones en los elementos auxiliares (aparato crítico, glosario, índice, concordancias); es decir, el lector va procesando los contenidos del texto en su orden de aparición para, en su caso, detenerse a hacer un análisis más detallado de formas o estructuras lingüísticas concretas. En el texto electrónico es mucho más habitual acceder al texto a través de una concordancia generada por una máquina de búsqueda. Así pues, el usuario accede a un listado de formas concretas con información contextual limitada para, de acuerdo con sus intereses, seleccionar las formas relevantes y consultar por extenso su contexto de ocurrencia en el texto. Dicho de manera más esquemática, en la lectura lineal se accede a las estructuras lingüísticas en el orden contexto → forma, mientras que en el corpus informatizado se accede en el orden contrario, es decir, forma → contexto. La principal limitación del acceso a las estructuras lingüísticas en el orden forma → contexto, típico de los corpus electrónicos, es que obliga a conocer de antemano, a partir de gramáticas históricas, diccionarios o estudios previos, cuáles son las formas utilizadas para expresar la función que el investigador se propone rastrear en el corpus (Enrique-Arias 2012, 88). El mayor inconveniente es que, las formas desconocidas, no documentadas o que no están en un formato reconocible quedan fuera de los resultados de las búsquedas y por tanto no son recuperables; por el contrario, en la lectura lineal de textos impresos en soporte físico no existe esta limitación. Por ello, el modo de acceso a las estructuras lingüísticas en los medios electrónicos es un elemento crucial que no puede ignorarse a la hora de entender las limitaciones de la lingüística de corpus.

4 En la web donde está alojado el corpus se pueden descargar manuales en los que se explican con detalle todas las funcionalidades del corpus así como los criterios empleados en la transcripción de los textos.

Sobre la noción de perspectiva en lingüística de corpus

25

En la metodología de los textos paralelos informatizados como Biblia Medieval también se accede a los resultados mediante una herramienta de búsqueda; no obstante el acceso a las versiones paralelas nos proporciona una perspectiva más abarcadora e inclusiva que la de los corpus convencionales. En el corpus paralelo partimos de ejemplos específicos integrados en su contexto y observamos las formas utilizadas en los equivalentes de traducción de las versiones paralelas. Se trata de búsquedas orientadas a descubrir la variedad de formas que comparten el significado o la función del elemento (i.e. palabra o frase) que se ha introducido en la casilla de búsqueda. Es decir, en el corpus paralelo procedemos en el orden función → forma. La otra característica esencial de las versiones paralelas es que nos aseguran la existencia de un tertium comparationis —ya sea en el texto original o en alguno de sus equivalentes de traducción— a partir del cual podemos establecer de manera directa relaciones de equivalencia entre dos comparanda. En otras palabras, si dos estructuras A y B funcionan como equivalentes de traducción de Y podemos concluir que tales estructuras están en una relación de equivalencia, es decir, son elementos intercambiables en un mismo contexto de ocurrencia. En cambio, cuando dos estructuras A y B aparecen en dos pasajes o textos diferentes en un corpus convencional, en ausencia de un tertium comparationis es más difícil establecer esa relación de equivalencia. Dado que para estudiar cualquier fenómeno variable (y por ende el cambio lingüístico) es crucial definir el contexto de la variación, es decir, qué formas son intercambiables en un mismo contexto de ocurrencia, la perspectiva que nos proporciona un corpus paralelo es una herramienta metodológica de extraordinario valor. En las páginas que siguen paso a exponer y ejemplificar las ventajas que ofrece la perspectiva de los corpus paralelos.

4 Ventajas de los corpus paralelos 4.1 Recursos para la comprensión del texto Un aspecto de gran importancia a la hora de evaluar la utilidad de un corpus informatizado es el relativo a los recursos de los que dispone el usuario para llegar a una mejor comprensión de los textos de un corpus. Los textos medievales son difíciles de entender porque quedan muy lejos lingüística y culturalmente de las convenciones del lector actual; este problema se ve agravado por el hecho de que en muchos casos no tenemos acceso al contexto en que se produce el texto pues desconocemos por completo información como el perfil social del autor y sus destinatarios o la fecha y lugar de composición. Todo ello hace que existan

26

Andrés Enrique-Arias

numerosos pasajes de difícil interpretación o que en ocasiones sea imposible distinguir errores de copista de lo que son lecturas genuinas no documentadas (Kabatek 2013). En lo que respecta a este aspecto, bases de datos como el CORDE y el CE nos dan una información mínima, pues contienen textos en una única versión y no incluyen facsímiles de los originales. Ello supone que cuando el investigador se encuentra ante una lectura desconcertante, aparentemente errónea o de difícil interpretación no tiene los medios para siquiera verificar que no hay un error de edición. Una ventaja evidente de BM frente a los corpus convencionales es que, al tratarse de un corpus paralelo de equivalentes de traducción, ofrece una información más completa para facilitar la interpretación de las estructuras que contiene. Ante una lectura cuestionable o de dudosa interpretación el investigador puede, en primer lugar, consultar el facsímil para asegurarse de que la transcripción es correcta; si una vez descartado un error de edición la lectura todavía suscita dudas se puede aclarar su significado consultando el texto subyacente y las versiones paralelas. Por ejemplo, en BM resulta inmediatamente evidente que la lectura estruirá en la versión de Isaías 10:19 de E4 (una criatura los estruirá) es un error de copia por escrevirá, pues en el original hebreo tenemos yiktəbēm y en el latino scribet ‘escribirá’. Además en las versiones paralelas de Arragel, E3, Santillana y General Estoria encontramos las formas escrevirá o escrivirá.5 El caso de la Biblia es especial pues nos encontramos ante el texto más traducido, comentado y analizado de la literatura universal; a lo largo de su historia el texto bíblico ha sido sometido a análisis meticulosos desde diferentes tradiciones. Consideremos por ejemplo la lectura e llorólo su abuelo que en la Biblia de Arragel traduce Génesis 37:35 (wa-yevekh oto aviw ‘y su padre lo lloró’).6 A la vista del texto fuente (aviw ‘su padre’), del contexto de la historia, y de las demás traducciones (E3 e llorólo su padre; E7 tomó duelo por él su padre; E4 e lloró lloró su padre) todo parece señalar que la lectura abuelo en la traducción de Arragel es un error. Y sin embargo el análisis del fondo exegético de este pasaje nos permite ver inmediatamente que estamos ante una lectura genuina; el traduc-

5 Todos los ejemplos de traducciones bíblicas medievales en castellano proceden del corpus BM y han sido normalizados siguiendo en términos generales las normas de presentación crítica de la red CHARTA (Corpus Hispánico y Americano en la Red: Textos Antiguos), disponibles en www. charta.es. Para información completa sobre los manuscritos que han transmitido traducciones de la Biblia y las abreviaturas que empleo para referirme a ellos, consúltese la página del proyecto Biblia medieval (www.bibliamedieval.es). 6 El pasaje se refiere al momento en que los hermanos de José le muestran a su padre las ropas rasgadas y ensangrentadas de su hermano dando a entender que ha sido devorado por una fiera salvaje.

Sobre la noción de perspectiva en lingüística de corpus

27

tor ha aprovechado la ambigüedad del posesivo de tercera persona en aviw ‘su padre’ para introducir la interpretación, recogida en el Génesis Raba 84:22 y en los comentarios a este pasaje de Rashi y Quimhi entre otros, que considera que el que llora no es Jacob, padre de José, sino Isaac, padre de Jacob y por tanto abuelo de José. Esta interpretación deriva de la opinión de algunos exégetas de que Jacob tenía poderes proféticos y por tanto debía saber que su hijo no estaba muerto; en tal caso no tenía motivos para llorar su muerte, así que siguiendo esa lógica su padre se refiere al padre de Jacob, Isaac.7 Los textos bíblicos tienen por tanto la ventaja de contar con una ingente cantidad de elementos para su análisis e interpretación.8

4.2 Valor heurístico Una de las ventajas principales de los textos paralelos es su función heurística, que no tiene equivalente en otras fuentes de datos. Como ya hemos mencionado, en un corpus convencional el investigador necesita conocer de antemano las formas que son relevantes para rastrear el fenómeno que desean investigar. La principal desventaja de este proceder es que, por muy bien que hagamos nuestro trabajo previo de investigación de materiales de referencia, siempre existe el riesgo de pasar por alto alguna forma relevante por no haber sido estudiada con anterioridad: es decir, el valor heurístico del corpus queda severamente limitado por la vía de acceso a los datos, que solamente nos permite rastrear lo que ya nos es conocido. Por ejemplo, supongamos que queremos estudiar la evolución histórica de los elementos exceptivos (es decir, los recursos lingüísticos utilizados para expresar excepción). Si queremos usar un corpus convencional, primero tenemos que consultar materiales de referencia y elaborar una lista de elementos que puedan expresar esta función (por ejemplo, excepto, salvo, menos, fueras, etc.). A continuación, realizamos búsquedas de estas formas y utilizamos, finalmente, los resultados para examinar ejemplos específicos en su contexto funcional. Al proce-

7 Para un análisis de varios casos semejantes en los que las opciones de los traductores bíblicos responden a un fondo exegético véase Girón Negrón / Enrique-Arias (2012). 8 Las herramientas de análisis lingüístico del corpus y el acceso al texto subyacente y a las versiones paralelas no solamente sirven para aclarar pasajes oscuros sino que además son un recurso efectivo para enfrentarse a problemas de autoría y de filiación de los textos. Por ejemplo, Pueyo Mena / Enrique-Arias (2013) han podido determinar a partir de un análisis exhaustivo de 28 lemas hebreos y de sus correspondientes traducciones al castellano cuántas traducciones diferentes hay en los once códices medievales que contienen romanceamientos cuatrocentistas de la Biblia Hebrea.

28

Andrés Enrique-Arias

der de esta forma estamos adoptando una perspectiva del tipo forma → función; la consecuencia inmediata es que no hay manera de saber si el corpus contiene otros elementos que pueden ser utilizados con la misma función y en los mismos contextos, pues solamente exploramos las formas que conocemos de antemano. El basarse exclusivamente en la literatura descriptiva existente equivale a dar por hecho que la lengua medieval ya ha sido descrita de manera exhaustiva, una afirmación que ningún lingüista se atrevería a suscribir. La perspectiva de los textos paralelos es radicalmente diferente en este aspecto. En un corpus como BM no es necesario partir de una lista exhaustiva de las formas relevantes pues la exploración del corpus y las comparaciones con las versiones paralelas nos guiarán en la búsqueda de las unidades de expresión posibles para la estructura que se está investigando. En BM tenemos varias vías para extraer los pasajes que contienen los elementos que son relevantes para nuestra investigación. Podemos, por ejemplo buscar en el original latino formas exceptivas conocidas como absque, praeter, nisi, non . . . sed, o hacer lo propio con cualquiera de las palabras relevantes en la versión hebrea, o buscar las formas que conozcamos en cualquiera de los textos en español, y luego observar las formas que se utilizan en el mismo contexto y con las mismas funciones en las versiones paralelas. A su vez, podemos buscar las formas que encontramos en estos escarceos, lo cual dará lugar a más formas que pueden ser utilizadas para nuevas búsquedas. Esta perspectiva, en que partimos de determinados contenidos incorporados en el texto y observamos las formas empleadas en las versiones paralelas (es decir, función → forma), facilita la observación de elementos que de otro modo habrían sido ignorados. Siguiendo este mismo sistema podemos, por ejemplo, rastrear la variedad de elementos que expresan condicionalidad en el español medieval a partir de búsquedas de las conjunciones condicionales del latín (si, nisi), o de conjunciones concesivas o temporales con esa función. En el ejemplo a continuación se ilustra una búsqueda de antequam en 2Samuel: 3:13. Vulg E8 GE E3 E5 Oxford Santillana Arragel

non videbis faciem meam antequam adduxeris Michol filiam Saul no me vengas veyer ata que traigas a Micol fija de Saúl faré yo contigo amiztad muy buena a pleito que me traigas a Micol, fija de Saul, e non nos veremos antes non veas mi rostro salvo que antes me traigas a Migal Fija de Saúl non parescas ante mí sin que me trayas delante ty a Mihal la fija de Saúl non veas la faz mía ante que primera mente me trayas a Mical fija de Saúl non veas mi rostro sin que traigas a Mical fija de Saúl non veas mi cara a menos que tú contigo trayas a Micol fija de Saúl

En los resultados tenemos junto a los conocidos elementos temporales ata que, ante que y los exceptivos salvo que, sin que, a menos que la expresión a pleito

Sobre la noción de perspectiva en lingüística de corpus

29

que en la General estoria. Se trata de una forma que no hubiéramos buscado en primera instancia y que posiblemente no haya sido registrada en materiales de referencia. A su vez podemos hacer búsquedas de estas expresiones en el romance para encontrar otras o conocer mejor sus valores; por ejemplo, la búsqueda de a pleito que nos permite encontrar otros dos pasajes de la General estoria que confirman el valor condicional de esta estructura: Ex 8:24 1Sam 11: 2

Dixo·l Faraón essora: Dexar vos é salir fasta alli a pleito que non vayades d’allí adelant lo faría a pleito que se le diesen todos a sacar los diestros ojos

Hay que destacar, no obstante, que un corpus paralelo como BM nunca debe ser la única fuente de información en un estudio diacrónico. Otras fuentes, tales como diccionarios, gramáticas, estudios, y sobre todo grandes corpus convencionales, como CORDE o CE, son fuentes indispensables para asegurarse de que las formas que descubrimos gracias al corpus paralelo no son solo palabras empleadas en traducción bíblica, sino que tienen empleo en otros géneros. Una búsqueda de a pleito que en el CORDE revela que la forma aparece con valor condicional en otras obras del corpus alfonsí.

4.3 Perspectiva abierta Otra ventaja de la perspectiva función → forma empleada en la metodología de los corpus paralelos de equivalentes de traducción es que, por ser mucho más abierta que la de los corpus convencionales, permite analizar cualquier forma de expresar un contenido de la lengua fuente. Como ya se ha comentado más arriba, en la metodología de los corpus paralelos las búsquedas no están limitadas a marcadores explícitos ni a un número limitado de formas. Por ejemplo, si queremos estudiar cómo se formaliza la pregunta retórica en el español medieval a partir de un corpus convencional nos encontramos con el problema de que no hay una forma fácil de rastrear estas estructuras automáticamente ya que se expresan de múltiples maneras (Enrique-Arias / Burguera 2010); la única opción sería buscar los pocos elementos explícitos que pueden expresar esta función (¿acaso. . .? ¿por ventura. . .? etc.). Por el contrario, en un corpus paralelo el acceso a las fuentes es de gran ayuda en la localización de ocurrencias de esta estructura: un rastreo de la partícula interrogativa hǎ– en la versión hebrea o numquid en la latina nos permite localizar automáticamente un gran número de casos de preguntas retóricas en el texto subyacente y examinar cómo están expresadas en las versiones castellanas. Las traducciones de Job 6:5 en el ejemplo a continuación ilustran esta funcionalidad del corpus paralelo.

30

Andrés Enrique-Arias

Job 6:5 Vulgata E8 GE E3 E7 Santillana Arragel Ayala

numquid rugiet onager cum habuerit herbam Non brinará el asno salvaje cuando yerba oviere. ¿Si non roerá el asno montés cuando oviere yerva? ¿Si gime el zebro sobre la yerva? ¿Quiçá rebuzna el zebro por la yerva? ¿Si rebuzna el asno montés sobre la yerva? Nunca ruge el zebro yerva fallando. ¿Pues roerá el asno quando toviere yerva?

En las traducciones de Job 6:5 podemos observar la amplia variedad de expresiones utilizadas para formalizar la interrogativa retórica: si non en GE, si en E3 y Santillana; el marcador epistémico de duda quiçá en E5. El caso de la traducción de E8 y Arragel es peculiar porque han optado por emplear una aserción con cambio de polaridad (la pregunta retórica es una aserción encubierta: ‘¿acaso gemirá el asno teniendo hierba?’ se interpreta como ‘nunca gime el asno cuando tiene hierba’). La perspectiva de los corpus paralelos es tan abierta que nos permite observar cualquier tipo de equivalente para la interrogativa retórica del original, incluso cuando ese contenido no se expresa mediante una oración interrogativa sino con una aserción. Encontramos un caso semejante en el estudio de formas de expresar la condicionalidad. Una de las búsquedas que podemos hacer en BM es localizar la conjunción si en una versión romance y observar sus equivalentes en las versiones paralelas. En las traducciones de Génesis 9:6 que presento a continuación se ilustran las posibilidades de este tipo de búsqueda: Gén 9:6 GE E3 E7 Santillana: Arragel Vulgata

Otrossí, si alguno de vós esparziere sangre de otro omne, d’él la requiriré yo. El que vertiere la sangre del omne por omne, su sangre será vertida. E el que derramare sangre de omne por omne, su sangre sea derramada. E el que derramare la sangre del omne por los omnes, su sangre sea derramada. Qualquier que sangre humana derramare, la su sangre derramada será. quicumque effuderit humanum sanguinem fundetur sanguis illius

En este caso solamente la General estoria emplea el si condicional mientras que las demás versiones expresan la condicionalidad con una subordinada relativa sustantivada. Se trata de estructuras condicionales muy frecuentes en el corpus bíblico y de indudable interés para estudiar la expresión de la condicionalidad pero que en ausencia de una conjunción condicional difícilmente podrían localizarse mediante corpus convencionales.

Sobre la noción de perspectiva en lingüística de corpus

31

4.4 Posibilidad de rastrear formas no explícitas y variables ausentes La perspectiva abierta de los corpus paralelos nos permite también localizar estructuras en que no se emplea un marcador explícito. Esta es sin duda la característica más singular de este tipo de corpus. Si, pongamos por caso, nos proponemos emplear un corpus convencional para estudiar las formas de expresar la posesión de tercera persona en español medieval nos encontramos con el problema de que no es posible hacer un rastreo automático. Mientras que puede ser relativamente sencillo extraer ejemplos que contengan formas del adjetivo posesivo (su casa, la su casa, la su casa de él, la casa suya) las cosas se complicarán a la hora de extraer los casos en que la posesión se expresa con dativo posesivo (le quemaron la casa, se quitó el sombrero) pues nos vemos obligados a buscar todos los casos de le, les con sus variantes formales (li, –l apocopado, ge) así como los casos de se, y a continuación discriminar cuáles tienen una interpretación posesiva. Por último sería materialmente imposible extraer automáticamente los casos en que se da expresión de la posesión con el artículo determinado o sin marca explícita. Un corpus paralelo como BM nos permite superar este problema pues el acceso al texto fuente nos guiará en la localización de ocurrencias del fenómeno estudiado. Introduciendo la siguiente búsqueda en BM podemos localizar automáticamente un gran número de casos de estructuras posesivas y examinar cómo están expresadas en las versiones castellanas: suus | sua | suum | sui | suae | suorum | suarum | suo | suis | suam | suos | suas | sue | eius | eorum | illius | illorum | earum | ipsius | illarum

Los resultados de esta búsqueda nos permiten extraer ejemplos de todas las maneras de expresar posesión, incluso los casos en que el traductor emplea un pronombre de dativo o un sustantivo con artículo determinado. El ejemplo de 1Sam 17:49 a continuación ilustra cómo las traducciones de ‘su mano’ y ‘su zurrón’ incluyen varios casos sin posesión explícita: 1Sam 17:49 E8 GE E3 E5 Oxford Santillana Arragel

E metió la mano en su talega e sacó una guija. Metió Ø mano a su çurrón e sacó una de aquellas cinco piedras. E tendió David su mano al alfaja e tomó d'ella piedra. E metió David su mano al çurrón e tomó dende una piedra. E tendió David la mano suya al çurrón e tomó dende una piedra. E estendio David su mano al çurrón e tomó dende una piedra. E tendió David su mano al su çurrón e tomó dende una piedra.

32

Andrés Enrique-Arias

El estudio de equivalentes de traducción nos permite extraer de manera inmediata ejemplos de las variantes que expresan posesión, incluso aquellas sin un marcador posesivo explícito, en idénticos contextos de ocurrencia: su mano (E3, E5, Santillana, Arragel), la mano (E8), la mano suya (Oxford) e incluso mano (GE). Del mismo modo podemos observar la variación entre el çurrón/alfaja (E3, E5, Oxford, Santillana) su çurrón/talega (E8, GE) y el su çurrón (Arragel). Esta funcionalidad del corpus paralelo tiene gran interés para el estudio de la variación, pues un elemento fundamental de la metodología variacionista es el principio de responsabilidad (Labov 1982, 30). Este principio motiva la necesidad de considerar todas y cada una de las realizaciones de una variable en relación a todos los contextos posibles de ocurrencia en los datos examinados. Ello quiere decir que el investigador debe considerar también las realizaciones sin marca explícita. Además sería necesario incluir en el análisis cuantitativo los casos en que hay ausencia de la variante, es decir, el número de ocurrencias de una variante se calcularía a partir del total de contextos en que podría haber ocurrido (Tagliamonte 2006, 72). En definitiva, los corpus paralelos están mejor equipados que otras fuentes de datos a la hora de definir las realizaciones posibles de una variable y delimitar sus contextos de ocurrencia.

4.5 Definición del contexto variable Es un hecho aceptado en prácticamente todos los modelos teóricos de la lingüística histórica que los cambios lingüísticos se dan en tres etapas: un estadio original anterior al cambio, una fase en la que triunfa la nueva estructura y una etapa intermedia en la que coexisten el sistema innovador y el original. Ese estadio intermedio en el que compiten la forma innovadora y la original es el más interesante para el investigador, ya que el estudio de los contextos que favorecen la aparición de una forma frente a la otra permite obtener información sobre los factores que motivan el cambio, los contextos en los que se ha originado y los canales por los que se ha extendido. En consecuencia, los métodos cuantitativos —sobre todo los análisis de coocurrencias de las variantes lingüísticas que compiten en los mismos contextos de aparición— son la herramienta esencial en el empleo de los corpus para investigar cambios lingüísticos. Si el cambio lingüístico consiste, en esencia, en diferencias en la distribución de las construcciones que compiten en un mismo contexto de ocurrencia, antes de proceder al análisis cuantitativo necesitamos identificar y describir cuáles son las construcciones en cuestión. En lingüística variacionista sincrónica esta definición del contexto variable se lleva a cabo habitualmente mediante una combinación de análisis cualitativo e introspección. Sin embargo, ninguno de estos métodos es

Sobre la noción de perspectiva en lingüística de corpus

33

satisfactorio en la lingüística histórica; primero porque cuando se trata de datos históricos no tenemos posibilidad de acceder directamente a las intuiciones de los hablantes y en segundo lugar porque, como ya hemos mencionado, la perspectiva de los corpus convencionales nos restringe a la búsqueda de formas conocidas de antemano, y a partir del análisis de ejemplos aislados de esas formas nunca podremos estar seguros de que hemos identificado todas las construcciones con una función determinada. Por el contrario, la metodología de los corpus paralelos permite aliviar el problema de la definición del contexto variable pues permite rastrear una estructura lingüística y contrastarla con las expresiones que alternativamente pueden aparecer en el mismo contexto. Consideremos como ejemplo la expresión de la posesión en español antiguo. La mayor parte de la investigación sobre las construcciones posesivas se ha centrado en la variación en el uso del posesivo precedido de artículo definido (la mi casa) en contraposición al posesivo solo (mi casa) apelando a factores estilísticos (Lapesa 2000 [1970]), estructurales (Wanner 2005, 39–40) o sintáctico-discursivos (Company Company 2006). Hay sin embargo un aspecto fundamental que se pasa por alto en estos trabajos: el hecho de que en español antiguo hay otras construcciones que también sirven para expresar posesión, como la frase genitiva con un pronombre personal (la casa de él), el adjetivo posesivo pospuesto (la casa suya) o incluso un sintagma nominal sin marcador posesivo explícito (metió la mano / metió mano) (Enrique-Arias 2015b). La tendencia a estudiar solamente dos variantes en fenómenos de variación morfosintáctica se debe a que así resulta más fácil controlar los factores que influyen en la variación lingüística. El problema es que las investigaciones de este tipo nos dan una imagen incompleta del fenómeno variable pues construyen sus argumentos sobre la suposición de que el hablante tuviera solamente dos opciones a la hora de expresar una relación de posesión. Y sin embargo, como hemos visto en las traducciones de 1Sam 17:49 en la sección anterior, no cabe duda de que en el mismo contexto de ocurrencia puede alternar un número más alto de variantes (para abundante ejemplificación véase EnriqueArias 2015b). En Rosemeyer / Enrique-Arias (2016) aprovechamos las ventajas metodológicas de las versiones paralelas para hacer un estudio diacrónico de la expresión de la posesión y superar los problemas que acabo de exponer. En lo que respecta al problema de la definición del contexto variable, BM permite la comparación directa de las versiones paralelas y confirmar mediante la observación empírica cuáles son las variantes de la expresión de la posesión que alternan en los mismos contextos de ocurrencia y que en nuestro caso hemos reducido a cuatro: artículo más posesivo (la su casa), posesivo solo (su casa), construcción genitiva (la casa de él) y sintagma nominal sin marcador posesivo explícito (la casa).

34

Andrés Enrique-Arias

Ahora bien, nuestro objetivo de estudiar la interacción entre las cuatro variantes seleccionadas se encuentra con otro problema: los medios estadísticos habituales de cálculo de regla variable trabajan con dos variantes (análisis binomial). Para superar este problema hemos aplicado un análisis de regresión logística multinomial que permite calcular la probabilidad del empleo de cada una de las variantes frente al posesivo sin determinante (su casa) que consideramos variante por defecto por ser la más frecuente. No nos cabe duda de que este modelo es mucho más cercano al uso lingüístico real ya que refleja el hecho de que los hablantes pueden optar por más de dos variantes en la expresión de la posesión. La combinación del corpus paralelo de traducciones y el análisis de regresión logística multinomial nos permite modelar la variación en la expresión de la posesión en castellano medieval teniendo en cuenta la interacción de las cuatro variantes consideradas de acuerdo con doce factores explicativos. Para cada uno de los contextos estudiados el análisis nos dice qué estructura alcanza un nivel de probabilidad lo suficientemente alto como para constituir un competidor del posesivo sin determinante. Por ejemplo, el artículo más posesivo (la su casa) compite con el posesivo solo (su casa) en primera y segunda persona, cuando el poseedor es Dios y en pasajes líricos. En otros contextos de uso, en particular cuando el poseedor es inanimado, cuando hay un pronombre dativo o cuando se trata de posesión inalienable la estructura que aumenta su probabilidad hasta rivalizar con el posesivo solo es el sintagma nominal sin marcador posesivo explícito (la casa).9 Al mismo tiempo, en lo que respecta a la evolución diacrónica, los resultados del análisis probabilístico demuestran que en el paso del siglo XIII al XV pierden peso los factores de tipo estructural pero se mantienen los de tipo estilístico. No es este el lugar de explicar en detalle los resultados, que son extensos y complejos; quisiera fundamentalmente destacar que la perspectiva de los corpus paralelos permite solucionar algunos de los problemas asociados con el estudio de la variación en textos antiguos y así investigar con bases empíricas sólidas y perspectivas novedosas casos complejos de variación y cambio en la historia del español.

9 En nuestro análisis consideramos también las interacciones entre los distintos factores pues estos no son enteramente independientes. Por ejemplo, la animacidad del poseedor se solapa con la persona y el estatus pues cuando se trata de la primera o la segunda persona, o cuando es un ser de estatus superior como Dios o el rey, el poseedor es necesariamente animado. Lo mismo sucede con la presencia de un pronombre dativo o la posesión inalienable, factores que están estrechamente asociados con la estructura sin marcador posesivo explícito.

Sobre la noción de perspectiva en lingüística de corpus

35

4.6 Elementos relacionados por significado o función en común Los resultados de las búsquedas en los corpus convencionales, organizados en concordancias, nos abocan a observar las formas investigadas en su contexto sintagmático inmediato. En la perspectiva de los corpus paralelos la existencia de un tertium comparationis (típicamente en el original pero también en las versiones paralelas) permite establecer relaciones entre formas a partir de valores, funciones o significados afines. A nivel léxico, por ejemplo, podemos localizar las diferentes traducciones de un mismo lema en el original latino o hebreo y obtener listas de términos relacionados semánticamente. Si rastreamos exhaustivamente las traducciones de sar y nasí ‘capitán’ en el corpus podremos obtener un inventario de palabras relacionadas con el liderazgo en el ámbito militar: adelantado, alcalde, alférez, alguazil, cabdillo, cabecera, capitán, carcelero, cavallero, condestable, contado, escogido, familiar, grande, juez, mayor, mayoral, mayordomo, mensajero, oficial, príncipe, varón. Del mismo modo, si queremos estudiar el vocabulario de las estructuras sociales o comunitarias podemos buscar edá y cahal ‘congregación’ y extraer la siguiente lista de voces: ayuntamiento, cabildo, compaña, colación, concejo, concilio, congregación, egleja, gente, pueblo, república, sinagoga (Pueyo Mena/Enrique-Arias 2013). Este mismo principio puede aplicarse a otros elementos, como marcadores del discurso, conjunciones, preposiciones o palabras gramaticales y así observar relaciones que no podemos captar desde la perspectiva del corpus convencional. También es posible hacer el ejercicio inverso y rastrear a qué términos del original corresponde una misma voz romance. Esta posibilidad puede servir para trazar cómo a través de la actividad traductora se incorporan nuevos términos y acepciones al acervo léxico del castellano. Por ejemplo, a comienzos del siglo XV la palabra nación empieza a adquirir un significado político innovador como ‘agrupamiento humano de un mismo país y regido por un mismo gobierno’ (Sonia Fellous (2001, 92) señala que en el Libro de los exemplos, de 1421–1423 el término nación se emplea con ese significado). ¿Reflejan los romanceamentos bíblicos del XV esta nueva acepción? Revisemos la Biblia de Arragel, que es la versión cuatrocentista en la que mejor se aprecian los anticipos de la modernidad prehumanista latinizante (Pueyo Mena/Enrique-Arias 2015). Arragel emplea el término en 41 ocasiones lo cual es un número bastante alto comparado con las demás versiones del hebreo que prefieren términos como gente o pueblo. En 37 casos nación se corresponde con palabras hebreas que expresan el significado ‘pluralidad de personas’ sin una connotación política: 28 ocurrencias de nación traducen goy ‘extranjero’, cinco se corresponden con areŝ ‘tierra, región’, en dos ocasiones traducen ‘am ‘pueblo’ y en una reflejan ’umim ‘pueblo’ y mišpaḥah ‘clan’. Arragel

36

Andrés Enrique-Arias

es además consciente de la asociación de la palabra con nacer, pues la emplea tres veces para traducir šegar ‘prole, crías’ e incluso biṭnam ‘útero’ en una ocasión.10 El empleo de nación en la traducción de Arragel a diferencia de otras traducciones de la época se explicaría como resultado de su tendencia a incorporar latinismos para acercar el romance al texto de la Vulgata (Enrique-Arias 2004, 2006) y no tanto con la intención de adoptar el significado político del término: la palabra coincide en 19 ocasiones con la presencia de natio en la traducción de Jerónimo.

5 Conclusión En este trabajo he presentado una serie de problemas metodológicos del uso de corpus informatizados que tienen relación con el parámetro de perspectiva para mostrar cómo la vía de acceso a los datos condiciona de manera fundamental la investigación de fenómenos de variación y cambio en la historia del español. En este sentido el corpus BM constituye un complemento útil y valioso de los corpus existentes por ofrecer una perspectiva que conlleva ventajas metodológicas sustanciales. En primer lugar, la perspectiva abierta de los corpus paralelos permite extraer y analizar sin restricciones las formas utilizadas para expresar una función o significado. Del mismo modo, los textos paralelos facilitan el estudio de la variación, pues permiten la comparabilidad inmediata de estructuras que se insertan en los mismos contextos de ocurrencia. En el cuadro a continuación se presentan resumidas las características de los corpus paralelos en lo que respecta al parámetro de perspectiva y se contrastan con las características de los corpus convencionales.

10 Enumero a continuación los pasajes concretos en que aparecen estas voces: goy ‘extranjero’: Génesis 10:5, Isaías 5:26, 11:12, 14:9, 25:7, 33:3, Ezequiel 25:10, 28:25, 29:12, 30:23, 30:26, 36:3, Oseas 8:10, Joel 4:2, Amos 9:9, Zacarías 14:14, Salmos 18:50, 22:28, 22:29, 44:12, 79:10, 106:27, 106:47, 110:6, 147:20, 149:7, Crónicas 2 32:23, 33:2; areŝ ‘tierra, región’: Isaías 14:9, Ezequiel 22:15, 25:7, 36:19, 36:24; ‘am ‘pueblo’: Ezequiel 28:19, Ester 3:6; ’umim ‘pueblo’: Salmos 108:4; mišpaḥah ‘clan’: Amos 3:2; šegar ‘prole, crías’: Deuteronomio 7:13, 28:4, 28:18; biṭnam ‘útero’: Oseas 9:16. Hay además dos casos en que Arragel utiliza la palabra en amplificaciones sin correspondencia en el texto fuente: Génesis 6:4, Crónicas 1 16:29.

Sobre la noción de perspectiva en lingüística de corpus

37

Cuadro 1: Parámetro de perspectiva: características de los corpus paralelos Corpus convencionales: forma → función

Versiones paralelas: función → forma

elementos mínimos para comprender el texto

más recursos para comprender el texto

limitación a buscar y encontrar lo que ya es conocido

valor heurístico: las versiones paralelas nos permiten descubrir formas relevantes

búsqueda de una lista cerrada de elementos

perspectiva abierta: búsqueda de cualquier elemento

rastreo de elementos explícitos

rastreo de cualquier forma de expresión

formas en diferentes contextos de ocurrencia

análisis de formas en competición en el mismo contexto de ocurrencia

acceso a colocaciones (relaciones sintagmáticas en el contexto inmediato)

acceso a relaciones de diversos tipos (sintagmáticas, paradigmáticas, significados afines o funciones)

Es de esperar que la disponibilidad de BM facilite la aplicación del método de los corpus paralelos en los estudios de historia de la lengua y permita enriquecer desde una perspectiva teórica la comprensión de los fenómenos de cambio y variación del español en perspectiva diacrónica.

6 Bibliografía Company Company, Concepción, Persistencia referencial, accesibilidad y tópico. La semántica de la construcción artículo + posesivo + sustantivo en el español medieval, Revista de Filología Española 86:1 (2006), 65–103. Davies, Mark, Creating Useful Historical Corpora: A Comparison of CORDE, the Corpus del Español, and the Corpus do Português, in: Enrique-Arias, Andrés (ed.), Diacronía de las lenguas iberorromances: nuevas perspectivas desde la lingüística de corpus, Frankfurt am Main/Madrid, Vervuert/Iberoamericana, 2009, 137–66. De Vries, Lourens, Some remarks on the use of Bible translations as parallel texts in linguistic research, in: Cysow, Michael/Wälchli, Bernhard (edd.), Parallel Texts: Using translational equivalents in linguistic typology, Sprachtypologie und Universalienforschung 60 (2007), 95–99. Enrique-Arias, Andrés, Texto subyacente hebreo e influencia latinizante en la traducción de la Biblia de Alba de Moisés Arragel, in: Alsina, Victòria et al: Traducción y estandarización. La incidencia de la traducción en la historia de los lenguajes especializados, Frankfurt am Main/Madrid, Iberoamericana/Vervuert, 2004, 99–111. Enrique-Arias, Andrés, Sobre el parentesco entre la Biblia de Alba y la Biblia de la Real Academia de la Historia ms. 87, Romance Philology 59 (2006), 21–43.

38

Andrés Enrique-Arias

Enrique-Arias, Andrés, Biblias romanceadas e historia de la lengua, in: Company, Concepción/ Moreno de Alba, José (edd.), Actas del VII Congreso Internacional de Historia de la Lengua Española, vol. 2, 2008, 1781–1794. Enrique-Arias, Andrés, Ventajas e inconvenientes del uso de Biblia medieval (un corpus paralelo y alineado de textos bíblicos) para la investigación en lingüística histórica del español, in: Enrique-Arias, Andrés (ed.), Diacronía de las lenguas iberorrománicas: nuevas aportaciones desde la lingüística de corpus, Frankfurt am Main/Madrid, Iberoamericana/Vervuert, 2009, 269–283. Enrique-Arias, Andrés, Dos problemas en el uso de corpus diacrónicos del español: perspectiva y comparabilidad, Scriptum digital 1 (2012), 85–106. Enrique-Arias, Andrés, Edición digital y corpus diacrónicos: problemas en la edición de textos históricos producidos en un entorno bilingüe, in: Sánchez Méndez, Juan Pedro/Torre, Mariela de la (edd.), Problemas y métodos en la edición y el estudio de documentos hispánicos antiguos, Valencia, Tirant lo Blanch, 2015, 395–406 (= 2015a). Enrique-Arias, Andrés, La metodología de los corpus paralelos aplicada al estudio de fenómenos complejos de variación morfosintáctica. El caso de los posesivos del español medieval, in: García Martín, José María, et al. (edd.), Actas del IX Congreso Internacional de Historia de la Lengua Española, vol. I, Madrid, Iberoamericana, 2015, 731–745 (= 2015b). Enrique-Arias, Andrés/Burguera, Joan, Variación y cambio en la formalización de la interrogación retórica en la historia del español, Comunicación leída en el XXVI Congreso Internacional de Lingüística y Filología Románicas (Universidad de Valencia, 6–11 de septiembre 2010). Enrique-Arias, Andrés/Camargo Fernández, Laura, Problemas en torno a la caracterización de un marcador del discurso en español medieval: el caso de he, in: Borreguero Zuloaga, Margarita/Gómez-Jordana Ferary, Sonias, (edd.), Les marqueurs du discours dans les langues romanes: une approche contrastive, Limoges, Lambert Lucas, 2015, 323–331. Girón Negrón, Luis M./Enrique-Arias, Andrés, La biblia de Arragel y la edición de traducciones bíblicas del siglo XV, Helmantica 63 (2012), 291–309. Kabatek, Johannes, ¿Es posible una lingüística histórica basada en un corpus representativo?, Iberoromania 77 (2013), 8–28. Kaiser, Georg A., Bibelübersetzungen als Grundlage für empirische Sprachwandeluntersuchungen, in: Pusch, Claus D./Kabatek, Johannes/Raible, Wolfgang (edd.), Romance Corpus Linguistics II. Corpora and Diachronic Linguistics, Tübingen, Gunter Narr, 2005, 71–83. Labov, William, Building on empirical foundations, in: Lehmann, Winfred P./Malkiel, Yakov (edd.), Perspectives on Historical Linguistics, Amsterdam/Philadelphia, John Benjamins, 1982, 17–92. Lapesa, Rafael, Sobre el artículo ante posesivo en castellano antiguo, in: Cano, Rafael/Echenique, M. Teresa (edd.), Estudios de morfosintaxis histórica del español, Madrid, Gredos, 2000 [1971], 413–435. McEnery, Tony/Xiao, Zhonghua, Parallel and comparable corpora: The state of play, in: Kawaguchi, Yuji, et al. (edd.), Corpus-Based Perspectives in Linguistics, Amsterdam/Philadelphia, John Benjamins, 2007, 131–145. Pueyo Mena, Francisco J./Enrique-Arias, Andrés, Los romanceamientos castellanos de la Biblia Hebrea compuestos en la Edad Media: manuscritos y traducciones, Sefarad 73:1 (2013), 165–224. Pueyo Mena, Francisco J./Enrique-Arias, Andrés, Innovación y tradición en el léxico de las traducciones bíblicas castellanas medievales: el uso de cultismos y formas patrimoniales en las versiones del siglo XV, Anuario de Estudios Medievales 45:1 (2015), 357–392.

Sobre la noción de perspectiva en lingüística de corpus

39

Resnik, Philip/Olsen, Mari B./Diab, Mona, The Bible as a Parallel Corpus: Annotating the «Book of 2000 Tongues», Computers and the Humanities 33:1–2 (1999), 129–153. Rojo, Guillermo, Sobre codificación y explotación de corpus textuales: Otra comparación del Corpus del español con el CORDE y el CREA, Lingüística 24 (2010), 11–50. Rosemeyer, Malte/Enrique-Arias, Andrés, A match made in heaven. Using parallel corpora and multinomial logistic regression to analyze the expression of possession in Old Spanish, Language Variation and Change, 28.3 (2016). Sánchez-Prieto Borja, Pedro, Desarrollo y explotación del «Corpus de Documentos Españoles Anteriores a 1700» (CODEA), Scriptum Digital 1 (2012), 5–35. Tagliamonte, Sali, Analysing Sociolinguistic Variation, Cambridge: Cambridge University Press, 2006. Wanner, Dieter, The corpus as a key to diachronic explanation», in: Pusch, Claus D./Kabatek, Johannes/Raible, Wolfgang (edd.), Romance Corpus Linguistics II. Corpora and Diachronic Linguistics, Tübingen, Gunter Narr, 2005, 31–44.

Santiago del Rey Quesada

Traducción y tradición en los corpus: nuevas perspectivas para la lingüística histórica 1 Introducción1 Los Corpus-based Translation Studies (CTS) se perfilan como un paradigma prometedor que gravita en torno a dos conceptos no fáciles de definir: corpus y traducción. Mientras los corpus se han incorporado ya de manera casi constitutiva a gran parte de los estudios lingüísticos desde diversos enfoques, la traducción es un fenómeno que aún dista de estar plenamente integrado en las distintas disciplinas lingüísticas más cultivadas. Y es que la traducción como disciplina de estudio científico se ha sentido frecuentemente como independiente de la Filología o, en el mejor de los casos, como una herramienta auxiliar de esta. La cada vez más acusada parcelación del saber en el ámbito universitario ha contribuido a este distanciamiento que, solo desde hace algunas décadas, y sobre todo en el marco de los estudios literarios, ha tendido visiblemente hacia la reconciliación. En el caso de la Hispanística, la traducción como objeto de estudio, teórico y analítico, no tuvo en los siglos XIX y XX la extensión y la profundidad científica que alcanzó en otros países europeos, lo que resulta especialmente evidente si lo comparamos con la atención que se le ha dedicado al fenómeno en Alemania (cf. Schleiermacher 1813 [2000]).2 Por este motivo entre otros, puede afirmarse que la relación entre traducción y lingüística todavía se halla en una etapa inicial (cf. Coseriu 1978 [1988], 295). Como acaba de apuntarse, la vertiente literaria de este campo de estudios está más desarrollada (cf. Albrecht 2003a, 16), mientras que no se han extraído las innumerables posibilidades de estudio que ofrece el hecho y el proceso de traduc-

1 Este trabajo forma parte del proyecto de investigación «Tradiciones discursivas, tradiciones idiomáticas y unidades de análisis del discurso en la historia del español moderno» (FFI201451826-P). Agradezco a Araceli López Serena los comentarios hechos al borrador de este trabajo. 2 Vienen, quizá, aquí al caso las palabras de García Yebra (1982 [1989], 329): «nunca ha tenido entre nosotros la traducción el aprecio que goza en otros países, señaladamente en Alemania». Santiago del Rey Quesada: Fundación Alexander von Humboldt/Ludwig-Maximilians-Universität München

Traducción y tradición en los corpus

41

ción considerados desde un enfoque meramente lingüístico, tanto en un sentido amplio, abarcador, como concreto, referido a casos particulares y a subdisciplinas específicas (cf. Albrecht 2005). Respecto de la relación que guarda la traducción con la historia de la lengua, los investigadores deberíamos reclamar una atención más profunda y meditada y dejar de contemplar el fenómeno de la traducción como un capítulo accesorio o un subapartado circunstancial en la descripción de las lenguas sincrónica o diacrónicamente consideradas. Muy al contrario, como apunta Albrecht (2003b, 1), la traducción o, más correctamente, la historia de la traducción está a punto de convertirse, si no lo ha hecho ya, en una subdisciplina dentro de la más abarcadora disciplina de la «historia de la lengua».3 Los procesos de elaboración y estandarización lingüísticas en las lenguas románicas están estrechamente relacionados con la actividad traductora desde sus orígenes. Las mismas reglas discursivas (cf. Koch 2008, 54; 1997, 45) que funcionan en el nivel histórico del lenguaje se conciben como pautas transferibles de lengua a lengua, con tal de que se dé una continuidad de diversa índole, ya sea formal o de contenido, o de ambos tipos, de acuerdo con el esquema representado en la figura 1 tomado de Kabatek (2003, 6)4. La idea de repetición inherente al

3 Tal vez una de las principales causas que han llevado a la dispersión o incluso a la indebida desatención por parte de los filólogos de los estudios traductológicos haya sido la dificultad de delimitación del concepto y de explicación satisfactoria del fenómeno. Preguntas como «¿Cuáles son los límites entre traducción, adaptación, exégesis, paráfrasis, etc.?» (en alemán, Übersetzung, Anpassung, Exegese, Bearbeitung, etc.) o «¿Cuáles son los límites de la traductibilidad?», «¿Cuál es la tarea del traductor?» no son en absoluto fáciles de responder. Por lo demás, la respuesta a estas preguntas varía según la época para la que estén formuladas. Por eso, una postura más o menos conservadora (cf. Albrecht 2003a, 47) como la de García Yebra (1982 [1989], I, 43), «[l]a regla de oro para toda traducción es, a mi juicio, decir todo lo que dice el original, no decir nada que el original no diga, y decirlo todo con la corrección y naturalidad que permita la lengua a la que se traduce» o una de base más semántica como la de Coseriu (1978 [1988], 299), «[d]ie Aufgabe der Übersetzung ist es nun, in sprachlicher Hinsicht, nicht die gleiche Bedeutung, sondern die gleiche Bezeichnung und den gleichen Sinn durch die Mittel (d. h. eigentlich durch die Bedeutungen) einer anderen Sprache wiederzugeben», son difícilmente aplicables a momentos históricos en que tales propósitos están subordinados a otros de diversa naturaleza, tanto lingüística (estilística, retórica, etc.) como extralingüística (contexto cultural, características del encargo de la obra traducida, etc.). Estos parámetros, familiares a los analistas del discurso, son frecuentemente obviados por parte de los teóricos de la traducción, muchas veces obcecados en la formulación de reglas aplicables a cualquier situación. 4 En este sentido, la continuidad de forma o de contenido motiva en la lengua de acogida de la tradición nuevos moldes lingüísticos y características textuales que redundan en la elaboración intensiva (cf. Koch/Oesterreicher 1990 [2007], 187). Kabatek (2003, 16) resume bien la idea de que el componente tradicional-discursivo de una lengua está íntimamente ligado al fenómeno de la traducción: «[p]arece que las tradiciones discursivas no son más que textos, enunciados concretos

42

Santiago del Rey Quesada

concepto de continuidad conforma la base definitoria que subyace al término tradición discursiva (TD)5, para cuya explicación el propio Kabatek (cf. n. 4) recurre al símil de la traducción por lo que respecta a los procesos de adopción de nuevas tradiciones en otras lenguas.

Figura 1: Tipos de tradiciones discursivas

Estas distintas clases de tradiciones resultan enormemente difíciles de discernir en corpus electrónicos al uso. Su reconocimiento, sin embargo, es fundamental si queremos entender el cambio lingüístico de una manera no falseada. Por todo ello, la relación entre traducción y corpus no está exenta de los problemas que se abordan en el siguiente apartado.

2 Lingüística de corpus y traducción: Corpus-based Translation Studies (CTS) La lingüística de corpus es entendida por sus teóricos como una disciplina «empírica», basada en textos «naturales» e interesada por el uso y los registros

con formas transferibles de lengua en lengua. Se podría decir que la adopción de nuevas tradiciones discursivas es simplemente una especie de traducción, procedimiento por excelencia de adopción de textos de otras culturas sin mayores consecuencias para la lengua. Sin embargo, [. . .] la introducción de nuevos contenidos y de nuevas formas textuales produce necesidades expresivas que llevan a la formación de nuevos elementos lingüísticos». 5 Para una revisión bibliográfica del concepto, cf. Del Rey (2015b, 47–60) y Vincis/Miotto (2016).

Traducción y tradición en los corpus

43

(cf. Biber/Conrad/Reppen 1998, 2, 4).6 Aunque no hay acuerdo absoluto acerca de si se trata de una teoría o de una metodología (cf. Parodi 2010, 14–15), lo cierto es que su asiento en corpus ha supuesto un avance incuestionable para las disciplinas lingüísticas anejas. La rentabilidad de los corpus en lingüística histórica, cada vez más y pese a las razonables reticencias que se han esgrimido, está fuera de toda duda (Enrique-Arias 2009a, 12). Especialmente los corpus históricos deben poder ofrecer datos ricos en material variacional que aporten información sobre el estilo y el género (cf. Baker 1995, 230), el dialecto y la extensión temporal de los diversos textos que los componen (Enrique-Arias 2009b, 272). Si la voluntad de estudio de la variación lingüística es claramente manifiesta por lo que respecta a la lingüística de corpus y en ella se pone de acuerdo la gran mayoría de los teóricos de la disciplina, el acuerdo no es tan unánime cuando se trata de la discusión sobre lo que es un corpus. Prototípicamente, la lingüística de corpus trabaja con colecciones de textos digitalizadas y sometidas a procesos de marcación informática que permita búsquedas de palabras y combinaciones sintagmáticas, a veces con un elevado grado de sofisticación (cf. Kennedy 1998, 3). En cualquier caso, numerosos autores (cf. Parodi 2010, 25–26; Biber/Conrad/Reppen 1998, 12), aun considerando más representativos y explotables los corpus electrónicos, ofrecen una definición más abarcadora de corpus como un conjunto de textos que comparten ciertos rasgos. En el ámbito de la traductología, aunque desde hace algunos años se han creado corpus electrónicos que incorporan ad hoc textos traducidos, la noción de corpus ha diferido de la habitual en la lingüística de corpus. Para uno de los teóricos de la traducción más reconocidos, Gideon

6 Aunque pretendidamente empírica, la lingüística de corpus dista de ser tal en sentido estricto, es decir, en el sentido en que es empírico el estudio de los objetos de las ciencias naturales. Es cierto que, como apunta Kabatek (2013, 5), «la lingüística se está volviendo una de las disciplinas de las humanidades de más éxito precisamente por su cercanía a las ciencias naturales, por el simple hecho de que el lenguaje humano es un fenómeno también natural. Pero lo que tiene éxito es sobre todo la lingüística que imita o adopta los modelos de las ciencias naturales, y hay que preguntarse si esto corresponde realmente al objeto de estudio en cuestión». Sin duda la connotación positiva del adjetivo empírico (cf. López Serena 2011, 428) motiva su a veces excesivo empleo en los estudios lingüísticos, en una manifestación del «innecesario complejo de inferioridad de los lingüistas frente a las ciencias llamadas ‹exactas›» (Kabatek 2013, 13). Frente a los que intentan trazar a toda costa paralelismos entre las ciencias naturales y las ciencias sociales, Kabatek (2014, 711) arguye que «[e]s falso [. . .] suponer que las hipótesis en ciencias naturales son iguales que en la investigación lingüística y es un profundo error pensar que el experimento o el análisis cuantitativo funciona de la misma manera en las ciencias naturales y en las ciencias del hombre». Por ello, hablar de empirismo strictu sensu en lingüística es temerario, pues, incluso en la lingüística de corpus, pese a quien le pese, es necesaria (o inevitable) la intuición, que constituye un «acto epistémico completamente opuesto a la observación propia de lo empírico» (López Serena 2011, 438). Cf. asimismo López Serena (2014b, 733).

44

Santiago del Rey Quesada

Toury, un corpus puede constituirlo un compendio de textos manualmente reunidos y analizados de acuerdo con unos criterios específicos (Laviosa 2002, 12–13). Baker (1995, 225) reacciona contra esta idea más difusa de corpus típica de los estudios traductológicos y apunta que, en los últimos tiempos, los corpus han ido incorporando ciertas características definitorias que los restringen y los particularizan como objetos lingüísticos: a) son conjuntos de textos informatizados y susceptibles de ser analizados automática o semiautomáticamente; b) los corpus no se limitan a textos escritos sino que incluyen manifestaciones orales efectivas, y c) los corpus incluyen un extenso número de textos provenientes de diversas fuentes, producidos por multitud de escritores y/o hablantes y referidos a múltiples temas. Según la autora, la característica determinante a la que debe responder un corpus es la de ser representativo de una determinada área o tipo lingüístico. Así, elabora una definición de corpus en los siguientes términos: I intend to use corpus to mean any collection of running texts (as opposed to examples/ sentences), held in electronic form and analysable automatically or semi-automatically (rather than manually) (Baker 1995, 226).

Partiendo de este concepto de corpus, Mona Baker inaugura en 1993 una corriente de estudios sobre traducción que va a alcanzar gran éxito en los años siguientes: los CTS. Interesada por la lingüística de corpus, la investigadora se queja de la escasa atención prestada por los lingüistas de corpus hacia los textos traducidos. Esa falta de atención se sustentaba, según la autora, en un prejuicio que justificaba para algunos especialistas la exclusión sistemática de los textos traducidos de los estudios científicos sobre una lengua dada, en tanto que las traducciones serían textos «de segunda mano»:7 Given that translated texts play such an important role in shaping our experience of life and our view of the world, it is difficult to understand why translation has traditionally been viewed as a second-rate activity, not worthy of serious academic enquiry, and why translated texts have been regarded as no more than second-hand and distorted versions of ‘real’ texts (Baker 1993, 233).

Aunque en la actualidad han sido ampliamente explotados en disciplinas como la enseñanza de L2 o la lexicología (cf. Laviosa 2002, 3; Baker 1995, 224; Corpas

7 Cf. también Baker (1996, 175, 176; 1998, 5). Chesterman (2004, 36–37) entiende esta marginación del texto traducido como una manifestación de la «ruta peyorativa», una de las sendas a las que conduce el intento de generalización teórica acerca de la traducción. Por su parte, Olohan (2002, 419) descubre la escasa consideración mostrada a los textos traducidos por parte de la lingüística de corpus a partir del hecho de que estos no han sido incorporados a varios corpus de referencia, como el British National Corpus.

Traducción y tradición en los corpus

45

2008), los CTS nacen de la mano de otra corriente de estudios en traductología asociada por antonomasia a Gideon Toury: los Descriptive Translation Studies (DTS). Esta disciplina abanderaba dos ideas fundamentales que son asumidas por los CTS: a) las traducciones son hechos que pertenecen a la cultura meta y que pueden incluso constituir (sub)sistemas propios (cf. Toury 1995, 29) y b) las traducciones son textos de pleno derecho, no solo representaciones o manifestaciones de otros textos. Alejándose de las vías prescriptiva y peyorativa que habían dominado desde hacía siglos los estudios y reflexiones sobre la traducción (cf. Chesterman 2004), los DTS abogan por una rama descriptiva que permita dotar a los investigadores de planteamientos teóricos y metodologías en las que enmarcar las hipótesis de trabajo. Estas hipótesis parten de descripciones empíricas de las que se deducen comportamientos y reglas. El establecimiento de estas últimas recibirá a partir de los 90 un espaldarazo crucial con los CTS, pues a partir de entonces las hipótesis pretenden ser corroboradas con datos cuantitativos. Por supuesto, los CTS no significan una mera continuación, con cambio de procedimientos metodológicos, de los DTS. Existen diferencias sobresalientes entre ambas corrientes de estudio. La imbricación de los CTS con la lingüística de corpus provoca que, en numerosos casos, los aspectos extralingüísticos sean desatendidos del análisis, algo que no ocurre en los DTS, en los que, por lo demás, la recurrencia a la intuición como herramienta heurística no está descartada.8 Por lo demás, como destaca Laviosa (2002, 17), para Toury el objetivo último de los DTS es la formulación de una teoría general basada en la acumulación de hechos y teorías parciales, mientras que la lingüística de corpus acepta las elaboraciones teóricas parciales como válidas per se, en tanto que reflejan la heterogeneidad y el dinamismo del uso lingüístico, o de las diferentes manifestaciones de la traducción, en el caso de los CTS. Para la reivindicación del texto traducido, los CTS se basan principalmente en la conocida como teoría polisistémica, de raigambre literaria, formulada por Even-

8 La legitimidad de la intuición como herramienta en la descripción lingüística, también en lingüística histórica, es defendida por autores como Kabatek (2014). El objeto de la lingüística, la lengua, incorpora una serie de características que lo diferencian del abordado por otras ciencias: «los experimentos lingüísticos nunca se hacen investigando un objeto desconocido; los experimentos se diseñan desde el conocimiento del hablante-participante y sirven para confirmar o rechazar algo que el hablante-participante juzga como cuestión relevante desde su postura empática» (Kabatek 2014, 711). Sobre todo en lingüística histórica, aunque con el tiempo el término ha adquirido connotaciones peyorativas, la intuición ha funcionado, más implícita que explícitamente, como forma de conocimiento respaldada por los investigadores (cf. López Serena 2014a, 691–692). En cualquier caso, se trata de una actividad cognoscitiva radicalmente diferente a la de la observación, propia de las ciencias naturales (cf. n. 6 y López Serena 2014b, 733).

46

Santiago del Rey Quesada

Zohar (1978) al final de los años setenta. De acuerdo con este autor, la literatura traducida es contemplada como un sistema de pleno derecho que interactúa con sus co-sistemas y con polisistemas literarios de otras culturas. De esta manera, como señala Baker (ibid.), se cambió la tendencia de prestar atención a las traducciones literarias individuales para estudiar un mayor número de traducciones de manera que pudieran establecerse sus características sistemáticas. Al conceder estatus propio a la literatura de traducción, la teoría polisistémica reconocía a los textos traducidos la capacidad de influir en la configuración literaria y lingüística de la cultura meta. Se destacaba también que la traducción es una actividad creativa más que derivativa y postulaba la idea de que existen normas entendidas como elecciones sistemáticas tomadas por el traductor en un momento determinado de la historia y en una cultura dada (Laviosa 2002, 20). Las posibilidades de estudio variacional que ofrecía este marco teórico no han sido suficientemente explotadas por los CTS, especialmente interesados por el estudio y establecimiento de los universales de traducción.9 Varios investigadores, como Chesterman (2004, 46), han puesto de manifiesto el avance metodológico que han representado los CTS. Ello se percibe en los numerosos corpus creados desde hace dos décadas que incorporan total o parcialmente textos traducidos o que, sin contenerlos, se consideran herramientas de trabajo útiles para el traductor en virtud de su vocación comparativa interlingüística —cf. §2.2—. Esta clase de corpus, basados en textos literarios y no literarios contemporáneos, posee, según sus creadores e investigadores, características específicas que los diferencian de corpus monolingües al uso. Mona Baker (1995, 229s.) distingue tres tipos de corpus que habría que tener en cuenta en los CTS y que describimos en los siguientes subapartados.10

9 En efecto, la mayoría de los trabajos adscribibles a la nueva disciplina traductológica se empeña en asumir consideraciones de tipo cognoscitivo más que descriptivo o empírico. Desde este punto de vista abstracto, la traducción se entiende como un tercer código (Frawley 1984) que «est une forme de communication unique, et non [. . .] une forme de communication fautive, déviante ou non conforme à la norme» (Baker 1998, 3); «le code (ou la langue) qui évolue pendant la traduction, et dans lequel le texte cible est rédigé, serait unique. Il s’agit d’un compromis entre les normes ou structures de la langue source et ceux de la langue cible» (ibid, 3). Este tercer código se convierte en una hipótesis explicativa muy rentable para la postulación de supuestas leyes y reglas universales de la traducción, tales como la de estandarización creciente, la de interferencia, la de nivelación, la de explicitación o la de simplificación (cf. Del Rey 2015a). 10 Una tipología de corpus más exhaustiva puede leerse en Laviosa (2002, 34–38).

Traducción y tradición en los corpus

47

2.1 Corpus paralelo Un corpus paralelo consiste en el original —textos de la lengua fuente (LF) o lengua A— y sus versiones traducidas en lengua B. Dice Baker que este tipo de corpus es el que relacionamos por antonomasia con los estudios traductológicos y que, en este contexto, ha servido para operar el cambio de perspectiva desde la prescripción hacia la descripción. Aunque Baker no hace alusión a ningún corpus histórico de este tipo, en España disponemos del corpus Biblia Medieval [BM] que, gracias a su condición de paralelo, ofrece ciertas ventajas al investigador que no se observan en los corpus monolingües tradicionales.11 Por ejemplo, en un corpus histórico paralelo el reconocimiento de errores en los testimonios traducidos de que disponemos es más sencillo (cf. Enrique-Arias 2009b, 277–278), pues se cuenta con el texto original para comprobar si una lectura es certera o equivocada (por supuesto, cuestiones de crítica textual entran también aquí en juego). En el siguiente ejemplo extraído de un corpus12 de traducciones renacentistas de los Colloquia erasmianos (corpus que, aunque no ofrece datos estadísticos, sí permite búsquedas sencillas), observamos cómo el empleo de conjunciones difiere según los

11 Véase también Enrique-Arias, en este volumen. 12 El corpus se compone de ocho traducciones diferentes de tres Colloquia erasmianos: el Uxor mempsigamos, el Senile y el Pietas puerilis. Para su referencia en los ejemplos que se incorporan en este artículo me baso en la numeración que de los testimonios impresos entre 1528 y 1529 establece Bataillon (1966 [2007], LII–LIII). De esta forma, «Bat. 479» quiere decir que el ejemplo proviene del documento que Bataillon identificó con esa numeración; «lín.» indica la línea o las líneas del ejemplo en cuestión, y «f.» el folio («r» = recto, «v» = vuelto). De los tres coloquios analizados, se comparan, como he advertido, ocho traducciones diferentes: cuatro del Uxor mempsigamos, dos del Senile y dos del Pietas puerilis. Mientras que «[Bat. 474]» siempre se refiere a la versión de Morejón del Uxor mempsigamos y «[Luj]» a la de Pedro de Luján, Coloquios matrimoniales, 1550 —la versión más tardía de las que constituyen el corpus—, «[Bat. 479]» puede referirse a) a la traducción del Uxor mempsigamos debida al corrector anónimo de Morejón, b) a una de las traducciones anónimas del Senile y c) a la traducción anónima del Pietas puerilis, pues todas ellas se hallan en el mismo documento impreso. Por su parte, el testimonio de [Bat. 478] integra a) la traducción de Virués del Uxor mempsigamos, b) la traducción del mismo autor del Pietas puerilis y c) la otra traducción anónima del Senile. Pese a esta coincidencia en la identificación de las traducciones, no cabe la posibilidad de que el lector ignore a qué coloquio se refiere un determinado ejemplo, pues todos ellos comienzan con el segmento original del que derivan las versiones y en el que se indica cuál es el coloquio del que se toma el ejemplo, de acuerdo con las abreviaturas Um = Uxor mempsigamos, Sen = Senile o Pp = Pietas puerilis, junto con la línea y la página del que se extrae el fragmento según la edición crítica de Léon-E. Halkin, Franz Bierlaire y René Hoven (edd.) (1972). Para el texto de Luján reproduzco fragmentos correspondientes a una copia de 1589 hecha en Zaragoza y conservada en el Fondo Antiguo de la Biblioteca de la Universidad de Sevilla.

48

Santiago del Rey Quesada

traductores y cómo es fácil determinar cuál es la interpretación errónea de acuerdo con el original latino: (1)

E. Quod si quando commotior erat, aut blando sermone leniebam aut silentio concedebam iracundiae, donec ea refigerata, tempus se daret vel purgandi, vel admonendi [Um, lín. 146–148, p. 305]. ―E. Y quando le via mas fuera de razon: alagauale con blandas palabras: o con callar daua lugar asu yra: haunque aquella amansada: ouiesse tiempo de corregirle: o de amonestarle [Bat. 474, lín. 18–21, f. a5r]. ―E. y quando lo via masfuera de razon, alagaua lo con blandas palabras: o con callar daua lugar a su yra :hasta que aquella amansada ouiesse tiempo de corregirlo:o de amonestar lo [Bat. 479, lín. 4–7, f. CIXv]. ―O. Si alguna vez via que estaua enojado o con blandas palabras le amansaua/o callando sufria/todo lo que me dezia/hasta que viendole mas manso hallaua tiempo de satisfazelle o de dezille mi parecer [Bat. 478, lín. 16–20, f. g6r].

Otra ventaja de los corpus paralelos, ya sean de índole sincrónica o diacrónica, es que su metodología resulta «más abierta, pues permite analizar cualquier forma de expresar un contenido en la lengua fuente» (Enrique-Arias 2009b, 276). Esto redunda en la posibilidad de proceder onomasiológicamente en los análisis, lo que supone una diferencia fundamental respecto de los trabajos sustentados en corpus monolingües, principalmente de vocación semasiológica (cf. Del Rey 2010). Así se puede constatar cómo los resultados de una determinada partícula discursiva en la lengua de origen se plasman en diferentes realizaciones idiomáticas en versiones diferentes, algo que sin duda supone una gran ventaja a la hora de estudiar fenómenos como la cohesión del discurso, las relaciones interoracionales, la modalización, etc. Un fragmento de nuestro corpus puede servir para ejemplificar este último aspecto: (2)

Po: Post rescitum est meae Gallae Gallum esse maritum, vnde pridem se subduxerat. E: Ergo nunc habes vxorem? [Sen, lín. 220–222, p. 381] ―Po: Despues vino a oydos de mi gallina que el gallo era ya marido de aquella de quiense auia apartado. E: Luego agora mugertienes? [Bat. 479, lín. 10–13, f. XXIIIv] ―Po: Despues se descubrio que mi francesa estaua casada con vn frances/ alla en su tierra. E: Segun esso muger tienes ahora [Bat. 478, lín. 11–13, f. x8r].

Traducción y tradición en los corpus

49

2.2 Corpus multilingüe Un corpus multilingüe está conformado por un conjunto de corpus monolingües en distintas lenguas elaborado según criterios de diseño semejantes. Como se puede colegir de esta caracterización, los corpus multilingües no incorporan textos traducidos, sino que sirven para ayudar en su formación al intérprete al ofrecer un marco comparativo idóneo entre tipos de textos similares. Estos corpus permiten investigar el cotexto de determinadas unidades léxicas en las distintas lenguas y establecer características que se perfilan en el contorno de aparición de los diversos ítems. Sin embargo, los corpus multilingües no satisfacen los intereses teóricos fundamentales de los CTS que, según Baker, se orientan a explicar el fenómeno de la traducción per se.

2.3 Corpus comparable Este tipo de corpus es propuesta pionera de Mona Baker. Responde a la necesidad enunciada por la autora de «effect a shift in the focus of theoretical research in the discipline, a shift away from comparing either ST [source text] with TT [target text] or language A with language B to comparing text production per se with translation» (Baker 1995, 233). Los corpus comparables consisten en dos colecciones separadas de textos en la misma lengua: un corpus de textos originales en la lengua en cuestión y otro que integra traducciones en esa lengua desde una(s) lengua(s) dada(s). Además Baker (ibid: 234) advierte de que estos corpus deben cubrir un dominio, variedad de lengua y período de tiempo similares, así como de que los dos subcorpus deben poseer una longitud parecida y de que estos deben ser representativos por lo que se refiere al rango de los autores de textos originales y a los traductores. Suponemos que con esto se refiere a la pericia de los intérpretes (¿pero qué hay de los diferentes estilos?) y a la valoración que se les da a diferentes autores literarios. Para Baker, la principal contribución de este tipo de corpus es la de identificar pautas específicas de los textos traducidos, independientemente de cuál sea la lengua de origen de cada texto. El interés, pues, reside en el proceso de traducción en sí, como actividad cognitiva que se refleja en la selección de determinadas estrategias compartidas entre distintos sistemas lingüísticos. Estas estrategias son manifestaciones de tendencias que diferencian los textos traducidos de los no traducidos. Dada su orientación a la indagación teórica, Baker señala que los corpus comparables tienen escasa aplicación en la pedagogía y en la formación de traductores. Pero, desde la propia perspectiva teórica, cabe preguntarse qué entiende Baker por que los corpus deben pertenecer a un «similar domain, variety

50

Santiago del Rey Quesada

of language», pues muchos de los corpus comparables que han sido reunidos con posterioridad han obviado las diferencias entre géneros y clases textuales, de tal forma que muchos corpus comparables inventariarían textos muy heterogéneos. A esta reticencia apunta Kenny (1998, 53) cuando alude a un aspecto crucial en el devenir histórico de las lenguas en contacto con otras: el de que los nuevos géneros se trasvasan de una literatura a otra en virtud de la actividad traductora, de manera que puede no haber nada «comparable» en la literatura receptora con un texto introducido en ella a partir de la traducción desde otra tradición textual previamente inexistente (por ejemplo, en gaélico existen numerosos tipos textuales —no literarios— que solo existen en la lengua como traducciones, fundamentalmente del inglés). En la actualidad, hasta donde mis conocimientos alcanzan, no existen corpus diacrónicos comparables, y sin duda su existencia contribuiría a perfilar más integralmente las supuestas características que comparten los textos traducidos de una lengua frente a los originales. Los corpus diacrónicos que conocemos incorporan sin duda material traducido, pero si lo hacen, sobre todo en épocas como la medieval, no es más que porque la cultura literaria de las lenguas romances no se forja sino por emulación y tutela de la lengua latina (y, eventualmente, sobre todo en épocas más tardías, también de lenguas de territorios vecinos). Para elaborar un corpus comparable del español, por ejemplo, quizás «bastaría» con cribar aún más la naturaleza de las obras y textos incorporados, aunque eso sin duda conduciría a un laberinto de difícil salida: el de determinar qué es literatura traducida y qué literatura recreada, adaptada, etc. En cualquier caso, sin duda para los historiadores de la lengua sería de gran utilidad la creación y desarrollo de corpus paralelos y comparables en distintas lenguas.

3 Reticencias a la teoría y métodos de los CTS Aparte de las reservas que pueden ponérseles a los distintos tipos de corpus, los CTS han recibido también variadas objeciones por parte de los analistas y teóricos de la traducción. Una de las principales es la que se refiere a que seguramente existen características de los textos traducidos que no pueden ser rastreadas según el procedimiento de concordancias informáticas (KWIC = Key Words in Context), en el sentido de que estas no ofrecen suficiente contexto lingüístico como para investigar cuestiones que afectan a textos completos o a la semántica textual como las estrategias de expresión de información, ideas y conceptos (Laviosa 2002, 28; cf. también Kenny 1998, 53). Las características lingüísticas que particularizan a las traducciones, por lo demás, no son independientes de las tradiciones discursivas que participan en el intercambio lingüístico ni de factores

Traducción y tradición en los corpus

51

extralingüísticos como los que atañen al proceso de edición y/o de transmisión textual en que se ve envuelta la versión heterolingüística de cualquier texto (sobre todo, una vez más, en épocas pretéritas) (cf. Olohan 2002, 425). Otro problema que comparten los CTS y la lingüística de corpus es el de la representatividad de estos. Puesto que es imposible estudiar todos los textos traducidos,13 siempre deberemos conformarnos con muestras más o menos representativas (cf. Chesterman 2004, 42). Pero, ¿representativas de qué? A partir de la lingüística de corpus, la idea de representatividad viene asociada a la de extensión, de manera que cuanto más extenso es un corpus más representativo parece ser de esa lengua.14 Visto así, esta concepción anula igualmente la naturaleza cambiante y poliédrica de las lenguas históricas que comprenden un espacio variacional propio. El prejuicio de la extensión15 de los corpus es contradicho por muchos teóricos que no lo consideran un factor determinante y absolutamente válido en los estudios sobre traducción. Así, un investigador como Kock (1997, 292, apud Corpas/Seghiri 2008, 12) afirma que «no es necesario disponer de corpus tan amplios si estos son homogéneos en cuanto al registro de lengua, el área geográfica y la época». Efectivamente, no sería justo decir que un corpus como el de Biblia Medieval [BM] no es un corpus representativo16 por el hecho de que se limita a versiones bíblicas (cf. Enrique-Arias 2009b, 278–280). Más allá de la influencia que estas versiones y, en general, los textos bíblicos ejercieron en la configuración del castellano antiguo, es indudable que ese corpus es representativo de un tipo de lengua determinado y es sumamente útil y apropiado para tomarlo como marco de referencia, también cuantitativa, del estudio de la lengua elaborada medieval. Es decir, hay que desterrar el prejuicio según el cual la lengua (pre)existe como entidad independiente a los textos a manera de absoluto que sirve de tertium comparationis ilusorio para cualquier estudio textual, prejuicio que lleva a formulaciones del tipo La lengua de X autor no es representativa de la lengua de X época o la tradición discursiva X presenta características que se alejan de la lengua típica de X siglo/comunidad.17 La lengua 13 «Un corpus es sólo una colección finita de un universo infinito» (Parodi 2010, 24). 14 Algunos autores, como Francis (1992, citado por Laviosa 2002, 6), se refieren también a dialectos y tipos de lengua, incorporando así en la definición de corpus aspectos variacionales: «[a corpus is] a collection of texts assumed to be representative of a given language, dialect or other subset of a language, to be used for linguistics analysis». 15 Notado, entre otros, por Davies (2009, 137). 16 Al concepto de representatividad, muchas veces determinado en la reflexión científica sobre las lenguas por el elenco de autores y/o géneros canonizados en las distintas épocas del idioma, se refiere también Lola Pons (2006). 17 El mismo Enrique-Arias (2009b, 280) parece caer en este prejuicio cuando escribe que «[h]oy día no consideraríamos que las traducciones bíblicas en una lengua constituyen un corpus

52

Santiago del Rey Quesada

es un conjunto de variedades,18 y cada una de estas, por poco extendidas que estén o aparentemente marginales que sean, es digna de consideración y estudio. Llevar hasta sus últimas consecuencias las determinaciones variacionales de todo tipo de textos, incluidos los traducidos, conduciría a una senda ingrata a los CTS: la de la imposibilidad de admitir la existencia de universales de la traducción.

4 Conclusión Los corpus han permitido la aducción de datos cuantitativos que se consideran prueba irrefutable de la constatación de tendencias susceptibles de ser postuladas como leyes. Así, desde Baker (1993, 1995, 1996) y Toury (1995), numerosos autores han hablado de universales como los de normalización, explicitación y simplificación, que se cumplirían en todas las leguas independientemente de la naturaleza de la lengua fuente (cf. Del Rey 2015a). Para que esto pueda ser posible, los CTS parten del convencimiento de que las traducciones son textos de una índole particular que reflejan, por un lado, los complejos procesos cognitivos y los contextos sociales particulares en que nacieron, pero que, por otro, comparten características que los distinguen de otros tipos de textos (Mauranen 2008, 45). Cabe preguntarse hasta qué punto una lingüística de la variación es compatible con una concepción universalista de las tendencias traductoras. Los condicionamientos variacionales que influyen a la hora del proceso traductor han

representativo de la lengua en cuestión». Cabría apuntar que ningún corpus, por extenso que sea, es representativo de todas las manifestaciones posibles de una lengua, pues siempre habrá factores históricos y variacionales que no sean tenidos en cuenta en la composición del corpus: o, como apunta Kabatek (2013, 1), «un corpus representativo para la historia de una lengua es una construcción teóricamente imposible ya que la lengua, aunque solo se manifieste en textos, no es la suma de los textos sino algo distinto». En parte este contraargumento al primer enunciado de Enrique-Arias se verbaliza en la continuación del párrafo del autor (ibid.): «[p]ero también es cierto que cualquier análisis lingüístico se basa en ejemplos concretos obtenidos de textos concretos (texto aquí incluye interacciones orales) lo que siempre nos deja con la duda de si los ejemplos son representativos de la lengua en conjunto o solamente de las tipologías textuales en que se insertan». En fin, estamos de acuerdo con Kabatek (2013, 19) cuando afirma que «no existe representatividad cuantitativa de un corpus, lo que (teóricamente) podría existir es una cierta representatividad cualitativa: un corpus con (casi) toda la gama de posibilidades de una lengua en un momento dado». 18 O, como quiere Kabatek (2013, 9), una «lengua histórica no es un sistema sino un conjunto de sistemas».

Traducción y tradición en los corpus

53

hecho que algunos investigadores, en clave sarcástica, pongan en duda la validez de las conclusiones extraídas de corpus de textos traducidos cuando el papel del traductor en el proceso es tan determinante, así como incluso el estado fisiológico en que este emprende su labor interpretativa: Of course, any particular translation will contain a number of idiosyncrasies and the translator in trying to get the best overall translation may have to make compromises […] in order to get the best overall result. The translator has to strive for an optimal solution for a translation in the face of competing pressures. The way in which a work is translated in a particular instance will depend on a number of factors, including the form of the previous discourse and other contextual influences, including perhaps how much wine the translator had at lunch time (Barlow 2000, 110–111, apud Olohan 2002, 420).

El factor temporal, con las constricciones retórico-estilísticas e ideológicas que el hecho traductor conlleva, la variación según registros y géneros, la idiosincrasia, pericia y estilo personal del traductor, son, en efecto, coordenadas que deben ser tenidas muy en cuenta y que desvirtúan sensiblemente la regularidad de la actividad traductora en diversas épocas. El establecimiento de universales entendidos en sentido laxo sí puede ser rentable explicativamente, y, de hecho, se perciben ciertas tendencias también en la historia de la lengua, aunque no sean absolutamente determinantes19 (cf. Del Rey 2015a). Sí habría que insistir en la necesidad de abandonar una postura teóricamente estrecha, en el sentido de que en la actualidad los universales se establecen sin tener en consideración las reglas idiomáticas y las reglas discursivas que afectan tanto a la lengua fuente como a la lengua meta. Tener en cuenta estas reglas exigiría, además, un cambio terminológico: no podríamos llamar universales a lo que son tendencias en la actividad traductora más o menos extendidas, pues se trata en cualquier caso de tendencias históricamente determinadas o normas. Por ello, no concibo en absoluto regularidades que se den en los textos traducidos independientemente de la tradicionalidad de esos mismos textos —es decir, los textos de una época, de una TD, de una corriente ideológica se parecen entre sí, aun cuando, incluso dentro de un contexto más o menos homogéneo, habría que contar con la originalidad y personalidad de traductores individualizadamente—. Por último, pese a la dificultad que este reto representa para los historiadores de la lengua, sería necesario contribuir a aumentar el número de corpus basados en traducciones, ya sean paralelos, como el corpus Biblia Medieval [BM], o

19 La rentabilidad del concepto de universal puede derivar, sin embargo, en contradicción intrínseca si se pretende combinar en él aspectos lingüísticos efectivamente universales y a su vez otros tradicionales o normativos en el sentido coseriano.

54

Santiago del Rey Quesada

comparables, todavía inexistentes, al menos hasta donde yo sé. Naturalmente la existencia de estos corpus no confirmará ni desmentirá de manera tajante la existencia de leyes universales en traducción pero quizá nos permitirá trazar similitud de comportamientos lingüísticos en traducción delimitando coordenadas de tiempo, registro, género, etc. Solo los estudios que tengan en cuenta de manera explícita y sistemática estos factores variacionales podrán aportar luz sobre la naturaleza del texto traducido respecto del texto original y de otros textos originales en la misma lengua.

5 Referencias bibliográficas Albrecht, Jörn, Die Berücksichtigung des Faktors ,Übersetzung‘ in der Sprachgeschichtsschreibung, in: Gil, Alberto/Schmitt, Christian (edd.), Aufgaben und Perspektiven der romanischen Sprachgeschichte im dritten Jahrtausend, Bonn, Romanistischer Verlag, 2003, 1–37 (= 2003a). Albrecht, Jörn, Können Diskurstraditionen auf dem Wege der Übersetzung Sprachwandel auslösen?, in: Aschenberg, Heidi/Wilhelm, Raymund (edd.), Romanische Sprachgeschichte und Diskurstraditionen. Akten der gleichnamigen Sektion des XXVII. Deutschen Romanistentags, Tübingen, Narr, 2003, 37–52 (= 2003b). Albrecht, Jörn, Übersetzung und Linguistik, Tübingen, Narr, 2005. Baker, Mona, Corpus Linguistics and Translation Studies – Implications and Applications, in: Baker, Mona/Francis, Gill/Tognini-Bonelli, Elena (edd.), Text and Technology: In Honour of John Sinclair, Amsterdam/Philadelphia, John Benjamins, 1993, 233–250. Baker, Mona, Corpora in Translation Studies: an Overview and Some Suggestions for Future Research, Target 7:2 (1995), 223–243. Baker, Mona, Corpus-based Translation Studies: The Challenges that Lie Ahead, in: Somers, Harold (ed.), Terminology, LSP and Translation. Studies in Language Engineering in Honour of Juan C. Sager, Amsterdam/Philadelphia, John Benjamins, 1996, 175–186. Baker, Mona, Réexplorer la langue de la traduction: une approche par corpus, Meta: journal des traducteurs 43:4 (1998), 480–485. Baker, Mona (ed.), Routledge Encyclopedia of Translation Studies, London/New York, Routledge, 1998. Barlow, Michael, Parallel texts in language teaching, in: P. Botley, Simon/McEnery, Tony/Wilson, Andrew (edd.), Multilingual Corpora in Teaching and Research, Amsterdam/Atlanta, Rodopi, 2000, 106–115. Bataillon, Marcel, Erasmo y España, Traducción de Antonio Alatorre, México, D.F., Fondo de Cultura Económica, 11966 [12007]. Biber, Douglas/Conrad, Susan/Reppen, Randi, Corpus Linguistics. Investigating Language Structure and Use, Cambridge, Cambridge University Press, 1998. BM – Corpus Biblia Medieval [en línea] . Chesterman, Andrew, Beyond the Particular, in: Mauranen, Anna/Kujamäki, Pekka (edd.), Translation Universals: Do They Exist?, Amsterdam, John Benjamins, 2004, 33–49. Corpas Pastor, Gloria, Investigar con corpus en traducción: los retos de un nuevo paradigma, Frankfurt am Main, Peter Lang (Band 49), 2008.

Traducción y tradición en los corpus

55

Corpas Pastor, Gloria/Seghiri Domínguez, Míriam, El concepto de representatividad en lingüística de corpus: aproximaciones teóricas y consecuencias para la traducción, Málaga, Servicio de Publicaciones de la Universidad de Málaga, 2008. Coseriu, Eugenio, Falsche und richtige Fragestellungen in der Übersetzungstheorie, in: Albrecht, Jörn, et al. (edd.), Energeia und Ergon. Sprachliche Variation – Sprachgeschichte – Sprachtypologie, 1, Tübingen, Narr, 1978 [1988], 295–309. Davies, Mark, Creating Useful Historical Corpora: a Comparison of CORDE, the Corpus del Español, and the Corpus du Português, in: Enrique-Arias, Andrés (ed.), 2009, 137–166. Del Rey Quesada, Santiago, El estudio histórico de los marcadores del discurso: ¿un problema de perspectiva?, Revista de Historia de la Lengua Española 5 (2010), 105–128. Del Rey Quesada, Santiago, Universales de la traducción e historia de la lengua: algunas reflexiones a propósito de las versiones castellanas de los Colloquia de Erasmo, Iberoromania 81 (2015), 83–102 (= 2015a). Del Rey Quesada, Santiago, Diálogo y traducción. Los Coloquios erasmianos en la Castilla del s. XVI, Tübingen, Narr, 2015 (= 2015b). Enrique-Arias, Andrés, Introducción. Lingüística de corpus y diacronía de las lenguas iberorrománicas, in: Enrique-Arias, Andrés (ed.), Diacronía de las lenguas iberorrománicas: nuevas aportaciones desde la lingüística de corpus, Madrid/Frankfurt am Main, Iberoamericana/ Vervuert, 2009, 11–21 (= 2009a). Enrique-Arias, Andrés, Ventajas e inconvenientes del uso de Biblia Medieval (un corpus paralelo y alineado de textos bíblicos) para la investigación en lingüística histórica del español, in: Enrique-Arias, Andrés (ed.), Diacronía de las lenguas iberorrománicas: nuevas aportaciones desde la lingüística de corpus, Madrid/Frankfurt am Main, Iberoamericana/Vervuert, 2009, 269–283 (= 2009b). Enrique-Arias, Andrés (ed.), Diacronía de las lenguas iberorrománicas: nuevas aportaciones desde la lingüística de corpus, Madrid/Frankfurt am Main, Iberoamericana/Vervuert, 2009 (= 2009c). Even-Zohar, Itmar, The Position of Translated Literature within the Literary Polysystem, in: Holmes, James S./Lambert, José/van den Broeck, Raymond (edd.), Literature and Translation, 1, Leuven, ACCO, 1978, 17–27. Francis, Nelson W., Language corpora B.C., in: Svartvik, Jan (ed.), Directions in Corpus Linguistics, Berlin/New York, De Gruyter, 1992, 17–32. Frawley, William, Prolegomenon to a Theory of Translation, in: Frawley, William (ed.), Translation: Literary, Linguistic, and Philosophical Perspectives, London/Toronto, Associated University Presses, 1984, 159–175. García Yebra, Valentín, Teoría y práctica de la traducción, Madrid, Gredos, 11982 [11989]. Halkin, Léon-E./Bierlaire, Franz/Hoven, René (edd.), Opera omnia Desiderii Erasmi Roterodami, Ordinis primi tomus tertius: Colloquia, Amsterdam, North-Holland Publishing Company, 1972. Kabatek, Johannes, Tradiciones discursivas y cambio lingüístico, 2003, [en línea] . Kabatek, Johannes, ¿Es posible una lingüística histórica basada en un corpus representativo?, Iberoromania 77 (2013), 8–28. Kabatek, Johannes, Lingüística empática, RILCE 30.3 (2014), 705–723. Kennedy, Graeme, An Introduction to Corpus Linguistics, London/New York, Longman, 1998. Kenny, Dorothy, Corpora in translation studies, in: Baker, Mona (ed.), Routledge Encyclopedia of Translation Studies, London/New York, Routledge, 1998, 50–53.

56

Santiago del Rey Quesada

Koch, Peter, Diskurstraditionen: zu ihrem sprachtheoretischen Status und ihrer Dynamik, in: Frank, Barbara/Haye, Thomas/Tophinke, Doris (edd.), Gattungen mittelalterlicher Schriftlichkeit, Tübingen, Narr, 1997, 43–79. Koch, Peter, Tradiciones discursivas y cambio lingüístico: el ejemplo del tratamiento vuestra merced en español, in: Kabatek, Johannes (ed.), Sintaxis histórica del español y cambio lingüístico: Nuevas perspectivas desde las Tradiciones Discursivas, Madrid/Frankfurt am Main, Iberoamericana/Vervuert, 2008, 53–87. Koch, Peter/Oesterreicher, Wulf, Lengua hablada en la Romania: español, francés, italiano. Versión española de Araceli López Serena, Madrid, Gredos, 11990 [12007]. Laviosa, Sara, Corpus-based Translation Studies: Theory, Findings, Applications, Amsterdam/ New York, Rodopi, 2002. López Serena, Araceli, ¿Es empírico el estudio de la (des)cortesía verbal? El estatus epistemológico de la lingüística de la (des)cortesía, in: Fuentes, Catalina/Alcaide, Esperanza/Brenes, Ester (edd.), Aproximaciones a la (des)cortesía verbal en español, Bern, Peter Lang, 2011, 425–442. López Serena, Araceli, Historia de la lengua e intuición. Presentación del volumen, RILCE 30:3 (2014), 691–704 (= 2014a). López Serena, Araceli, Selección natural, explicación racional y cambio lingüístico: Hacia una fundamentación epistemológica no evolucionista de la teoría de la gramaticalización, RILCE 30.3 (2014), 724–775 (= 2014b). Mauranen, Anna, Universal Tendencies in Translation, in: Gunilla/Rogers, Margaret (edd.), Incorporating Corpora: The Linguist and the Translator, Clevedon/Buffalo/Toronto, Multilingual Matters LTD, 2008, 32–48. Olohan, Maeve, Corpus Linguistics and Translation Studies: Interaction and Reaction, Linguistica Antverpiensia (2002), 419–429. Parodi, Giovanni, Lingüística de Corpus: de la teoría a la empiria, Madrid/Frankfurt am Main, Iberoamericana/Vervuert, 2010. Pons Rodríguez, Lola, Una reflexión sobre el cambio lingüístico en el siglo XV, in: Luque Durán, Juan de Dios (ed.), Actas del V Congreso Andaluz de Lingüística General. Homenaje a J.A. de Molina Redondo, Granada, Granada Lingvistica (Serie Collectae), III, 2006, 1563–1577. Schleiermacher, Friedrich, Sobre los diferentes métodos de traducir. Traducción y comentario de Valentín García Yebra, Madrid, Gredos, 11813 [12000]. Toury, Gideon, Descriptive Translations Studies and Beyond, Amsterdam, John Benjamins, 1995. Vincis, Valentina/Miotto, Carla, Algunas consideraciones en torno al concepto de tradiciones discursivas, in: Albertin, Chiara/Del Rey Quesada, Santiago (coords.), Hispanica Patavina. Estudios de historiografía e historia de la lengua española en homenaje a José Luis Rivarola, Padova, CLEUP, 2016, 199–215.

Álvaro S. Octavio de Toledo y Huerta

Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno (ca. 1675–1825) 1 El primer español moderno1 Empieza a abrirse paso la idea de que el español conoció una fase evolutiva con entidad propia entre el fin del periodo clásico y la época contemporánea,2 periodo que desde hace algunos años vengo denominando (en la línea de la periodización clásica de Lapesa y —como señala Girón 2008, 2248— «a falta de un nombre mejor») primer español moderno.3 Gracias a un conjunto creciente de

1 Este artículo se incluye entre los trabajos financiados por el proyecto de investigación «Procesos de Gramaticalización en la Historia del Español (ProGramEs) IV», de referencia FFI201231427. 2 Suele hacerse coincidir el límite del español clásico con las postrimerías del Siglo de Oro literario, esto es, con el lapso que media entre la muerte de Gracián en 1658 y la de Calderón en 1681 (cf. sobre todo Eberenz 1991, Girón 2004a). Adoptamos en este trabajo de manera convencional una fecha intermedia, la de 1675, que marca igualmente el inicio de la actividad de los novatores (cf. principalmente Mestre 1998, Pérez Magallón 2002 y, para los aspectos lingüísticos, Álvarez de Miranda 1990, 1996). En cuanto a la época contemporánea, su arranque podría hacerse corresponder con el triunfo del Romanticismo en la tercera década del siglo XIX y la consolidación del sistema parlamentario (y, por tanto, del discurso político y el periodismo) o la ciencia moderna, con la consiguiente aparición de un conjunto amplio de tradiciones discursivas sociohistóricamente características (para la necesidad de buscar correspondencias entre los periodos de la historia lingüística y la configuración de nuevas constelaciones discursivas, cf. Eberenz 2009; Kabatek 2012). Propongo aquí, de nuevo convencionalmente, la fecha de 1825. 3 Cf. Octavio de Toledo (2007; 2008; 2014a; 2014b; 2016). Para la periodización lapesiana y su motivación, cf. Martínez/Quilis (1996), Abad (1998) o, más recientemente, Arenas (2007). El marbete de primer español moderno ha conocido cierta fortuna (cf. principalmente García Godoy 2012a), pero conviene señalar que hay igualmente quien niega a esta franja cronológica una identidad lingüística suficiente como para poder constituirla en un nuevo periodo (cf. sobre todo Sánchez Lancis 2012). En cualquier caso, la cuestión de cómo conceptuar historiográficamente la evolución del español a partir de 1650 (esto es, a lo largo de los últimos 365 años, nada menos) no es trivial y debe acometerse: como apunta Weber (2011, 225–226), «periodization is historically constructed, ideologically laden, cognitively necessary, and provisionally useful for teaching and research». Álvaro S. Octavio de Toledo y Huerta: Ludwig-Maximilians-Universität München

58

Álvaro S. Octavio de Toledo y Huerta

estudios,4 conocemos hoy día mucho mejor que hace apenas diez años la morfosintaxis de ese siglo y medio al que previamente apenas se había prestado atención, sobre todo en España.5 Es fácil identificar las causas de este abandono relativo. En la historiografía tradicional del español (la venerable tradición de las «historias de la lengua» y las monografías que siguen su método), «los criterios de periodización […] corresponden en lo esencial a la historia literaria y, como esta, reflejan los de los historiadores generales» (Marcos Marín 1995, 329). Para la segunda mitad del siglo XVII y la primera del XVIII, en especial, la mutua implicación de la historia social y política, la historia literaria y la historia lingüística ha tenido como consecuencia una visión muy negativa de este periodo, caracterizado, especialmente por parte de los historiadores españoles del siglo XIX y la mayor parte del XX, como una época de colapso institucional y postración frente a las potencias extranjeras (encarnadas metonímicamente en la pálida figura de Carlos II y la supuesta atmósfera de extenuación finisecular que precede a las querellas por su sucesión en el trono), de marasmo económico y social y, por consiguiente, de hundimiento cultural, especialmente en la literatura, donde la escasez de grandes autores de

4 La bibliografía va camino de ser muy abundante: baste citar aquí, sin ánimo de exhaustividad, las contribuciones de Company (2007), Company (2012), Espinosa (2012), Girón (2004a; 2012), Guzmán/Sáez (en prensa), Melis/Flores/Bogard (2003) o Ramírez (2011; 2012). En lo que atañe al desarrollo en este periodo de algunos grandes procesos sintácticos, cf. ya Company (2002) o Girón (2002) y, más recientemente, Melis/Flores (2009), así como varios de los trabajos en los volúmenes colectivos citados. Hace tiempo que se atiende, por otra parte, a la caracterización de (aspectos de) la sintaxis de autores concretos —cf. por ejemplo Ariza (1981), Ramírez (2002), Sáez (2003), Girón (2004b; 2008), Octavio de Toledo (2016)—, mientras es más reciente la atención a la sintaxis de ciertas tradiciones discursivas o conjuntos de producción textual (cf. entre otros Octavio de Toledo/Pons 2009; García Godoy 2012b; Sáez 2014). Mediante aportaciones como estas, el estudio de la morfosintaxis ha logrado acortar la distancia muy considerable que lo separaba del análisis del léxico y la producción metalingüística en este periodo. 5 Como apunta Girón (2012, 30), «[h]asta hace poco era general el lamento de que la historia de la lengua estaba por hacer» para este periodo. En efecto, hace pocos años una destacada especialista podía quejarse de que «[s]olo unos pocos estudios sobre determinados rasgos morfosintácticos de las modalidades americanas constituyen fértiles parcelitas de ese gran erial que, todavía hoy, es el español de los siglos XVIII y XIX» (García Godoy 2008, 33), mientras otro invitaba a investigar una época que «resulta interesantísima para la historia del español por dos razones: suponemos que es el germen de la modernidad lingüística y resulta una casi absoluta zona ciega de datos y estudios» (Sáez Rivera 2003, 327). La asimetría que produce el estudio en detalle de las variedades americanas (cf. ya la presentación panorámica de Fontanella 1994) o de algunas variedades del español peninsular (cf. por ejemplo Isasi 2006) frente a las carencias en el análisis de la lengua estándar supone un obstáculo a la hora de obtener el contraste y el refrendo necesarios para formular observaciones de mayor precisión y alcance en torno al elenco de usos generalizados en este periodo.

Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno

59

referencia contrasta dolorosamente con el esplendor del Siglo de Oro.6 El modo en que esta imagen sombría se proyecta sobre las ideas acerca de la lengua del periodo puede seguirse en la más conocida de las historias del idioma (Lapesa 1981): tanto el imparable desmedro político y socioeconómico (1) como la intolerable mediocridad de los autores (2) se habrían aunado en detrimento de una lengua deteriorada, que exigía la intervención salvífica que vino, junto con la nueva dinastía, de la mano de la Real Academia Española. (1)

Tras la serie de adversidades que habían jalonado los reinados de Felipe IV y Carlos II, [España] quedaba sacrificada en la paz de Utrecht. Todas las actividades parecían muertas. Se imponía una tarea de reconstrucción vivificadora (Lapesa 1981, 418)

(2)

Nunca, en verdad, estuvo más justificada que en el siglo XVIII la preocupación por el idioma. En los dos primeros tercios del Setecientos se prolongaban, envilecidos, los gustos barrocos de la extrema decadencia [. . .]. Una caterva de escritorzuelos bárbaros y predicadores ignaros emplebeyecía la herencia de nuestros grandes autores del siglo XVII (Lapesa 1981, 424)

La Academia no solo habría depurado la lengua, sino que también la habría fijado, de tal forma que a partir del Setecientos no resulta fácil, siempre según

6 La palabra clave para referirse a este tramo de la historia de España es, en definitiva, decadencia, la misma que titula el panorama historiográfico de estos años dentro de la prestigiosa Historia de España Menéndez Pidal (Molas 1993) y la misma también que asoma en el título del libro en que Kamen (2006) trata de desmontar el mito del progresivo hundimiento de España a lo largo del XVII, íntimamente ligado a la construcción de una cierta idea de la «España imperial» y, naturalmente, a la idea de un empeoramiento sucesivo del gobierno de los «Austrias menores», que solo podría rescatarse con el benéfico advenimiento de la nueva dinastía Borbón. Esta visión hace tiempo que ha sido matizada y corregida por los historiadores: en palabras de Kagan (1996, 442), existe desde hace dos décadas «a willingness to challenge the old teleology of Spanish economic backwardness and decline», acometida por «scholars less interested in the ups and downs of the Spanish empire than in the internal character of Spanish society and culture». El impacto de las tesis decadentistas en la historia de la lengua, sin embargo, no ha sido aún eficazmente corregido, quizá por su mayor afinidad con la historia literaria, donde no hace tanto que los estudiosos se afanan por manifestar la existencia de un ideario creativo propio del periodo (cf. Bègue 2010; Pérez Magallón 2001; 2008; 2012), que no puede despacharse sin más como el escenario de una pugna maniquea entre el tardobarroco anquilosado y una protoilustración balbuciente. Resume acertadamente la orientación estética de este tiempo Bègue (2008, 35–36): «con la progresiva difusión del estilo llano en el siglo XVII, la rota Virgilii cojea hasta romperse y quedar hecha pedazos. La escritura de las últimas décadas del siglo XVII y primeras del XVIII es una escritura de transición, todavía llena de fórmulas gongorizantes confrontadas con otras, triviales, sencillas, hasta vulgares, pero cuyo contraste con las primeras resultaba altamente significativo. […] [S]entimos prefigurarse ya una poética de lo común, de lo «llano», de lo «sencillo», de lo familiar, de lo cotidiano». Y no es poco, en fin, lo que cambia la teoría del estilo de la Agudeza de Gracián (1648) a la Poética de su paisano Luzán (1737).

60

Álvaro S. Octavio de Toledo y Huerta

esta visión tradicional (que, por lo demás, se extiende hasta el presente), encontrar ya cambios morfosintácticos, y si los hay, resultan triviales (3).7 A esta impresión coadyuva, sin duda, la escasa distancia lingüística que nos separa aún de aquella época (4). (3)

Es evidente que el hecho de que el español parezca definitivamente hecho en el siglo XVIII obedece a la nivelación impuesta por la Academia y por la política uniformadora de los Borbones, y parece cierto que […] lo que se llama español, es decir, la fonética, la morfología y la sintaxis, no se ha movido desde entonces (Perona 2000, 369; énfasis del autor)

(4) al lector actual no extraña prácticamente nada de los textos del siglo XVIII (Narbona 2004, 1023; énfasis del autor)

Afirmaciones como las que acabamos de citar no contribuyen excesivamente a estimular el interés por historiar la evolución del español entre las últimas alegorías de Gracián y los primeros pinitos periodísticos de Larra. Hoy por hoy, no obstante, es cada vez más pujante la convicción de que, lejos de destacar por su fijeza, el español de aquel tiempo se encontraba en un estado de «ebullición» lingüística no inferior, desde luego, al que Lorenzo (1994) supo ver en el español del último tercio del siglo XX, y aumenta a cada rato la nómina de fenómenos y ámbitos (aparentemente nada marginales) de la gramática para los que se postulan cambios determinantes dentro de este marco cronológico.8 En las próximas páginas pasaremos revista a varios de ellos, que hemos podido explorar en los últimos años gracias a la explotación sistemática de los datos del corpus CORDE, no sin antes detenernos brevemente en las dificultades específicas que presenta dicho corpus para la investigación de la morfosintaxis del primer español moderno.

7 El pasaje de (3) parafrasea, empeorándolo notablemente, este otro de Cano (1988, 255): «Con el siglo XVIII puede decirse que concluyen los grandes procesos históricos constitutivos de la lengua española. A partir de entonces, […] las grandes líneas de la estructura idiomática no han variado: ni en el plano fónico ni en el morfosintáctico puede señalarse en este periodo ninguna alteración fundamental». En sentido similar se manifiesta Lapesa (1996, 61) a propósito de la segunda mitad del Seiscientos: «La grave crisis política sufrida por España a partir de 1640 no repercutió directa ni indirectamente en el espíritu ni en las estructuras formales de nuestra lengua. No es que hayan dejado de producirse cambios fonéticos, gramaticales ni léxicos después de aquel desastre, sino que se han debido a otros factores». 8 Cf. ahora, sin ir más lejos, el caso del dequeísmo, oportunamente explorado por Serradilla (2014).

Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno

61

2 Los datos del CORDE para el periodo 1675–1825 El Corpus diacrónico del español ha supuesto una verdadera «revolución instrumental» (cf. Rojo 2012, 433–434) en la investigación diacrónica,9 por cuanto ha facilitado extraordinariamente el acceso ordenado a grandes masas de datos que se extienden cronológicamente desde los orígenes de los iberorromances centrales hasta la muerte del dictador Franco.10 Este carácter holocrónico hace del CORDE, a día de hoy, la única herramienta mínimamente fiable desde el punto de vista filológico11 que permite recabar cantidades significativas de datos con los que ensayar un acercamiento cuantitativo a la historia de los fenómenos sintácticos individuales durante el primer español moderno.12 No obstante, el tiempo entre

9 También ha propiciado investigaciones de índole diversa por parte de especialistas en otras áreas del saber, pues se ha empleado, por ejemplo, para la atribución de autoría literaria (cf. Blasco/Ruiz Urbón 2009 o, con una visión crítica, Suárez Figaredo 2011) o la localización de datos para la historia política y social (cf. Carrasco 2011). 10 Para las características del CORDE, cf. Sánchez/Domínguez (2007), Rojo (2010), Rojo (2012). Para su aplicabilidad a la exploración de procesos de gramaticalización (particularmente los que suponen la fijación de esquemas léxicos), cf. Buenafuentes/Sánchez Lancis (2012). La indagación de otros fenómenos sintácticos que afectan a piezas con una gran frecuencia global (los clíticos de objeto o los principales verbos auxiliares, por ejemplo) presenta mayores dificultades, pues la cantidad de datos recuperables desborda en ocasiones las posibilidades del corpus (cf. Garachana/Artigas 2012). No obstante, incluso en estos ámbitos pueden obtenerse de esta clase de corpus datos cruciales para trazar la tendencia evolutiva de un fenómeno: cf. por ejemplo García Salido/ Vázquez Rozas (2012) a propósito del doblado clítico de objetos. 11 Se han puesto de manifiesto, con argumentos que creo razonables, los problemas a que se ve enfrentado el investigador en razón de las deficiencias filológicas de una parte de los documentos medievales incluidos en el CORDE: cf. ya Lucía (2003) o, más recientemente, Garachana/Artigas (2012), Lleal (2013), Octavio de Toledo/Rodríguez Molina (en prensa). Con todo, esta clase de inconvenientes no solo son significativamente menos acuciantes para el periodo que aquí nos interesa, sino que, en cualquier caso, son decididamente mucho menores en el CORDE que en su gran competidor holocrónico, el Corpus del español de Mark Davies, herramienta realizada enteramente de espaldas al más elemental rigor filológico, hasta el punto de que, con frecuencia, no es posible conocer la fuente de la que procede el fragmento textual recuperado por la búsqueda. Para el contraste de las virtudes del CORDE con las del Corpus del español, cf. Davies (2010) y Rojo (2010), así como Nieuwenhuijsen (2009) y García Salido/Vázquez Rozas (2012). Para el tramo inicial del primer español moderno (hasta 1748) resulta igualmente de utilidad (a pesar de su tamaño modesto) la consulta del corpus IMPACT-es, recientemente activado: cf. Sánchez Martínez/Martínez Sempere/Ivars/Carrasco (2013). En el momento de escribir estas líneas no se encuentra aún plenamente operativo el corpus histórico de español americano CORDIAM (cf. Bertolotti/Company 2014). 12 A pesar de que el CORDE, como señala Rojo (2012, 437), más que invitar, «obliga a intentar un examen exhaustivo de la documentación», dichos análisis exhaustivos no han sido hasta la fecha tan abundantes como cabría esperar en el terreno de la sintaxis (cf. ya no obstante el trabajo

62

Álvaro S. Octavio de Toledo y Huerta

1675 y 1825 (y, particularmente, la franja 1675–1750) constituye claramente en este corpus un periodo infrarrepresentado: la Tabla I y el Gráfico 1 muestran la enorme diferencia con los tramos temporales anteriores (el Siglo de Oro) y siguientes (del Romanticismo a nuestros días).13 Las causas de ese notable desequilibrio no son ajenas al relativo desinterés tradicional de los historiadores (generales, de la literatura o de la lengua) por este periodo, desapego que hemos tratado de ilustrar sumariamente en la sección anterior: una época que se estudia poco14 y que carece de un canon de autores amplio y firmemente establecido15 es de necesidad una época cuyos textos apenas se editan, al menos en editoriales de amplia difusión y colecciones prestigiadas que los hagan fácilmente accesibles. Al basarse principalmente en ediciones preexistentes (y, en buena medida, en determinadas colecciones de textos clásicos), el CORDE se enfrentaba para este periodo, de entrada, a un problema de disponibilidad limitada; y, por otra parte, la voluntad de incrementar

pionero de Sánchez Lancis 2001 y, más recientemente, Sánchez Lancis 2009). Menos frecuente aún es la consideración específica de los hechos de frecuencia, esto es, el estudio de la difusión de los esquemas sintácticos (cf. ahora Rojo 2014 para la distinción crucial entre frecuencia global y de inventario). Y aún menos habitual es la reflexión en torno a la posibilidad de obtener curvas de frecuencia auténticamente representativas a partir de las frecuencias parciales obtenidas a través del CORDE para cada periodo (cf. igualmente Rojo 2014): a este último empeño pretende contribuir el presente trabajo. 13 En la Tabla I figura, en la segunda columna y expresado en porcentajes, el volumen textual que representa cada uno de los periodos señalados sobre el total para 1541–1975: para el tramo 1661–1700, por ejemplo, dicho volumen es unas 6 veces inferior al del tramo 1541–1580 y unas 7,5 veces inferior al del tramo 1861–1900. En la tercera columna se ofrece el número de documentos de extensión media o superior (más de 250 apariciones de la palabra de; considero extensos los documentos con más de 500 casos de de). Como puede apreciarse, las cifras resultan especialmente reducidas entre 1660 y 1740. El Gráfico 1 representa los datos de la segunda columna de la Tabla I. En esta tabla y gráfico, al igual que en los siguientes, el volumen textual se ha calculado a partir del número de apariciones de la palabra de en cada periodo: es posible hoy día consultar directamente el número exacto de palabras para cada periodo que se desee delimitar a través de la «Nómina de autores y obras» del CORDE (agradezco esta importante observación a Guillermo Rojo); los datos que se obtienen mediante esas consultas no difieren sustancialmente, sin embargo, de los que ofrezco aquí. 14 Basta consultar los elocuentes datos de Montaner (2011) acerca del espacio dedicado en los manuales recientes de literatura española a cada periodo histórico individual: con cierta diferencia, el tramo más desatendido es el siglo XVIII, cuyo peso en el canon literario es, así, mucho más limitado que el de otras épocas. 15 Para los problemas de canonicidad que presentan los autores del siglo XVIII y para la relación entre cristalización del canon y actividad editorial, cf. Lorenzo (2008). La gestación del canon literario influye en la selección de los textos editados y difundidos y, por lo tanto, determina la nómina de documentos con mayores posibilidades de ser empleados para la investigación diacrónica, como ha mostrado Pons (2006a) para el caso del Cuatrocientos castellano.

Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno

63

la base textual tuvo como resultado, a falta de una nómina extensa de escritores consagrados por el canon a los que acudir, el aumento del volumen textual representado por un puñado de autores de referencia.16 Así, por ejemplo, aproximadamente una de cada cuatro palabras que ofrece el CORDE para la primera mitad del siglo XVIII pertenece a las obras de Feijoo, y el 38 % de los documentos extensos de este mismo periodo (29 de un total de 76) se debe a tan solo cuatro autores (Torres Villarroel, Mayans y Luzán, además de Feijoo).17 Tabla I: Volumen de datos (%) y documentos medios y extensos por periodos de 40 años (CORDE, 1541–1975) Periodo

Peso

Documentos medios o extensos

1541–1580

12,6 %

501

1581–1620

15,4 %

517

1621–1660

7,2 %

319 (208 ad 1640)

1661–1700

2,0 %

69

1701–1740

2,7 %

64

1741–1780

3,6 %

152

1781–1820

3,8 %

176

1821–1860

6,0 %

268

1861–1900

15,4 %

444

1901–1940

13,5 %

496

1941–1975

17,8 %

496

16 Dicha voluntad es manifiesta, por ejemplo, en la digitalización, directamente a partir de los ejemplares de las primeras ediciones custodiados en la Academia, del Teatro crítico universal y las Cartas eruditas y curiosas de Feijoo, no disponible en su integridad en ninguna edición moderna hasta la fecha de la última actualización textual del CORDE (2005). En una época con un volumen total de datos relativamente escaso, sin embargo, la inclusión de estas obras convierte a Feijoo en el autor individual con más peso en el CORDE en relación con su periodo histórico correspondiente (excluyendo los siglos XIII–XIV): el 28 % del volumen textual total entre 1720 y 1760 corresponde a las obras de este autor. 17 Otros 23 textos (el 30 % de los de este periodo) son documentos extensos de carácter administrativo, de modo que solo 24 textos (un 32 %) son debidos a autores distintos de los cuatro indicados. Si se contemplan solo los textos muy extensos (con más de 1000 apariciones de la palabra de), las obras de Feijoo, Torres, Mayans y Luzán pasan a representar, por sí solas, más de la mitad de los textos (23 de 44 o un 52 %).

64

Álvaro S. Octavio de Toledo y Huerta

Gráfico 1: Distribución relativa de la masa textual en el CORDE (y = %, datos de la Tabla 1)

Semejante escoramiento hacia la lengua de unos pocos autores individuales puede tener consecuencias imprevistas para el análisis de los datos. En uno de los primeros trabajos dedicados a la sintaxis del siglo XVIII, Ariza (1981) comparó el uso de las formas verbales en las oraciones condicionales de Feijoo y Torres Villarroel, subrayando un fuerte contraste entre ambos en dos fenómenos: en Feijoo, pero no en Torres, la forma simple –ra puede referirse al pasado; y, por otro lado, «es clara la preferencia de Feijoo por la forma en –SE […]. La estructura más usada por Feijoo es la de SE–RÍA (diez casos) y en Torres RA–RA (ocho casos)» (Ariza 1981, 218).18 En fecha mucho más reciente, Bartol (2005, 2006) ha abordado idéntica cuestión mediante una exploración exhaustiva de los datos del CORDE para la primera mitad del Setecientos, concluyendo que se produjo en este tiempo una reducción drástica del esquema con –ra en ambos miembros (su frecuencia alcanza solo el 32 %) y una notable progresión del condicional –ría en la apodosis (hasta el 47 % de los casos). Sin embargo, los análisis recientes de este fenómeno en autores o conjuntos documentales concretos de los dos primeros tercios del siglo XVIII (el teatro de Ramón de la Cruz: Ramírez/Rubio 2003; los documentos de Quito y Venezuela: Sánchez Méndez 2012; la prosa de Antonio Muñoz: Octavio de Toledo 2016)19 señalan de manera constante la gran vitalidad, cuando no la

18 Ariza empleó en su investigación los dos tomos (CXLI–CXLII) de la Biblioteca de Autores Españoles que contienen discursos de Feijoo, así como el tomo X de las Obras de Torres, dedicado a los almanaques y pronósticos. 19 Ramírez/Rubio (2003, 275–276) detectan un 79 % de selección de –ra en la prótasis de las potenciales: algo menos de la mitad de esos casos (el 37 % del total) llevan también –ra en la apódosis, de modo que «es el esquema si –ra, –ra el predominante o canónico para la expresión de las potenciales de simultaneidad/posterioridad al origen». Según Sánchez Méndez (2012, 1154), si –ra . . . –ra «es el periodo condicional típico y más frecuente que ofrece la documentación de ambas zonas [Venezuela y Quito] para la expresión de un presente o futuro irreal». En las

Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno

65

preponderancia del esquema si tuviera, diera en este periodo, esto es, la tendencia a emplear los tiempos en las condicionales a la manera de Torres, que continúa la tendencia dominante en el siglo anterior. Cabe preguntarse, pues, si el fuerte descenso de dicho esquema detectado por Bartol, con el consiguiente avance de –ría en la apódosis, no es más aparente que real, pues podría deberse al extraordinario peso en la muestra de los datos de Feijoo, que rechazaba las formas en –ra en este entorno, posiblemente de acuerdo con su origen noroccidental.20 El idiolecto feijoniano,21 así, podría distorsionar notablemente los datos de este fenómeno para la primera mitad del Setecientos, hecho tanto más grave cuanto que, en principio, tendemos a otorgar a los datos del CORDE, por su mera abundancia, una fiabilidad mayor a efectos de generalización estadística que a los de las búsquedas en autores u obras individuales.22 Hechas estas precisiones, creemos no obstante que el CORDE proporciona materiales de gran valor para abordar el estudio cuantitativo de los fenómenos sintácticos que caracterizan el primer español moderno, bien por darse solo dentro de sus límites, bien por haber conocido entonces una difusión significativamente mayor que en tiempos anteriores y posteriores. Esto es, pensamos que el CORDE es una herramienta irrenunciable para contribuir a un intento de periodización del Aventuras de Muñoz (1739), en fin, he contabilizado un 69 % de presencia de –ra en los dos miembros, el doble del que calcula Bartol sobre los datos del CORDE. 20 Feijoo, como es sabido, nació en Orense y se crió entre esta provincia y Lugo. La aversión del gallego (y, por lo tanto, de una parte importante de los hablantes del español de Galicia) por el empleo de las formas en –ra en entornos de subjuntivo dura hasta nuestros días (cf. ahora el detallado estudio de Rojo/Vázquez 2014), y se conecta sin duda con la supervivencia histórica de los valores indicativos de –ra. Ello pudo llevar a Feijoo a preferir el esquema con –se … –ría, que fue y sigue siendo el más difundido en gallego, como en portugués. Su origen dialectal quizá explique también el otro uso característico de Feijoo en este ámbito, esto es, el empleo (ya muy inhabitual en su tiempo) de cantara en las hipótesis referidas al pasado, pues el occidente peninsular es conocidamente refractario al desarrollo de los tiempos compuestos (cf. con carácter general Veiga 1991 y Rodríguez Molina 2010; y, específicamente respecto del carácter exclusivamente oriental de habría cantado en la Edad Media, Bartol 2012). La forma en –ra sin duda era más aceptable con valor de pasado para un hablante que en su variedad tanto de gallego como de español seguramente empleaba cantara indicativo con ese significado temporal. 21 La noción de idiolecto ha sido empleada en relación con la exploración de la alternancia –ra/ –se en general por Barra (2011). En efecto, más allá de los factores dialectales y de registro, las preferencias individuales parecen desempeñar un papel importante en la selección de estas formas, al menos a partir del siglo XVII. 22 En segmentos temporales como este, pues, la representatividad del corpus —el equilibrio entre textos de distinta procedencia dialectal, genérica, de registro, etc. que garantiza que «las peculiaridades individuales se diluyen en la masa de datos» (Rojo 2012, 441; cf. las consideraciones de Kabatek 2013)— puede verse algo menoscabada por el excesivo peso cuantitativo de un(os) autor (es) concreto(s).

66

Álvaro S. Octavio de Toledo y Huerta

primer español moderno basado en la evolución misma de los fenómenos, lo que en ocasiones se denomina (con discutible acierto, pero notable éxito) «historia interna» de la lengua.23 En las próximas páginas, pues, trataremos de ofrecer, mediante ejemplos de fenómenos que conocen una evolución peculiar durante el periodo 1675–1825, algunas posibilidades muy sencillas de paliar en lo posible el problema que supone comparar las frecuencias de un mismo hecho sintáctico en tramos cronológicos con masas textuales muy distintas dentro de un mismo corpus, problema que, como acabamos de ver, afecta de manera decisiva a la época que aquí nos interesa: propondremos, en definitiva, algunas formas básicas de cuantificar los datos sintácticos del CORDE, asunto (y práctica) que hasta donde sabemos no ha merecido aún gran atención por parte de los investigadores.

3 Frecuencias absolutas y frecuencias correlativas En algunos casos, los datos del CORDE para el primer español moderno pueden resultar muy elocuentes incluso en bruto. Las cifras absolutas, por ejemplo, informan de la eclosión entre 1675 y 1725 y de la regresión de 1775 a 1825 de los esquemas en los que el contraste de polaridad entre dos oraciones (que funciona, semánticamente, como una relación adversativa restrictiva, equivalente a la que expresa el nexo sino: cf. 5a) se hace explícito mediante el adverbio de polaridad positivo reforzado por un adverbio focal (solo) o con valor adversativo (antes) (cf. 5b).24 Puesto que el periodo 1675–1750 se encuentra especialmente infrarrepresentado en el corpus, es de sospechar que el contraste entre épocas es aún más pronunciado que el que representa el Gráfico 2. No hacen falta más cálculos, pues, para llegar a dos conclusiones acerca de la difusión de estas secuencias: se trata de innovaciones muy circunscritas en el tiempo, que aparecen y se desvanecen a lo largo del primer español moderno (y, por tanto, son indetectables si no se

23 Para un intento semejante en otro límite cronológico crucial, el que separa el español medieval del (proto)clásico, cf. de nuevo Sánchez Lancis (2001, 2009). 24 El refuerzo puede ser igualmente también para el caso de la relación aditiva con no solo: «Es constante que el ojo no solo ve aquel punto del objeto donde se termina el exe óptico, sí también un espacio mui dilatado en torno de él» (Feijoo, Teatro crítico III, 1729). Para la gramaticalización de antes con valor adversativo, cf. Azofra (2010) y Nieuwenhuisjen (2012). El fenómeno de (5a) se gestó en la lengua barroca de la distancia (en el sentido de Koch/Oesterreicher 2011) y empieza a menudear a mediados del Seiscientos. Además de sí solo existe, con una historia levemente diferente (por su mayor longevidad, principalmente), la combinación solo sí: «No vengo triste e infeliz suplicante a desarmar en favor de esos reos la justicia; sólo sí a implorar vuestra piedad» (Pedro Montengón, Eusebio, 1786). Ofrezco algunos detalles más acerca de estos esquemas en Octavio de Toledo (2008).

Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno

67

presta atención a este periodo);25 y, de los dos esquemas, el reforzado con antes posiblemente alimentó la difusión del reforzado con solo, pues su auge es previo, mientras que el declive de ambos se produce de manera acompasada, según lo esperable si la difusión de un esquema B está condicionada por la de un esquema A: antes de que B llegue a manifestarse, A experimenta un crecimiento apreciable, y en caso de que A se hunda, B le sigue sin excesiva demora. (5)

a. Halló lo primero que la bacanal estancia no se componía de doradas salas, sino de ahumadas çaurdas, no de quadras de respeto, sí de ranchos de vileza (Baltasar Gracián, El Criticón III, 1657). b. no hallé […] que el cometa se acercase más aprisa al occidental horizonte que la estrella, ni esta con más velocidad que el cometa, antes sí que ambos casi guardaron un mismo tenor de movimiento (Carlos de Sigüenza y Góngora, Libra astronómica y filosófica, 1690).

Gráfico 2: Cifras absolutas en el CORDE para las construcciones adversativas antes sí y sí solo

Suele ser bastante más útil, sin embargo, poder acceder a una curva evolutiva libre del efecto deformante que introducen las diferentes masas textuales correspondientes a cada periodo. Un primer modo de obviar este efecto consiste en obtener frecuencias correlativas. Para ello es necesario poder definir un ámbito de variación (ing. envelope of variation) que conste de un número cerrado de alternativas. Cada una de las alternativas posee entonces una frecuencia respecto de las otras, de modo que todas juntas suman 1 o un 100 % de los casos. El ámbito

25 Esto no quiere decir, naturalmente, que los cambios no se encuentren conectados con procesos de más amplio recorrido: el ascenso de antes sí a fines del XVII y principios del XVIII coincide en el tiempo con el de antes bien y con el declive del simple antes adversativo, cuyo empleo había alcanzado su cenit en el siglo XVI (Nieuwenhuijsen 2012, 1003), lo que sugiere que la pérdida de terreno de antes dio lugar a un proceso de especialización que explica la génesis de los esquemas reforzados, de los que antes bien perdura, aunque con frecuencias escasas, hasta hoy día.

68

Álvaro S. Octavio de Toledo y Huerta

de variación puede ser binario, si la oposición entre las variantes tiene la estructura de un par mínimo. Es lo que ocurre con las dos opciones que presentan los indefinidos negativos en español, que activan la concordancia negativa cuando se posponen al verbo finito, pero no cuando se anteponen: así, en el caso de nada, el esquema del tipo nada sé se opone de forma constante al del tipo no sé nada, de modo que para cada periodo puede obtenerse una correlación porcentual entre los dos esquemas, que naturalmente es independiente del número concreto de casos. Una cuantificación de este tipo permite observar como nada SV, apenas presente en la Edad Media, avanzó a lo largo del español clásico respecto de no SV nada para alcanzar cotas máximas de difusión, por encima incluso de su competidor, justamente durante el primer español moderno, periodo a partir del cual ha entrado en un lento abandono (Gráfico 3).26

Gráfico 3: Frecuencias correlativas de los esquemas nada SV y no SV nada en el CORDE

En otras ocasiones, el ámbito de variación puede estar constituido por un número mayor de alternativas, por ejemplo, por todas las fases sucesivas de una cadena de gramaticalización (cf. Heine 1992). A partir de la locución adverbial en el ínterin ‘mientras tanto’, que se adoptó en español a mediados del siglo XVI, surgió un uso relacional en el ínterin que SV (6a) que a lo largo del primer español moderno

26 En el gráfico 2, la curva de trazo continuo mide el porcentaje correlativo del esquema del tipo nada sé respecto del esquema alternativo no sé nada (una línea discontinua a la altura del 50 % permite apreciar con mayor claridad cómo aquel supera a este justamente entre 1650 y 1850). La curva discontinua de trazo corto mide el porcentaje de textos que en cada periodo presentan más casos de nada SV que de no SV nada. Aunque las dos curvas discurren paralelamente, confirmando la misma cronología para la fase de mayor éxito del fenomeno, la segunda corresponde a un cálculo distinto, pues relaciona el uso del fenómeno con su grado de difusión textual. Una tercera curva, discontinua de trazo alterno, muestra el porcentaje de textos en los que está totalmente ausente la anteposición de nada al verbo. Para más detalles sobre la evolución de estos esquemas y la información que proporciona la curva del Gráfico 3, cf. Octavio de Toledo (2014a).

Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno

69

fue reduciendo su estructura, perdiendo primero el artículo y luego la preposición y el nexo que (6b) hasta que emergió un ínterin con función nexual propia, equivalente de mientras o en tanto (6c), que no sobrevivió a la primera mitad del siglo XIX (cf. Octavio de Toledo 2007; Herrero 2005, 245–246). El Gráfico 4, de frecuencias correlativas, muestra a las claras como se escalona cronológicamente la aparición de los sucesivos esquemas, y cómo la adquisición del último estadio evolutivo supone el auge del ínterin nexual (6c) en detrimento de todas las alternativas previas (6a, b), que desaparecen velozmente a lo largo del siglo XVIII. Puesto que el ámbito de variación está constituido en este caso por todos los entornos sintácticos de contenido temporal en que ha participado la voz ínterin en español, el Gráfico 4 constituye además una especie de «mapa construccional» de esta palabra, proyectado en términos diacrónicos y de frecuencia. (6) a. comenzaron a poner fuego en la ciudad en el ínterin que los vecinos estaban embebecidos en matar enemigos (Francisco Cervantes de Salazar, Crónica de la Nueva España, 1560) b. para que descansasen de las fatigas del viaje, en ínterin que disponían casa para su habitación (Fray Gaspar de San Agutín, Conquistas de las Islas Filipinas, 1698) dio orden […] que escoltasse a los trabajadores de los ranchos y se mantuviesse en aquellos parages, ínterin que llegava para disponer su entrada (Juan de Villagutierre Sotomayor, Historia de la conquista de la provincia del Itzá, 1701) c. y que dichos 100 ducados se le mantengan ínterin le dure la voz (Documentos sobre música en la catedral de Sigüenza, 3. 1. 1738)

Gráfico 4: Evolución de los usos relacionales de ínterin y comparación con el sintagma adverbial en el ínterin

70

Álvaro S. Octavio de Toledo y Huerta

4 Frecuencias ponderadas e índice de difusión textual El análisis de las frecuencias correlativas, sin embargo, no ofrece información alguna acerca de la relación que el volumen de casos para un fenómeno dado en un periodo determinado establece con el volumen de casos para otro periodo: podría ocurrir, por ejemplo, que el número de esquemas del tipo nada sé fuera bastante inferior para la primera mitad del XIX que para la segunda, mientras que, en cambio, su proporción frente al tipo no sé nada resultara, por escasez relativa de este, bastante más abundante.27 Dicho de otro modo, el historiador de la lengua puede basarse en las frecuencias correlativas para saber en qué época un esquema fue dominante frente a otros esquemas en competencia, pero no para averiguar en qué época(s) fue más frecuente en términos globales. Esta pregunta requiere del desarrollo de un procedimiento que permita comparar entre sí masas textuales desiguales, pues la misma frecuencia absoluta puede suponer una gran presencia del esquema en un periodo con un volumen de texto relativamente escaso y una presencia residual, en cambio, en otro tramo con un gran volumen textual. El trazado de una curva global de frecuencias fiable pasa, pues, por el establecimiento de frecuencias ponderadas, esto es, relativas al peso de cada periodo sobre el conjunto de la masa textual del corpus. Dos clases de cálculos pueden ser útiles en este sentido: por un lado, las frecuencias ponderadas se obtienen sin dificultad a partir del CORDE estableciendo la proporción de apariciones de un elemento sobre el total de palabras de un periodo o, si se quiere, frente a la frecuencia en ese periodo de una palabra especialmente abundante (como la preposición de en español); el mismo cálculo se puede realizar con relación al número de documentos del periodo o a un subconjunto que se considere pertinente (por ejemplo, los textos medios y extensos, que cabe definir arbitrariamente como aquellos que presentan más de 250 ocurrencias de la palabra de; o solo los extensos, con más de 500 ocurrencias de de; o únicamente los muy extensos, que superarían las 1000); se puede igualmente, en fin, calcular la proporción de textos (o subconjunto de textos) por periodo que

27 De hecho, esto es justamente lo que ocurre: el tipo nada sé presenta 3167 casos en la primera mitad del Ochocientos y más del doble (6554) en la segunda mitad, pero la proporción frente a no sé nada es casi veinte puntos superior en el primero de estos periodos (71 % frente a 52 %). Lo mismo ocurre con el ínterin nexual, que ofrece 98 casos para el periodo 1751–1800, 86 para el tramo siguiente (1801–1850) y un número máximo, 114, para 1851–1900; en cambio, la frecuencia correlativa frente al resto de esquemas es máxima para el segundo de estos periodos (65,2 %), seguido del tercero (61,3 %) y del primero (44,5 %).

Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno

71

presentan el fenómeno, con independencia del número de veces que este se manifiesta en cada texto: el resultado de este cálculo, que es independiente de la frecuencia (absoluta, correlativa o ponderada) del fenómeno —aunque, naturalmente, es esperable que mantenga un cierto grado de proporcionalidad directa al menos con las dos últimas—, puede denominarse índice de difusión textual.28 Aplicando al caso de ínterin los dos primeros cálculos (Tabla II) se obtienen resultados que contribuyen a afianzar la descripción de esta evolución: la palabra ínterin, en efecto, fue especialmente frecuente, tanto respecto del volumen de palabras como respecto del de documentos, en la primera mitad del siglo XVIII, esto es, en el mismo periodo en que fue más intensa la progresión de la frecuencia correlativa del ínterin nexual frente a otros esquemas. De ello parece deducirse que una frecuencia muy elevada del conjunto de esquemas con la palabra ínterin pudo favorecer el desarollo del estadio más avanzado de la gramaticalización de este elemento, de acuerdo con las predicciones usuales entre quienes han analizado la relación de la gramaticalización con la frecuencia de uso.29 La Tabla II ofrece además resultados de otra clase adicional de cálculo, el de la frecuencia para cada periodo de un elemento o esquema sintáctico frente a otros con función semejante, esto es, las frecuencias correlativas de elementos onomasiológicamente relacionados: de nuevo, la observación de la frecuencia de ínterin respecto de la de mientras o entretanto parece indicar que el primero de estos elementos ganó terreno especialmente en la primera mitad del Setecientos.30

28 Es sencillo ver que la ventaja de este tercer cálculo frente al anterior es que excluye el efecto de la posible concentración, para cualquier periodo dado, de un número muy elevado de casos de un fenómeno en un grupo muy reducido de documentos, lo que fácilmente puede ocurrir por razones de adscripción diatópica, de registro, de tradicionalidad discursiva, etc. 29 Me refiero en particular a Joan Bybee y algunos de sus discípulos y colaboradores: cf. en especial Bybee/Hopper (2000), Bybee (2003), Bybee (2011), Schwenter/Torres (2010). En este último trabajo se define incluso el proceso mismo en términos de incrementos de frecuencia: «Grammaticalization is the diachronic process whereby existing constructions with particular lexical items gain frequency and become new constructions, following cross-linguistic evolutionary paths» (Schwenter/Torres 2010, 15). 30 Naturalmente, el problema de este último tipo de cálculo es que mientras o entretanto poseen, al igual que ínterin, su propia dinámica histórica, de modo que no puede darse por hecho que sus frecuencias sean diacrónicamente constantes, ni que puedan compararse sin más, por ello mismo, las cifras de los distintos periodos: de hecho, los datos de la Tabla II, especialmente para el periodo 1550–1650 y para los siglos XIX–XX, sugieren que existen diferencias entre estas dos piezas, pues la proporción de ínterin no crece (en el caso del primero de esos periodos) o disminuye (en el segundo tramo) a la misma velocidad respecto de una y otra. Ello se debe principalmente al hecho de que entretanto conoció una difusión particularmente alta en el siglo XVI, pero perdió presencia a continuación y se volvió claramente recesiva (aunque no de forma tan pronunciada como ínterin) a partir del siglo XIX (cf. Eberenz 1982; Herrero 2005, 240).

72

Álvaro S. Octavio de Toledo y Huerta

Tabla II: peso cuantitativo de ínterin en el CORDE y comparación con mientras 1550– 1599

1600– 1649

1650– 1700

1701– 1750

1751– 1800

1801– 1850

1851– 1900

1901+

Frec1

4

24

38

72

43

20

10

1

1

Frec2

2

14

18

29

11

9

11

1

0,05

Frec3 %

2,5

7,7

11,7

28,6

11,8

3,3

1,7

0,2

0,1

Frec4 %

3,5

23,8

39,6

59,7

26,3

9,7

8,5

3,4

2,5

Frec1 = número de casos de ínterin por cada 100.000 casos de la palabra de Frec2 = número de apariciones de ínterin por cada 100 documentos Frec3 % = frecuencia de ínterin respecto de mientras (en porcentaje sobre la suma de casos de ínterin y mientras para cada periodo) Frec4 % = frecuencia de ínterin respecto de entretanto (en porcentaje sobre la suma de casos de ínterin y entretanto para cada periodo)

Otro ejemplo interesante lo proporciona la extensión del artículo ante oraciones completivas (cf. sobre todo Lapesa 1984). La Tabla III muestra las frecuencias absolutas por periodos del esquema en que el precede al nexo completivo que (en adelante, AC: Te agradezco el que vengas, El que vinieras me encantó, etc.); entre paréntesis figura el aporte porcentual de cada periodo a la frecuencia total; en la columna de la derecha, el peso de cada periodo sobre el volumen textual total del corpus. El Gráfico 5 representa el comportamiento de las frecuencias absolutas a lo largo del tiempo. Tabla III: Datos globales de frecuencia de la construcción AC 1541–1580:

12 (0,1 %)

Peso: 12,6 %

1581–1620:

45 (0,6 %)

Peso: 15,4 %

1621–1660:

228 (2,9 %)

Peso: 7,2 %

1661–1700:

901 (11,5 %)

Peso: 2,0 %

1701–1740:

1027 (13,1 %)

Peso: 2,7 %

1741–1780:

1095 (13,9 %)

Peso: 3,6 %

1781–1820:

564 (7,2 %)

Peso: 3,8 %

1821–1860:

644 (8,2 %)

Peso: 6,0 %

1861–1900:

988 (12,6 %)

Peso: 15,4 %

1901–1940:

764 (9,7 %)

Peso: 13,5 %

1941–1975:

1587 (20,2 %)

Peso: 17,8 %

Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno

73

Gráfico 5: Valores globales de AC por periodos, en tantos por ciento sobre el total

El Gráfico 5 no devuelve una curva diacrónica fácilmente interpretable: el fenómeno, en apariencia, crece en el primer español moderno, decrece al concluir este y repite un ciclo similar a lo largo del Ochocientos para acabar aumentando de los años 40 del siglo XX en adelante. Sin embargo, al obtener las frecuencias ponderadas mediante la división del porcentaje de frecuencias absolutas (columna izquierda de la Tabla III) por el porcentaje de peso de cada periodo (columna derecha de la misma tabla) se desecha el efecto distorsionador que ocasiona la gran masa textual de los tramos más recientes del CORDE (a partir de 1860), y la curva resultante es la representada en el Gráfico 6, donde el fenómeno queda inequívocamente retratado como característico del primer español moderno. El índice de difusión textual (Tabla IV) confirma de manera independiente la eclosión del fenómeno en la segunda mitad del Seiscientos y su fuerte declive a partir del último tercio del XVIII.

Gráfico 6: Difusión de AC en frecuencias ponderadas por periodos

74

Álvaro S. Octavio de Toledo y Huerta

Tabla IV: Grado de difusión textual del AC por periodos Periodo

Textos medios/extensos con AC (en %)

1581–1620

27/517 (5,2 %)

1621–660

78/319 (24,5 %) [hasta 1639: 33/208 (15,9 %); desde 1640: 45/111 (40,5 %)]

1661–1700

47/69 (68,1 %)

1701–1740

49/64 (76,6 %)

1741–1780

91/152 (59,9 %) [hasta 1765: 61/93 (65,6 % ); desde 1766: 30/59 (51 % )]

1781–1820

85/176 (48,3 %)

1821–1860

105/268 (39,2 %)

1861–1900

190/444 (42,8 %)

1901–1940

153/496 (30,8 %)

1941–1975

193/496 (38,9 %)

La curva del Gráfico 6 cobra verdadero sentido si se la compara con la difusión (medida según el mismo procedimiento) del artículo ante oraciones de infinitivo con al menos un argumento o adjunto asociado (El relinchar de los caballos, El comerse las uvas, El pasear por las calles, etc.), que figura en el Gráfico 7 (cf. Torres 2009). En él hemos resaltado, en color más claro, el periodo coincidente con el del brusco aumento del fenómeno AC (cf. el Gráfico 6). Puesto que dicho aumento viene precedido del éxito previo, más sostenido (desde finales del siglo XVI), de la construcción con artículo ante el infinitivo, cabe suponer, una vez más, que las altas frecuencias de esta última constituyeron el terreno abonado en que pudo aflorar y ascender muy velozmente el esquema AC. La hipótesis tradicional (cf. ya Cuervo 1874, 891) de que el artículo se extendió de los infinitivos a las oraciones con que se ve, así, confirmada en términos de frecuencias: de nuevo, el auge en la difusión de un elemento que participa en una determinada construcción (aquí, el artículo ante un SV) favorece su ulterior evolución, propiciando igualmente su extensión a nuevos entornos sintácticos.

Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno

75

Gráfico 7: Difusión del artículo ante oraciones de infinitivo (frecuencias ponderadas por periodos). Muestra: todos los infinitivos comenzados por a– o por r– (cf. Octavio de Toledo 2014b)

Por otro lado, la comparación de los gráficos 6 y 7 muestra, de forma semejante al Gráfico 2, un descenso de frecuencias parejo en las dos construcciones, que en este caso es estrictamente simultáneo: el fenómeno B (en este caso, el esquema AC) parece necesitar del éxito previo de un fenómeno A pero, además, desciende en frecuencia con celeridad en el momento mismo en que A empieza a retroceder. No se trata aquí tanto de una relación de «arrastre», en que A facilita tanto el auge como la caída de B, sino de una relación de perfecto acoplamiento entre dos fenómenos cuyas curvas de frecuencia se comportan al unísono, si bien con un arranque y un declive más pronunciados en el caso del fenómeno B o «fenómeno auxiliado» por A. La extensión diacrónica del artículo ante oraciones no es el único caso en que puede observarse este patrón de perfecto acoplamiento entre la curva de un fenómeno relativamente frecuente y la de otro de documentación más escasa. Hemos encontrado un comportamiento similar en otro continuo de gramaticalización,31 el que lleva del desarrollo de un valor exceptivo de la secuencia sino es ‘salvo, a excepción de’ (7a) a la aparición de un valor adversativo exclusivo de esa misma secuencia, que pasa a equivaler a sino (7b).32 La relación entre los dos

31 Para la extensión del artículo de las oraciones de infinitivo a las completivas con que como último paso en un continuo o cadena de gramaticalización y para la naturaleza de las fases o etapas de dicho continuo, cf. Octavio de Toledo (2014b). 32 Esta evolución se da a través del tránsito inferencial desde la excepción débil que representa (7a) a la excepción total o fuerte que representa (7b) en entornos donde las dos entidades presentan un contraste de propiedades suficiente como para que deje de resultar preferible la interpretación en que ambos pertenecen a un ámbito (o frame semántico) común, y se destaque la lectura que asigna a una y otra entidad ámbitos diferenciados. Para este proceso, por lo demás muy común en las lenguas, cf. Octavio de Toledo (2008).

76

Álvaro S. Octavio de Toledo y Huerta

esquemas es exactamente de la misma naturaleza que en el caso anterior, con la diferencia de que con sino es tiene lugar una extensión por contigüidad semántica, mientras que el artículo el se extiende sintácticamente de los infinitivos con propiedades nominales a los infinitivos con propiedades verbales y de ahí a las oraciones encabezadas por que. (7)

a. los mas tienen ya recibida paga, sino es los portugueses («Carta escrita en Sevilla al Rey de Portugal por Sebastián Álvarez su factor», 1519) b. no son pobres sino es ricos (Manuel Lanz, Diálogos de Chindulza, 1761)

Gráfico 8: Frecuencias ponderadas de los esquemas con sino es exceptivo (sino es 1) y adversativo (sino es 2)

En estos casos, el establecimiento de frecuencias ponderadas que permitan situar en pie de igualdad, a efectos de comparación, los tramos cronológicos seleccionados en el CORDE es esencial no solo para un correcto trazado de la curva de difusión —con su cronología específica— que verdaderamente corresponde a cada fenómeno, sino también para la detección de relaciones de correspondencia en la dinámica de fenómenos emparentados, como son aquellos que pueden inscribirse en un mismo continuo de gramaticalización. Sin el recurso al cotejo de frecuencias ponderadas, dichas relaciones serían indemostrables o incluso, en muchos casos, pasarían inadvertidas.

5 Formas de difusión y dinámica variacional La posibilidad de extraer frecuencias ponderadas del CORDE abre la puerta a la consideración de un aspecto importante del cambio lingüístico no siempre debidamente atendido: el papel que en él desempeñan los fenómenos recesivos. Al menos en el modelo de gramaticalización, tan en boga hoy día, no existen formulaciones claras acerca de la relación entre la activación o el desarrollo de un cambio y la disminución en frecuencias de los fenómenos implicados en

Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno

77

Gráfico 9: Curvas de difusión del fenómeno AC (pico máximo ca. 1700), del relativo el que no oblicuo (pico máximo ca. 1750) y del relativo el que oblicuo (curva «en S» o de incremento gradual)

él.33 Sin embargo, como ha mostrado Postma (2010), un cambio fracasado (esto es, un fenómeno que pierde frecuencia bruscamente) puede no obstante contribuir, antes de quedar marginado o extinguirse, a activar la gramaticalización de un esquema formal o semánticamente afín. Es lo que pudo ocurrir, según propuesta de Girón (2004c), con el fenómeno AC y la consolidación del relativo compuesto homónimo el que (Gráfico 9); y parece fuera de duda, a la vista igualmente del Gráfico 9, que el relativo compuesto no oblicuo o de sujeto (llamamos un coche, el que [= el cual] nos llevó a nuestro destino), cuyo auge y pérdida se produce dentro de los límites del primer español moderno, estimuló

33 Es evidente en muchos autores la asimetría entre el tratamiento teórico de las frecuencias crecientes, que se consideran características de las gramaticalizaciones, y el de las decrecientes, que más bien se consideran al margen del proceso de gramaticalización propiamente dicho. Cf. por ejemplo, de forma muy sintomática, Bybee (2011, 77): «As long as frequency is on the rise, changes will move in a consistent direction […]. When a grammaticalization construction ceases to rise in frequency, various things happen, but none of them is the precise reverse of the process» (Bybee 2011, 77). La ausencia de predicciones acerca de los fenómenos cuyas frecuencias decaen puede ponerse en relación con la creencia muy extendida de que los cambios sintácticos evolucionan sistemáticamente de acuerdo con una curva de difusión de crecimiento gradual o «curva en S» (cf. sobre todo Kroch 1989, Blythe/Croft 2012). Tal creencia parece, como muestra la mayor parte de las evoluciones aquí comentadas, infundada, al menos si se formula en términos categóricos: cf. también las críticas de Denison (2003) o WinterFroemel (2014).

78

Álvaro S. Octavio de Toledo y Huerta

decisivamente el incremento en frecuencias del relativo compuesto tras preposición (el chico del que te hablé).34 En la mayor parte de los fenómenos aquí analizados, la aparición de una nueva fase en la cadena de gramaticalización (ínterin nexual, sino es adversativo, fenómeno AC) o la extensión —generalmente de naturaleza analógica—35 de una marca sintáctica a nuevos entornos (fenómeno AC, esquema adversativo sí solo) se encuentra en clara correlación con un incremento abrupto en la frecuencia de uso de la construcción de partida desde la que se produce la extensión o la gramaticalización secundaria: en algunos casos (fenómeno AC, sino es y sí solo adversativos), además, la frecuencia de uso del último esquema desarrollado comienza a descender solo cuando disminuye también la del esquema de partida.36 Ello suscita, claro está, la pregunta de si es posible plantear una relación causal, no meramente accidental, entre estas frecuencias que se antojan mutuamente implicadas. Una posible respuesta afirmativa la ofrece el mecanismo cognitivo de la replicación o priming, por el que el locutor tiende a expresarse reproduciendo en parte la estructura lingüística que ha oído recientemente en torno a sí.37 Un esquema que, por muy repetido, se hace más presente en el fuero interno del locutor se presta mejor, con toda probabilidad, a probaturas en entornos formalmente análogos y/o semánticamente anejos,38 lo que puede dar cuenta de la conocida conexión entre el incremento de frecuencias y el desarrollo de los

34 Para los cálculos que sustentan las cifras del Gráfico 9, de la misma naturaleza que los Gráficos 6–7, cf. Octavio de Toledo (2014b). Para la homonimia como fuente de cambios sintácticos, cf. Espinosa (2008). Para la historia del relativo compuesto en español, cf. Girón (2009). Conviene advertir que las curvas de Gráfico 9 no demuestran la interrelación entre los fenómenos citados, aunque sí la apoyan: naturalmente, dicha interrelación es más probable si existe, además de homonimia, homofuncionalidad, como en el caso de los dos entornos del relativo compuesto. 35 Para el papel de la analogía en la actualización de cambios sintácticos sucesivos derivados de la gramaticalización de una marca (sí adversativo, el como elemento de rección), cf. sobre todo Fischer (2010) y De Smet (2012). 36 Se trata en todos los casos, en efecto, de desarrollos a partir de un elemento ya gramaticalizado, proceso que se conoce con el término de gramaticalización secundaria o ulterior (further grammaticalization: Lehmann 2002) para diferenciarlo de la gramaticalización primaria o a partir de unidades léxicas. Para las diferencias entre gramaticalización primaria y secundaria, cf. Traugott (2002), Detges/Waltereit (2002), Norde (2012), Breban (2014), Breban (2015). 37 Para el priming desde un punto de vista psicológico y las dificultades en el manejo experimental y metodológico de esta noción, cf. por ejemplo Cesario (2014). Para el priming lingüístico, cf. con carácter general Jäger/Rosenbach (2008); para la selección mediante priming entre formas morfológicas alternantes, cf. Mackenzie (2012); para una aplicación reciente de esta noción a la historia de la extensión de estar + participio en español, cf. Marco (2012). 38 Como señala Traugott (2004, 151), «[i]ndividual cases of grammaticalization always originate in exploratory uses of lexical items, constructions, or grammatical forms».

Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno

79

continuos de gramaticalización (cf. de nuevo Bybee 2011). Pero, además, el priming, a diferencia de la gramaticalización, sí es reversible: una menor exposición a un esquema A puede tener como resultado una tendencia al abandono por el locutor no solo de este esquema, sino también del esquema B que procede de A por vía de extensión formal o semántica. Un mismo mecanismo cognitivo podría explicar, pues, tanto la extensión que da lugar a la gramaticalización secundaria como la retracción (Haspelmath 2004) por la que, en ocasiones, los valores desarrollados en el extremo de las cadenas de gramaticalización pueden llegar a desaparecer: la condición para tal retracción sería —de resultar correcta esta hipótesis— el descenso previo de las frecuencias del esquema de partida. Hipótesis de esta índole permiten vincular la innovación sucesiva que caracteriza las cadenas de gramaticalización con la dinámica de la difusión de cada cambio, asunto del que el modelo apenas se ha preocupado hasta la fecha. Los cambios aquí analizados muestran, en efecto, formas diversas de difusión: en el caso de sí solo, la extensión de la marca sintáctica (el sí adversativo) podría calificarse de «vírica», pues el acceso a nuevos entornos se produce tras un brusco incremento en frecuencias del esquema inmediatamente anterior en la cadena de propagación, como si se tratase de «contagios» sucesivos a partir de entornos contiguos que desarrollan abruptamente la marca; la posterior pérdida de esa marca se produce también en forma de oleada, de modo que el esquema cronológicamente precedente entra en recesión antes que el esquema al que ha «contagiado»: el inicio del decaimiento de A viene a concidir, así, con el auge o «acmé» de B (cf. el periodo 1726–1775 en el Gráfico 2). En el caso del ínterin nexual, el triunfo de la fase más desarrollada de la cadena (el último eslabón de la gramaticalización) se produce, en términos de frecuencias, a costa de todos los esquemas anteriores, que entran en declive hasta desaparecer a medida que triunfa la solución más avanzada: podría hablarse, pues, de una difusión «fagocítica», en que el esquema triunfante «devora» a los anteriores. En los casos del sino es adversativo o el fenómeno AC, por último, tanto el éxito como el fracaso del esquema surgido por extensión semántica (sino es) o sintáctica (AC) se acompasan estrictamente con el apogeo y el declive del esquema de partida, que siempre resulta mucho más abundante en frecuencias absolutas: sugiero para estos casos la noción de «difusión parasítica», en la que el aumento de frecuencias de un esquema A abre la puerta a una ulterior gramaticalización secundaria B que permanece constantemente subordinada, en términos de difusión, al esquema de partida, pues el descenso en frecuencia de A provoca la retracción de B (en el sentido de Haspelmath 2004).39 Resulta, en

39 Naturalmente, los términos fagocítica, vírica y parasítica deben entenderse en sentido traslaticio y ceñido exclusivamente a las analogías parciales entre fenómenos naturales y procesos

80

Álvaro S. Octavio de Toledo y Huerta

definitiva, sugerente la posibilidad de relacionar tipos concretos de cambio con formas características de difusión: así, es posible que los fenómenos recesivos resultantes de la extensión analógica sin gramaticalización ulterior de un elemento ya gramaticalizado (el sí adversativo, por ejemplo) adopten característicamente una forma de difusión vírica, mientras que la recesión asociada a la extensión analógica con gramaticalización secundaria (sino es adversativo, fenómeno AC) parece poder asociarse a una difusión de carácter parasítico. No puedo sino dejar apuntada aquí esta hipótesis, necesitada, claro está, de una comprobación basada en la observación de un número crecido de evoluciones.

Gráfico 10: Tipos de difusión y dinámica variacional de tres cambios típicos del primer español moderno

Los datos del CORDE para el primer español moderno, una época con un espectro notable de formas de producción textual distintas, permiten, en fin, abordar una faceta crucial del cambio lingüístico en que se viene insistiendo repetidamente en los últimos años: la difusión de los fenómenos se inserta en un espacio comunicativo históricamente determinado y concebible como un continuo marcado por los polos de la inmediatez y la distancia (cf. Koch/Oesterreicher 2011).40 Las diferentes

lingüísticos que subrayo aquí. Dichas analogías no implican isomorfismo ni correspondencia esencial con el mundo biológico, esto es, el uso de estos términos no supone una visión «naturalista» del cambio lingüístico por gramaticalización (para los peligros de este enfoque, cf. ahora López Serena 2014), del mismo modo que el empleo de los términos masa, volumen y peso, que he usado aquí como intercambiables en conexión con el adjetivo textual, no admitiría extrapolación al ámbito de la física, en que esos términos expresan nociones sustancialmente distintas entre sí. Creo legítima esta apropiación parcial y restringida del vocabulario científico de otras disciplinas, que por lo demás tiene una larga tradición en los estudios lingüísticos. 40 Como señala Moore (2007, 117), «research has focused more on the directionality of grammaticalization than on the ways that grammaticalized forms spread through the genres of a language». Es error grave, pues, como indica Oesterreicher (2006, 146), «la pregunta por las estrategias de creación y las llamadas vías de gramaticalización debería siempre ir seguida de preguntas acerca de las vías discursivas de difusión y de adopción sucesiva de estas innovaciones por parte de los hablantes», puesto que el proceso de adopción (Übernahme, en el sentido coseriano) es fundamental para considerar alcanzado (o fracasado) el cambio, que cristaliza (o se diluye) a través de

Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno

81

tradiciones discursivas en que se manifiestan los fenómenos tienden a ocupar posiciones características dentro de este continuo: hay, así, tradiciones «altas» o propias de la lengua elaborada y tradiciones «bajas» o asociadas a la inmediatez comunicativa (piénsese, por ejemplo, en un manual de doctrina teológica frente a una carta informal entre amigos). Un cambio que se difunde desde las tradiciones «altas» en dirección a las medias y bajas es un cambio «de arriba abajo», mientras un cambio en sentido inverso es un cambio «de abajo arriba» (cf. Jacob/Kabatek 2001; Pons 2006b). El Gráfico 10 muestra cómo el sí adversativo se desempeñó siempre en el ámbito de la extrema distancia comunicativa, mientras que otro esquema adversativo, el de sino es, apenas accedió durante un siglo (precisamente durante el primer español moderno) a tradiciones situadas en posiciones intermedias del continuo, que fueron las que acogieron siempre al ínterin nexual.41 La dificultad de estos fenómenos para generalizarse (ya hacia abajo, ya hacia arriba) a todo el espectro variacional delata su carácter diafásicamente (si no, incluso, diastráticamente) marcado, y ofrece nuevas pistas sobre las razones (en este caso, sociohistóricas) de su breve existencia. El establecimiento de vínculos entre la difusión de los fenómenos y su dinámica variacional es tarea imprescindible en la reconstrucción integral de la historia de una variedad, concebida como construcción diasistemática compleja (cf. Kabatek 2012). Se trata, además, del único modo de periodizar eficazmente, señalando las circunstancias históricas concretas en cualquier época dada para los fenómenos de largo recorrido (el marcado diferencial del objeto directo o el doblado de dativos mediante clíticos, por ejemplo) e identificando, al tiempo, aquellos otros fenómenos que, como los aquí analizados, son característicos de un tiempo determinado y constituyen, por tanto, señales o balizas diacrónicas útiles para acotar los núcleos y los límites de los periodos.42 Esta tarea, sin duda, puede y debe complementarse con el empleo de materiales no incluidos en los

las tradiciones discursivas: «Erst wenn eine Übernahme der Innovation erfolgt (was in der Regel in Etappen über bestimmten Diskurstraditionen geschieht), dann ist tatsächlich Sprachwandel eingetreten» (Koch 2005, 248). Para la aplicación de estas ideas a la historia del español, cf. principalmente Kabatek (2004, 2005, 2012) y Oesterreicher (2007). 41 Para la distribución textual que lleva a esta caracterización individual de los fenómenos, cf. Octavio de Toledo (2007) y Octavio de Toledo (2008). 42 Como bien dice Eberenz (2009, 196), «el estudio de la periodización nos obliga a plantear con toda claridad las cuestiones del edificio variacionista en los distintos momentos de la historia, y del lugar que en él ocupa la norma de prestigio reflejada en las tradiciones discursivas». Para una discusión teórica acerca de las formas de periodización perfectamente aplicable a la historia del español, cf. Curzan (2012). La idea de una periodización inspirada en la noción semántica del prototipo, esto es, integrada por periodos con núcleos estables y bordes o periferias con rasgos más difusos, procede —hasta donde sé— de Fife (1992).

82

Álvaro S. Octavio de Toledo y Huerta

corpus en red disponibles; pero, en lo que atañe al menos al primer español moderno, el CORDE permite empezar a acometerla, una vez asumidas las cautelas y procedimientos adecuados, con mayores garantías que ninguno de sus competidores.

6 Referencias bibliográficas Abad Nebot, Francisco, Problemas de periodización y caracterización en historia de la lengua literaria española, Revista de Filología Románica 15 (1998), 13–33. Álvarez de Miranda de la Gándara, Pedro, Palabras e ideas: el léxico de la Ilustración temprana en España (1680–1760), Madrid, Real Academia Española, 1990. Álvarez de Miranda de la Gándara, Pedro, La época de los novatores, desde la historia de la lengua, Studia Historica. Historia Moderna 14 (1996), 85–94. Arenas Olleta, Julio, Pidal y Lapesa: dos historias de la lengua, in: Hafner, Jochen/Oesterreicher, Wulf (edd.), Mit Clio im Gespräch: Romanische Sprachgeschichten und Sprachgeschichtsschreibung, Tubinga, Narr, 2007, 233–254. Ariza Viguera, Manuel, Materiales para el estudio de las oraciones condicionales y concesivas en Feijoo y Torres Villarroel, in: II Simposio sobre el Padre Feijoo y su Siglo, vol. 1, Oviedo, Centro de Estudios del Siglo XVIII, 1981, 205–218. Azofra Sierra, María Elena, Antes y ahora en la diacronía del español. Sintaxis histórica y aplicación lexicográfica, Revista de Historia de la Lengua 5 (2010), 3–34. Barra Jover, Mario, Variantes invisibles, emergencia y cambio lingüístico, in: Castillo, Mónica/ Pons, Lola (edd.), Así se van las lenguas variando: nuevas tendencias en la investigación del cambio lingüístico en español, Berna et al., Peter Lang, 2011, 75–105. Bartol Hernández, José Antonio, Condicionales: del español clásico al español moderno, Verba 32 (2005), 371–383. Bartol Hernández, José Antonio, La expresión de la irrealidad condicional en el siglo XVIII, in: Bustos, José Jesús de/Girón, José Luis (edd.), Actas del VI Congreso Internacional de Historia de la Lengua Española, vol. 1, Madrid, Arco Libros, 2006, 469–488. Bartol Hernández, José Antonio, Habría dado con el valor dedissem, in: Montero Cartelle, Emilio (ed.), Actas del IX Congreso Internacional de Historia de la Lengua Española, vol. 1, Santiago de Compostela, Meubook, 2012, 643–657. Bègue, Alain, «Degeneración» y «prosaísmo» de la escritura poética de finales del siglo XVII y principios del XVIII: análisis de dos nociones heredadas, Criticón 103–104 (2008), 21–38. Bègue, Alain, Albores de un tiempo nuevo: la escritura poética de entre siglos (XVII–XVIII), in: Egido, Aurora/Laplana, José Enrique (edd.), La luz de la razón. Literatura y cultura del siglo XVIII, Zaragoza, Institución Fernando el Católico, 2010, 37–69. Bertolotti, Virginia/Company Company, Concepción, El Corpus Diacrónico y Diatópico del Español de América (CORDIAM). Propuesta de tipología textual, Cuadernos de la ALFAL 6 (2014), 130–148. Blasco Pascual, Javier/Ruiz Urbón, Cristina, Evaluación y cuantificación de algunas técnicas de «atribución de autoría» en textos españoles, Castilla, Estudios de Literatura 0 (2009), 27–47. Blythe, Richard/Croft, William, S-curves and the mechanisms of propagation in language change, Language 88:2 (2012), 269–304.

Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno

83

Breban, Tine, What is secondary grammaticalization? Trying to see the wood for the trees in a confusion of interpretations, Folia Linguistica 48 (2014), 469–502. Breban, Tine, Refining secondary grammaticalization by looking at subprocesses of change, Language Sciences 47 (2015), 161–171. Bybee, Joan, Mechanisms of change in grammaticization: The role of frequency, in: Joseph, Brian/Janda, Richard D. (edd.), The Handbook of Historical Linguistics, Oxford et al., Blackwell, 2003, 602–623. Bybee, Joan, Usage-based theory and grammaticalization, in: Narrog, Heiko/Heine, Bernd (edd.), The Oxford Handbook of Grammaticalization, Oxford, Oxford University Press, 2011, 69–78. Bybee, Joan/Hopper, Paul J., Introduction to frequency and the emergence of linguistic structure, in: Bybee, Joan/Hopper, Paul J. (edd.), Frequency and the emergence of linguistic structure, Amsterdam, John Benjamins, 2000, 1–24. Buenafuentes de la Mata, Cristina/Sánchez Lancis, Carlos, Procesos de gramaticalización y lexicalización a la luz de los corpus académicos, in: Jiménez Juliá, Tomás, et al. (edd.), Cum corde et in nova grammatica: estudios ofrecidos a Guillermo Rojo, Santiago de Compostela, Universidad de Santiago de Compostela, 2012, 153–165. Cano Aguilar, Rafael, El español a través de los tiempos, Madrid, Arco Libros, 1988. Carrasco Manchado, Ana Isabel, Nuevas herramientas para la historia de la Edad Media hispánica: los corpus textuales informatizados, En la España Medieval 34 (2011), 343–372. Cesario, Joseph, Priming, replication, and the hardest science, Perspectives on Psychological Science 9:1 (2014), 40–48. Company Company, Concepción, Gramaticalización y dialectología comparada: Una isoglosa sintáctico-semántica del español, Dicenda 20 (2002), 39–72. Company Company, Concepción, El siglo XVIII y la identidad lingüística de México, México, UNAM/Academia Mexicana de la Lengua, 2007. Company Company, Concepción, El español del siglo XVIII. Un parteaguas lingüístico entre México y España, in: García Godoy, Ma Teresa (ed.), El español del siglo XVIII: cambios diacrónicos en el primer español moderno, Berna et al., Peter Lang, 2012, 255–291. Cuervo, Rufino José, Notas [1874], in: Andrés Bello, Gramática de la lengua castellana, ed. Trujillo, Ramón, vol. 2, Madrid, Arco Libros, 1988, 837–973. Curzan, Anne, Periodization in the history of the English language, in: Bergs, Alex/Brinton, Laurel (edd.), English historical linguistics: an international handbook, vol. 2, Berlín/Nueva York, De Gruyter, 2012, 1233–1255. Davies, Mark, Creating useful historical corpora: A comparison of CORDE, the Corpus del Español, and the Corpus do Português, in: Enrique, Andrés (ed.), Diacronía de las lenguas iberorromances: nuevas perspectivas desde la lingüística de corpus, Madrid/Frankfurt am Main, Iberoamericana/Vervuert, 2010, 137–166. De Smet, Hendrik, The course of actualization, Language 88:3 (2012), 601–633. Denison, Daniel, Log(ist)ic and simplistic S-curves, in: Hickey, Raymond (ed.), Motives for Language Change, Cambridge, Cambridge University Press, 2003, 54–70. Detges, Ulrich/Waltereit, Richard, Grammaticalization vs. reanalysis: a semantic-pragmatic account of functional change in grammar, Zeitschrift für Sprachwissenschaft 21:2 (2002), 151–195. Eberenz, Rolf, Las conjunciones temporales del español. Esbozo del sistema actual y de la trayectoria histórica de la norma peninsular, Boletín de la Real Academia Española 62 (1982), 289–385.

84

Álvaro S. Octavio de Toledo y Huerta

Eberenz, Rolf, Castellano antiguo y español moderno: reflexiones sobre la periodización en la historia de la lengua, Revista de Filología Española 71 (1991), 79–106. Eberenz, Rolf, La periodización de la historia morfosintáctica del español: propuestas y aportaciones recientes, Cahiers d’Études Hispaniques Médievales 32 (2009), 181–201. Espinosa Elorza, Rosa María, Los conflictos de homónimos en el ámbito gramatical del español. Descripción de algunos casos y resoluciones en las épocas medieval y clásica, in: Company, Concepción/Moreno de Alba, José G. (edd.), Actas del VII Congreso Internacional de Historia de la Lengua, vol. 2, Madrid, Arco Libros, 2008, 1243–1261. Espinosa Elorza, Rosa Mª, Novedades del siglo XVIII en aspectos relacionados con los cambios gramaticales, in: García Godoy, Ma Teresa (ed.), El español del siglo XVIII: cambios diacrónicos en el primer español moderno, Berna et al., Peter Lang, 2012, 85–109. Fife, James, On defining linguistic periods: gradients and nuclei, Word 43:1 (1992), 1–14. Fischer, Olga, An iconic, analogical approach to grammaticalization, in: Conradie, Jac, et al. (edd.), Signergy, Ámsterdam/Filadelfia, John Benjamins, 2010, 279–98. Fontanella de Weinberg, Mª Beatriz, El español de América a partir de 1650, in: Actas del Congreso de la Lengua Española, Madrid, Instituto Cervantes, 1994, 754–765. Garachana Camarero, Mar/Artigas, Esther, Corpus digitalizados y palabras gramaticales, Scriptum Digital 1 (2012), 37–65. García Godoy, Mª Teresa, La reconstrucción del sistema de tratamientos en el español de Andalucía (siglo XIX), in: López Vallejo, Mª Ángeles/Montoro del Arco, Esteban/Sánchez García, Francisco José (edd.), Nuevas perspectivas en torno a la diacronía lingüística. Actas del VI Congreso Nacional de la AJIHLE, Granada, Universidad de Granada, 2008, 31–65. García Godoy, Mª Teresa (ed.), El español del siglo XVIII: cambios diacrónicos en el primer español moderno, Berna et al., Peter Lang, 2012. García Godoy, Mª Teresa, Una tradición textual en el primer español moderno: los tratados de misivas, Études Romanes de Brno 33 (2012), 357–376. García Salido, Marcos y Victoria Vázquez Rozas, Los corpus diacrónicos como instrumento para el estudio del origen y distribución de la concordancia de objeto en español, Scriptum Digital 1 (2012), 67–84. Girón Alconchel, José Luis, Procesos de gramaticalización del español clásico al moderno, in: Echenique, Ma Teresa/Sánchez Méndez, Juan (edd.), Actas del V Congreso Internacional de Historia de la Lengua Española, vol. 1, Madrid, Gredos, 2002, 103–121. Girón Alconchel, José Luis, Cambios gramaticales en los Siglos de Oro, in: Cano, Rafael (ed.), Historia de la lengua española, Barcelona, Ariel, 2004, 859–893. Girón Alconchel, José Luis, El hombre práctico (1686) de Gutiérrez de los Ríos: el español de finales del XVII, in: Lerner, Isaias, et al. (edd.), Actas del XIV Congreso de la Asociación Internacional de Hispanistas, vol. 1, Newark, Juan de la Cuesta, 2004, 251–264. Girón Alconchel, José Luis, Gramaticalización y estado latente, Dicenda 22 (2004), 71–88. Girón Alconchel, José Luis, La lengua de un embajador y un marino del siglo XVIII: ¿español moderno ya, o todavía clásico?, in: Company, Concepción/Moreno de Alba, José G. (edd.), Actas del VII Congreso Internacional de Historia de la Lengua Española, vol. 2, Madrid, Arco, 2008, 2243–2254. Girón Alconchel, José Luis, Las oraciones de relativo II. Evolución del relativo compuesto el que, la que, lo que, in: Company, Concepción (ed.), Sintaxis histórica de la lengua española, vol. 2:2, México, Fondo de Cultura Económica/Universidad Nacional Autónoma de México, 2009, 1477–1590.

Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno

85

Girón Alconchel, José Luis, El cambio y el no cambio gramatical en el relato histórico en la transición del siglo XVII al XVIII, Cuadernos Dieciochistas 13 (2012), 29–49. Guzmán Riverón, Marta/Sáez Rivera, Daniel (edd.), Márgenes y centros en el español del siglo XVIII, Valencia, Tirant lo Blanch, 2016. Haspelmath, Martin, On directionality in language change with particular reference to grammaticalization, in: Fischer, Olga/Norde, Muriel/Perridon, Harry (edd.), Up and down the cline – the nature of grammaticalization, Ámsterdam/Filadelfia, John Benjamins, 2004, 17–44. Heine, Bernd, Grammaticalization chains, Studies in Language 16 (1992), 335–368. Herrero Ruiz de Loizaga, Francisco Javier, Sintaxis histórica de la oración compuesta en español, Madrid, Gredos, 2005. Isasi, Carmen, Seseo vizcaíno en documentos del siglo XVIII, in: Bustos, José Jesús de/Girón, José Luis (edd.), Actas del VI Congreso Internacional de Historia de la Lengua Española, vol. 3, Madrid, Arco Libros, 2006, 2461–2471. Jacob, Daniel/Kabatek, Johannes, Introducción: lengua, texto y cambio lingüístico en la Edad Media iberorrománica, in: Jacob, Daniel/Kabatek, Johannes (edd.), Lengua medieval y tradiciones discursivas en la Península Ibérica: descripción gramatical – pragmática histórica – metodología, Frankfurt am Main/Madrid, Vervuert/Iberoamericana, 2001, vi–xviii. Jäger, Gerhard/Rosenbach, Anette, Priming and unidirectional language change, Theoretical Linguistics 34:2 (2008), 85–113. Kabatek, Johannes, Tradiciones discursivas jurídicas y elaboración lingüística en la España medieval, Cahiers de Linguistique Hispanique Médiévale 27 (2004), 249–261. Kabatek, Johannes, Las tradiciones discursivas del español medieval: historia de textos e historia de la lengua, Iberoromania 62 (2005), 28–43. Kabatek, Johannes, Nuevos rumbos en la sintaxis histórica, in: Montero Cartelle, Emilio (ed.), Actas del VIII Congreso Internacional de Historia de la Lengua Española, vol. 1, Santiago de Compostela, Meubook, 2012, 77–100. Kabatek, Johannes, ¿Es posible una lingüística histórica basada en un corpus representativo?, Iberoromania 77 (2013), 8–28. Kagan, Richard L., Prescott’s paradigm: American historical scholarship and the decline of Spain, The American Historical Review 101 (1996), 423–446. Kamen, Henry, Del Imperio a la decadencia: los mitos que forjaron la España moderna, Madrid, Temas de Hoy, 2006. Koch, Peter, Ein Blick auf die unsichtbare Hand: Kognitive Universalien und historische romanische Lexikologie, en Stehl, Thomas (ed.), Unsichtbare Hand und Sprecherwahl. Typologie und Prozesse des Sprachwandels in der Romania, Tubinga, Narr, 2005, 245–275. Koch, Peter/Oesterreicher, Wulf, Gesprochene Sprache in der Romania: Französisch, Italienisch, Spanisch, Berlín/Nueva York, De Gruyter, 22011 (primera ed. 1990). Kroch, Anthony, Reflexes of Grammar in Patterns of Language Change, Language Variation and Change 1 (1989), 199–244. Lapesa Melgar, Rafael, Historia de la lengua española, Madrid, Gredos, 91981 (primera ed. Madrid, Escelicer, 1942). Lapesa Melgar, Rafael, El uso de actualizadores con el infinitivo y la suboración sustantiva en español: diacronía y sentido, in: Schwartz, Lia/Lerner, Isaias (edd.), Homenaje a Ana María Barrenechea, Madrid, Castalia, 1984, 65–89. Lehmann, Christian, Thoughts on grammaticalization, Erfurt, Universität Erfurt, 22002 (primera ed. Múnich, Lincom, 1995).

86

Álvaro S. Octavio de Toledo y Huerta

Lleal Galcerán, Coloma, Rigor metodológico e investigación filológica, Scriptum Digital 2 (2013), 107–121. López Serena, Araceli, Selección natural, explicación racional y cambio lingüístico: hacia una fundamentación epistemológica no evolucionista de la teoría de la gramaticalización, RILCE 30 (2014), 724–775. Lorenzo Álvarez, Elena de, Hacia un siglo XVIII «con comento»: la edición como construcción y difusión del canon, in: Calzón García, José Antonio, et al. (edd.), Actas del I Congreso Internacional de Filología Hispánica: jóvenes investigadores. Orientaciones metodológicas, Oviedo, Universidad de Oviedo, 2008, 313–328. Lorenzo Criado, Emilio, El español de hoy, lengua en ebullición, Madrid, Gredos, 41994 (primera ed. 1966). Lucía Megías, José Manuel, La informática humanística: notas volanderas en el ámbito hispánico, Incipit 23 (2003), 91–114. Mackenzie, J. Lachlan, Cognitive adequacy in a dialogical Functional Discourse Grammar, Language Sciences 34 (2012), 421–432. Marcos Marín, Francisco, La periodización, in: Homenaje a Félix Monje: estudios de lingüística hispánica, Madrid, Gredos, 1995, 325–334. Martínez Alcalde, Mª José/Quilis Merín, Mercedes, Nuevas observaciones sobre periodización en la historia de la lengua española, in: Alonso, Alegría, et al. (edd.), Actas del III Congreso Internacional de Historia de la Lengua Española, vol. 1, Madrid, Arco Libros/Fundación Duques de Soria, 1996, 873–885. Melis, Chantal/Flores, Marcela/Bogard, Sergio, La historia del español. Propuesta de un tercer periodo evolutivo, Nueva Revista de Filología Hispánica 51 (2003), 1–56. Melis, Chantal/Flores, Marcela, On the interplay between forces of erosion and forces of repair in language change. A case study, Folia Linguistica Historica 30 (2009), 271–310. Mestre Sanchis, Antonio, La aportación cultural de los novatores, Torre de los Lujanes 37 (1998), 99–118. Molas Ribalta, Pere (ed.), La transición del siglo XVII al XVIII: entre la decadencia y la reconstrucción, Madrid, Espasa Calpe, 1993. Montaner Frutos, Alberto, Factores empíricos en la conformación del canon literario, Studia Aurea 5 (2011), 49–70. Moore, Colette, The spread of grammaticalized forms: the case of be + supposed to, Journal of English Linguistics 35 (2007), 117–131. Muñoz Armijo, Laura, Herramientas para la investigación sobre lingüística diacrónica en la web, in: Romero Aguilera, Laura/Julià Luna, Carolina (edd.), Tendencias actuales en la investigación diacrónica de la lengua, Barcelona, Universitat de Barcelona, 2009, 103–116. Narbona, Antonio, Cambios y tendencias gramaticales en el español moderno, in: Rafael Cano (ed.), Historia de la lengua española, Barcelona, Ariel, 2004, 1011–1035. Nieuwenhuijsen, Dorien, El rastreo del desarrollo de algunos pronombres personales en español: (im)posibilidades de los corpus diacrónicos digitales, in: Enrique-Arias, Andrés (ed.), Diacronía de las lenguas iberorrománicas. Nuevas aportaciones desde la lingüística de corpus, Madrid/Frankfurt am Main, Iberoamericana/Vervuert, 2009, 365–384. Nieuwenhuijsen, Dorien, No es temporal, antes es adversativo: historia del valor adversativo de antes, in: Montero Cartelle, Emilio (ed.), Actas del VIII Congreso Internacional de Historia de la Lengua Española, vol. 1, Santiago de Compostela, Meubook, 2012, 995–1005.

Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno

87

Norde, Muriel, Lehmann’s parameters revisited, in: Davidse, Kristin, et al. (edd.), Grammaticalization and language change. New reflections, Ámsterdam/Filadelfia, John Benjamins, 2012, 73–110. Octavio de Toledo y Huerta, Álvaro S., Un rasgo sintáctico del primer español moderno (ca. 1675– 1825): las relaciones interoracionales con ínterin (que), in: Fernández Alcaide, Marta/López Serena, Araceli (edd.), Cuatrocientos años de la lengua del Quijote: estudios de historiografía e historia de la lengua española, Sevilla, Universidad de Sevilla, 2007, 421–442. Octavio de Toledo y Huerta, Álvaro S., Un nuevo esquema adversativo en el primer español moderno (h.1675–1825): la historia del nexo sino es, in: Company, Concepción/Moreno de Alba, José G. (edd.), Actas del VII Congreso Internacional de Historia de la Lengua, vol. 1, Madrid, Arco Libros, 2008, 877–908. Octavio de Toledo y Huerta, Álvaro S., Entre gramaticalización, estructura informativa y tradiciones discursivas: algo más sobre nada, in: Girón Alconchel, José Luis/Sáez Rivera, Daniel (edd.), Procesos de gramaticalización en la historia del español, Madrid/Frankfurt am Main, Iberoamericana/Vervuert, 2014, 263–319. Octavio de Toledo y Huerta, Álvaro S., Espejismo de la frecuencia creciente: gramaticalización y difusión del artículo ante oraciones sustantivas, RILCE 30:3 (2014), 916–958. Octavio de Toledo y Huerta, Álvaro S., Antonio Muñoz y la sintaxis de la lengua literaria durante el primer español moderno (ca. 1675–1825), in: Guzmán Riverón, Martha/Sáez Rivera, Daniel M. (edd.), Márgenes y centros en el español del s. XVIII, Valencia, Tirant Lo Blanch, 2016, 201–299. Octavio de Toledo y Huerta, Álvaro S./Pons Rodríguez, Lola, ¿Mezclando dos hablas? La imitación de la lengua medieval castellana en la novela histórica del XIX, La Corónica 37 (2009), 157–183. Octavio de Toledo y Huerta, Álvaro S./Rodríguez Molina, Javier, La necesaria distinción entre texto y testimonio: el CORDE y los criterios de fiabilidad lingüística, Scriptum Digital 5, 2016. Oesterreicher, Wulf , La historicidad del lenguaje: variación, diversidad y cambio lingüístico, in: Bustos, José Jesús de/Girón, José Luis (edd.), Actas del VI Congreso Internacional de historia de la Lengua Española, vol. 1, Madrid, Arco Libros, 2006, 137–158. Oesterreicher, Wulf, Gramática histórica, tradiciones discursivas y variedades lingüísticas – Esbozo programático, Revista de Historia de la Lengua Española 2 (2007), 109–128. Pérez Magallón, Jesús, Hacia un nuevo discurso poético en el tiempo de los novatores, Bulletin Hispanique 103 (2001), 449–480. Pérez Magallón, Jesús, Construyendo la modernidad, la cultura española en el tiempo de los novatores, (1675–1725), Madrid, CSIC, 2002. Pérez Magallón, Jesús, Góngora y su ambigua apropiación en el tiempo de los novatores, Criticón 103–104 (2008), 119–130. Pérez Magallón, Jesús, ¿Calderón y Zamora: un Barroco ilustrado?, Edad de Oro 31 (2012), 241–256. Perona, José, Historias de la lengua, Revista de Investigación Lingüística 2 (2000), 355–378. Pons Rodríguez, Lola, Canon, edición de textos e historia de la lengua cuatrocentista, in: Pons, Lola (ed.), Historia de la lengua y crítica textual, Madrid/Frankfurt am Main, Iberoamericana/Vervuert, 2006, 69–126. Pons Rodríguez, Lola, Una reflexión sobre el cambio lingüístico en el siglo XV, in: Luque, Juan de Dios (ed.), Actas del V Congreso Andaluz de Lingüística General, vol. 3, Granada, Granada Lingvistica, 2006, 1563–1577.

88

Álvaro S. Octavio de Toledo y Huerta

Postma, Gertjan, The impact of failed changes, in: Breitbarth, Anne, et al. (edd.), Continuity and change in grammar, Ámsterdam/Filadelfia, John Benjamins, 2010, 269–302. Ramírez Luengo, José Luis, El pretérito de subjuntivo en la Venezuela de la Independencia: alternancia –RA/–SE en el epistolario de Bolívar, Anuario de Lingüística Hispánica 17–18 (2002), 257–272. Ramírez Luengo, José Luis (ed.), La lengua que hablaban los próceres: El español de América en la época de las independencias, Buenos Aires, Voces del Sur, 2011. Ramírez Luengo, José Luis (ed.), Por sendas ignoradas: estudios sobre el español del siglo XIX, Lugo, Axac, 2012. Ramírez Luengo, José Luis/Rubio Heras, Laura, Contribución al estudio de la oración condicional en el siglo XVIII: el caso de Ramón de la Cruz, Res Diachronicae 2 (2003), 272–280. Rodríguez Molina, Javier, La gramaticalización de los tiempos compuestos en español antiguo: cinco cambios diacrónicos, Madrid, Universidad Autónoma de Madrid, 2010 (tesis doctoral). Rojo, Guillermo, Sobre codificación y explotación de corpus textuales: otra comparación del Corpus del Español con el CORDE y el CREA, Lingüística 24 (2010), 11–50. Rojo, Guillermo, El papel de los corpus en el estudio de la historia del español, in: Montero Cartelle, Emilio (ed.), Actas del IX Congreso Internacional de Historia de la Lengua Española, vol. 1, Santiago de Compostela, Meubook, 2012, 433–444. Rojo, Guillermo, Frecuencia de inventario y frecuencia de uso en los elementos gramaticales, Revista Española de Lingüística 41:2 (2014), 5–43. Rojo, Guillermo y Victoria Vázquez Rozas, Sobre las formas en -ra en el español de Galicia, in: Enrique-Arias, Andrés, et al. (edd.), Perspectives in the study of Spanish language variation. Papers in honor of Carmen Silva-Corvalán, Santiago de Compostela, Universidade de Santiago de Compostela, 2014, 237–270. Sáez Rivera, Daniel M., El doblado de clíticos en la obra de Francisco Sobrino, Res Diachronicae 2 (2003), 327–337. Sáez Rivera, Daniel M., The interplay of object clitic doubling and the grammaticalization of address forms in the genre of collections of letters in Spanish (Peliger, 1599; Páez, 1630; Sobrino, 1720), in: Girón Alconchel, José Luis/Sáez Rivera, Daniel M. (edd.), Procesos de gramaticalización en la historia del español. Madrid/Frankfurt am Main, Iberoamericana/ Vervuert, 2014, 321–360. Sánchez Lancis, Carlos, Historia de la lengua, gramática histórica y periodización en español, Estudi General 21 (2001), 395–412. Sánchez Lancis, Carlos, Corpus diacrónicos y periodización del español, Cahiers d’Études Hispaniques Médievales 32 (2009), 159–180. Sánchez Lancis, Carlos, Periodización y cambio gramatical: el siglo XVIII, ¿frontera temporal del español?, in: García Godoy, Mª Teresa (ed.), El español del siglo XVIII: cambios diacrónicos en el primer español moderno, Berna et al., Peter Lang, 2012, 21–51. Sánchez Marco, Cristina, Tracing the development of Spanish participial constructions: an empirical study in semantic change, Barcelona, Universitat Pompeu Fabra, 2012 (tesis doctoral). Sánchez Martínez, Felipe/Martínez Sempere, Isabel/Ivars-Ribes, Xavier/Carrasco, Rafael C., An open diachronic corpus of historical Spanish, Language Resources and Evaluation 47 (2013), 1327–1342. Sánchez Méndez, Juan, Tiempos verbales y tipos de expresión condicional en documentos coloniales novogradinos de los siglos XVII y XVIII, in: Montero Cartelle, Emilio (ed.), Actas del IX Congreso Internacional de Historia de la Lengua Española, vol. 1, Santiago de Compostela, Meubook, 2012, 1147–1158.

Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno

89

Sánchez Sánchez, Mercedes/Domínguez Cintas, Carlos, El banco de datos de la Real Academia Española: CREA y CORDE, Per Abbat 2 (2007), 137–146. Schwenter, Scott/Torres Cacoullos, Rena, Grammaticalization paths as variable contexts in weak complementarity, in: Walker, James (ed.), Aspect in grammatical variation, Ámsterdam/ Filadelfia, John Benjamins, 2010, 13–26. Serradilla Castaño, Ana, El auge del dequeísmo en el siglo XVIII o la desestabilización del sistema: historia de una variación lingüística, Zeitschrift für romanische Philologie 130 (2014), 928–955. Suárez Figaredo, Enrique, Sobre la atribución del Quijote apócrifo a José de Villaviciosa, Lemir 15 (2011), 135–146. Torres Cacoullos, Rena, Las nominalizaciones de infinitivo, in: Company, Concepción (ed.), Sintaxis histórica de la lengua española, vol. 2:2, México, Fondo de Cultura Económica/ Universidad Nacional Autónoma de México, 2009, 1673–1738. Traugott, Elizabeth Closs, From etymology to historical pragmatics, in: Minkova Donka/Stockwell, Robert (edd.), Studies in the history of the English language, Berlín/Nueva York, De Gruyter, 2002, 19–49. Traugott, Elizabeth Closs, Exaptation and Grammaticalization, in: Akimoto, Minoji (ed.), Linguistic Studies Based on Corpora, Tokyo, Hituzi Syobo, 2004, 133–156. Veiga, Alexandre, Le système verbal du galicien. Survivance d´un état proto-romain occidental?, in: Actes du XVIIème Congrès International de Linguistique et Philologie Romanes, vol. 3, Tubinga, Niemeyer, 1991, 77–96. Weber, Alison, Golden Age or Early Modern: what’s in a name?, Proceedings of the Modern Language Association (PMLA) 126 (2011), 225–232. Winter-Froemel, Esme, What does it mean to explain language change? Usage-based perspectives on causal and intentional approaches to linguistic diachrony, or: On S-curves, invisible hands, and speaker creativity, Energeia 5 (2014), 123–142.

Joan Torruella

Tres propuestas en el ámbito de la lingüística de corpus 1 Presentación1 En este trabajo se presentan algunas propuestas de reflexión sobre cuestiones que creemos que son de debate en este momento en el campo de la lingüística de corpus y más concretamente en el del diseño y construcción de estos.2 Dichas reflexiones las hacemos a propósito de pensar en la manera de mejorar una nueva versión del Corpus Informatitzat del Català Antic (CICA)3 de modo que la organización de los materiales que lo configuran sea más eficiente y productiva y, a la vez, pueda proporcionar la posibilidad de obtener datos de carácter lexicométrico que alcancen cotas más interesantes que el puro recuento y distribución de frecuencias. Estas reflexiones, a pesar de haber estado hechas para un corpus en particular, creemos que pueden ser extrapolables a los diseños de otros corpus textuales y, en especial, a los de otros corpus histórico-diacrónicos. En concreto, nos proponemos plantear una serie de consideraciones sobre tres aspectos que creemos que pueden mejorar la construcción de algunos de los corpus actuales y ser útiles si se tienen en cuenta en la elaboración de nuevos. Se trata de: a) los criterios para la segmentación del eje diacrónico, b) el sistema para establecer el reparto de los textos en los distintos apartados en que un corpus se estructura, pensando en su representatividad, y c) cómo ofrecer información de la riqueza léxica de los textos que componen un corpus y poderlos situar en una escala de clasificación que permita establecer comparaciones entre ellos. A estos tres puntos que aquí se plantean, inconexos a primera vista, les une la finalidad de querer avanzar en algunos aspectos y ofrecer nuevas aportaciones en el campo del diseño de corpus, siempre pensando en que en esta disciplina, la de la lingüística de corpus, como en todas, constantemente se puede mejorar y buscar nuevas posibilidades.

1 Esta investigación ha podido desarrollarse gracias a las ayudas de la DGICYT (FFI2014-51904-P) y del Comissionat per Universitats i Recerca de la Generalitat de Catalunya (SGR2014-1328). 2 El término Lingüística de corpus tiene dos acepciones: por una parte, la que hace referencia a la metodología de diseño y recopilación de un corpus y, por otra, a la de su explotación. 3 El CICA se halla a disposición de la comunidad científica en http://www.cica.cat. Joan Torruella: ICREA – Universitat Autònoma de Barcelona

Tres propuestas en el ámbito de la lingüística de corpus

91

2 El Corpus Informatitzat del Català Antic Como ya he indicado, las tres reflexiones que aquí propongo son fruto de buscar mejoras en el Corpus Informatitzat del català Antic (CICA). Se trata de un corpus que responde, entre otros parámetros, a los de textual, pequeño, histórico, diacrónico y concerniente a la lengua en general. Es textual porque de cada obra seleccionada para el corpus se recoge el texto completo y no solamente partes de ellos, como haría un corpus de referencia. Pequeño o restringido puesto que no llega ni a 50.000.000 ni a 20.000.000 de palabras, que son las cantidades que los tratados de lingüística de corpus definen como límite para considerar que un corpus es pequeño4, frente a los medianos, que llegan hasta 100.000.000 de palabras, y a los grandes, que sobrepasan esta cifra. Histórico puesto que recopila textos de la lengua del pasado. Diacrónico por el hecho de que organiza los textos en etapas temporales sucesivas. Y, finalmente, general, pues pretende reflejar la lengua en todos sus ámbitos y se interesa por coleccionar tipos de textos que respondan a cuantas más variedades lingüísticas distintas mejor. El CICA reúne una colección de textos que van desde el siglo XI (primeros documentos de la lengua catalana) hasta el siglo XVII (frontera con el catalán moderno). Los textos están tratados y dispuestos de tal manera que, gestionados con el programa de consulta Estación de Análisis Documentales (EAD), desarrollado en el Seminario de Filología e Informática de la Universidad Autónoma de Barcelona, puede facilitar a sus usuarios una serie de datos y de informaciones útiles para estudios tanto de carácter lingüístico como documental. El CICA no quiere ser el «gran corpus» del catalán antiguo, sino un «corpus textual y de referencia»5 (quizás sería mejor decir «textual y representativo»), basado en el equilibrio y la representatividad de sus componentes. Equilibrio en cuanto a la cantidad de textos y palabras incluidas en cada uno de los apartados de los ejes en que está estructurado el corpus (diacrónico, tipológico y dialectal); representativo en tanto que los textos seleccionados deben reflejar las características lingüísticas de los distintos apartados a los que corresponden. Así, por

4 Alain Guerreau (2014) considera corpus pequeños hasta 5.000.000 de palabras. 5 En este punto «de referencia» no se usa, como en muchos tratados de lingüística de corpus, en el sentido de corpus que recopila fragmentos de obras en vez de obras enteras, sino en el sentido que le atribuye la Real Academia Española cuando define el CREA y el CORDE como corpus que tienen el objetivo de «proporcionar información exhaustiva acerca de una lengua en un momento determinado de su historia y, por tanto, ha de ser lo suficientemente extenso para representar todas las variedades relevantes de la lengua en cuestión».

92

Joan Torruella

ejemplo, el Tirant lo Blanch responde a los parámetros segunda mitad del siglo XV, prosa de ficción y occidental valenciano. Es importante tener en cuenta que, a pesar de que se pretende que el CICA sea un corpus equilibrado entre sus diferentes apartados, esto no siempre ha sido posible, puesto que, como sucede en todas las lenguas románicas, el número de documentos que han llegado hasta nosotros anterior a la segunda mitad del siglo XIII es bastante pequeño y, a pesar de haber incluido todos estos textos en el corpus, se llega a unas cifras de muestras muy exiguas. El CICA está formado por 414 obras, las cuales aportan al corpus más de 9.000.000 de palabras, mayoritariamente catalanas, pero también latinas, castellanas, aragonesas, francesas, occitanas, etc., debido a que, como ya se ha mencionado, el corpus está constituido por textos enteros y, por tanto, no se han excluido las partes que en algunas obras están redactadas en otras lenguas. La procedencia de los textos es, en su mayoría, de ediciones ya publicadas, aunque, cuando no hemos encontrado una edición que se adaptara a las condiciones requeridas para el corpus (calidad de la edición, tipo de edición, integridad del texto, distancia entre el original y la copia, etc.), se ha recurrido a editar los textos expresamente para nuestro proyecto. En cuanto a los textos publicados que se han incluido, se ha procurado que las ediciones seleccionadas fueran ediciones solventes desde el punto de vista filológico, que procedieran de un solo manuscrito y que, en caso de ser copia, la fecha de redacción del mismo no excediera más de 50 años de la del original. El CICA está estructurado en tres ejes principales, que responden a las clasificaciones de los textos según su diacronía, su tipología y su carácter dialectal. Cada uno de estos ejes está a su vez dividido en apartados, de manera que cada obra que compone el corpus se clasifica dentro de un apartado de cada eje. De esta manera es viable, cuando se está estudiando la posible evolución de un hecho lingüístico, establecer la variable dependiente y las posibles variables independientes necesarias para llevar a cabo la investigación. Por ejemplo, si se quiere estudiar en qué época se pasó de la estructura del posesivo en español, «artículo + posesivo + nombre» (la mi casa) a la estructura «posesivo + nombre» (mi casa), se usan como variable independiente los distintos apartados del eje temporal y se observa si el fenómeno en cuestión, la estructura del posesivo (la variable dependiente), cambia según estos apartados. Téngase en cuenta que, en las investigaciones a partir de corpus, si hay voluntad de seguir un método científico y se pretende poder aplicar técnicas estadísticas en el análisis, es necesario disponer de variables que permitan la experimentación, de manera que, cuando cambie alguna de las variables independientes, se pueda observar cómo reacciona la variable dependiente.

Tres propuestas en el ámbito de la lingüística de corpus

93

2.1 Eje diacrónico Por lo que respecta a la diacronía o periodización adoptada en el CICA, para conseguir la máxima neutralidad y no predisponer los resultados de antemano, los apartados de este eje se han confeccionado dejando a un lado criterios lingüísticos y usando, en cambio, criterios externos a la lengua. En cuanto a estos criterios diré que, para no prejuzgar nada por el hecho de haber adoptado algún tipo de división temporal ligada a aspectos históricos o socioculturales, se ha dividido el eje diacrónico en estrictos periodos de 50 años. Así cada siglo se divide en «primera mitad de…» y en «segunda mitad de…». El equilibrio de los distintos apartados del eje diacrónico se decidió que fuese equivalente (cantidad de muestras más o menos igual en cada apartado) y no proporcional (cantidad de muestras en cada apartado en relación a su porcentaje en la población), puesto que para establecer una correlación proporcional se necesita conocer la dimensión del todo (total de la población) y de cada una de las partes que lo configuran (en nuestro caso de cada medio siglo), algo que en corpus generales no es posible, y menos en corpus de carácter histórico-diacrónico. Por ello, se ha pretendido coleccionar para cada apartado alrededor de un millón de muestras, es decir, de palabras. Sin embargo, como se puede observar en la tabla 1, a partir de la segunda mitad del s. XIII en algunos apartados no se llega a este número de palabras y en otros nos hemos excedido,6 pero, considerando que no trabajamos con frecuencias absolutas sino que lo hacemos con frecuencias relativas, en términos estadísticos las cantidades se pueden considerar aceptables, a pesar de que, por ejemplo, el siglo XV tenga el doble de palabras que el siglo XVI y represente casi el 40 % (39,199) del total del corpus. No es así, en cambio, en el caso de los primeros siglos (del s. XI hasta la primera mitad del s. XIII), puesto que en todos los periodos que los componen el número de palabras que se han podido incluir al corpus es manifiestamente pequeño, pero no puede crecer por no existir más. En tal caso, los resultados obtenidos se deben considerar solamente indicativos de una posible tendencia, pero no permiten hacer extrapolaciones de las características de la lengua ni comparaciones entre apartados.

6 Es muy difícil equilibrar de manera completa los distintos ejes de un corpus, puesto que cuando se equilibra uno, si no se está atento, se desequilibran los otros.

94

Joan Torruella

Tabla I: Frecuencia absoluta de palabras y porcentaje respectivo en el corpus Periodo

Frecuencia absoluta

Tanto por ciento

XIa

798

0,0971

XIb

3.296

0,0401

XIIa

1.238

0,0150

XIIb

2.107

0,0256

XIIIa

22.096

0,2691

XIIIb

937.067

11,4131

XIVa

934.994

11,3879

XIVb

1.323.976

16,1256

XVa

1.462.865

17,8172

XVb

1.897.994

23,1169

XVIa

742.595

9,0445

XVIb

881.358

10,7346

2.2 Eje tipológico El eje tipológico está organizado en 11 apartados que cubren todo muestrario de tipos de obras que tenemos hasta el siglo XVII. El eje se estructuró a partir de la tipificación de los textos que los especialistas habían seleccionado para componer el corpus y de los conocimientos e intuiciones que sus diseñadores tenían al respecto. De ello resultó la siguiente clasificación: A – Prosa de ficción B – Crónicas y obras historiográficas C – Obras religiosas y morales D – Prosa de la cancillería E – Textos administrativos F – Textos jurídicos G – Libros de corte H – Textos científicos y técnicos I – Epistolarios y dietarios J – Poesía L – Obras gramaticales y lexicográficas

Tres propuestas en el ámbito de la lingüística de corpus

95

2.3 Eje dialectal Aunque para el establecimiento del eje diacrónico y para el del eje tipológico se han usado criterios extralingüísticos, en el caso del eje dialectal esto no ha sido posible, puesto que el lugar de la copia o la zona geográfica del autor no son elementos válidos para determinar la variedad dialectal de una obra. Por ello, en este caso, para clasificar las obras se ha tenido que recurrir a criterios lingüísticos sustentados en el análisis previo de las características dialectales de cada obra. Por este motivo, el eje dialectal del CICA está estructurado siguiendo las divisiones dialectales actuales establecidas en el siglo XIX y a principios del XX. De esta manera el eje se organiza en dos grandes bloques: Catalán oriental y Catalán occidental, con diferentes apartados en cada bloque. De todos modos, se debe considerar que el catalán no es una lengua que en sus escritos presente grandes diferencias dialectales, ya que «es uno de los idiomas más unitarios de la Romania [. . .]; las diferencias que se observan están en función de la cronología de la redacción más que de la procedencia geográfica de los autores» (Veny 1998, 11). Con todo, el eje presenta los siguientes apartados: CAT = Català Oc = Occidental NO = Nord occidental V = Valencià Or = Oriental A = Alguerès S = Septentrional B = Balear C = Central

Existen algunas obras que se consideró importante que estuviesen representadas en el CICA pero que no se podían inscribir en ninguna variedad dialectal, las cuales figuran en el corpus con la etiqueta de CAT. Del mismo modo que, por norma general, temporalmente situamos los textos en el periodo de la copia que se ha usado y no en el de su original, también en el eje dialectal clasificamos cada texto según la variedad lingüística de la copia utilizada, no según la de su original correspondiente. Así, por ejemplo, la obra Tractat de confesió, de Antoni Canals escrita en 1413 en catalán occidental, en el CICA se clasifica dentro del dialecto oriental, puesto que la lengua de la copia que se ha usado, que es del año 1420, así lo indica.

96

Joan Torruella

3 Criterios para la segmentación del eje diacrónico En la organización de los textos que deben configurar un corpus diacrónico existen dos tipos de criterios que se pueden utilizar: criterios internos de la lengua (criterios lingüísticos: evolución de fenómenos lingüísticos, cambios de fonemas, etc.) y criterios externos a la lengua (criterios extralingüísticos: dinastías, acontecimientos notables, siglos, etc.). Como se ha dicho, el CICA se organiza a partir de criterios externos a la lengua, a pesar de que, actualmente, gracias a que el corpus ha servido para la extracción de datos en la redacción de la Gramàtica del Català Antic, ya se podrían obtener algunas informaciones de evoluciones lingüísticas que hicieran posible una primera organización del corpus siguiendo criterios internos de la lengua. Con todo, preferimos mantener el sistema inicial de organizar el eje diacrónico siguiendo criterios externos para no prejuzgar nada y ser el máximo de neutrales a la hora de obtener datos, para que sea el usuario quien, a la vista de los resultados que obtenga, describa las etapas lingüísticas que detecte. De hecho, todos los corpus diacrónicos iberorrománicos que existen actualmente siguen, con diferentes escalas, este sistema. Dentro de los criterios externos, es decir, de los no lingüísticos, desestimamos regirnos por criterios históricos, histórico-literarios o histórico-sociales como los clasifica Marcos Marín (1992, 602) y nos decantamos por seguir ofreciendo al usuario unas divisiones temporales pautadas en intervalos de medio siglo. De esta manera será el usuario el que deberá buscar la relación que pueda existir entre las fechas en que se producen ciertas evoluciones y cambios lingüísticos con los acontecimientos históricos pertinentes. La división temporal por intervalos numéricos es la que permite más fácilmente la observación del ritmo de las transformaciones, del crecimiento de unos rasgos y la disminución de otros, sobre todo si estos se plasman en gráficos. El CICA, decíamos, está estructurado en periodos de 50 años, susceptibles de convertirse en periodos de 25 años si en el futuro el volumen del corpus aumenta. ¿Por qué organizar las divisiones temporales en franjas de 50 años y no de 100 o de 25, por ejemplo? A nivel teórico, la división óptima sería la de 25 años, puesto que, tal como explican Arias y Hernández (2013, 6), los períodos de 25 años pueden ser considerados como cortes generacionales y, desde la perspectiva del cambio léxico, se consideran como los espacios mínimos para poder registrar variaciones. Sin embargo, en nuestro caso, el motivo de seguir ofreciendo franjas de 50 años y no de 25 es porque consideramos que el volumen de palabras que deben tener los distintos apartados de este eje tiene que ser, por un lado, suficientemente representativo, pero, por otro lado, también tiene que ser mane-

Tres propuestas en el ámbito de la lingüística de corpus

97

jable, puesto que si el volumen de los distintos apartados es muy grande, la cantidad de ocurrencias que se obtendrán en algunas consultas muchas veces será excesiva para que puedan ser analizadas. Por el contrario, si el corpus está dividido en muchos apartados de poco volumen cada uno de ellos, el número de ocurrencias que se obtendrán será escaso y, consecuentemente, poco representativo. Por ello, es conveniente adaptar el número de apartados del eje diacrónico al volumen general de este, de manera que, para contener un número razonable (representativo y manejable) de palabras en cada apartado, se deberá aumentar o disminuir el número de estos según el volumen total del corpus; es decir, cuanto mayor sea el corpus más apartados será conveniente que tenga y viceversa. Por este motivo, el CICA está preparado para que, en caso de aumentar el volumen del corpus, se doble el número de apartados del eje diacrónico y se pase así de franjas de medio siglo a franjas de cuarto de siglo. En el mismo orden de cosas, el hecho de establecer franjas de 50 años y no de 25 facilita la inscripción de los documentos en su apartado correspondiente, puesto que cuando se trata de corpus históricos que abarcan épocas muy antiguas, muchas veces es difícil saber la fecha exacta de los documentos y es más probable poder establecer si un documento pertenece a la primera mitad o a la segunda de un siglo que establecer si pertenece al primer cuarto o al segundo. Respecto a este tema, se tiene que tener en cuenta también el problema de la distancia temporal que pueda existir entre la copia que se usa (de la mayoría de textos literarios no disponemos del original) y su original. En la selección de documentos que no sean originales y que se integran en un corpus, es importante recurrir, siempre que sea posible,7 a copias «contemporáneas»; en nuestro contexto, consideramos contemporánea una copia que no exceda a un máximo de 50 años del original. A este respecto, Inés Fernández-Ordóñez (2006, 1790–1791) hace notar que la preservación de los manuscritos medievales de autor (o de las copias directas de ellos) no suele ser sino extraordinaria rareza, privilegio con el que no podemos contar habitualmente. Por ello, parece sensato admitir como fuente de datos de la lengua de una época aquellas copias que sean contemporáneas de la composición del texto. El problema está en determinar qué entendemos por contemporáneas. Atendiendo a las constataciones que hoy nos proporciona la sociolingüística sobre el período mínimo de difusión de los cambios estudiados en tiempo aparente, me atrevería a proponer a copias que no hayan rebasado la frontera del medio siglo entre la composición de la obra y la transcripción del códice.

7 En algunos pocos casos que considerábamos que una obra era importante que estuviese presente en el corpus y no se podía disponer (por no existir) de una copia «contemporánea», se ha incluido al corpus una copia más tardía advirtiendo de ello en su ficha de filiación.

98

Joan Torruella

Respecto a la periodización del eje diacrónico, también es importante plantearse la posibilidad de ofrecer al usuario un sistema de periodización abierto, esto es, que sea este el que establezca, a partir de la fecha de cada documento, el año de inicio y el año final de cada franja temporal que desee estudiar, puesto que, como apunta Guillermo Rojo (2010, 20), si la distribución temporal es importante (y, sin duda, lo es), lo lógico sería estructurar en períodos que se correspondieran con los habitualmente utilizados en los trabajos sobre historia del español. Todavía mejor: dado que esa estructuración resulta siempre discutible y los elementos evolucionan en épocas distintas y a ritmos diferentes, lo realmente útil y lo único adecuado a las cambiantes necesidades de la investigación es que la determinación de las fechas esté abierta a lo que precise quien hace la consulta y no que sea establecida de modo innegociable simplemente porque esa es la única forma de poder precalcular las frecuencias de cada tramo.

De todos modos, en el caso del CICA, finalmente, a pesar de estar de acuerdo con los argumentos de Guillermo Rojo, después de sopesar pros y contras de cada uno de los dos sistemas, el de franjas temporales establecidas o el de fechas abiertas, nos hemos decantado por el primero, puesto que el sistema abierto implica que todos los documentos que componen el corpus deben ir datados con una fecha precisa, cosa que, al tratarse de un corpus histórico que abarca desde los orígenes de la lengua, en nuestro caso no es posible, debido a que de una buena parte de los documentos que usamos no sabemos la fecha exacta de su redacción y solamente podemos saber su fecha aproximada (más aún cuando usamos la fecha del documento que utilizamos y no la fecha en que se redactó el original). Lo ideal sería que todos los documentos componentes de un corpus tuvieran una fecha concreta, pero, siendo realistas, en el caso de la mayoría de corpus históricos esto obligaría a dejar aparte un sinfín de documentos, algunos de ellos de gran interés, de los que se desconoce la fecha exacta en que se copió.

4 Representatividad: reparto de textos proporcional o igualitario Otra de las cuestiones que nos hemos planteado, pensando en el carácter representativo que se pretende que tenga el CICA, es la de si el reparto de textos en los distintos apartados de cada eje debía ser igualitario o proporcional. Se debe tener presente que «la investigación a partir de corpus es un tipo de investigación de carácter inductivo que pretende extraer, desde determinadas observaciones particulares, el principio general que en ellas está implícito» (Torruella, en prensa). Ello implica que el corpus ha de reflejar las características

Tres propuestas en el ámbito de la lingüística de corpus

99

del universo lingüístico (la población en términos estadísticos) que quiere representar. Para que un corpus refleje a partir de las distintas muestras que lo componen las características del total de la población, tiene que basarse en la representatividad de sus componentes. Así, un corpus, para ser apto para trabajos científicos, ha de mostrar, a partir de la suma de las particularidades de cada apartado en que está estructurado, las características del universo lingüístico que quiere simbolizar. Por ello, cuando se diseña el corpus y especialmente cuando se organiza la selección de las obras que lo van a configurar, se debe pensar en que estas serán la base que permitirá que los estudios que se hagan a partir de él se sustenten sobre datos empíricos cuantificables. En la concepción de un corpus la representatividad es un componente muy importante, ya que valida las investigaciones realizadas a partir de este. Tal como ya advirtieron en su momento Biber, Conrad y Reppen (1998, 246), «the representativeness of the corpus, in turn, determines the kinds of research questions that can be addressed and the generalizability of the results of the research». Sin embargo, en el tema de la representatividad de los corpus y especialmente de los corpus históricos, lo primero que debemos plantearnos es la capacidad representativa que estos pueden tener, puesto que, al estar limitados a utilizar solamente textos escritos, hemos de cuestionarnos forzosamente si el hecho de estudiar la lengua a partir de material escrito es estudiarla en su manifestación más natural y, consecuentemente, si ello posibilita extraer conclusiones respecto de la lengua en general. En este sentido, ya Chafe (1992, 88) pronunció que speaking is natural to the human organism in ways that writing can never be. It is plausible to suppose that humans are ‹wired up› to speak and listen, than the evolution of speech was inextricably interwoven with the physical evolution of our species. The same cannot be true of writing. It is only for a brief moment in the scale of evolution that writing has been with us at all, and widespread literacy, extending beyond a few scribes or a small elite, is more recent still.

El texto escrito, aunque sólo sea por la distancia comunicativa entre emisor y receptor, suele ser más formal y está más controlado que el acto de hablar, que, por su naturaleza, implica proximidad comunicativa y una relación diferente entre emisor y receptor.8 En este sentido se debe tener presente que, según la 8 Claro está que existen diferentes niveles de formalidad que implican una mayor o menor aproximación al lenguaje más natural o a lo que en realidad fué la lengua hablada, aunque nunca se puede tener el testimonio auténtico de la lengua hablada, porque, como han demostrado Eberenz/La Torre (2003), ni las transcripciones de diálogos habidos en juicios conservadas

100

Joan Torruella

teoría del cambio lingüístico, gran parte de las innovaciones lingüísticas suelen tener su origen en registros no formales, de difusión oral, para extenderse posteriormente a los registros más formales de difusión escrita. Además, el problema de la representatividad de los corpus históricos es mayor si pensamos en que podemos disponer solamente de textos escritos y, de entre estos, únicamente de aquellos que se han conservado (una número muy pequeño en algunas épocas). Diversos autores han cuestionado la representatividad de los corpus por diferentes motivos, entre ellos:9 En el ámbito documental, porque: – – – –

Los textos conservados representan una mínima parte de la producción total (Kabatek 2013b, 9). No tenemos muestras de algunos tipos de texto producidos (Kabatek 2013b, 9). Se hace imposible recrear los múltiples factores que en su simultaneidad contribuyen a la configuración de una situación comunicativa (Caravedo 1999, 70). Conocemos muy deficientemente la fuente del dato, cosa que hace difícil la estratificación del corpus (Caravedo 1999, 70).

En el ámbito filológico se puede argumentar que: –

–

–

–

–

No se puede asegurar la autenticidad y la homogeneidad de los textos que componen un corpus para que sean testimonio del lenguaje de una época determinada (Jacob 2001, 155). La lengua en su dinamismo y heterogeneidad es mucho más rica de lo que se puede imaginar y no logra ser captada en un solo corpus, por gigante que sea su tamaño (Parodi 2008, 104–105). Cuando un manuscrito forma parte de una tradición textual continua, no siempre es posible determinar el grado de transformación que el texto ha sufrido dentro de esa tradición, ni cuál ha sido la intervención de los copistas y compiladores ni a qué etapa de la transmisión pertenece un rasgo determinado del texto (Jacob 2001, 155). Existe desconocimiento de la influencia de las relaciones intertextuales, puesto que muchos de los textos son refundiciones, adaptaciones o traducciones de originales en otras lenguas y muchas veces no es posible delimitar la influencia del texto fuente en el lenguaje del texto de llegada (Enrique-Arias 2012a, 423; Jacob 2001, 155). Por muy representativos que sean los corpus, tienen muy poca capacidad para tratar los fenómenos negativos (Kabatek 2013a, 86; Jacob 2001, 153–158).

en las actas de los procesos se libran de «las manipulaciones que los escribanos someten tales secuencias» (Eberenz/La Torre 2003, 12). 9 Para una descripción más completa y detallada de cada uno de estos argumentos, véase Torruella (en prensa).

Tres propuestas en el ámbito de la lingüística de corpus

101

En otros ámbitos, porque: – – – –

–

La lengua no es la suma de los textos (Kabatek 2013b, 9). Todavía hacen falta más estudios al respecto para poder establecer parámetros de representatividad (Aquilino Sánchez 1995). Es imposible delimitar la población de los textos, cosa que hace irrelevante la aplicación de la estadística (Baker 1995, 239). Muchos de los criterios que se deben usar para la selección de los textos, por ejemplo, formal vs. informal, tienen un grado más o menos amplio de subjetividad (Baker 1995, 239). Las restricciones lógicas de los recursos disponibles (ya sean físicos, financieros o humanos) significan que es prácticamente imposible garantizar la cobertura de todas las características de la población (Baker 1995, 239).

Así, pues, debemos de ser conscientes de que el grado de representatividad de los corpus históricos es limitado, algo que, a veces, puede poner en peligro las conclusiones que se extraigan de ellos. Kučera (2007, 1) expresa la problemática de la siguiente manera: The concept of representativeness of a diachronic corpus has not been discussed in great detail so far, but it seems that in the end it can only be based on the body of preserved texts and the authenticity of those included in the corpus. However, the linking up of representativeness of diachronic corpora to the body of preserved texts means that the corpora reflect, in fact, the skewed stylistic, genre and other proportions in the body of texts rather than the characteristics of the real language of the time. This holds especially for the early periods of history of languages, where the number of texts is usually very limited and very often of the kind which was undoubtedly far removed from common communication (particularly texts written in verse).

Con todo, no nos debemos desanimar por estos inconvenientes; a pesar de ellos, tenemos que seguir intentando alcanzar la máxima representatividad posible en la construcción de corpus históricos. Los inconvenientes presentados son aspectos que se deben tener en mente a la hora de crear un corpus y, sobre todo, a la hora de explotarlo, aceptando de entrada que la representatividad total es solamente una ilusión y que nos debemos conformar, con una representatividad condicionada, cosa que en muchos casos no es poco.10 Siguiendo con el tema de la representatividad, sabemos que en lingüística se relaciona con el valor que tiene este término en sociología, el cual,

10 No es así en el caso de los corpus cerrados en los que se puede disponer de la totalidad del material que existió. Por ejemplo, un corpus para estudiar la lengua literaria de Don Camilo José Cela sí que puede contener todas las obras que este autor escribió.

102

Joan Torruella

deriva de la identificación de parámetros correlacionables que condicionan el comportamiento humano. Tales parámetros permiten reducir la investigación de un fenómeno supuestamente relevante para una población exhaustiva a una porción reducida de la población, la cual refleja porcentualmente los parámetros relevantes (Kabatek 2013b, 14).

La cuestión está en que en sociología se puede saber el valor y las características de la población (número de alumnos de una clase, sexo, nivel social, etc.), mientras que en lingüística de corpus, especialmente de corpus históricos, muchas veces esto no es posible. El problema al diseñar un corpus es que a menudo se necesita establecer una muestra representativa de una población que se desconoce, no solamente en número, cosa que afecta a su representatividad cuantitativa, sino en diversidad y complejidad, algo que ya afecta a su representatividad cualitativa. Por ejemplo, si se va a estudiar la lengua de los periódicos españoles del siglo XIX, se puede saber cuál es el total de la población y todas sus características (como pueden ser la edad y sexo de los autores de los artículos, las distintas secciones de los periódicos, sus registros, etc.), pero no se puede conocer si se va a estudiar la lengua en general del siglo XVII o, mucho menos, si el tema va a ser la lengua de la Edad Media. Esto se debe a que el total de la población en estos casos es indefinido, ya que, por un lado, siempre es posible que aparezcan nuevas obras y nuevos documentos con estilos, tipos textuales, tradiciones discursivas, etc., no previstos o desconocidos hasta el momento y, por otro, aunque sean conocidos, puede ser que no se conserven obras de estos tipos y, por lo tanto, sus características no podrán estar representadas en el corpus. La intención de la representatividad de un corpus se relaciona con su finalidad predictiva, puesto que, «a corpus must be ‹representative› in order to be appropriately used as the basis for generalizations concerning a language as a whole» (Biber 1993, 243). La representatividad de los corpus está relacionada con el aspecto cualitativo de las obras que se seleccionan (representatividad cualitativa) pero, sobre todo, lo está con el aspecto cuantitativo (representatividad cuantitativa). Son diversos los factores que pueden influir en la representatividad de un corpus, los cuales siguen el esquema siguiente: –

Representatividad – Representatividad cualitativa – Calidad de las muestras – Diversificación de las muestras – Representatividad cuantitativa – Equilibrio externo: relación entre el número de muestras y la población – Equilibrio interno: relación del número de muestras entre apartados – Proporcional – Equivalente

Tres propuestas en el ámbito de la lingüística de corpus

103

La representatividad cualitativa viene determinada por la «calidad» de las muestras (selección de ediciones apropiadas) y la «diversificación» de estas en tanto que han de cubrir todas y cada una de las variedades lingüísticas que el corpus quiere reflejar, puesto que «representativeness refers to the extent to which a sample includes the full range of variability in a population» (Biber 1993, 243). La representatividad cuantitativa viene determinada, por un lado, por el equilibrio externo, es decir, por la relación numérica (tanto por ciento) entre el número de muestras (textos o palabras) seleccionadas para componer el corpus y el volumen total de la población que quiere describir el corpus y, por otro lado, por el equilibrio interno, esto es, la correlación del número de muestras entre los diferentes apartados en que se distribuye el corpus. A su vez, el equilibrio interno de un corpus se puede organizar o a partir de una correspondencia «proporcional» de las muestras entre los distintos apartados o bien a partir de una correspondencia «equivalente».11 La finalidad del equilibrio interno de un corpus no es otra que la de que sus datos sean comparables entre los distintos apartados y apropiados para ser trabajados con técnicas estadísticas. Por ello, tan importante como el número de muestras que se recolectarán para todo el corpus (equilibrio externo) es su distribución cuantitativa en los diferentes apartados (equilibrio interno),12 «lo que se relaciona con aspectos referidos a la propia construcción del corpus en tanto espacio mediador entre teoría y realidad» (Caravedo 1999, 69). El reparto proporcional requiere conocer o intuir (poder hacer una estimación) el total de la población, es decir, del universo textual que quiere representar, puesto que implica que las muestras que van a componer cada apartado del corpus se repartan en proporción numérica a su distribución real en este total,

11 Se tiene que tener en cuenta que, si bien el equilibrio de un corpus suele establecerse a partir del número de palabras contenidas en sus distintos apartados, también es conveniente procurar un cierto equilibrio en cuanto al número de textos del que se extraen estas palabras. No es aconsejable que un apartado esté compuesto por pocos textos de gran extensión sino que es preferible que esté formado por un buen número de textos aunque sean de extensión más reducida. 12 Sin embargo, el equilibrio entre todos los apartados de un corpus histórico no siempre es posible, puesto que, a veces, por falta de material, no se puede disponer del volumen de obras o de palabras necesarias para llegar a la cantidad mínima requerida establecida por la estadística. En la mayoría de las lenguas románicas, por ejemplo, para las etapas anteriores a la segunda mitad del siglo XIII no existen suficientes obras que permitan llegar a un número de palabras aceptable para cada uno de los apartados de los distintos ejes que configuran el corpus. Cuando el número de muestras posibles es pequeño e insuficiente, los resultados obtenidos se deben considerar solamente indicativos de una posible tendencia pero no permiten hacer extrapolaciones de las características de la lengua ni comparaciones entre apartados.

104

Joan Torruella

mientras que el reparto equivalente no requiere conocer el total de la población, ya que pretende que las cantidades de muestras que componen cada apartado del corpus sean iguales o parecidas entre ellas, prescindiendo de que haya correspondencia entre las partes y el todo. A veces, ante la imposibilidad de conocer la proporción en que se reparten las distintas variedades que configuran el total de la población, el reparto proporcional se aplica no en función de la distribución real de la variedad lingüística que representan los distintos apartados del corpus en el total de la lengua que este quiere reflejar, sino en función de la importancia que los diseñadores del corpus quieran otorgar a cada una de estas variedades. Por ejemplo, el CORDE se estructura según el reparto proporcional y establece para las franjas temporales el 21 % de palabras para la Edad Media, el 28 % para el Siglo de Oro y el 51 % para la Edad Contemporánea, o, respecto a las tipologías, el 44 % para la ficción y el 56 % para la no ficción, o, para la procedencia geográfica marca el 26 % para el español de América y el 74 % para el español peninsular.13 Por su parte, el CICA estipula un reparto equivalente de aproximadamente un millón de palabras en cada apartado temporal y en cada apartado tipológico, mientras que establece un reparto proporcional en los apartados dialectales, en función de la importancia que los diseñadores han decidido otorgar a cada dialecto. De todos modos, se tiene que tener presente que, como ya hizo notar Sánchez-Prieto (2012, 451): el equilibrio ideal de un corpus no es algo que pueda establecerse previamente de acuerdo con parámetros externos y objetivos, sino que, a nuestro entender, las decisiones que se tomen al respecto son el resultado de una hipótesis histórica sobre los textos mismos y su representatividad acerca de la lengua de cada época, por referirnos a la orientación que aquí nos interesa más. Todo corpus tendrá sesgos evidentes, entre otras cosas, porque la conservación de tal o cual testimonio depende de la casualidad. Por razones históricas, o por los avatares debidos al paso del tiempo, no todos los siglos estarán igual de bien representados. No cabe, pues, una respuesta única; así, ¿sería ‹proporcional› un corpus para la sintaxis de la Edad Media que tuviera igual de texto en verso que en prosa? ¿Cuáles son, para el s. XIX, las proporciones adecuadas entre textos de España y de cada país de América? Sin embargo, existe una solución operativa al problema, pues, independientemente de las decisiones de los elaboradores, el usuario ha de poder llevar a cabo sus búsquedas en la parte del corpus que le interese, y establecer así las proporciones que le parezcan más razonables, que podrán variar de acuerdo con sus objetivos particulares en cada momento.

Por ello, en cuanto al equilibrio en los corpus, especialmente en los corpus grandes, se debería dejar abierta la posibilidad de que sea el usuario el que, en última instancia, cree su propio subcorpus y en él establezca las proporciones

13 Véase también Octavio de Toledo, en este volumen.

Tres propuestas en el ámbito de la lingüística de corpus

105

que estime más adecuadas según sus conocimientos y necesidades. Sin embargo, cuando el corpus es pequeño, los diseñadores son los que tienen que procurar que, ya sea de manera proporcional o ya sea de manera equivalente, cumpla este requisito, puesto que el usuario no tiene mucho margen de selección si quiere que los resultados sean representativos. ¿Cuál de los dos sistemas, el proporcional o el equivalente, es el más apropiado? Al ser el CICA un corpus histórico y diacrónico dedicado a la lengua en general difícilmente se puede saber el volumen total que tendría la población en el uso real de la lengua (tendiendo al infinito), y, como es obvio, si no se conoce el total no se puede establecer la proporción, por lo que no es posible precisar ningún tanto por ciento para delimitar las muestras necesarias para que sean representativas. Por ello, en el CICA, a la hora de establecer el volumen de las muestras en los distintos apartados de los ejes diacrónico y tipológico, se ha aplicado el sistema de correspondencia «equivalente», es decir, un número de muestras iguales (o parecidas) en cada uno de ellos. En cambio, en el eje dialectal, se ha aplicado el sistema de correspondencia «proporcional» a partir de toda la producción que nos ha llegado, considerando que puede haber alguna relación entre el peso de la producción en cada variedad y el total de la lengua.

5 Riqueza léxica Otro tema de reflexión metodológica general acerca de los corpus es cómo representar la riqueza léxica de la lengua que se refleja en sus textos tanto a nivel individual como en relación con todos los otros textos que componen el corpus. En el campo de la lingüística cuantitativa, y más concretamente en el de la lexicometría, la medida de la riqueza léxica es un tema tratado bastante ampliamente. Diferentes autores han desarrollado su propuesta de índice para poder resumir con la simplicidad de un número la complejidad lingüística de un texto, de manera que se puedan ordenar y comparar los diversos textos que componen un corpus según la profusión de su vocabulario. Existen diversas denominaciones y matices a este respecto: variación o diversidad léxica, que tiene que ver con la medida de la variedad del vocabulario; sofisticación léxica, que se refiere a la selección de vocabulario de frecuencia baja; densidad léxica, que trabaja con la proporción entre palabras con contenido y palabras funcionales, etc. Sin embargo, no entraremos aquí en este tema y consideraremos la riqueza léxica como la abundancia de vocabulario que tiene un texto. Las diferentes propuestas de medición de la riqueza léxica están encaminadas no a ser aplicadas a textos de manera individual sino para poderse utilizar en

106

Joan Torruella

todo un corpus textual, de manera que se puedan establecer comparaciones entre textos y constituir una clasificación pautada del grado de riqueza léxica de cada uno de ellos dentro del conjunto del corpus. Si se trata de medir la riqueza léxica de un texto de modo aislado, es decir, el número de palabras necesario para que aparezca un vocablo nuevo, la fórmula es sencilla: se debe dividir el total de tokens (número total de palabras) que tiene el texto por el total de types (número de palabras distintas). De esta manera, un texto que tenga 50.000 palabras pero que de ellas solamente 2.000 sean diferentes presentaría una riqueza léxica de 25, es decir, cada 25 palabras aparecería una de nueva, mientras que un texto de 50.000 palabras que tuviese 4.000 de diferentes presentaría una riqueza léxica de 12,5, que sería el número de palabras necesarias para que aparezca una de nueva. En este cómputo, cuando más pequeño es el número resultante mayor es la riqueza léxica del texto, siendo 1 el valor máximo, el cual representaría un texto en el que todas las palabras fuesen diferentes. El índice que realiza este sencillo cálculo se llama TTR (type-token ratio), pero tiene el inconveniente de que no podemos valorar el número resultante puesto que este solamente tendría sentido cuando se comparara con otros textos que tuviesen exactamente el mismo número de palabras, algo poco probable en el conjunto de un corpus.14 Para superar este inconveniente, el de la distinta longitud de los textos, se debe buscar un índice que relativice su extensión. En este sentido ha habido diferentes propuestas, las cuales cada vez se aproximan más a la superación del problema (uso de radicales y logaritmos, cálculos por segmentos, muestras aleatorias, distribución hipergeométrica, distribución de frecuencias de palabras, modelos de probabilidad, etc.).15 Para analizar la riqueza léxica de las obras que configuran el CICA nos basamos en la utilización conjunta de la información que proviene de los distintos índices que en nuestras pruebas obtuvieron mejor valoración de «comportamiento» y en el uso de herramientas estadísticas, con la finalidad de conseguir un tratamiento estadístico global que supere el estudio aislado de un texto y alcance un análisis de carácter relativo de este dentro del conjunto del corpus al que pertenece.

14 Se podría realizar el cálculo a la inversa, dividiendo el número de types por el de tokens, lo que daría siempre un número entre 0 y 1, siendo el mayor el que representaría una riqueza superior (0,04 y 0,08 para el ejemplo mencionado), sin embargo el problema seguiría siendo el mismo: solamente se podrían comparar textos de idéntica extensión. 15 Para una explicación detallada de cada uno de estos sistemas véase Capsada / Torruella (en prensa).

Tres propuestas en el ámbito de la lingüística de corpus

107

Para poder seleccionar los índices que después de las pruebas realizadas a nuestro parecer se adaptan mejor para establecer comparaciones entre textos, se definieron tres cualidades que creíamos importantes que tuviesen los índices: estabilidad, sensibilidad y coherencia. Así, tal como se expone en Capsada / Torruella (en prensa), un buen índice: 1. 2.

3.

Debe ser estable, esto es, que para un texto determinado su valor se ha de mantener constante independientemente del tamaño de la muestra. Debe ser sensible, es decir, debe poder tomar una gama con una gradación de valores suficientemente amplia que permita diferenciar todos los textos, también los que tengan riqueza similar. Debe ser coherente con los demás índices, de manera que los valores de un buen índice calculados en conjuntos amplios de textos deben estar fuertemente relacionados con los valores obtenidos con otros índices buenos, y no lo deben estar con los valores de índices no buenos.

La interpretación conjunta de los resultados obtenidos con esta triple valoración de la estabilidad, de la sensibilidad y de la coherencia, nos hizo concluir que, de los 16 índices analizados,16 existen cinco índices medidores de la riqueza léxica que cumplen de manera aceptable las cualidades deseables: MTLD, HD-D, K de Yule, Honoré y Mass.17 El índice K de Yule, fue propuesto por G. U. Yule en 1944, y está basado en un modelo probabilístico, suponiendo que la aparición de las diferentes palabras en un texto se rige por el azar. El índice Maas, fue propuesto por H.D. Maas en 1972, y está basado en la relación entre los types y tokens de un texto con trasformaciones logarítmicas. El índice H, fue propuesto por A. Honoré en 1979, y también está basado en la relación entre los types y tokens de un texto pero utilizando unas trasformaciones logarítmicas diferentes. El índice MTLD (Measure of Textual Lexical Diversity) fue propuesto por P. M. McCarthy en 2005, y está basado en la división del texto en segmentos de diferente longitud y con un mismo nivel de riqueza léxica. El índice HD-D, (Hypergeometric Distribution D parameter) fue propuesto por P. M. McCarthy y S. Jarvis en 2007, y está basado en la utilización de la distribución hipergeométrica a partir de la división del texto en segmentos aleatorios. A partir de los resultados de estos cinco índices, que en las pruebas realizadas resultaron aceptables, establecimos dos nuevos índices llamados NOMC 16 Sin ánimo de ser exhaustivos, en nuestro trabajo se analizaron 16 índices diferentes para medir la riqueza léxica de un texto: TTR, RTTR, CTTR, Herdan, Somers, Maas, Dugast, Honoré, MSTTR, MATTR, MTLD, parámetro D, HD-D, Z de Zipf, Sichel y K de Yule. 17 Para más detalles sobre el proceso de selección, véase Capsada y Torruella (en prensa).

108

Joan Torruella

(Número de Orden Medio en el Corpus) y NOMC % (Número de Orden Medio en el Corpus Percentil). Se trata de unos índices eclécticos, puesto que manejan las informaciones que nos aportan los cinco índices mencionados. De esta manera se utiliza el máximo de información disponible de cada texto y se compensan, o cuanto menos se minimizan, los posibles malos comportamientos de alguno de los cinco índices en algunos textos. Además, el índice NOMC % permite definir una escala de referencia en la que poder colocar los resultados obtenidos de cada texto. Tal como se explica en Capsada / Torruella (en prensa), para calcular el índice NOMC se procede de la siguiente manera: 1.

2. 3. 4.

5.

Para cada uno de los cinco índices se calculan los resultados y se hace una ordenación de todos los textos del corpus de menor a mayor según el valor que tiene cada uno en el índice. Como consecuencia, a cada texto se le asocian cinco números de orden según las ordenaciones obtenidas en cada índice. Para cada texto, se calcula la media aritmética de estos cinco números de orden. A esta media la llamamos Número de Orden Medio en el Corpus (NOMC). Se ejecuta una nueva ordenación de todos los textos del corpus, de menor a mayor según el NOMC. El número de orden que corresponde a cada texto según esta nueva ordenación lo llamamos Número de Orden Medio en el Corpus Relativo (NOMCr). Para estandarizar este nuevo índice y conseguir una referencia convencional que permita observar qué posición relativa tiene cada texto respecto a la totalidad del corpus, se convierte el valor del NOMCr de cada texto en percentiles según el cálculo que se indica a continuación. A este número lo llamamos Número de Orden Medio en el Corpus Percentil (NOMC %). NOMCr N O M C % = N: total textos · 100

Para su aplicación en corpus textuales, el NOMC tiene la ventaja de ser un índice complejo, global y relativo. Es un índice complejo puesto que parte del uso conjunto de cinco índices. También es un índice global ya que se elabora con información no solo procedente de un texto aislado, sino del conjunto de textos que configuran el corpus al que este pertenece. Así mismo es un índice con valor relativo, ya que se expresa en forma de percentiles,18 obteniéndose así la posición relativa de cada texto respecto al conjunto total.

18 Valor que divide un conjunto ordenado de datos estadísticos de forma que un porcentaje de tales datos sea inferior a dicho valor. Así, un individuo en el percentil 80 está por encima del 80 % del grupo a que pertenece (DRAE, sv. percentil). De esta manera, por ejemplo, hablando del parámetro riqueza léxica, en un corpus, cuando un texto ocupa el percentil «x» significa que un «x %» de textos del corpus tienen una riqueza léxica igual o menor que él y que un «(100 – x) %» tienen una riqueza léxica superior.

Tres propuestas en el ámbito de la lingüística de corpus

109

Una vez establecida la posición de cada texto en relación a los demás textos del corpus, para poder atribuir un calificativo al nivel de calidad de la riqueza léxica de los distintos textos, se han establecido 7 niveles de riqueza léxica, uno central y tres por encima y tres por debajo, colocados simétricamente (véase el gráfico siguiente). Este tipo de clasificación, que está inspirado en la escala de Wechsler, puesto que utiliza el número de desviaciones típicas que el valor del índice está alejado respecto a la media, ha sido propuesto y utilizado por diversos autores para clasificar en diferentes grados los valores de variables estadísticas que siguen una distribución Normal, especialmente en el campo de la psicología para establecer escalas de medición del nivel de inteligencia. En el gráfico siguiente se representa la distribución Normal a partir de los números obtenidos en los 414 textos que componen el CICA, con estas 7 zonas.

Gráfico 1: Distribución de los textos en CICA

El nivel de calidad intermedio, el «normal», corresponde a los valores más frecuentes, que son aquellos que están cercanos a la media, y, a medida que los valores se separan de esta media, la frecuencia de los valores va disminuyendo y, por tanto, su nivel de calidad se hace más extremo, ya sea en positivo o en negativo. Como la desviación típica19 nos indica lo alejados que se encuentran los diferentes valores respecto de la media, será precisamente esta desviación la que dará los criterios para saber el nivel de calidad de cada valor.

19 La desviación típica mide la dispersión de los diferentes valores de una variable, es decir, si son muy diferentes o muy iguales entre sí, y lo hace calculando cuál es por término medio la desviación de cada valor de la variable respecto a su valor medio.

110

Joan Torruella

De esta manera, a partir del índice NOMC % que proponemos, podemos no solamente situar cada texto en una posición con respecto a los otros textos de un corpus según su riqueza léxica, sino establecer cuáles tienen una riqueza léxica normal, cuáles están por encima en un grado alto, superior o supremo y cuáles están por debajo en un grado bajo, inferior o ínfimo. Así, por ejemplo, en el CICA, según el índice NOMC %, la obra Històries e conquestes del reialme d'Aragó e Principat de Catalunya tiene un valor de riqueza léxica de 148,6; la obra Greuges dels homes d'Hostafrancs tiene un valor de 27,2; el Libre dels bons amonestaments d'Amselm Tormeda lo tiene de 389,4; la obra Memòries de Jeroni de Saconomina lo tiene de 285,8 y la obra Començaments de medicina de Llull de 74,0. Esto nos permite establecer una clasificación de menor a mayor, o a la inversa, de estas obras según el grado de riqueza léxica de sus vocabularios, pero, además, observando donde se situan estos números en la escala de Wechsler, nos permite afirmar que en el conjunto del corpus la obra Greuges dels homes d'Hostafrancs tiene un nivel de riqueza «inferior», la obra Començaments de medicina de Llull lo tiene «bajo», la obra Històries e conquestes del reialme d'Aragó e Principat de Catalunya lo tiene «normal», la obra Memòries de Jeroni de Saconomina lo tiene «alto», y, finalmente, la obra Libre dels bons amonestaments de Amselm Tormeda lo tiene «superior».

6 Conclusiones La lingüística de corpus es una disciplina relativamente nueva, con metodología y presupuestos teóricos propios, que ha cambiado enormemente la manera de llevar a cabo los estudios lingüísticos. Precisamente, por ser nueva, en muchos aspectos se encuentra aún en una fase de experimentación y revisión de sus postulados. Sin embargo, la novedad de la disciplina ha provocado que a veces estructuremos y usemos los corpus un poco irreflexivamente, sin que previamente se haya hecho una especulación sobre las posibilidades y los peligros que su uso indiscriminado puede acarrear y sin tener en cuenta las características del diseño de cada corpus. Como consecuencia de esto, puede que en la explotación de corpus se lleguen a obtener resultados no representativos y a interpretar erróneamente los datos obtenidos. En este trabajo hemos querido aportar algunas reflexiones referidas a cuestiones que se están debatiendo actualmente en el campo de la lingüística de corpus, en general, y en el del diseño de corpus, en particular. Su aplicación puede ayudar a que podamos disponer de corpus más representativos y fiables. Las primeras reflexiones están referidas a los corpus que tratan la lengua en general y, más concretamente, a los de carácter histórico-diacrónico. Este tipo de

Tres propuestas en el ámbito de la lingüística de corpus

111

corpus, por sus características, presenta unos problemas específicos en cuanto a la segmentación del espacio temporal que abarcan (periodización abierta o cerrada, periodos relacionados con avatares histórico-sociales o periodos estrictamente temporales, etc.), así como al reparto de los textos dentro de este espacio temporal (reparto proporcional o reparto equivalente). La última propuesta, que trata de la cuantificación de la riqueza léxica en los textos que componen un corpus, es aplicable a todo tipo de corpus, y creemos que puede representar un buen punto de partida para trabajos de este tipo. Con ello esperamos haber aportado unas soluciones, fruto de la experiencia en la construcción de corpus, que ayuden a mejorar su diseño y a avanzar en la disciplina de la lingüística de corpus.

7 Referencias bibliográficas Arias, Beatríz/Hernández, Juan Antonio, Importancia de la incorporación de los parámetros diastráticos y diafásicos en la elaboración del corpus electrónico del español colonial mexicano, Scriptum Digital 2 (2013), 5–20. Baker, M., Corpora in Translation Studies: An Overview and Suggestions for Future Research, Target 7:2 (1995), 223–244. Biber, Douglas, Representativeness in Corpus Design, Literary and Linguistic Computing 8:4 (1993), 243–257. Biber, Douglas/Conrad, Susan/Reppen, Randi, Corpus Linguistics. Investigating Language Structure and Use, Cambridge, Cambridge University Press, 1998. Capsada, Ramon/Joan Torruella, Métodos para medir la riqueza léxica de un texto. Revisión y propuesta. Aplicación en el Corpus Informatizado del Catalán Antiguo, (en prensa). Caravedo, Rocío, Gramática española: enseñanza e investigación. Apuntes metodológicos. Lingüística del corpus. Cuestiones teórico-metodológicas aplicadas al español, Salamanca, Ediciones Universidad de Salamanca, 1999. Chafe, Wallace, The importance of corpus linguistics to understanding the nature of language, in: Svartvik, Jan (ed.), Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82, Stockholm, 4–8 August, 1991), Berlin/New York, Mouton de Gruyter, 1992, 79–97. CICA – Corpus informatitzat del català antic, Joan Torruella, M. Pérez Saldanya y J. Martines (dirs.). http://www.cica.cat. CORDE – REAL ACADEMIA ESPAÑOLA: Banco de datos (CORDE) [en línea]. Corpus diacrónico del español. http://www.rae.es. Enrique-Arias, Andrés, Biblia medieval: diseño y aplicación de un corpus paralelo y alineado del español medieval, in: Montero, Emilio (ed.), Actas del VIII Congreso Internacional de Historia de la lengua española (Santiago de compostela, 14–18 de setiembre de 2009), vol. I, Santiago de Compostela, Meubook, 2012, 421–431 (= 2012a). Enrique-Arias, Andrés, Dos problemas en el uso de corpus discrónicos del español: perpectiva y comparabilidad, Scriptum Digital, 1 (2012), 85–106 (= 2012b). Fernández-Ordóñez, Inés, La historiografía medieval como fuente de datos lingüísticos. Tradiciones consolidadas y rupturas necesarias, in: Bustos Tovar, José Jesús de/Girón, José Luis

112

Joan Torruella

(edd.), Actas del VI Congreso Internacional de Historia de la Lengua Española, Madrid, Arco, 2006. Guerreau, Alain, École d’été Création et utilisation de corpus de textes médiévaux. COST: European Cooperation in Science and Technology, 2014. Jacob, Daniel, ¿Representatividad lingüística o autonomía pragmática del texto antiguo? El ejemplo del pasado compuesto, in: Jacob Daniel/Kabatek, Johannes (edd.), Lengua medieval y tradiciones discursivas en la Península Ibérica: descripción gramatical – pragmática histórica – metodología, Frankfurt am Main/Madrid, Vervuert/Iberoamericana, 2001, 153–176. Kabatek, Johannes, Nuevos rumbos en la sintaxis histórica, in: Actas del VIII Congreso Internacional de Historia de la Lengua Española, vol. I, Santiago de Compostela, Meubook, 2013, 77–100 (= 2013a). Kabatek, Johannes, ¿Es posible una lingüística histórica basada en un corpus representativo?, Iberoromania 77 (2013), 8–28 (= 2013b). Kučera, Karel, Mapping the Time Continuum: A Major Raison D’être for Diachronic Corpora, in: Matthew, Davies/Rayson, Paul/Hunston, Susan/Danielsson, Pernilla (edd.), Proceedings of the Corpus Linguistics Conference CL2007, University of Birmingham, 2007, http://ucrel.lancs.ac.uk/publications/CL2007. Marcos Marín, Francisco, Spanisch: Periodisierung. Periodización, in: Holtus, Günter/Metzeltin, Michael/Schmitt, Christian (edd.), Lexikon der Romanistischen Linguistik, Band VI, 1, Tübingen, Max Niemeyer, 1992, 602–607. Parodi, Giovanni, Lingüistica de corpus: una introduccion al ambito, Revista de Lingüística Teórica y Aplicada 46:1 (2008), 93–119. Rojo, Guillermo, Sobre codificación y explotación de corpus textuales: Otra comparación del Corpus del español con el CORDE y el CREA, Lingüística, 24 (2010), 11–50. Sánchez, Aquilino, Definición e historia de los corpus, in: Sánchez, Aquilino, et al. (edd.), Cumbre: Corpus lingüístico del español contemporáneo, fundamentos, metodología y aplicaciones, Madrid, SGEL, 1995, 7–24. Sánchez-Prieto Borja, Pedro, Un corpus para el estudio integral de fuentes documentales (CODEA), in: Montero, Emilio (ed.), Actas del VIII Congreso Internacional de Historia de la lengua española (Santiago de compostela, 14–18 de setiembre de 2009), vol. I, Santiago de Compostela, Meubook, 2012. Torruella, Joan, Lingüística de corpus: génesis y bases metodológicas de los corpus (históricos) para la investigación en lingüística, (en preparación). Veny, Joan, Els parlars catalans (síntesi de dialectologia), Mallorca, Moll, 1998.

II. Corpus iberorrománicos

Rosario Álvarez y Ernesto González Seoane

Iluminar los Séculos Escuros: Gondomar, un corpus para el estudio del gallego en la Edad Moderna 1 Introducción1 En la historiografía lingüística y literaria gallega viene empleándose la etiqueta de Séculos Escuros para designar el período de tres siglos comprendido entre el final de la Edad Media y los inicios de la Edad Contemporánea. Esta denominación contrasta aguda y dolorosamente con las etiquetas, de connotaciones inequívocamente positivas, que estos mismos siglos reciben en otras tradiciones historiográficas nacionales o internacionales (Renacimiento, Siglo de Oro, Siglo de las Luces, Edad Moderna. . .). La oscuridad a que se refiere esta denominación hace referencia, como es sabido, a la pérdida de visibilidad del gallego que deriva de la práctica desaparición de su cultivo como lengua literaria y, más en general, como lengua escrita. Esta desaparición lleva además aparejada una fuerte estigmatización social, algunos de cuyos efectos todavía son perceptibles hoy en día. Este apagamiento coincide, por otra parte, con el período en que se gestaron muchos de los rasgos lingüísticos que acabarían cristalizando en el gallego actual (en sus diferentes registros y variedades), y en el que se consolidaron algunas formas y tendencias ya apuntadas en el gallego medieval. De otra parte, es también este el período en que se acentúa el distanciamiento del gallego con respecto al portugués. Ni que decir tiene que la escasez de testimonios complica enormemente el trabajo de descripción, datación y análisis de estas transformaciones. Por esta

1 Esta contribución se inscribe en el proyecto de investigación Gondomar. Corpus dixital de textos Galegos da Idade Moderna. Catalogación, multiedición, glosario e estudo, que se desarrolla en el Instituto da Lingua Galega de la Universidade de Santiago de Compostela con financiación del Ministerio de Economía y Competitividad (referencia FFI2013-47589-P) . Rosario Álvarez: Instituto da Lingua Galega (Universidade de Santiago de Compostela) Ernesto González Seoane: Instituto da Lingua Galega (Universidade de Santiago de Compostela)

116

Rosario Álvarez y Ernesto González Seoane

razón, para llenar en lo posible este vacío y, sobre todo, para construir un marco general que nos permita interpretar adecuadamente los datos de que disponemos, por escasos que estos sean, surge el proyecto Gondomar. Corpus dixital de textos galegos da Idade Moderna. En las páginas que siguen trataremos de abordar algunos de los problemas que entraña la definición y construcción del corpus, dirigiendo nuestra atención en una doble dirección, y deteniéndonos, por una parte, en la caracterización de los textos que lo integran, en la definición de los parámetros que deben ser tenidos en cuenta a la hora de realizar una clasificación tipológica aplicable a ellos y en las implicaciones de carácter lingüístico que se derivan de la diversidad de tipos de texto existente; por otra, en el análisis de algunas muestras relevantes de cómo el trabajo sistemático con estos textos puede arrojar luz sobre la génesis y datación de fenómenos lingüísticos de amplísima difusión en el gallego actual o en alguna de sus variedades.

2 Los textos 2.1 Caracterización general Tal como señalábamos poco más arriba, el nivel de cultivo alcanzado por el gallego a lo largo de la Edad Moderna presenta unas cifras absolutas muy modestas y, por otra parte, una trayectoria notoriamente irregular. El reducido volumen de textos producidos (o conservados) en un período tan dilatado determina por sí solo una muy baja densidad de textos por unidad de tiempo. Si además tenemos en cuenta que la producción textual no se distribuye de manera homogénea a lo largo del eje cronológico, podremos observar que existen numerosas lagunas temporales, algunas de ellas muy extensas, para las que no contamos con ningún testimonio directo. Por otra parte, cabe decir que se trata de textos en su mayoría breves, muchos de ellos poemas de unas pocas líneas, aunque con alguna que otra excepción notable, entre las que destaca sin duda el Coloquio de veinticuatro gallegos rústicos de Sarmiento, integrado por mil doscientas una coplas. Una buena parte de ellos comparte el hecho de ser textos de circunstancias, creados para conmemorar un acontecimiento destacado o bien para concurrir a un certamen, o efímeros, concebidos específicamente para ser empleados en una celebración o en una fecha señalada, pero no para ser conservados para la posteridad. De hecho, solo el azar o la intervención providencial de personajes como el conde de Gondomar, cuya pasión bibliófila le llevó a construir una monumental biblioteca y archivo privados, posibilitó que algunos de estos textos efímeros consiguiera sobrevivir.

Iluminar los Séculos Escuros

117

En otro orden de cosas, una buena parte de los textos que han conseguido llegar hasta nosotros es de autor desconocido. En algunos casos, esta circunstancia es consustancial al propio género o tradición textual. Tal es lo que acontece, por ejemplo, con los villancicos. En otros, en cambio, la anonimia viene impuesta de algún modo por la finalidad para la que el texto fue creado. Así se explica, por ejemplo, que los textos efímeros, destinados para ser consumidos de forma inmediata y en un acto único, sean también, por regla general, anónimos. Por lo que se refiere a los autores conocidos, cabe destacar que se trata en todos los casos de productores letrados, funcionarios algunos de ellos, como Juan Gómez Tonel o Pedro Vázquez de Neira, al servicio de la Real Audiencia del Reino de Galicia; pertenecientes a sectores eclesiásticos otros, como el Padre Sarmiento o Diego Antonio Cernadas y Castro, cura de Fruíme, o, en fin, vinculados a casas nobles, como es el caso de algunos autores del círculo del conde de Gondomar. Todos ellos son cultivadores solo ocasionales de la escritura en gallego, casi siempre autores de una única pieza, por más que algunos cuenten con obra extensa en castellano. En algunos casos, el empleo del gallego viene impuesto por la tradición textual. Podría decirse que la adopción del gallego constituye una de las convenciones del género. Esto es lo que sucede, muy notoriamente, en los villancicos en gallego o de gallegos, pero también en los parlamentos en gallego (o en algo que se le parece) insertados en entremeses y comedias, que permiten a los autores caracterizar un personaje, un tipo humano estereotipado (el criado, arriero o mozo de cuerda gallego que sirve en la capital). En otros casos, en cambio, y singularmente en las piezas literarias de más porte o ambición, la adopción del gallego entraña otras implicaciones que de ningún modo convendría ignorar, pues, como indica Joseph (1987, 76), «literature begins at the moment of consciousness of language as a vehicle that can be manipulated to produce qualitative effects». Por consiguiente, el empleo del gallego en determinadas piezas es indicador de una convicción firme por parte de su autor acerca de su dignidad estética y de su aptitud para ser vehículo de expresión de sentimientos elevados. En este sentido, no es casual tampoco que un conjunto no despreciable de los textos que conservamos aparezca vinculado a determinados círculos en los que es dado suponer que la escritura en gallego era favorecida o, al menos, considerada. Uno de ellos es, sin duda, el creado alrededor de la figura de Diego Sarmiento de Acuña, primer conde de Gondomar. Él es, con toda seguridad, el promotor, incitador, apreciador o coleccionista de diversas piezas literarias, como el Diálogo de Alberte e Bieito (ca. 1600) o la Canción galega en loor de don Diego das Mariñas Parragués (ca. 1594). Además, su querencia por el gallego es también lo que explica que entre su correspondencia figure un pequeño número de cartas dirigidas a él redactadas completa o parcialmente en gallego.

118

Rosario Álvarez y Ernesto González Seoane

Otros círculos que es factible identificar corresponden a pequeños grupos de ilustrados, como el que reúne a tres de los hermanos Feijoo Montenegro (Benito, Plácido y Anselmo) y a Sarmiento, por una parte, y el formado por María Francisca de Isla y Losada, Diego Antonio Cernadas y Castro y José Cornide Saavedra, por otra. Finalmente, otro de los núcleos productores de textos en gallego aparece vinculado a la Compañía de Jesús. Contamos con algunos indicios que muestran que el gallego ocupaba un cierto papel, que todavía está por determinar con precisión, en algunas de las actividades desarrolladas en los colegios que la Compañía tenía en Galicia, y en particular en el teatro escolar producido en Lemos y Monterrei (cf., respectivamente, Cortijo Ocaña 2001 y González Montañés 2007). A estas muestras cabe añadir otros textos recientemente exhumados, como el Romancillo da cea do cordeiro, junto con una serie de noticias acerca del empleo del gallego con ocasión de festividades y celebraciones especiales, además de con la constatación de que muchos de los cultivadores del gallego en el período son miembros de la Compañía (cf. Álvarez/González Seoane 2015, esp. 21–23).

2.2 Tipología textual Atendiendo ya a aspectos de carácter cualitativo, y, más específicamente, tipológico, una aproximación superficial es suficiente para percatarnos de que, con independencia de cuál sea la clasificación que se adopte, son muchos los géneros o tipos de texto para los que no contamos con ninguna muestra. Aun así, se advierte también una cierta dispersión tipológica y, consecuentemente, una muy baja densidad por tipo de texto. Este desarrollo irregular e incompleto del cultivo del gallego a lo largo de la Edad Moderna no resiste la comparación, desde un punto vista ni cuantitativo ni cualitativo, con el que presentan en este mismo período lenguas con tradiciones consolidadas e ininterrumpidas, como pueden ser la española o la portuguesa. En cualquier caso, consideramos que es del máximo interés profundizar en una caracterización tipológica sistemática de los textos del corpus, fundamentalmente por las implicaciones de carácter lingüístico y sociolingüístico que comporta. En este sentido, debe tenerse en cuenta que el abanico de tipos textuales cubierto por una lengua en un momento dado de su historia ha venido siendo considerado, junto con el tipo de temas desarrollados en ellos, un claro indicador del nivel de cultivo y de elaboración alcanzados por esa lengua, así como de la función que esta desempeña y de la consideración social de que goza dentro del marco de la propia comunidad (Kloss 1967, 34; Joseph 1978, 76–79). Pero además,

Iluminar los Séculos Escuros

119

como han puesto de relieve las propuestas metodológicas desarrolladas en el marco de las llamadas «tradiciones discursivas», las clasificaciones textuales adquieren una relevancia que va mucho más allá del mero interés taxonómico. Así, por más que de ningún modo se deba identificar «tradición discursiva» y «tipo de texto», ya que, como indica Kabatek (2006, 165), «textos supuestamente del mismo ámbito pueden estar bien diferenciados y pertenecer a TD bastante diversas», la identificación y caracterización del tipo de texto nos pueden proporcionar el marco referencial primario o básico para una correcta valoración de los datos lingüísticos: Las clasificaciones textuales muestran que la lengua no se realiza de manera espontánea y exenta de tradición, sino en textos que se parecen entre ellos y que corresponden a tipos. Estos tipos textuales son determinados por su función comunicativa, la respectiva constelación de entornos, los procedimientos o estrategias textuales, su estructura de cohesión y de coherencia y ciertos esquemas prototípicos (Kabatek 2007, 337).

A este respecto, conviene tener presente, por una parte, que el tipo de texto puede imponer ciertos elementos estructurales o formales. Piénsese, por ejemplo, en los condicionantes métricos, rítmicos y estróficos de los textos poéticos, o en la estructura recurrente que caracteriza los epistolares. Pero además, en ocasiones, el género o tipo de texto puede propiciar la aparición de ciertas formas lingüísticas, o dificultar la de otras. Así, por ejemplo, los textos teatrales y, en general, los textos dialogados favorecen la aparición de formas de primera y segunda personas o de determinados tiempos verbales, como el imperativo, que en general tienen más difícil encaje en textos narrativos puros. Del mismo modo, el tipo de texto puede determinar la adopción por parte de su autor de una cierta variedad o registro en función de su estrategia discursiva. Estas consideraciones tienen una importancia especial en casos como el que nos ocupa, en que el cultivo de una lengua aparece fuertemente restringido tanto cuantitativa como cualitativamente a una serie muy limitada de tipos de texto. A lo largo de las últimas décadas han sido muchas y muy diversas las tentativas de clasificación de tipos de texto que se han propuesto, como muchos son también los criterios empleados para fundamentarlas. Sí parece, en todo caso, que la tendencia dominante en la actualidad apunta a la adopción de «enfoques multinivel, capaces de considerar rasgos internos y externos» (Ciapuscio 1994, 16). No es nuestra pretensión abordar aquí un análisis crítico de estas propuestas, y mucho menos proponer una clasificación con valor general. Nuestro objetivo en este trabajo, mucho más modesto, consiste simplemente en identificar, con carácter preliminar, los parámetros de clasificación que resultan pertinentes para la identificación de tipos de texto dentro de nuestro corpus y señalar algunos ejemplos que pueden resultar representativos. Somos conscientes, en todo caso,

120

Rosario Álvarez y Ernesto González Seoane

de que solo un análisis lingüístico sistemático de los textos podrá validar o impugnar la relevancia de estos parámetros.

2.2.1 Adscripción genérica Una primera clasificación, bien conocida y habitual en las tipologías adoptadas en la construcción de corpus textuales, es la que permite distinguir entre textos literarios y no literarios. Por lo que a nuestro corpus se refiere, entre los primeros cabe establecer los siguientes grupos: –

–

–

–

–

Poesía culta, de corte académico, dentro de la que ocupa un lugar central la poesía de circunstancias. Pertenecerían a este grupo las piezas compuestas para festejar un acontecimiento gozoso o para lamentar uno luctuoso (como, por ejemplo, los sonetos compuestos en 1612 con motivo de las exequias de la reina Doña Margarita), para participar en justas y certámenes literarios (como los poemas que concurrieron a las Fiestas Minervales celebradas en Santiago de Compostela en 1697), o simplemente para halagar a un personaje poderoso (como la canción compuesta alrededor de 1594 en honor de Diego das Mariñas Parragués). Por más que en este grupo sea factible encontrar algún que otro poema de temática religiosa, como el Romancillo da cea do cordeiro (ca. 1680), o los versos compuestos a comienzos del siglo XVIII en honor de Nosa Señora de Reza, los textos conservados son en su mayoría de naturaleza profana. La poesía culta está representada prácticamente a lo largo de toda la Edad Moderna, desde finales del siglo XVI hasta las postrimerías del siglo XVIII. En todo caso, cabe señalar que la concentración de textos se incrementa a medida que avanzamos en el tiempo, hasta alcanzar una mayor densidad en la segunda mitad del setecientos. Poesía popular y popularizante. Se trata por lo general de pequeñas piezas, mayoritariamente coplas, transmitidas oralmente y registradas por algún autor a lo largo del período de referencia (cf. por ejemplo las registradas por diversos autores en la segunda mitad del siglo XVIII recogidas en Blanco 1992). A ellas podrían añadírseles las compuestas a imitación de este modelo, como las coplas que integran el Coloquio de veinticuatro gallegos rústicos de Sarmiento (1746). Poesía cancioneril. Integrarían este grupo los poemas presentes en diversos cancioneros hispánicos, mayoritariamente castellanos, del siglo XVI. Se trata, por lo general, de textos de transmisión dudosa, escritos en un gallego estereotipado o fuertemente hibridado. Villancicos. Conforman este grupo las composiciones «en gallego» o «de gallegos» que eran cantadas, sobre todo en Navidad y Reyes, en iglesias y catedrales, por lo general fuera del territorio gallegófono, en España, Portugal o la América Hispánica. Aunque los villancicos comparten algunas de las características señaladas a propósito de otros grupos (transmisión irregular, hibridación lingüística y, ocasionalmente, intencionalidad paródica), constituyen una tradición bien diferenciada que, por esta razón, debe ser mantenida como tipo aparte. Textos dramáticos y dialogados. Se trata de un género poco representado en el corpus. De hecho, contamos únicamente con dos pequeñas piezas completas, el Diálogo de

Iluminar los Séculos Escuros

–

121

Alberte e Bieito, anónimo, compuesto alrededor de 1600, y la Contenda dos labradores de Caldelas, un entremés compuesto en 1671 por Gabriel Feixoo de Araúxo. A estas piezas habría que añadir los fragmentos y parlamentos en gallego incluidos en obras teatrales en castellano o plurilingües, producidas tanto dentro como fuera de Galicia. Textos en prosa. La producción conocida es muy escasa, apenas unas páginas del Theatro moral y político de Mendoza de los Ríos (1731). Por otra parte, el encaje de esta pieza entre los textos literarios resulta cuando menos discutible.

Por lo que se refiere a los textos no literarios presentes en el corpus, cabe distinguir los siguientes grupos: –

–

–

– –

Prosa documental, mayoritariamente notarial. Constituye la manifestación epigonal de una tradición iniciada en el siglo XIII y mantenida de manera continuada hasta el comienzo de su declive en la segunda mitad del siglo XV. Aun así, el gallego subsiste, aunque marginalmente, en este tipo de textos hasta el último cuarto del siglo XVI. El texto de datación más tardía recogido en el TMILG es un documento de 1577 de Santa María do Camiño (Pontevedra). Correspondencia privada. Este tipo está representado en el corpus, fundamentalmente, por dos pequeños grupos de cartas privadas fechadas entre 1527 y 1530 y entre 1567 y 1626, y dirigidas, respectivamente, a Pedro Álvarez de Soutomaior, nieto de Pedro Madruga y tercer conde de Camiña, y a Diego Sarmiento de Acuña, conde de Gondomar. Textos historiográficos. A este tipo corresponderían algunas memorias y textos cronísticos, como la Memoria da fundación do gremio dos Cambeadores (anterior a 1624) o la Historia de don Servando (ca. 1630), que constituyen falsificaciones de textos pretendidamente antiguos realizadas a lo largo del siglo XVII. Contamos también con algunos otros textos, como las Constituciones de Santa Tegra (1591), que llegaron hasta nosotros a través de copias realizadas con posterioridad a su composición. Refranes y proverbios. De este tipo de textos se conservan algunas compilaciones de refranes, como la realizada por Hernán Núñez hacia mediados del siglo XVI. Glosas y anotaciones marginales. Se trata de fragmentos, frases o palabras integradas en textos escritos en otro idioma o anotadas al margen de escritos y documentos.

2.2.2 Ámbito de difusión Si la filiación genérica constituye un primer parámetro para la clasificación, otro criterio de gran relevancia por sus implicaciones, tanto en la esfera de lo estrictamente lingüístico como en el dominio sociolingüístico, es el ámbito de difusión primario de los textos. Este criterio nos permite establecer un eje opositivo en cuyos extremos se situarían, respectivamente, los textos concebidos originariamente como privados y los creados para su difusión pública. Un ejemplo prototípico de los primeros serían las cartas personales, escritas en principio para ser leídas exclusivamente por su destinatario inmediato. En contraposición, los textos publicados, difundidos a través de la imprenta, constituirían los ejemplos

122

Rosario Álvarez y Ernesto González Seoane

más representativos de textos públicos. En medio se situarían los textos de contenido no estrictamente privado que, aun así, no fueron creados para su difusión pública (sería el caso de buena parte de la prosa documental) y, por otra parte, los textos que, por razones que habría que analizar detalladamente, no fueron dados a la imprenta (y en muchos casos ni siquiera concebidos para ello), pero sí fueron creados para ser leídos por un círculo restringido de personas (sería el caso de obras ya mencionadas, como el Diálogo de Alberte e Bieito, las coplas de Sarmiento o los fragmentos en gallego insertos en algunas piezas teatrales). Como fácilmente se puede comprender, la contraposición entre textos públicos y textos privados se solapa parcialmente con la distinción entre impresos y manuscritos. Por razones obvias, los textos privados y los dirigidos a un público restringido aparecen comúnmente en forma manuscrita. Sin embargo, lo contrario no es necesariamente cierto, es decir, no todos los textos que llegaron a nosotros en forma manuscrita tienen carácter privado o semipúblico. Paralelamente, los textos impresos tienen por regla general carácter público, si bien no todos los textos creados para su difusión pública aparecen forzosamente en forma impresa.

2.2.3 Autonomía Otro parámetro sin duda relevante para una clasificación de los textos es su grado de autonomía. Tomando como base este criterio podemos distinguir tres grupos: –

–

Textos autónomos, completos e independientes, que no forman parte de una obra más extensa. En esta misma categoría se podrían integrar también los textos autónomos que figuran en antologías o compilaciones de diverso tipo, pero que no mantienen una relación formal o temática directa con otros textos contenidos en el mismo volumen. Cabría incluir en esta categoría también obras como el Coloquio de Sarmiento, incluso a pesar de tratarse de una obra concebida como punto de partida o pretexto para el comentario filológico de las formas empleadas en sus coplas. De este modo, consideramos que el Coloquio en sí mismo puede considerarse, tanto desde un punto de vista formal como temático, una pieza autónoma, por más que su composición esté guiada en buena medida por el propósito de seleccionar soluciones que den juego para el comentario. Así, podría decirse que, contrariamente a lo que por lo general sucede, en el caso de Sarmiento es el texto el que está al servicio de la glosa, y no la glosa al servicio del texto. Textos autónomos integrados en antologías o volúmenes colectivos junto con otros textos con los que comparten rasgos formales o temáticos. Tal sería el caso, por ejemplo, de los sonetos incluidos en la Relación de las exequias de la reina doña Margarita (1612) o de los romances gallegos que concurrieron al «asumpto segundo» de las Fiestas Minervales de 1697.

Iluminar los Séculos Escuros

–

123

Textos incluidos en obras más extensas e integrados en ellas en mayor o en menor medida. Tal sería el caso, por ejemplo, de los fragmentos, pasajes o parlamentos en gallego presentes en textos dramáticos, como los mencionados más arriba.

2.2.4 Variedad lingüística Atendiendo a la variedad lingüística empleada en los textos podemos establecer los siguientes tipos: –

–

–

–

–

Gallego. Constituye la categoría no marcada del corpus. En consecuencia, se adscribirían a este tipo los textos escritos en gallego que no participan de las características de hibridación o falsificación que definen los siguientes tipos. Hibridación gallego-castellano. Es la que se registra en textos escritos sobre una base gallega fuertemente interferida por elementos tomados del castellano. Esto es lo que sucede, por ejemplo, en muchos villancicos y, por lo general, en los poemas incluidos en los cancioneros hispánicos. Hibridación gallego-portugués. De modo análogo al citado anteriormente, se adscribirían a este tipo los textos que presentan una base gallega con una significativa presencia de elementos del portugués, como sucede con muchos de los villancicos cantados en Portugal. Gallego arcaizante. Corresponderían a este tipo los textos pretendidamente medievales que, como parte de su estrategia falsificatoria, intentan imitar, con desigual pericia, el gallego antiguo para de este modo resultar más verosímiles. Gallego paródico. Se adscribirían a este tipo los parlamentos puestos en boca de personajes gallegos que aparecen en comedias y entremeses de los siglos XVII y XVIII y que, siempre con intención paródica, tratan de remedar el gallego seleccionando, acertadamente o no, rasgos estereotipados supuestamente representativos.

No será necesario insistir demasiado en la importancia de este parámetro para una valoración ajustada de los datos lingüísticos extraídos del corpus.

2.3 Dificultades para el establecimiento del corpus Nos encontramos, por tanto, ante un corpus textual no muy extenso, a pesar de abarcar un amplio arco temporal de tres siglos, y muy heterogéneo, sea cual sea el parámetro que utilicemos, de forma que en algunas de las posibles subclasificaciones faltan muestras y en ninguna las hay en número suficiente para poder definir un modelo de referencia; el problema de la escasez aumenta y muestra un corpus verdaderamente lagunar si combinamos dos o más parámetros. De todos modos, estas características determinan solo algunas de las dificultades de establecimiento del corpus.

124

Rosario Álvarez y Ernesto González Seoane

Uno de los problemas más graves para la constitución del corpus textual es la dispersión física y la invisibilidad de sus piezas. Por lo general estos textos sobrevivieron ocultos en archivos y bibliotecas, en su mayoría fuera de Galicia, de modo que uno de los objetivos de Gondomar es hacer y ampliar el inventario, localizando y dando a conocer nuevas muestras de escritura en esta época. La dispersión física dificulta la búsqueda sistemática en archivos y bibliotecas. La observación de este corpus muestra hasta qué punto el marasmo de Galicia en los Séculos Escuros fue perjudicial para su lengua y cultura, incluida la pérdida de su patrimonio documental. El que se salvó de la destrucción se conserva con frecuencia fuera de Galicia: bien por el traslado de los archivos familiares de las grandes familias nobiliarias, que buscaron poder y fortuna más cerca de la corte o que en sus sucesivas alianzas familiares dejaron de tener presencia en los dominios gallegos; bien por el expolio de gran parte de los archivos eclesiásticos, sobre todo a consecuencia de la expulsión de los jesuitas y de la desamortización; bien por otras acciones públicas tendentes a concentrar la documentación de Galicia en la meseta. Únase el hecho de que una buena parte de estos textos no fue producida en Galicia (de forma singular, los villancicos) o no nació destinada a un receptor residente en el país (por ejemplo, la correspondencia o las obras manuscritas remitidas al conde de Gondomar). Las razones de la invisibilidad son múltiples, pero creemos necesario señalar el escaso valor como objeto patrimonial y la recurrente falta de autonomía, por lo que los textos forman parte de cartapacios misceláneos, facticios con diversos grados de homogeneidad, colecciones documentales no clasificadas o, simplemente, anotaciones usando los huecos en blanco en la obra principal; por eso no son catalogados como piezas autónomas y solo merecen una anotación en fichas catalográficas muy elaboradas. Contribuye al ocultamiento el hecho de no ser literarios o ser muestras de literatura efímera, de estar en buena parte manuscritos (autógrafos o copias) y de no estar pensados para la difusión pública o, por lo menos, no a través de edición autónoma. Valgan como ejemplos una hoja que contiene un poema en gallego (el Romancillo ya aludido, ca. 1680) en un volumen de 248 páginas manuscritas titulado Poesías varias escritas principalmente por jesuitas, compilado probablemente en Aragón, del que, por fortuna, el catálogo de la Biblioteca Nacional de España (Mss/4103) advierte «Algunos textos en latín, catalán y gallego»; el poema satírico dedicado a María Pita (1619–1620), ejercicio con que entretiene las horas muertas el escribano que toma notas durante un juicio y que por eso quedó ligado al expediente; un villancico que es el tercero en el folleto publicado como Divinos elogios, alegres villancicos que al nacimiento del maior senor, al Dios humano cantò la Capilla de la parrochia de la Virgen siempre santa Maria, cantados e impresos en Écija, en 1640; o el fragmento en gallego, puesto en boca de un hidalgo, que ocupa las páginas 118–119 del Theatro

Iluminar los Séculos Escuros

125

Moral y Político de la Noble Academia Compostelana, de Pablo Mendoza de los Ríos (1731). La irregular custodia del patrimonio documental produjo pérdidas que esperamos no sean todas definitivas. Hay piezas que solo se conservan en copias muy posteriores en el tiempo y que no siempre inspiran la misma confianza en su fiabilidad. Es el caso, por ejemplo, de la Regla de las Constituciones de la gloriosa santa Trega de la villa de la Guarda (texto de 1591, presuntamente a partir de otro anterior), desaparecido junto con otros tesoros documentales y bibliográficos del monasterio de Oia, por lo que solo llega a nosotros a través de copias tardías (1780 y 1807, antes de la desamortización), hechas por monjes castellanos que no dominan la lengua gallega. De otras solo nos llegan noticias, por veces fidedignas, pero hasta hoy nadie ha conseguido localizarlas; resaltamos, a modo de ejemplos valiosos, un cancionero de la condesa de Altamira (siglo XVI) que al parecer formó parte del acervo de la Biblioteca Nacional de España (Álvarez Blázquez 1959, 220), y las obras autónomas As Galegadas y A historia de Galicia, para las que su autor, Gregorio de Lobariñas Feixoo, solicitó licencia de impresión en 1616 y 1626, respectivamente (Bouza 2009). Una vez hecho el inventario y localizadas las piezas del corpus textual, es labor del filólogo editarlos para establecer la forma lingüística que mejor responde al original dado por su autor y a los intereses del variado conjunto de estudiosos interesados. Los problemas son recurrentes y no muy diferentes de los que se encuentran al enfrentarse con cualquier otro corpus: el distinto grado de formalidad en la versión o versiones supervivientes, la variación lingüística, la heterografía dominante, etc. En nuestro caso hay dos dificultades adicionales que merecen resaltarse y tener en cuenta para proceder con el rigor metodológico adecuado. Un serio problema es la frecuente transmisión lingüística en territorio no gallegófono o por copias realizadas por personas que no conocen la lengua. Es por ello difícil determinar hasta qué punto «alteraciones» lingüísticas de distinto tipo se deben a una hibridación real (del castellano o del portugués) y en qué casos son simples modificaciones grafemáticas debidas a la transmisión. Y aún más, es difícil determinar en qué casos una cierta forma, no registrada anteriormente pero verosímil, es atribuible al texto original y en qué casos es hipercaracterización galleguizante, hecha desde la óptica del castellano o del portugués. Las dificultades derivadas podrían resolverse, aunque no sin dificultad, si el problema anterior no se aliase con la falta recurrente de referentes contemporáneos y la inexistencia de un canon, debidas a una transmisión escrita irregular. Esta circunstancia dificulta la lectura interpretativa del texto, pues generalmente no es posible determinar hasta qué punto algunas formas «extrañas» se deben a

126

Rosario Álvarez y Ernesto González Seoane

ensayos grafemáticos que, en aras de la fidelidad, hacen autores carentes de convenciones adecuadas para el gallego, o simplemente se deben al hecho de aplicar al gallego convenciones gráficas del castellano o del portugués. Así, cuando leemos «touda de frores» en un villancico gallego cantado en Málaga (1683) tendemos a pensar que se trata de una hipercaracterización como ‘gallego’ (la regla es simple: si toro = touro, luego toda = touda), y podemos atribuir al mismo impulso la forma toudo recurrente en los supuestos traslados de la Relazon da carta xecvtovria (ca. 1515) y del Pranto da Frouseira (ca. 1500), publicados en Granada en 1674 dentro del Memorial de la casa de Saavedra (p. ej., «Que de Lugo à Ribadeo toudos me tinan temor»); pero la conclusión no puede ser firme sin descartar previamente que pueda tratarse de una tentativa de grafiar de forma inequívoca una vocal velar más cerrada que cast. /o/ y no tanto como /u/. Cuando encontramos queiro en distintos poemas y canciones, como en los versos «sois muyto fidalgo / muyto cabaleiro / e por ende queiro / vos praçer enalgo» (Carmelo de Valladolid, 1590–1606), la primera impresión es que también se trata de una hipercaracterización, en este trecho ayudada por la rima; esta es, desde luego, una explicación plausible para la superabundancia de queiro en el corpus de villancicos (Sevilla 1642, Lisboa 1646, Jerez 1649, Toledo 1673, Madrid 1675. . .), pero también hay base para conjeturar que una forma antigua para la P1 del Presente de Indicativo perviviese e incluso aumentase su presencia en esta época ayudada por la consolidación de queira en el Presente de Subjuntivo.2 Finalmente, aun reconociendo que la interferencia lingüística es muy frecuente en los villancicos,3 porque se originan y difunden fuera del territorio gallegófono, hay que advertir de que no siempre la interpretación más simple y cómoda es la más adecuada. Por ejemplo, en «Ay, de la miña terra / beño eu contente» (Lisboa 1640) y «Ay! De la miña terra veño ca» (Toledo 1641) es fácil ver una preposición de seguida de un artigo castellano la, en lugar de la forma gallega de + a > da, pero el editor riguroso debe contemplar que pudiera tratarse de dela, amalgama de prep. des ‘desde’ y art. a (cf. trala y pola, con las prep. tras y por). Para llegar a la solución más adecuada es preciso no solo el análisis de las características internas del texto y de la posición de su transmisor ante la hibridación lingüística, sino el conocimiento de las soluciones recurrentes en el mismo contexto; así, el análisis y

2 Queiro está dentro del sistema aunque debía ser muy infrecuente en la Edad Media, a juzgar por el escaso número de atestaciones, solo 4, registradas en TMILG. Repárese en que gall. mod. quero/queira es una excepción en el cumplimiento de la regla gramatical que iguala el tema de las formas atemáticas, P1 del Presente de Indicativo y todo el Presente de Subjuntivo (collo e colla /o/, caibo y caiba, fago y faga, vexo y vexa, veño y veña, etc. 3 Incluso en los más fácilmente clasificables como «gallego» se da en algún grado, al menos a nivel gráfico y en palabras gramaticales muy frecuentes: es, lo, mi, etc.

Iluminar los Séculos Escuros

127

comparación de distintas versiones permite conjeturar que el castellanismo de «Beña nora buena / o ceo para a terra» (Lisboa 1640) no es original sino una alteración, producida por incomprensión en territorio castellanófono, de «Veña embora, veña / o ceo para a terra», bien documentada en otros lugares (Toledo 1641, Lisboa 1645). Por ello, Gondomar asume como compromiso la lectura, la transcripción y, de forma escalonada en el tiempo, la edición rigurosa y sistemática de los textos compilados, en dos versiones alineadas, una conservadora y otra interpretativa. Las dos ediciones irán acompañadas de un aparato de notas relativas a la lección y sus problemas, diferenciado del conjunto de notas con información complementaria o justificativa.

2.4 Los textos como fuente de información lingüística Si uno repasa la bibliografía lingüística gallega —producida casi íntegramente en los últimos cincuenta años— podrá comprobar que los estudios descriptivos e interpretativos se centran o en la lengua medieval, en un arco temporal más o menos amplio pero con fin inevitable en el final del siglo XV, o en el gallego moderno, con un inicio que raramente va más atrás de los comienzos del siglo XIX. La causa de esta discontinuidad está en que los autores de los pocos trabajos que se aventuran en una descripción que salve el lapso temporal de algo más de tres siglos poco más pueden hacer que lanzar hipótesis plausibles y proponer cronologías verosímiles para llenar el hiato y explicar la conexión entre el estado de la lengua en el inicio de la Edad Moderna y el estado de la lengua en el comienzo de la Edad Contemporánea. Y esto es así porque faltan datos fiables o porque no están disponibilizados debidamente. Algunos de los avances más significativos de la lingüística gallega se relacionan de una manera u otra con la construcción y explotación de corpus lingüísticos, en particular con el TMILG y el TILG. El primero, que tiene como objetivo reunir textos desde los primordios de la escritura en gallego hasta 1600, acoge «unhas 16.000 unidades textuais distribuídas nun total de 82 obras, representativas das tres grandes categorías recoñecibles na produción textual da Galicia medieval: a prosa notarial, a prosa non notarial e a poesía (verso)», según información facilitada por los editores en las páginas descriptivas. Gracias a la dimensión del corpus, el discutible rigor con que, a juicio de los filólogos, fueron editadas algunas colecciones documentales se compensa con la abundancia de testimonios, que se autorizan o enmiendan mutuamente; ahora bien, ese acopio de datos corresponde al período medieval, y no al trecho temporal que nos ocupa: en números redondos, solo el 1 % de los registros corresponde al siglo XVI y el

128

Rosario Álvarez y Ernesto González Seoane

último documento es de 1577. Por lo que se refiere al TILG, según declaran los responsables en las páginas descriptivas, «a versión actual inclúe 1.958 obras de 704 autores e autoras, producidas todas elas entre 1612 e 2013, e permite realizar consultas nunha base integrada por máis de 26 millóns de palabras, correspondentes a 95.409 lemas diferentes». Pues bien, los registros del TILG anteriores a 1800 suponen en cifras redondas el 0,1 % del corpus; únase a esta escasez el hecho de que en el estado actual ninguno de los dos corpus incluye textos datados entre 1577 y 1612. Los datos anteriores pretenden mostrar hasta qué punto carecemos de fuentes para describir el estado y evolución de la lengua gallega en una dilatada época histórica en que se producen las grandes transformaciones que derivan en el gallego moderno, tal y como lo conocemos hoy o desde principios del siglo XIX. Compárese con la historia evolutiva de las lenguas más próximas, singularmente el castellano y el portugués, y se comenzará a comprender la magnitud del problema; si a esto le sumamos que la progresiva minorización del gallego desde las últimas décadas de la Edad Media colocó esta lengua en una posición subalterna respecto del español, y, por lo tanto, en situación de previsible hibridación durante toda la Edad Moderna, la importancia del período se multiplica. Reconstruir la evolución lingüística del gallego durante estos algo más de trescientos años requiere de algo más que de hipótesis: son necesarios datos, testimonios, fuentes fiables. Por ello, es preciso localizar todos los textos que lograron sobrevivir, editarlos con el máximo rigor, difundirlos y elaborar recursos a partir de ellos. Con el objetivo de mostrar la importancia lingüística de este corpus, que no siempre se corresponde con la importancia artística ni patrimonial de las piezas que lo integran, vamos a mostrar algunos testimonios que se comprueban en estos textos y que ayudan a datar hechos lingüísticos. Seleccionamos para este fin tres fenómenos de tipología diversa, ilustrados preferentemente con el testimonio de textos que hasta el momento no fueron valorados debidamente por los estudiosos. 1. En la lengua oral espontánea, coloquial, de algunas áreas, y de algunos grupos de hablantes dentro de ellas, es frecuente la epéntesis de un sonido —generalmente [j], pero en el SE también [w] > [β̞ ]— entre dos vocales contiguas, para evitar una contracción fonética que conllevaría la pérdida o el oscurecimiento de un segmento morfológico relevante. Uno de los casos paradigmáticos es la epéntesis entre la /a/ del artículo femenino o de otro determinante (o bien la contracción á) y la /ˈa/ inicial de la palabra siguiente: a i-alma, a i-auga. Hoy es más habitual en hablantes no influenciados por la representación gráfica de la lengua, pero también se oye a cualquier tipo de hablantes en expresiones repetidas, como «(un porquiño) fóra a i-alma», pronunciadas con voluntad de remarcar su carácter popular. Saco

Iluminar los Séculos Escuros

129

Arce (1868, 146) se hacía eco del fenómeno en el apartado de «consonantes eufónicas», dando como ejemplo la siguiente canción popular: «Probes vaquiñas miñas, / S’o meu coidado, / Como pesa na y-alma / Pesa n-o carro». Actualmente no se representa gráficamente, pero a mediados del siglo XIX y durante las primeras décadas del XX pasó a la lengua escrita de la mano de algunos autores, entre ellos la propia Rosalía de Castro (1863)4 («Levaba na frente á yalma»); en el TILG no encontramos ningún registro hasta este de 1859: «Queridiño e esposo da ialma, ven», del compostelano Antonio de la Iglesia. Nada vemos en la bibliografía gallega a propósito del origen y datación del fenómeno que, a juzgar por la instalación en el cancionero, en el refranero y en la fraseología popular, debe ser antiguo. Apoya su antigüedad el hecho de que sea un fenómeno transfronterizo compartido por los dos territorios que conformaron la antigua Gallaecia, según informan Gonçalves Viana, que con la fineza que le caracteriza advierte del bajo prestigio social fuera de su circunscripción dialectal, y Leite de Vasconcellos, que precisa un poco más los límites de ese territorio; respectivamente: a˳ + à = a˳à, àà ou ā, qui est ma prononciation habituelle. Dans le nord on intercale ı̊ , pour eviter l’hiatus ou la crase; cet ı̊ , serai ridicule à Lisbonne (Gonçalves Viana 1941, 203). L’hiatus entre deux voyelles orales est évité par l’intercalation d’un i ou d’un u, par ex. a i água (Nort et Centre) (Leite de Vasconcelos 1987, 77).

De esta solución fonética para resolver el encuentro /aa/, así como de su carácter dialectal ya había dado cuenta Barretto (1671, 72–73): He esta letra a fatal para os de entre Douro, & Minho, & Beyrões, siguindoselhe outro a porque nã os podem pronunciar ambos ũ detras do outro, sẽ lhes meter de permeyo ũ y, & assi havendo de dizer, a agua, a alma, infalivelmente hã de dizer ay agua, ay alma.

Pues bien, sin perjuicio de que sobre otros textos se puedan ofrecer dataciones anteriores, nosotros daremos, a modo de ejemplo, estas dos que confirman y anticipan la de Barretto. El primer testimonio procede del parlamento que hace en gallego la representación de Lugo en la Comedia de la invención de la sortija, representada en Monforte de Lemos en el año 1594. Los otros dos proceden de un mismo villancico gallego cantado en la Navidad de 1666 en la Capela Real de

4 El autor del glosario que acompaña la primera edición de Cantares Gallegos se ve en la obligación de aclarar: «YALMA , para hacer mas suave la palabra y evitar la cacofonía, suelen decir á yalma, en vez de á alma» (Castro 1863, 183). El autor —es comúnmente aceptado que M es Manuel Murguía— se excluye de esa práctica; no es posible identificar el sujeto de «suelen»: ¿el vulgo, los hablantes de la comarca compostelana o padronesa?

130

Rosario Álvarez y Ernesto González Seoane

Lisboa; el editor advierte en nota del fenómeno «comum ao português do norte e ao galego, representado na grafia dêste último, minha y-alma» (Lapa 1930, 57). 1. 2.

Ay, Xan, cata, non te enfermes / Nen sentencies con malicia, / Cata que ay alma perdes. Garulho da minha y alma, / non choreis com tanto afeito / (. . .) / Ay, Ay, Ay, / tocay, tocay, / a gaita do fole / que a y-alma me bolle.

2. En la morfología dominante en el gallego moderno y en el gallego estándar, las formas verbales acabadas en diptongo se combinan con el alomorfo /no, na, nos, nas/ del pronombre personal de tercera persona acusativo no reflexivo: viuno ‘lo vio’, mirouno ‘lo miró’, fiteino ‘los miré fijamente’, etc. Se diferencia en esto tanto de la morfología testimoniada por los textos medievales (feriuo, ferioo, feryo, ferio ‘lo hirió’; destroyoa ‘la destruyó’…) como de la descrita para todas las variedades de portugués, que presentan distintas soluciones pero resuelven el encuentro vocálico sin incorporar una consonante nasal. Uno de los asuntos pendientes de la gramática histórica gallega es dar una explicación aceptable para el origen, difusión y cronología de este alomorfo con consonante nasal, que al parecer no forma parte de la gramática medieval testimoniada por los textos hasta fines de la Edad Media pero que vemos plenamente instalado en el sistema cuando, a principios del siglo XIX, comienza a despertar la escritura en lengua gallega. Los datos geolingüísticos del gallego actual confirman el proceso de difusión de la forma innovadora y la progresiva sustitución de la solución tradicional: (a) mirouno ocupa una gran área central, compacta, que representa la mayor parte del territorio gallego; (b) las formas sin consonante nasal, más antiguas, ocupan áreas marginales, cumpliendo así un principio básico de la estratigrafía lingüística; (c) en el margen occidental, el área de –(u)o es ya discontinua (grosso modo: NW, Costa da Morte / SW, Baixo Miño) y está fracturándose y desapareciendo bajo la presión de la forma general; (d) en el margen oriental, la isoglosa se va desplazando hacia el E, al tiempo que soluciones centrales van o bien creando formas híbridas (miróunol por miróuol ~ miróul ~ miróol, en el N5) o bien fracturando internamente el área resistente (mirouno por miróuo ~ miróo ~ miróu, en el S); (e) en el ángulo SW de Ourense se dan soluciones coincidentes con las hablas portuguesas fronterizas, pero también aquí se advierte el proceso de sustitución a favor de las gallegas más comunes. Vemos, por tanto, un proceso de difusión de la forma innovadora mirouno muy avanzado, con áreas marginales relativamente pequeñas en las que el proceso de sustitución parece estar en vísperas de concluir.

5 Téngase presente que en el gallego hablado en Asturias la forma dominante es miroulo, sin pérdida de la lateral, y por tanto sin el problema de la resolución de un encuentro de tres vocales.

Iluminar los Séculos Escuros

131

¿Cuándo comenzó este proceso? Hasta fechas muy recientes, veníamos dando como registro más antiguo botouno ‘lo echó’, en la Historia de don Servando (ca. 1630), como destaca su editor: É de grande interese a ocorréncia do alomorfe no para o obxecto directo de terceira persoa: ‹botouno› [27]. De feito, é o máis antigo testemuño dese alomorfe que surxe aqui após forma verbal rematada en ditongo. Tratando-se de contexto único non podemos, infelizmente, xeneralizar sobre a extensón desta variante na língua do autor. Só nos permite afirmar que en inícios do XVII xa se podia rexistar, polo menos, precedida de –ou no noroeste ourensano (Souto Cabo 2007, 214).

El descubrimiento de un nuevo cancionero de poesía gallega compuesto entre 1380 y ca. 1430 permite datar el inicio de este fenómeno en fecha mucho más temprana: «É de salientar o uso do alomorfo –no en seynos (XXIII, 13), unha innovación típica do galego» (Monteagudo 2013, 88). Según el editor, el manuscrito contiene evidencias «que convidan a situar a copia dos textos en Ferrol ou as súas proximidades por volta de 1434» (Monteagudo 2013, 51). Tanto si el rasgo morfológico es atribuible al autor, que podría escribir solo unas décadas antes, como si se debe al copista, el área geográfica seguiría siendo la misma. Por tanto, el primer testimonio conocido, del occidente del área mindoniense, se anticipa en alrededor de dos siglos al del orensano. Adviértase, con todo, que se trata de otro diptongo y que las formas verbales de P1 acabadas en –ei desarrollaron una nasal que se fijó morfológicamente vinculada al morfema de persona y número, con una cronología que todavía está por precisar (cantei > cantein, de donde cantén e cantín en el pretérito de indicativo, pero también sein, hein); por lo tanto, ¿estamos delante de sei + no o de sein + o? Las formas verbales acabadas en –ou no experimentaron un proceso semejante en el morfo de P3, pero no se descarta que cantou + no siga la senda de canteino, y, por consiguiente, la difusión y consolidación debería ser más tardía; por otro lado, la presencia de la consonante es más eficaz tras –ou, ya que evita reducciones vocálicas como las que podemos constatar todavía hoy (cantouo > cantoo, cantou), en tanto que eso no es preciso tras –ei. Por esta razón, en nuestra opinión, aunque estén relacionados, debemos datar el fenómeno tomando por separado los distintos diptongos implicados. En consecuencia, es necesario indagar en los testimonios de nuestro período. A la espera de un análisis más demorado del corpus, y solo a modo de ejemplo, ofrecemos estos datos de mediados del siglo XVII, tomados de dos versiones de un villancico cantado en Castilla en fechas próximas. Se colocan en un punto intermedio entre el testimonio de la Historia de Don Servando (c. 1630) y los siguientes localizados hasta ahora, ya en la Fiestas Minervales (1697), uno del compostelano Joseph Antonio Gil Taboada (arrolouno ‘lo meció’) y otro de un Ignacio Rodríguez que todavía no hemos conseguido identificar (librouna ‘la libró’).

132

Rosario Álvarez y Ernesto González Seoane

3. 4.

Mirouno todo nas pallas Anton / o Neno dos Ceos o irse à deitar / e penado de velo afrigido, / co a gaytiña o quer alegrar (Toledo 1656). Mirouno todo nas pallas, Antón, / o neno dos ceos o irse deitar / e penado de velo afligido, / coa gaitiña o quer alegrar (Segovia 1657).

3. Otra de las singularidades de la lengua gallega es el «dativo de solidaridad», una innovación que no vemos descrita para ninguna de las variedades de portugués. El pronombre dativo de segunda persona (che / vos) —o de tercera persona en contexto de cortesía (lle / lles)— es usado no para la función sintáctica que le es característica (OI), sino para introducir al alocutario en el mensaje como si fuese uno de los participantes en los hechos relatados, sabiendo de antemano que no ha intervenido en ellos. Se trata de una función pragmática: se pretende en última instancia que se sienta implicado y provocar en él una reacción favorable al sentimiento o la posición del emisor. Está completamente extendido por todo el territorio gallegófono, con mucha vitalidad entre hablantes de toda condición, hasta el punto de que forma parte también de las características del castellano hablado en Galicia por amplios grupos sociales. Ese altísimo grado de difusión territorial y de implantación social hace suponer que el origen es muy antiguo. Cuando nos ocupamos de este asunto, hace ya un par de décadas (Álvarez 1997), manifestábamos que nuestras indagaciones en textos medievales habían sido infructuosas y que los testimonios más antiguos que podíamos aducir en aquel momento procedían de fray Martín Sarmiento (1746). Valgan como muestras los siguientes: 5. 6.

No dia càtorce / dò mes e ano mesmo / que foy quinta feira / se bem che me lembro (copla 267). Elle tan bizarro / anque è pasteleiro / que dobrons á pote / gastòu sen receo (copla 725).

Gracias a la construcción de los corpus lingüísticos a que ya nos hemos referido, se disponibilizaron enormes cantidades de datos al servicio de los investigadores, facilitando la investigación y la localización de testimonios. En recientes encuentros científicos celebrados en Bahía (Brasil) y en Santiago de Compostela, la investigadora Cecilia Farias de Souza6 presentó sendas comunicaciones sobre el pronombre dativo gallego a partir de datos de corpus, con especial atención al dativo de solidaridad. En su base de datos, confeccionada a partir del TMILG, el testimonio más antiguo procede de la Crónica Xeral e Crónica de Castela (ca. 1295–1312): 7.

et nõ lles faças nẽhũu mal, ca elles nõ che am y culpa nẽhũa (Lorenzo 1975, 129).

6 Es preciso dejar constancia de nuestro agradecimiento por su generosidad a la hora de facilitarnos sus datos con anterioridad a la publicación de los respectivos trabajos.

Iluminar los Séculos Escuros

133

El ejemplo es dudoso, pues en una interpretación se trata efectivamente de un dativo de solidaridad y en otra de un clítico que marca una relación personal con la culpa, y por consiguiente sí estaría de algún modo en la esfera de los participantes en los hechos relatados (de ahí que pueda alternar con las otras personas: «o rapaz non me/che/lle ten culpa»). Los siguientes testimonios, por orden de antigüedad, fuera ya de toda duda, están tomados del TILG y corresponden al siglo XVIII. He aquí el primero de ellos, de los Versos gallegos à nuestra Señora de Reza, de Joseph Noguerol y Camba (1708): 8.

Dò Fiscal Dios cheme libre.

Pues bien, también en este caso nuestro corpus textual ofrece ejemplos con que llenar el vacío e iluminar la lengua de los Séculos Escuros, como se puede comprobar en la siguiente muestra. El primero procede del Diálogo de Alberte e Bieito (ca. 1600): de los 10 registros de che en el texto, solo dos escapan a este uso, en nuestra opinión en consonancia con la caracterización popular y coloquial que el autor quiso imprimir a todo el texto (Álvarez/Montederramo 2002, 265, 292). El segundo, procedente de un villancico cantado en Lisboa en la Navidad de 1640 (Lapa 1930, 35), es dudoso: en la interpretación más probable, que nosotros sostenemos, es un complemento de solidaridad, pero también podría tratarse de un benefactario (‘para vós’). El tercero, con un verso repetido en cinco estrofas diferentes, procede de un villancico cantado en Jerez de la Frontera en la Navidad de 1649; «dochome» debe ser interpretado como dóucheme:7 9. Pois eu non che desbarío (ca. 1600). 10. Ay, beñobos co sayo / chouteiro, chouteiro / para dar la bolta / bolta a lo ligeyro (Lisboa 1640). 11. Ay cachopiño belo / dochome a Deus / como sois Galego (Jerez de la Frontera 1649).

3 Conclusión En las páginas anteriores nos hemos ocupado de la caracterización del corpus textual producido en lengua gallega durante los Séculos Escuros, hasta donde ha podido ser ya desvelado, así como de mostrar su extraordinario valor como fuente de información con que lingüistas y filólogos puedan abalizar tres siglos de oscuridad.

7 Cf., por exemplo, «¡Ai Canté! pero doume a Dios si a ti te deixan emprensar nada; nin ti sabes parolá-lo para levar a pór no deáreo» (Diálogo en la Alameda 1836, apud TILG).

134

Rosario Álvarez y Ernesto González Seoane

Es preciso realizar un catálogo exhaustivo que ofrezca detalladamente la información bibliográfica y archivística de todos los textos: datos bibliográficos completos, localización de originales, noticia de ediciones y reproducciones facsimilares, etc. Para la realización de este catálogo resulta imprescindible acometer un trabajo de investigación adicional que revise, como mínimo, la autenticidad, la autoría y la datación. Un catálogo en permanente actualización, que incorpore nuevos datos —acompañando los avances del conocimiento— y, esperamos, nuevos textos. Es preciso informar de las características tipológicas de cada documento, vista su importancia para la interpretación del propio texto y para la utilización de los datos —lingüísticos o de otra naturaleza— que proporcionan a los estudiosos. Un dato que consideramos fundamental es la información sobre la fiabilidad de los textos: manuscritos autógrafos o copias (contemporáneas o posteriores), falsificaciones, imitaciones paródicas, traducciones, etc. En el segundo apartado hemos propuesto cuatro parámetros de clasificación que consideramos básicos: el estudio del corpus a esta luz revelará si son suficientes y los más adecuados. Es preciso un repositorio de textos que dé acceso público en línea tanto a un corpus textual fiable, integrado por ediciones realizadas con criterios filológicos rigurosos y homogéneos, como a facsímiles o copias digitales de los originales. Proponemos dos tipos de lectura alineadas, la más conservadora (paleográfica) y la más adecuada desde el punto experto del editor, pues creemos que de este modo se resuelve el viejo dilema —hasta ahora difícil de resolver a causa de las tiranías del papel— y se atiende el amplio abanico de necesidades de los diferentes posibles consultantes. Es precisa la elaboración de recursos a partir de las ediciones filológicas a que nos hemos referido, de forma fundamental un corpus lematizado y un glosario con información léxica y gramatical, y de estudios realizados a partir de este corpus. Con estos cuatro objetivos trabaja el equipo de Gondomar. Corpus dixital de textos galegos da Idade Moderna. Catalogación, multiedición, glosario e estudo en el Instituto da Lingua Galega. Tareas a corto, medio y largo plazo, en permanente actualización, con la finalidad última de recuperar, poner en valor y difundir todas las piezas que ayuden a iluminar la extrema oscuridad en que contemplamos hasta ahora tres siglos decisivos para la configuración del gallego moderno.

Iluminar los Séculos Escuros

135

4 Referencias bibliográficas Álvarez, Rosario, O complemento de solidariedade. A complicidade entre os interlocutores, in: Fernández Salgado, Benigno (ed.), Proceedings of the 4th International Conference of Galician Studies/Actas do IV Congreso Internacional de Estudios Galegos (Universidade de Oxford, 26–28 Setembro 1994), vol. 1, Oxford, Center for Galician Studies, 1997, 37–53. Álvarez, Rosario/González Seoane, Ernesto, O «romancillo» da cea do cordeiro, texto galego do século XVII, in: Dubert García, Francisco/Rei-Doval, Gabriel/Sousa, Xulio (edd.), En memoria de tanto miragre. Estudos dedicados ó profesor David Mackenzie, Santiago de Compostela, Universidade de Santiago de Compostela, 2015, 21–40. Álvarez, Rosario/Rodríguez Montederramo, Xosé Luís, O «Diálogo de Alberte e Bieito». Dramaturxia, elites letradas e escrita en galego a fins do século XVI, Boletín da Real Academia Galega 363 (2002), 241–311. Álvarez Blázquez, Xosé María, Escolma de poesía galega, 4 vol., Vigo, Galaxia, 1959. Barretto, Joam Franco, Ortografia da Lingua Portugueza, Lisboa, Officina de Joam da Costa, 1671. Blanco, Domingo, Textos do século XVIII, in: Blanco, Domingo, A poesía popular en Galicia (1745–1885), vol. 1, Vigo, Xerais, 1992, 119–144. Bouza Álvarez, Fernando, Dar Galicia y el gallego a la imprenta: As Galegadas y A História de Galicia de Lobariñas Feijoo, La Verdadera descripción de Ojea y algunas iniciativas historigráficas de la primera mitad del siglo XVII, Obradoiro de historia moderna 18 (2009), 9–49. Castro, Rosalía de, Cantares Gallegos, Vigo, Imp. de D. Juan Compañel, 1863. Ciapuscio, Guiomar Elena, Tipos textuales, Buenos Aires, Universidad de Buenos Aires, 1994. Cortijo Ocaña, Antonio, Un texto galego descoñecido do século XVI: a «Comedia de la invención de la sortija» da Bancroft Library (Berkeley), Anuario de Estudios Literarios Galegos (2001), 17–49. Farias de Souza, Cecilia, Estudos em corpora de dados do pronome dativo galego, in: Actas do I Encontro Brasileiro de Estudos Galegos. Homenaxe a Rosário Suárez Albán, Salvador (Bahia, Brasil), 13 a 15 de abril de 2015 (en prensa). Gonçalves Viana, Aniceto dos Reis, Essai de phonétique et de phonologie de la langue portugaise d’après le dialecte actuel de Lisbonne, Boletim de Filologia 7:2 2(1941), 161–243 (Romania 12, 1883, 29–98). González Montañés, Julio I., La égloga «De Virgine Deipara» y el teatro de los jesuitas en Galicia durante la Edad Moderna, Anuario del Instituto Ignacio de Loyola/Loiolako Inazio Institutuen Urtekaria 14 (2007), 247–286. Joseph, John Earl, Eloquence and power. The rise of language standards and standard languages, London, Frances Pinter, 1987. Kabatek, Johannes, Tradiciones discursivas y cambio lingüístico, in: Ciapuscio, Guiomar, et al. (edd.), Sincronía y diacronía de tradiciones discursivas en Latinoamérica, Madrid, Iberoamericana/Vervuert, 2006, 151–172. Kabatek, Johannes, Las tradiciones discursivas entre conservación e innovación, Rivista di Filologia e Letterature Ispaniche 10 (2007), 331–345. Kloss, Heinz, «Abstand languages» and «Ausbau languages», Anthropological Linguistics 9:7 (1967), 29–41. Lapa, Manuel Rodrigues, Os vilancicos. O vilancico galego nos séculos XVII e XVIII, Lisboa, Seara Nova, 1930.

136

Rosario Álvarez y Ernesto González Seoane

Lorenzo, Ramón, La traducción gallega de la Crónica General y de la Crónica de Castilla, vol. 2, Ourense, Instituto de Estudios Orensanos Padre Feijoo, 1975–1977. Monteagudo, Henrique, En cadea sen prijon. Cancioneiro de Afonso Paez. Poesía galega postrobadoresca (1380–1430 ca.), Santiago de Compostela, Xunta de Galicia, 2013. Saco y Arce, Juan Antonio, Gramática gallega, Lugo, Imprenta de Soto Freire, 1868. Souto Cabo, José António, A História de Don Servando, Santiago de Compostela, Cabido da S.A.M.I. Catedral/Seminario de Estudos Galegos, 2007. TILG = Santamarina, Antón (dir.), Tesouro informatizado da lingua galega, Santiago de Compostela, Instituto da Lingua Galega [última consulta: 15. 09. 2015]. TMILG = Varela Barreiro, Xavier (dir.), Tesouro medieval informatizado da lingua galega, Santiago de Compostela, Instituto da Lingua Galega [última consulta: 15. 09. 2015]. Vasconcelos, José Leite de, Esquisse d’une dialectologie portugaise, Lisboa, Instituto Nacional de Investigação Científica/Centro de Linguística da Universidade de Lisboa, 31987 (Paris, Université, 1901).

Maria Francisca Xavier

O CIPM – Corpus Informatizado do Português Medieval, fonte de um Dicionário exaustivo 1 Introdução Em finais de 1992 um grupo de linguistas da Universidade Nova de Lisboa estabeleceu como objetivo desenvolver estudos linguísticos diacrónicos, os quais viriam a ser complementados por um Dicionário e uma Gramática, tendo por base corpora textuais dos primeiros tempos da História da Língua Portuguesa. A preparação para o desenvolvimento destes projetos iniciou-se com a decisão sobre a necessidade de proceder ao levantamento de edições fiáveis de textos medievais que pudessem servir de fonte para a análise gramatical e lexical programada pela equipa. Começou-se então, já em 1993, a seleção e digitalização de uma coleção de textos antigos representativos do Português Medieval (PM) —séculos XII a XVI—, a que se deu o nome de CIPM – Corpus Informatizado do Português Medieval. Para a constituição do CIPM foram identificadas e listadas, por ordem cronológica, as edições existentes na altura, as quais estavam apenas publicadas em papel. Deu-se assim prioridade à digitalização dos textos portugueses e galegos mais antigos, então conhecidos: Notícia de Torto (1214?); Testamento de D. Afonso II (1214); Documentos Portugueses da Chancelaria de D. Afonso III (1255–1279); Foro Real (1280?); Tempos dos Preitos (1280?); Textos Notariais da Galiza e do Noroeste de Portugal (1262–1300). Este primeiro corpus de textos digitalizados do século XIII permitiu de imediato constituir-se como fonte primária para os começos da desejada investigação linguística diacrónica do Português programada pela equipa. Através de uma comunicação ao Congresso Nacional da Associação Portuguesa de Linguística foram apresentados os motivos e os objetivos da criação e do desenvolvimento previsto do CIPM (cf. Xavier/Brocardo/Vicente 1994). Iniciou-se, então, a elaboração de um dicionário de verbos do corpus textual já informatizado. Os critérios estabelecidos para o dicionário de verbos foram publicados em artigo por Xavier/Vicente (1997). Foi também defendida a primeira dissertação de Mestrado com dados do corpus do século XIII (cf. Fiéis 1997). Lançou-se o primeiro Dicionário de Verbos Portugueses do Século 13 (cf. Xavier/ Vicente/Crispim 1999). Maria Francisca Xavier: Universidade Nova de Lisboa

138

Maria Francisca Xavier

A divulgação da constituição do CIPM e dos projetos da equipa que visavam o seu alargamento e estudo tiveram como consequência feliz e imediata o conhecimento de outras edições de textos portugueses antigos, já digitalizadas, que vinham sendo publicadas apenas em dissertações académicas. As primeiras edições digitalizadas, oferecidas pelas suas editoras para integrar o CIPM, após este ter sido divulgado, datam de 1992: Foros de Garvão (1267–1280) e Dos Costumes de Santarém (1294). O desenvolvimento do CIPM, incluindo progressivamente textos até ao início do século XVI, acompanhado de algumas ferramentas informáticas, foi permitindo obter resultados da análise de dados históricos que foram sendo publicados, por membros da equipa, em teses de Doutoramento e de Mestrado, em particular por: Fiéis (2003); Silva (2003); Oliveira (2008) e em comunicações e artigos, de que se salientam os seguintes: Xavier et al. (1999); Xavier/Vicente/Crispim (1999), Xavier (2008); Fiéis/Lobo (2011); Xavier/Crispim (2012); Fiéis/Madeira (2013). Iniciada em 2001, a disponibilização na Internet de textos integrais do CIPM tem possibilitado a sua utilização também por investigadores de diversos países de vários continentes. O CIPM tem tido, certamente, um papel relevante por constituir uma fonte valiosa e facilmente acessível para estudiosos de diferentes temáticas da Linguística, da História, da Cultura e da Literatura medievais portuguesas. Na secção seguinte descreve-se a constituição do CIPM (cf. 2) bem como as decisões tomadas relativamente aos diferentes critérios de transcrição das edições selecionadas para integrar o corpus textual (cf. 2.1). Em 2.2 relata-se o resultado da utilização em textos do CIPM de três ferramentas informáticas: etiquetador morfossintático, analisador sintático e extrator de expressões relevantes ou multipalavras. Na secção 3 apresenta-se o projeto em curso de um dicionário exaustivo do PM, a metodologia de elaboração (cf. 3.1), bem como a ilustração de alguns problemas e respetivas soluções ilustradas por entradas já realizadas (cf. 3.2). Em 4 aponta-se para o desenvolvimento dos vários projetos e o aprofundamento de colaborações indispensáveis.

2 O CIPM e as Ferramentas Informáticas O CIPM é constituído por um conjunto de textos medievais de diferentes temáticas e tipos, incluindo fontes literárias e não literárias: cantigas, documentos notariais, foros, chancelarias, crónicas, textos didáticos e religiosos, vidas de santos, produzidos entre os séculos XII e XVI e provenientes de diversas regiões da Galiza e de Portugal. Este corpus textual informatizado contém muitos dos textos portu-

O CIPM – Corpus Informatizado do Português Medieval

139

gueses mais antigos, conhecidos e transcritos nos nossos dias (cf. Xavier/Crispim 2003).1 O maior problema que a equipa teve de enfrentar e resolver logo no início da constituição do CIPM consistiu no facto de as edições a integrar o corpus, embora fossem todas elaboradas por especialistas, apresentarem diferentes critérios de transcrição dos textos manuscritos e, consequentemente, diferentes sinais de notação, os quais levantaram alguns obstáculos à digitalização, bem como à utilização de ferramentas informáticas para extração de dados dos textos. Acresce que os editores são de formações diversas: uns são linguistas, outros historiadores e outros estudiosos de literatura. Por esta razão, realizam edições com diferentes objetivos, destinando-as a públicos diferenciados. Umas edições resultam muito conservadoras, sendo os textos transcritos completamente fiéis aos textos manuscritos, estas são destinadas a especialistas, em particular linguistas; outras são modernizadoras, nas quais o editor intervém, por exemplo, atualizando a grafia, separando palavras e introduzindo pontuação moderna, visando facultar uma leitura acessível a um público mais vasto. Deste modo, embora sejam respeitadas as decisões dos editores ao preparar os textos para incluir no CIPM, revelou-se necessário proceder à redução dos sinais de notação de algumas edições mais conservadoras. Considerou-se imprescindível, por um lado, obter alguma uniformização das transcrições, por outro, facilitar a utilização de um primeiro sistema de concordâncias, oferecido por Stephen Parkinson, o OCP – Oxford Concordance Program, assim como de outras ferramentas informáticas, nomeadamente um etiquetador morfossintático, um analisador sintático e um extrator de expressões relevantes. Estas haviam sido desenvolvidas para o Português Contemporâneo e adaptadas para o Português Medieval pelo grupo de investigação de Tecnologias de Linguagem Natural da Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa (Cf. Xavier et al. 1999; Xavier/Vicente/Crispim 1999; Rocio et al. 2003). No entanto, a utilização pelos membros das equipas dos corpora de textos do CIPM associados a um ágil sistema de concordâncias mais recente do que o anterior tem sido o método mais produtivo para facilitar e possibilitar a extração dos dados necessários para a concretização de diferentes projetos de investigação.

1 A maior parte dos textos do CIPM encontra-se integralmente acessível em: http://cipm.fcsh. unl.pt.

140

Maria Francisca Xavier

2.1 Anotações do CIPM Os textos a incluir no CIPM são identificados por um conjunto de Referências e Comentários. Para cada texto é elaborado um relatório em que se indica a eventual intervenção do editor nas maiúsculas/minúsculas ou na separação de palavras e na pontuação. São também descritas substituições de sinais de notação de acordo com as Normas de Transcrição do CIPM que tenham sido aplicadas aos textos.

2.1.1 Referências e Comentários dos textos As Referências de cada texto fazem parte da lista seguinte: Texto; Século; Data; Região (província); Lugar (proveniência do texto); Notário/Autor; Documento e nº do texto; Livro/Parte; Título/Capítulo; Lei. Quando a informação é duvidosa, é seguida de ponto de interrogação ou apresentam-se duas alternativas, por exemplo: Século: 13?; Século: 13/14; Data: 1214?; Lugar: Guarda? Os Comentários existentes na edição são transcritos entre (( )), por exemplo: ((Assunto: Carta de foro de Telões de Aguiar)) ((Livro I, fl. 9r AB)) ((D 1255 07 10)) ((Costumes de Garvão comunicados de Alcácer)) ((L001)) ((P001)) ((a))

assunto localização do texto data completa do texto título linha do manuscrito página divisões internas do texto

Sempre que uma palavra esteja partida por uma referência ou comentário no texto editado, fonte do CIPM, a referência ou comentário encontra-se no texto integrado no CIPM a seguir à palavra e esta mantém-se inteira antes da referência ou comentário, por exemplo: mã((L003))do → mãdo ((L003)).

2.1.2 Critérios de Transcrição dos Textos e Sinais de Notação No sentido de respeitar os direitos de autor dos editores, as informações sobre o aparato crítico das edições —textos introdutórios e notas— não são introduzidas no CIPM juntamente com os textos informatizados. No entanto, a inclusão no CIPM de textos editados respeita as Normas de Transcrição seguidas pelos seus editores. É, portanto, imprescindível fazer a leitura atenta daquelas informações para se poder interpretar notações e desambiguar aquelas que no CIPM podem

O CIPM – Corpus Informatizado do Português Medieval

141

corresponder a sinais diferentes. Por exemplo, numa mesma edição, parênteses curvos podem indicar intervenção de outra mão no manuscrito ou intervenção do editor, substituindo ou permutando grafemas. Nestes casos, os parênteses curvos são substituídos por sinais diferentes de um conjunto de Normas delineadas pela equipa para os textos informatizados do CIPM, com o intuito de se obter alguma uniformização dos sinais de notação. Assim, foram incluídos neste conjunto de Normas os sinais mais comuns que são utilizados pelos editores, dos quais se apresentam alguns exemplos a seguir:2 (i) (ii)

Desenvolvimento das abreviaturas transcreve-se entre ( ). Ex. m(orador). Desenvolvimento duvidoso marcado no fim da palavra e sem espaço, por (?). Ex. fr(atre)s(?). (iii) Não desenvolvimento marcado por (—?). Ex. Eo(—?) (iv) Reconstituições de partes ilegíveis, palavras ou grafemas raspados ou tingidos por acidente do suporte. Ex. [Co]noç[u]da. (v) Preenchimento de lacunas ou acrescentos correspondentes a grafemas ou palavras. Ex. podero[so]; [por] (vi) Leitura duvidosa de palavras ou símbolos assinalada imediatamente a seguir à palavra ou símbolo por /?/. Ex. nahu~a/?/. (vii) Palavra com erro não corrigido ou forma estranha seguida de /sic/. Ex. erda/sic/ (viii) Grafemas ou palavras riscados figuram entre { }. Ex. {M(a)r(avedi)} (ix) Pontuação: caldeirão → $

2.2 Ferramentas Informáticas e o CIPM Algumas ferramentas informáticas têm sido implementadas, adaptadas e experimentadas para serem utilizadas nos textos do CIPM (cf. Xavier/Crispim/Vicente 1999). Porém, no CIPM online existe apenas um sistema de busca de palavras em todo o corpus textual. Este devolve uma lista de textos em que a palavra pesquisada se encontra e permite, ao clicar sobre cada um dos textos da lista, encontrar facilmente a palavra que surge colorida no(s) contexto(s) em que ocorre. No CIPM online é também possível acionar instruções que se encontram no rodapé de cada texto e que possibilitam esconder comentários, colorir comentários e/ou abreviaturas e combinar diacríticos. Uma falta importante, que se espera venha a ser ultrapassada brevemente, é a não existência de um sistema de concordâncias acoplado ao CIPM online que possibilite a extração de listas ordenadas das ocorrências em contexto de todas as formas gráficas e que

2 A lista completa das Normas de Transcrição dos textos do CIPM encontra-se disponível em/ /http//cipm.fcsh.unl.pt.

142

Maria Francisca Xavier

permita ainda, através de um duplo clique, o acesso aos textos completos em que aquelas se encontram. É contudo possível copiar os textos na íntegra para qualquer computador e utilizá-los com quaisquer sistemas de concordâncias ou outros.

2.2.1 Três Ferramentas Informáticas Em colaboração com investigadores computacionais tem-se procurado adaptar e utilizar diferentes ferramentas que possam facilitar a preparação, extração e análise dos dados necessários para as investigações sobre o Português Medieval. Começou-se por um etiquetador morfossintático, a que se seguiu um analisador sintático e um sistema de extração de expressões relevantes ou multipalavras. O etiquetador morfossintáctico, preparado por Nuno Marques e Gabriel Pereira Lopes, utiliza uma rede neuronal e um dicionário. Este sistema foi escolhido por constituir uma das técnicas mais eficientes na aprendizagem a partir de um corpus de treino muito reduzido, com apenas 10.000 palavras classificadas manualmente (cf. Xavier 1999 et al.). Trata-se de um trabalho de difícil execução que exige pessoas com formação específica, cuja preparação é morosa. A análise morfológica dos corpora de treino implica um bom conhecimento tanto do léxico como da estrutura das frases e os textos antigos não são fáceis de analisar. A par de diferentes ordens de constituintes, algumas atualmente inexistentes em Português, e da existência de muitos constituintes pesados com vários apostos e coordenações, muitos textos do CIPM conservam a variação gráfica e não têm pontuação moderna, são características que dificultam seriamente a análise e o correspondente tratamento computacional. A constituição de vários corpora de treino etiquetados manualmente para fazer correr a rede neuronal permitiu extrair automaticamente os primeiros dicionários. Estes têm a vantagem de poderem ser enriquecidos tanto automaticamente como manualmente e revelam-se extremamente importantes para o sucesso do processo de etiquetagem automática. Verifica-se, compreensivelmente, que quanto maior for o dicionário melhor será o resultado da etiquetagem. À rede neuronal cabe, no entanto, a tarefa de colocar a etiqueta certa e de tomar decisões nos casos de ambiguidade. Vinte e quatro etiquetas de classes de palavra constituem o conjunto que o etiquetador morfossintático distribui pelas palavras dos textos portugueses medievais. Todavia, o desempenho do etiquetador na análise morfossintática do PM revela-se variável entre 81 % e 93,5 %, dependendo a variação da percentagem de acerto, essencialmente, de três fatores: a eficiência do treino da rede neuronal, a adequação do dicionário ao corpus textual e o volume de palavras ambíguas existente nos textos.

O CIPM – Corpus Informatizado do Português Medieval

143

Observe-se um excerto da Notícia de Torto (1214?) etiquetado automaticamente. Após a etiquetagem, este excerto continha 12 etiquetas erradas, que foram corrigidas manualmente. D(e)_P noticia_NC d(e)_P torto_NC que_C fece(ru~)_V a_P Laure~ci(us)_NP Ferna~ diz_NP por_P plazo_NC qve_C fec(e)_V Go~cauo_NP Ramiriz_NP antre_P suos_POS filios_NC e_C Loure~zo_NP Ferrna~diz_NP q(u)ale_QU podedes_V saber_VINF : e_C oue_V au(e)r_NC , d(e)_P erdad(e)_NC e_C [[dau(e)r]]DE=_P=HAVER_NC , ta~to_PI q(u)ome_C uno_PI d(e)_P suos_POS filios_NC , [daq(u)a~to]]DE=_P=AQUANTO_QU podes(e~)_V au(e) r_VINF d(e)_P bona_NC d(e)_P seuo_POS pater_NC ; e_C [[fiolios]]FIOU=_V=LHE_PCL=OS_PCL seu_POS pater_NC e_C sua_POS mater_NC . E_C d(e)pois_ADV fecer(u~)_V plazo_NC nouo_A e_C co~ue~_V uos_PCL a_P saber_VINF q(u)ale_QU : in_P ille_PES seem_V taes_PD firmam(en)tos_NC q(u)ales_QU podedes_V saber_VINF

As palavras identificadas com a etiqueta morfossintática correspondente constituem, só por si, um auxílio considerável para facilitar a recolha de dados para os estudos linguísticos. Aquelas palavras podem ser consultadas em listagens globais ou por texto, e dentro destas por ordem alfabética ou por etiquetas. O texto etiquetado fica ainda apto a ser submetido a análise sintática. Realmente, as experiências de análise sintática automática anteriormente realizadas sobre textos portugueses atuais revelaram que os resultados obtidos pelo analisador sintático são significativamente melhores quando o texto de input se encontra previamento etiquetado. Deste modo, experimentou-se sobre texto medieval etiquetado um analisador sintático probabilístico, baseado em regras, o qual tinha sido concebido para analisar textos escritos em Português Contemporâneo (PC) (cf. Rocio et al. 2003). Numa primeira fase, a preparação de uma gramática para o PM revelou-se desnecessária, uma vez que a maioria das frases poderia ser analisada pelas regras da gramática concebida para o PC. De facto, os métodos desenvolvidos e aplicados assentam em análise lexical não determinística e em análise sintática parcial, para poder satisfazer o objetivo de permitir a utilização do sistema em textos de qualquer língua, de qualquer estado de língua ou de qualquer variedade linguística. Utilizou-se então o analisador sintático apetrechado com uma gramática do Português Contemporâneo em textos escritos em PM. Este analisador sintático apresenta três níveis hierarquisados. Em primeiro lugar, são identificadas por meio de um sistema de estados finitos estruturas de nomes próprios compostos, datas, números escritos por extenso, locuções preposicionais e adverbiais. Em segundo lugar, é feita a análise nos principais constituintes de frase: sintagmas nominais, verbais, preposicionais, adjectivais e adverbiais. E, finalmente, o sistema utiliza o formalismo de uma gramática que analisa as frases que envolvem determinados movimentos de constituintes, nomeadamente constituintes interrogativos, relativos e topicalizados. Este sistema de análise sintática é uma ferramenta de dedução e pode ser utilizado para diagnosticar causas de

144

Maria Francisca Xavier

problemas, o que permite tentar soluções melhores. Por exemplo, a frase relativa « que este scripto uire~ y oyre~ » foi primeiramente mal analisada devido a falta de informação sobre a morfologia flexional verbal, o que levou a que o sintagma nominal SNsn[este scripto] fosse considerado sujeito de [uire~ y oyre~], em vez de objecto direto posicionado à esquerda do verbo, construção que é frequente no PM. A introdução da flexão verbal veio então permitir uma análise bastante melhor daquela frase: < este scripto uire~ y oyre~> [pronrelque[f [SNsn(nucleo(det(este)), scripto)], verbo([uire~,oyre~],activa)]].

Também a sequência « Aras Dias, filo de Diago La'á », que contém um aposto, foi inicialmente mal analisada como sendo a coordenação de dois sintagmas nominais. A deteção deste problema permitiu que se procurasse o modo de obter uma análise mais satisfatória. Procedeu-se à neutralização da vírgula por meio de parênteses duplos —« Aras Dias ((,)) filo de Diago La'á »—, o que, de facto, resultou. A análise sintática obtida automaticamente foi então satisfatória, embora a estrutura de aposição não esteja ainda completamente conseguida: < Aras Diaz > *** *** < filo de Diago La'á > [SNsn (name(det([ ])),[Aras, Diaz])] *** *** [SNsn(nucleo(det([ ])),filo),[SPsp(de,[SNsn(name(det([ ])),[Diago, La'á])])]]

Os resultados da aplicação deste analisador sintático a textos portugueses dos séculos XIII e XIV foram considerados bem sucedidos pelos investigadores computacionais (Rocio et al. 2003), são, contudo, ainda insatisfatórios do ponto de vista da sua utilidade para a investigação linguística. Os problemas encontrados derivam, por um lado, da falta de regras da gramática para analisar algumas construções próprias dos textos em PM, que não encontramos nos textos atuais, por outro lado, de limitações do léxico ou de etiquetagem incorreta ou insuficiente. É no sentido de resolver estes problemas que deverá prosseguir este trabalho. Entretanto, a construção de um banco sintático para o Português Medieval (PM) tornouse, para esta equipa, um objetivo a médio prazo tendo em conta a multiplicidade de questões a resolver antes de se conseguir uma eficiência verdadeiramente económica. Paralelamente, um sistema de extração totalmente automática de expressões (estatisticamente) relevantes ou unidades multipalavra, preparado por Joaquim Ferreira da Silva e Gabriel Pereira Lopes, foi aplicado a um texto extenso do CIPM, com cerca de 400.000 palavras – Crónica Geral de Espanha (CGE).3 Observem-se

3 Cf. Silva et al. (1999).

O CIPM – Corpus Informatizado do Português Medieval

145

alguns exemplos de sequências de expressões que foram extraídas em sucessão da Crónica Geral de Espanha: ãno da ẽcarnaçõ; ãno da ẽcarnaçon; ãno da encarnaçõ; anno da encarnaçom; anno da encarnaçom do Nosso Senhor Jhesu; encarnaçõ de Nosso Senhor Jhesu Cristo; encarnaçõ do Nosso Senhor Jhesu Cristo; encarnaçon de Nosso Senhor Jhesu Cristo; encarnaçon do Nosso Senhor Jhesu Cristo. Verifica-se, nos exemplos acima, que algumas sequências têm apenas grafias diferentes em um ou dois dos seus elementos. É de salientar que o problema da variação gráfica conservada nos textos portugueses medievais do CIPM é facilmente avaliável através das listagens extraídas por este sistema, o que possibilita a compreensão das variantes gráficas em lexias complexas. Por exemplo, a expressão particularmente longa «anno da encarnaçon do Nosso Senhor Jhesu Cristo» é construída em sucessões de sequências menores, tantas vezes repetidas quantas as variantes encontradas. A observação das listagens mostra ainda que se formam conjuntos de expressões multipalavra, que para além de serem interessantes do ponto de vista do léxico também são úteis para o estudo dos nomes próprios dos textos medievais. Observe-se a amostragem seguinte de nomes próprios complexos: Reymõ de Barcellona conde de Barcellona conde dõ Reymõ conde dõ Reymõ de Barcellona conde dom Reymõ de Barcellona

Garcia Fernandez Garcia Fernandez de Castella conde dõ Garcia Fernandez conde dom Garcia Fernandez conde dom Garcia Fernandez de Castella

As listagens de expressões que são obtidas de forma totalmente automática, deixando apenas correr o sistema sobre o corpus selecionado, facilitam consideravelmente um primeiro levantamento para preparação de índices, glossários, terminologias e dicionários. Outra utilização possível deste sistema consiste na extração de sequências de etiquetas morfossintáticas a partir de textos etiquetados, o que constitui informação importante para a perceção das regras da gramática necessárias, por exemplo, para o analisador sintático. O sistema de extração automática permite ainda obter apenas partes de palavras —inícios e fins—, o que pode ser utilizado para identificar prefixos e sufixos ou mesmo regularidades de sequências de grafemas.

146

Maria Francisca Xavier

3 Um dicionário exaustivo de um corpus textual do PM Um subcorpus de textos do CIPM datados entre o século XII e o século XVI constitui a fonte primária para a elaboração de um Dicionário da Língua Portuguesa Medieval.4 Este Dicionário contem todos os vocábulos e respetivas variantes gráficas e morfológicas existentes no corpus textual.5 É de salientar, no entanto, que a decisão inovadora de tratar exaustivamente as formas gráficas dos vocábulos constantes num corpus textual de um período histórico e culturalmente longínquo, o qual incorpora textos editados com base em aparatos críticos diferentes, adotando anotações e sinais distintos, se revelou uma tarefa bastante complexa. Para além de os textos medievais apresentarem construções frásicas e pontuação diferentes das atuais,6 a diversidade temática, os usos metafóricos e as palavras desconhecidas, tanto dos membros da equipa como dos dicionários consultados, exigiram e ainda obrigam, ao rever os artigos, extensas pesquisas bibliográficas e consultas a especialistas, nomeadamente historiadores, estudiosos de literatura, latinistas e arabistas. Problemáticas são ainda, em muitos casos, a forma das vedetas quando há múltiplas variantes de um vocábulo, a identificação de locuções e expressões nominais, verbais e adjetivais, a seleção das abonações a incluir em cada artigo do Dicionário e, também, os confrontos entre artigos (cf. Xavier/Crispim 2013).

4 Têm vindo a ser incorporados no CIPM mais textos pelo que este Dicionário tem como fonte textual um subcorpussibcorpus do atual CIPM. 5 A dimensão do subcorpus do CIPM constituído para fonte do Dicionário é, em número de palavras, a seguinte: Nº. de palavras (i) Corpus textual dos sécs. 12, 13 e 13/14 612.613 2.735.303 (ii) Corpus Textual dos sécs. 14, 15 e 16 Total 3.347.916 As referências das fontes textuais apresentam-se no final deste texto. O projeto deste Dicionário é coordenado por João Malaca Casteleiro da Academia de Ciências de Lisboa, por Maria de Lourdes Crispim e por mim própria, ambas investigadoras do Centro de Linguística da Universidade Nova de Lisboa. Vários bolseiros da Fundação para a Ciência e a Tecnologia elaboraram a primeira versão das fichas lexicográficas. Na atual fase de revisão dos verbetes, a equipa conta com M. Alexandra Fiéis, Investigadora do CLUNL, Miguel Magalhães e Sandro Dias, Bolseiros da FCT, enquanto, entre 2005 e 2010, a equipa de elaboração dos artigos era constituída por mais quatro bolseiros: João Loureiro, M. de Fátima Martins, Raquel Oliveira e Ricardo Duarte, também financiados pela FCT. 6 Xavier/Silva/Fiéis (2002).

O CIPM – Corpus Informatizado do Português Medieval

147

Nas secções seguintes, apresenta-se a metodologia seguida, acompanhada de uma breve reflexão sobre os critérios estabelecidos e as decisões tomadas para a elaboração do Dicionário, cujo objetivo último visa facilitar a sua consulta por um público diversificado, incluindo investigadores e estudantes, sem contudo serem desvirtuados o rigor e a qualidade da informação a disponibilizar nos artigos do Dicionário.

3.1 Metodologia Três edições do DVPM – Dicionário de Verbos do Português Medieval, coordenadas por Xavier/Vicente/Crispim 1999; 2002; 2003a. . . online, permitiram testar e afinar a metodologia para a elaboração de dicionários tendo por base os textos do CIPM, o que facilitou avançar com a elaboração do DLPM – Dicionário da Língua Portuguesa Medieval. Tendo por base o corpus de textos selecionados dos séculos XII a XVI foram extraídas as listagens de palavras por ordem alfabética; agruparam-se as variantes gráficas e morfológicas e realizaram-se as respetivas concordâncias com 15 palavras à esquerda e à direita de cada palavra a descrever. As abonações extraídas pelas concordâncias incluem a sigla correspondente ao texto-fonte assim como a data deste, quando esta é conhecida, ou na ausência desta o século a que pertence. Uma vez dispondo destes dados, assim como de diversos dicionários, nomeadamente etimológicos, de Espanhol, de Francês, de Galego, de Latim, e de Português, tornou-se possível a preparação dos artigos do DLPM. À semelhança dos artigos do DVPM os artigos do DLPM apresentam: vedeta; classificação gramatical; etimologia ou formação morfológica; aceção/ões; abonação/ões; variantes quando existem; remissões para outros artigos quando existem vedetas de variantes. A informação sobre a origem da palavra ou a sua formação, que se segue à vedeta e respetiva classificação gramatical, tem sido muito útil, em particular, para a interpretação de palavras inexistentes atualmente e que ocorrem nos textos medievais em contextos muito pouco claros, por exemplo: ESPIR v. (Do lat. expedìre). Despir [séc. 15 DSG] E el fez todolos outros sair da camara e espio-se entom e deu-lhe a estamenha e rogou-lhe por a fé que devia a Deus que o nom dissesse a ninguém. Cf. despir. As aceções das palavras correspondem, sempre que possível, a homónimos modernos, a sinónimos ou curtas descrições. As abonações das palavras são extraídas a partir de concordâncias e representam as atestações mais antigas e as últimas encontradas nos textos do CIPM, assim como ainda outras que possam ajudar a clarificar o significado das palavras. As variantes gráficas de um vocábu-

148

Maria Francisca Xavier

lo constituem artigos quando são alfabeticamente distantes e remetem umas para as outras por Cf., indicado no final dos artigos. Por exemplo: o verbo atual imaginar Cf. emaginar, esmaginar; o substantivo doçura Cf. dolçor, dolçura, duçura, dulcidõ, dulçor, dulçura.

3.2 O levantamento exaustivo das palavras do CIPM O grande número de variantes gráficas existentes nos textos antigos obrigou a estabelecer um conjunto de Regras de Conversão de Grafemas que operam unicamente na forma das vedetas. São, contudo, introduzidas nos artigos do DLPM todas as variantes gráficas e morfológicas que se encontram atestadas no corpus textual. A palavra defesa é um bom exemplo para ilustrar variantes gráficas e morfológicas: defesa s. f. (Do lat. dēfensa-). (Var. defemsa, defemsã, defemsão, defemsaom, defemsõ, defemsom, defemssam, defemssão, defemssaõ, defemssom, defensa, defensam, defensaõ, defensõ, defensom, defenson, defensyõ, defenssa, defenssões, defenssom, defesa, defessa, defessam, deffemssa, deffemsam deffemsaom, deffemsom, deffensiõ, deffensõ, deffensoes, deffensões, deffensom, deffensyoes, deffensyõ, deffesa, deffẽsoes, deffessa). Cf. defendimento, desfensão, difindemento. Considera-se que a vedeta de um artigo constitui uma forma abstrata que identifica a palavra definida e é tão próxima quanto possível da forma atual. Assim, a grafia das vedetas obedece a critérios de dois tipos: (i) linguísticos, os quais incluem regras de substituição e supressão sistemática de grafemas, quando não ocorre nenhuma forma idêntica à atual; (ii) de funcionalidade, os quais procuram alguma regularização de variantes gráficas na constituição das vedetas, reduzindo o número de artigos da mesma palavra e aproximando a grafia das vedetas da grafia atual. Ilustram-se algumas regras a seguir:7 antes de ou → intervocálico com valor de sibilante surda → ou com valor de líquida palatal → , ou com valor de nasal palatal → (alynnador → alinhador) intervocálico com valor de vibrante múltipla → com valor consonântico →

7 O conjunto completo das Regras de Conversão de Grafemas encontra-se em/ /http//:cipm.fcsh. unl.pt.

O CIPM – Corpus Informatizado do Português Medieval

149

com valor consonântico → , quando o étimo e a forma moderna tiverem b (uure → ubre, do lat. ubere, port. actual úbere). antes de , → (acesseguado → acessegado) com valor vocálico → ; ou representando a nasalação da vogal antes de consoante não labial → , ou representando a nasalação do ditongo → (absolviçaom → absolvição) -grafemas duplos, iniciais ou internos, com o mesmo valor fonético dos correspondentes simples → grafemas simples, exemplos: – em posição inicial de palavra → (sse → se); em ataque de sílaba interna depois de consoante → (uerssa → uersa); intervocálico com valor de vibrante simples → (barroes → barões).

3.2.1 Variantes gráficas e fonéticas Se é verdade que as Regras de Conversão de Grafemas cumprem o objetivo de agrupar as variantes graficamente semelhantes, reduzindo, assim, o número de artigos de uma palavra, também é verdade que a alteração da forma gráfica atestada, representada pela vedeta, nem sempre facilitará a procura dessa forma. Por exemplo, com base nas seis variantes atestadas da palavra atual bezerro (beçeros, beçerros, beserros bezero, bezerro, veserra) deram entrada no DLPM dois artigos, um com a vedeta bezerro, e o outro veserro, por serem alfabeticamente distantes, mas também por revelarem a alternância fonética —[b] / [v]—, ainda hoje existente em Portugal: bezerro s. (Talvez do ibér. *ibicirru). Bezerro [séc. 13 CSM031] Pois creceu aquel bezerro e foi almall' arrizado, / [1350?a ssa moller o vilão diss': « Irei cras a mercado [1350? PP] teemos por bẽ que os bispos ponhã homẽs bõõs enas sazõ que conuẽ e das cousas de que o deuẽ filhar e nõ das outras assi como dos fruitos dos gaados (. . .) filhando vacas por beçerros e ouelhas por cordeyros e porcos por leitões. [1488 S] Vitulus, bezero por que foy sacrificado pello nosso pecado. » (Var. beçeros, beçerros, beserros bezero, bezerro). Cf. veserro. veserro s. f. Bezerro [1414 HGP042] Item me deue Roy Lourenço, arçipreste de Narla et de Parrega, seseẽta mrs de moneda vella et hũa vaca cõ hũa veserra que ten de mjn en guarda et mays o pan et djneyros deste Agosto et anno en que estamos. Cf. bezerro. Embora os critérios estabelecidos e seguidos na elaboração dos artigos sejam linguisticamente motivados, resta a dúvida sobre se alguns utilizadores do DLPM não irão ter dificuldade em encontrar formas gráficas estranhas, como por exemplo beçeros, incluído no artigo de bezerro. Na secção seguinte apresentam-se as decisões tomadas para facilitar a procura de variantes morfológicas e gráficas.

150

Maria Francisca Xavier

3.2.2 Variantes morfológicas As vedetas de variantes morfológicas confrontam entre si e também com eventuais vedetas de variantes gráficas. As primeiras são consideradas palavras sinónimas diferentes, porque divergem na sua etimologia ou formação, sendo descritas no DLPM em artigos completos; as vedetas de variantes gráficas são apresentadas em artigos reduzidos, sem etimologia ou formação e sem aceção, remetendo para o artigo completo da vedeta principal assinalada com + alceado. Os artigos completos incluem todas as informações previstas, por exemplo: duvidança s. f. (Do lat. dubitantia). Dúvida [séc. 14 LM] he por fazerem espertar o porco e que, ante que os caães venham a achar, que ante senta que os homes estam por aquelle lugar e que ajam duvidança de ir por alli e que, por aquella duvidança que assi ouver, tome en vontade sair ante pollas armadas en que non ouve nenhum, ca de ir por onde estam os que son de vozaria. Cf. dolta, dovida, dovidança, dubda, dubea, duda dulda, duldança, dulta, dultança, duvida. duvida s. f. (Regr. de duvidar). Dúvida [1269 TOX011] & por isto fosse mais firme e non podesse uí√r en duuida nos de suso ditos rogamos áos Alcaldes de Auis que dessen esta carta aberta séélada do séélo do Conçelho pẽdente á Domĩgos iohanis [1488 S] aqui entemdo dizer das duuydas que açerqua deste sacramento podem acomteçer. ◊ sem duvida [séc. 13 CSM235] E pois a Monpisler vẽo e tan mal adoeceu / que quantos fisicos eran, cada hũu ben creeu / que sen duvida mort' era [séc. 13/14 VS4] e os que te veem e buscam cõ puro coraçom achan-te sem duvida ca tu senpre stas com hos humildosos e dereytos de coraçom. [1453? LTV] E assi he çerto E he sem duuida boom costume (Var. duuida, duuída, duujda, duuyda, duvida, duvyda). Cf. dolta, dovida, dovidança, dubda, dubea, duda, dulda, duldança, dulta, dultança, duvidança. Os artigos reduzidos não incluem nem etimologia nem aceção, porque remetem para o artigo assinalado como principal, incluem, no entanro, as suas variantes gráficas e os confrontos para as variantes morfológicas e gráficas que constituem vedetas, como se vê no exemplo seguinte: dovida s. f. [1350? PP] Outrossy preytos mayores todos que acaecerẽ ena Sãta Jgreia a elle os deuẽ enuiar que deliure, assy como quando veer algũa douida sobrelos artigoos da fe ou algũũs preitos graados. (Var. douida, douvida, douyda). Cf. dolta, dovidança, dubda, dubea, duda, dulda, duldança, dulta, dultança, duvida+, duvidança. A decisão de introduzir artigos reduzidos para variantes alfabeticamente distantes que confrontam entre si parece ter sido uma decisão acertada, porque possibilita, por um lado, encontrar facilmente formas gráficas estranhas ao leitor pouco habituado aos textos antigos que apresentam forte variação gráfica e morfológica, por outro, introduzir abonações de mais variantes.

O CIPM – Corpus Informatizado do Português Medieval

151

4 Uma nota final É objetivo firme deste projeto continuar o alargamento do CIPM, tanto offline como online, mediante inclusão de mais textos já editados e de outros que vão sendo editados. Textos de diferentes regiões e temáticas permitirão futuros desenvolvimentos dos dicionários em curso, de dicionários de expressões e locuções, de nomes próprios e outros. Maior diversidade de fontes textuais primárias possibilitará ainda a diversificação de diversos projetos de investigação em Linguística, em História e em Cultura, tanto em Portugal como no estrangeiro. Também a experimentação e utilização de outras ferramentas informáticas para extração e classificação gramatical e temática da informação dos textos irão prosseguir através de colaborações em curso, em particular, com investigadores informáticos da Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa e com os responsáveis do TMILG – Tesouro Medieval Informatizado da Língua Galega. Através desta colaboração pretende-se disponibilizar conjuntamente o CIPM e o TMILG, dando origem ao CIGPM – Corpus Informatizado do Galego-Português Medieval. Este possibilitará pesquisas nos textos galegos e portugueses da bem concebida e funcional base de dados já existente para o corpus do Galego Medieval. Será, no entanto, mantida a total autonomia de ambos os corpora, o CIPM continuará a permitir o acesso direto aos textos, o CIGPM facilitará a extração dos dados dos textos antigos galegoportugueses.

5 Bibliografia Fiéis, Maria Alexandra, Clíticos num Corpus do Português do Século 13, Dissertação de Mestrado em Linguística, FCSH-UNL, 1997. Fiéis, Maria Alexandra, Ordem de Palavras, Transitividade e Inacusatividade. Reflexão Teórica e Análise do Português dos Séculos 13 a 15, Tese de Doutoramento em Linguística, FCSH-UNL, 2003. Fiéis, Alexandra/Lobo, Maria, Propriedades de gerúndios e de infinitivos em português antigo, in: Selecionados. 26º. Encontro Nacional da APL, Lisboa, APL, 2011, 256–265. Fiéis, Alexandra/Madeira, Ana, Modals and tense in Contemporary European Portuguese and in Old Portuguese, in: Labeau, Emmanuelle/Bres, Jacques (edd.) Evolution in Romance Verbal Systems, Bern, Peter Lang, 2013, 261–284. Oliveira, Raquel, Temporalidade em Orações Completivas Infinitivas Subcategorizadas por Verbos Perceptivos e Causativos. Análise de um Corpus do Português Medieval, Dissertação de Mestrado em Ciências da Linguagem, FCSH-UNL, 2008. Rocio, Vítor, et al., Automated Creation of a Medieval Portuguese Treebank, in: Abeillé, Anne (ed.), Treebanks. Building and Using Parsed Corpora, Dordrecht, Kluwer Academic Publishers, 2003, 211–227.

152

Maria Francisca Xavier

Silva, Joaquim Ferreira, et al., Relevant Expressions in Large Corpora, TALN99 Conference, Toulouse, 1999. Silva, Maria Cristina Vieira da, A Complementação Infinitiva em Textos Latinos dos Séculos 11 e 12 e Textos Portugueses dos Séculos 13 e 14, Tese de Doutoramento em Linguística, FCSHUNL, 2003. Xavier, Maria Francisca, O Percurso Diacrónico dos Modais e Semimodais em Português e em Inglês e as suas Gramáticas, in: Lima-Hernandes, Maria Célia, et al. (edd.), A Língua Portuguesa no Mundo (I SIMELP), São Paulo, FFLCH-USP, 2008. http://www.fflch.usp.br/ eventos/simelp/new/pdf/slp02/01.pdf. Xavier, Maria Francisca/Brocardo, Maria Teresa/Vicente, Maria da Graça, CIPM – Um Corpus Informatizado do Português Medieval, in: Actas do 10º. Encontro da APL, Évora, 1994, 599– 612. Xavier, Maria Francisca/Crispim, Maria de Lourdes, Das Edições Impressas às Versões Digitalizadas de Textos Medievais. O Caso do CIPM, in: Castro, Ivo de/Duarte, Inês (edd.), Razões e Emoção. Miscelânea de Estudos em Homenagem a Maria Helena Mateus, vol. 2, Lisboa, IN-CM, 2003, 437–448. Xavier, Maria Francisca/Crispim, Maria de Lourdes, Um olhar sobre os modais dever, haver de e ter de na história do português, in: Lobo, Tânia, et al. (edd.), ROSAE: linguística histórica, história das língas e outras histórias, Salvador, UFB, 2012, 389–405. Xavier, Maria Francisca/Crispim, Maria de Lourdes, Algumas decisões problemáticas sobre vedetas, variantes e confrontos entre artigos do Dicionário da Língua Portuguesa Medieval, in: Galvão, Vânia, et al. (org.), IV Simpósio Mundial de Estudos sobre o Português (SIMELP). Anais Língua portuguesa: ultrapassando fronteiras, unindo culturas, Simpósio 14, Goiânia, Faculdade de Letras, UFG, 2013, 615–623, http://www.simelp.letras.ufg.br/anais.php. Xavier, Maria Francisca/Crispim, Maria de Lourdes/Vicente, Graça, A Língua Portuguesa Medieval e o Diálogo Homem-Máquina, in: I.H. Faria (ed.), Lindley Cintra. Homenagem ao Mestre e ao Cidadão. Lisboa, Edições Cosmos/FLUL, 1999, 749–760. Xavier, Maria Francisca, et al., Utilizações Informáticas de Corpora Textuais Medievais, in: Marrafa, Palmira/Mota, Maria Antónia (edd.), Linguística Computacional. Investigação Fundamental e Aplicações, Lisboa, APL/Colibri, 1999, 347–358. Xavier, Maria Francisca/Silva, Maria Cristina/Fiéis, Maria Alexandra, Order Alternation in Medieval Portuguese, Santa Barbara Portuguese Studies 6 (2002), 307–325. Xavier, Maria Francisca/Vicente, Graça, A Problemática de um Dicionário de Verbos do Século 13, in: Brito, A., et al. (edd.), Sentido que a Vida Faz. Estudos para Óscar Lopes, Porto, Campo das Letras, 1997, 897–904. Xavier, Maria Francisca/Vicente, Graça/Crispim, Maria de Lourdes (edd.), Dicionário de Verbos Portugueses do Século 13, Lisboa, CLUNL, 1999. Xavier, Maria Francisca/Vicente, Graça/Crispim, Maria de Lourdes (edd.), Dicionário de Verbos do Português Medieval – Séculos 12 e 13/14, Lisboa, CLUNL, 2002. Xavier, Maria Francisca/Vicente, Graça/Crispim, Maria de Lourdes (edd.), Dicionário de Verbos do Português Medieval – Séculos 12 a 16, Lisboa, CLUNL, 2003, http://cipm.fcsh.unl.pt (= 2003a). Xavier, Maria Francisca/Vicente, Graça/Crispim, Maria de Lourdes, Velhas Palavras, Novos Recursos, in: Actas do 18º. Encontro Nacional da Associação Portuguesa de Linguística, Lisboa, APL, 2003, 873–883 (= 2003b).

O CIPM – Corpus Informatizado do Português Medieval

153

6 Referências das Fontes do CIPM Século 12 DN – 2 Textos Notariais – Finto dos casais de Eligoo; Notícia de haver (2ª. metade do século 12), in: Martins, Ana Maria (ed.), Documentos Notariais dos Séculos 12 a 16, 2000. Edição digitalizada, cedida pela editora. DP – 4 Documentos Privados – Pacto de Gomes Pais e Ramiro Pais (1173?); Carta de foro da Benfeita; Nomina de Pedro Viegas (1184); Escrito de Paio Soares (2ª. metade do século 12), in: Souto Cabo, José António (ed.), Nas Origens da Expressão Escrita Galego-Portuguesa. Documentos do século 12, Braga, Universidade do Minho, 2003. Edição digitalizada, cedida pelo editor. Século 13 NT – Notícia de Torto (1214?), in: Cintra, Luís Filipe Lindley, Sobre o mais antigo texto não-literário português: a Notícia de Torto. Leitura crítica, data, redacção e comentário linguístico, Boletim de Filologia 31 (1990), 21–77. (Texto crítico, 37–41). Edição digitalizada para o CIPM. TL e TT – Testamento de D. Afonso II (1214), in: Costa, Pe. Avelino Jesus da (1979), Os mais Antigos Documentos Escritos em Português, Revista Portuguesa de História 17, 307–321. (dois manuscritos: Lisboa e Toledo). Edição digitalizada para o CIPM. CA – 34 Documentos Portugueses da Chancelaria de D. Afonso III (1255–1279), in: Duarte, Luiz Fagundes, Os Documentos em Português da Chancelaria de D. Afonso III (Edição), Dissertação de Mestrado, FLUL, 1986, 68–295. Edição digitalizada para o CIPM. HGP – 61 Textos Notariais da Galiza e do Noroeste de Portugal (1262–1300), in: Maia, Clarinda de Azevedo, História do Galego-Português, Coimbra, INIC, 1986, 19–295. Edição digitalizada para o CIPM. DN – 73 Textos Notariais (sem data ou datados entre 1214 e 1300), in: Martins, Ana Maria (ed.) Documentos Notariais dos Séculos 12 a 16, 2000. Edição digitalizada, cedida pela editora. CHP – 2 Textos Notariais (1275; 1278), in: Martins, Ana Maria (ed.), Clíticos na História do Português – Apêndice Documental, vol. 2, Dissertação de Doutoramento, Lisboa, 1994. Edição digitalizada, cedida pela editora. FG – 6 Foros de Garvão (1267–1280), in: Garvão, Maria Helena (ed.), Foros de Garvão, Edição e Estudo Linguístico, Dissertação de Mestrado, Lisboa, FLUL, 1992, 65–99. Edição digitalizada, cedida pela editora. TOX – 21 Textos Notariais (sem data ou datados entre 1269 e 1300), in: Parkinson, Stephen (ed.), Arquivo de Textos Notariais em Português Antigo, Oxford, 1983. Edição digitalizada, cedida pelo editor. FR – Foro Real (1280?), in: Ferreira, José de Azevedo (ed.), Afonso X, Foro Real, Lisboa, I.N.I.C., 1987, 125–309. Edição digitalizada para o CIPM. TP – Tempos dos Preitos (1280?), Ferreira, José de Azevedo (ed.), in: Roudil, Jean, Summa de los Neuve Tiempos de los Pleitos. Édition et étude d’une variation sur un thème, Paris, Klincksieck, 1986, 151–169. Edição digitalizada para o CIPM. CS – 1 Dos Costumes de Santarém (1294), in: Rodrigues, Maria Celeste Matias, Dos Costumes de Santarém, Dissertação de Mestrado, Lisboa, FLUL, 1992, 160–251. Edição digitalizada, cedida pela editora. CAmi – 513 Cantigas de Amigo (sem data ou datados entre 1220–1300), in: Cohen, Rip (ed.), 500 Cantigas de Amigo, Porto, Campo das Letras, 2003. Edição digitalizada, cedida pelo editor.

154

Maria Francisca Xavier

Camo – 517 Cantigas de Amor (sem data), in: Brea, Mercedes (coord.), Lírica Profana GalegoPortuguesa, Santiago de Compostela, Centro Ramón Piñeiro, 1996. Edição digitalizada in Base de Datos en liña da Lírica Profana Galego-Portuguesa do Centro Ramón Piñeiro, www.cirp.es. CSM – 419 Cantigas de Santa Maria (datadas entre 1270 e 1282), in: Mettman, Walter (ed.), Afonso X, o Sábio (século 13), Cantigas de Santa Maria, Vigo, Ediciones Xerais de Galicia, SA, 1981. Edição digitalizada cedida por Xavier Varela, Tesouro Medieval Informatizado da Lingua Galega. CEM – 403 Cantigas de Escárnio e Maldizer (sem data), in: Lopes, Graça Videira, Cantigas de Escárnio e Maldizer dos Trovadores e Jograis Galego-Portugueses, Lisboa, Editorial Estampa, 2002. Edição digitalizada, cedida pela editora. Séculos 13/14 Camo – 159 Cantigas de Amor (sem data), in: Brea, Mercedes (coord.), Lírica Profana GalegoPortuguesa, Santiago de Compostela, Centro Ramón Piñeiro, 1996. Edição digitalizada in Base de Datos en liña da Lírica Profana Galego-Portuguesa do Centro Ramón Piñeiro, www.cirp.es. CEM – 69 Cantigas de Escárnio e Maldizer (sem data), in: Lopes, Graça Videira, Cantigas de Escárnio e Maldizer dos Trovadores e Jograis Galego-Portugueses, Lisboa, Editorial Estampa, 2002. Edição digitalizada, cedida pela editora. VS – 7 Vidas de Santos de um Manuscrito Alcobacense (sem data; cópias do século XV), in: Castro, Ivo, et al. (edd.), Vidas de Santos de um Manuscrito Alcobacense (Cod. Alc. cclxvi / antt 2274), Lisboa, INIC, 1985, 16–52; 59–83. Edição digitalizada para o CIPM. Século 14 Camo – 20 Cantigas de Amor (sem data), in: Brea, Mercedes (coord.), Lírica Profana GalegoPortuguesa, Santiago de Compostela, Centro Ramón Piñeiro, 1996. Edição digitalizada in Base de Datos en liña da Lírica Profana Galego-Portuguesa do Centro Ramón Piñeiro, www.cirp.es. CEM – 2 Cantigas de Escárnio e Maldizer (sem data), in: Lopes, Graça Videira, Cantigas de Escárnio e Maldizer dos Trovadores e Jograis Galego-Portugueses, Lisboa, Editorial Estampa, 2002. Edição digitalizada, cedida pela editora. HGP – 62 Textos Notariais da Galiza e do Noroeste de Portugal (1301–1399), in: Maia, Clarinda de Azevedo, História do Galego-Português, Coimbra, INIC, 1986, 19–295. Edição digitalizada para o CIPM. DN – 79 Textos Notariais (sem data ou datados entre 1304 e 1397), in: Martins, Ana Maria (ed.), Documentos Notariais dos Séculos XII a XVI, 2000. Edição digitalizada, cedida pela editora. TOX – 15 Textos Notariais (sem data ou datados entre 1309 e 1336), in: Parkinson, Stephen (ed.) Arquivo de Textos Notariais em Português Antigo, Oxford. Edição digitalizada, cedida pelo editor. CS – 3 Dos Costumes de Santarém (1340–1360), in: Rodrigues, Maria Celeste Matias (1992) Dos Costumes de Santarém, Dissertação de Mestrado, Lisboa, FLUL, 160–251. Edição digitalizada, cedida pela editora. FG – 1 Foros de Garvão (sem data), in: Garvão, Maria Helena (ed.), Foros de Garvão. Edição e Estudo Linguístico, Dissertação de Mestrado, Lisboa, FLUL, 1992, 65–99. Edição digitalizada, cedida pela editora.

O CIPM – Corpus Informatizado do Português Medieval

155

PP – Afonso X. Primeyra Partida (ca. 1350), in: Ferreira, José Azevedo, Alphonse X, Primeyra Partida, Braga, INIC, 1980, 3–580. Edição digitalizada para o CIPM, financiada pelo editor. CGE – Crónica Geral de Espanha de 1344 (sd), in: Cintra, Luís Filipe Lindley (ed.), Crónica Geral de Espanha de 1344, Lisboa, INCM, 1951. Edição digitalizada para o CIPM. CAXL – Crónica de Afonso X (manuscrito L) (sem data), in: Cintra, Luís Filipe Lindley (ed.), Crónica Geral de Espanha de 1344, Lisboa, INCM, 1951. Edição digitalizada para o CIPM. CAXP – Crónica de Afonso X (manuscrito P) (sem data), in: Cintra, Luís Filipe Lindley (ed.), Crónica Geral de Espanha de 1344, Lisboa, INCM, 1951. Edição digitalizada para o CIPM. CDA – Chancelarias Portuguesas de D. Afonso IV, Vols. 1, 2 e 3 (30 Textos seleccionados), in: Dias, João J. Alves (ed.), Chancelarias Portuguesas de D. Afonso IV, Lisboa, I.N.I.C, 1990– 1992. Edição digitalizada, cedida pelo editor. AT – Arte de Trovar, in: Tavani, Giuseppe (ed.), Arte de Trovar do Cancioneiro da Biblioteca Nacional de Lisboa, Lisboa, Colibri, 1999. Edição digitalizada para o CIPM. NLL – Narrativas dos Livros de Linhagens, in: Mattoso, José, Narrativas dos Livros de Linhagens, Lisboa, INCM, 1983. Edição digitalizada para o CIPM. LM – Livro de Montaria de João I, in: Calado, Adelino de Almeida, Vigo, ed. (no prelo). Edição digitalizada, cedida pelo editor, através de Telmo Verdelho. CI – Corte Imperial (anónima dos fins do século 14), in: Calado, Adelino de Almeida (ed.), Corte enperial, Universidade de Aveiro, 2000. Edição digitalizada, cedida pelo editor, através de Telmo Verdelho. Século 15 HGP – 42 Textos Notariais da Galiza e do Noroeste de Portugal (1401–1497), in: Maia, Clarinda de Azevedo, História do Galego-Português, Coimbra, INIC, 1986, 19–295. Edição digitalizada para o CIPM. DN – 46 Textos Notariais (sem data ou datados entre 1402 e 1499), in: Martins, Ana Maria (ed.), Documentos Notariais dos Séculos XII a XVI, 2000. Edição digitalizada, cedida pela editora. LC – Leal Conselheiro (1438?), in: Piel, Joseph (ed.), Leal Conselheiro, Lisboa, Livraria Bertrand, 1942. Edição digitalizada para o CIPM, revista por João Dionísio e Sandra Alvarez. LEBC – Livro da Ensinança de Bem Cavalgar Toda Sela (1437?), in: Piel, Joseph (ed. crit.), Livro da Ensinança de Bem Cavalgar Toda Sela, Lisboa, Bertrand, 1944. Edição digitalizada para o CIPM, revista por João Dionísio. CP – Castelo Perigoso (sem data), in: Neto, João António Santana (ed.), Duas Leituras do Tratado Ascético-Místico Castelo Perigoso, Dissertação de Doutoramento, São Paulo, Faculdade de Filosofia, Letras e Ciências Humanas, USP, 1997. Edição digitalizada cedida pelo editor e revista por Irene Nunes. DSG – Demanda do Santo Graal (sem data), in: NUNES, Irene Freire, A Demanda do Santo Graal, Edição digitalizada para o CIPM com base na edição publicada pela Imprensa Nacional Casa da Moeda, Lisboa, 1995, revista pela editora. LTV – Livro das Tres Vertudes (1453?) Crispim, Maria de Lourdes (ed.) versão paradiplomática digitalizada, cedida pela editora. OE – Orto do Esposo (sem data), in: Maler, Bertil (ed.), Orto do Esposo, Rio de Janeiro, Ministério da Educação e Cultura, Instituto Nacional do Livro, 1956. Edição digitalizada para o CIPM. CPVC – Carta de Pêro Vaz de Caminha (1500), in: Guerreiro, M. V./E. B. Nunes (edd.), Carta a elrey dom Manuel sobre o achamento do Brasil, Lisboa, I.N.C.M, 1974. Edição digitalizada para o CIPM.

156

Maria Francisca Xavier

HRP – História dos Reis de Portugal, in: Cintra, Luís Filipe Lindley (ed.), Crónica Geral de Espanha de 1344, Lisboa, INCM, 1951. Edição digitalizada para o CIPM. ZPM – Crónica do Conde D. Pedro de Meneses (sem data), in: Brocardo, Maria Teresa (ed.), Crónica do Conde D. Pedro de Meneses, Dissertação de Doutoramento, Lisboa, F.C.S.H., 1994, 333–693. Edição digitalizada, cedida pela editora. CDF – Crónica de D. Fernando, in: Macchi, Giuliano (ed.), Fernão Lopes, Cronica de D. Fernando, Lisboa, INCM, 1975. CDJI1 – Crónica de D. João I, parte 1, in: Lopes, Fernão, Crónica de D. João I, Porto, Livraria Civilização Editora, 1945, (segundo o códice nº 352 do Arquivo Nacional da Torre do Tombo). Edição digitalizada para o CIPM. CDJI2 – Crónica de D. João I, parte 2, in: Lopes, Fernão, Crónica de D. João Primeiro, Porto, Livraria Civilização Editora, 1949. CDPI – Crónica de D. Pedro I, in: Peres, Damião (ed.), Lopes, Fernão, Crónica de D. Pedro I, Porto, Livraria Civilização, 1965. Edição digitalizada e revista por José Barbosa Machado, cedida pelo revisor. TC – Tratado da Confissom (1489), in: Machado, José Barbosa (ed.), Tratado de Confissom, Vol I (Chaves, 1489), Universidade de Trás-os-Montes e Alto Douro, 2003. Edição digitalizada, cedida pelo editor. PMP – Penitencial de Martim Pérez, in: Martins, Mário (ed.), Penitencial de Martim Pérez, 1957. Edição digitalizada e revista por José Barbosa Machado, cedida pelo revisor. S – Sacramental, de Cremente Sanchez de Vercial (1488), in: Machado, José Barbosa (ed.), Clemente Sánchez de Vercial. Sacramental, Minho, Pena Perfeita, 2005. Edição digitalizada, cedida pelo editor. VDT – Vida de D. Telo, in: Nascimento, Aires Augusto (ed.), Hagiografia de Santa Cruz de Coimbra, Lisboa, Colibri, 1998, 273–286. Edição digitalizada, cedida por José Barbosa Machado. VST – Vida de São Teotónio Tradução quatrocentista da vida de S. Teotónio. Edição digitalizada e revista por Deolinda Rodrigues Cabrera, cedida por José Barbosa Machado. LHB – Livro das Histórias da Bíblia (sem data), in: Castro, J. Mendes de (ed.), Bíblia de Lamego, vol. I e vol. II, 1998. Edição digitalizada, cedida por José Barbosa Machado. Século 16 Cat – Catecismo (1504), in: Silva, Elsa Branco da (ed.), O catecismo pequeno de Dom Diogo Ortiz, Lisboa, Colibri, 2001. Edição digitalizada, cedida pela editora.

Vicente J. Marcet Rodríguez y M.ª Nieves Sánchez González de Herrero

La documentación medieval de Miranda de Ebro: Presentación del corpus y rasgos lingüísticos 1 Introducción1 Nuestro propósito al abordar la transcripción y elaboración de un corpus que recogiera la documentación medieval de Miranda de Ebro, hace ya cuatro años, fue el de tratar de aportar datos directos sobre el registro escrito medieval de una zona geográfica concreta, el norte de Burgos, a la que tradicionalmente se ha atribuido una gran importancia en la constitución del castellano, pero que, sin embargo, no ha merecido hasta ahora gran atención por parte de filólogos e historiadores de la lengua. Las fuentes bien editadas con que contamos hoy para estudiar el registro medieval en el norte de Burgos son en su conjunto escasas; en consecuencia, nuestro conocimiento de la lengua medieval de la zona es bastante pobre. En los últimos años contamos con la edición de los becerros gótico y galicano de Valpuesta (Ruiz Asencio/Ruiz Albi/Herrero 2010), y con la edición en línea de los documentos de San Salvador de Oña contenidos en el CODEA o los editados por 1 La investigación que ha dado como resultado este estudio ha contado con el apoyo económico del Ministerio de Ciencia y Tecnología del Gobierno de España, actual Ministerio de Economía y Competitividad (FFI2010-15144), y de la Junta de Castilla y León (SA024A11-1), concedido al proyecto Variación lingüística en la documentación de Castilla y León I. Los Documentos de Miranda de Ebro. Edición y Estudio. Asimismo, esta investigación se enmarca dentro de los trabajos del Grupo de Estudio de Documentos Históricos y Textos Antiguos de la Universidad de Salamanca (GEDHYTAS), entre cuyos objetivos principales se hallan la edición y estudio de un corpus representativo de la documentación medieval de las distintas variedades geolectales de Castilla y León y de un corpus representativo de la documentación de la cancillería real castellana del siglo XIII. Puede verse una relación de los resultados obtenidos hasta la fecha en la página del grupo: http://campus. usal.es/~gedhytas/index.php/inv/dc/pbl [última consulta: 15.01.2016]. Además de los firmantes de este trabajo, han colaborado en la edición del corpus los siguientes miembros de GEDHYTAS: Clara Grande López, Ana Lobo Puga, Leyre Martín Aizpuru y Raquel Sánchez Romo. Vicente J. Marcet Rodríguez y M.ª Nieves Sánchez González de Herrero: Universidad de Salamanca

158

Vicente J. Marcet Rodríguez y M.ª Nieves Sánchez González de Herrero

Mª Jesús Torrens,2 pero aún son pocos los estudios publicados sobre estos materiales. En líneas generales, hay más trabajos específicos para las zonas vecinas; es el caso del riojano (Alvar 1976 y 1996; Martínez Ezquerro 2000) o del navarro (Ciérbide 1998; Enguita 2004; González Ollé 1996; Hilty 1995; Líbano 1979 y 1998; Saralegui 1977 y 1992, algunos de los cuales estudian conjuntamente navarro y aragonés). Para el castellano del País Vasco en época medieval contamos, entre otros, con los estudios, léxicos sobre todo, de Líbano (2010 y 2012) y Líbano/ Villacorta (2013); los basados en distintos corpus de áreas vizcaínas de Gómez Seibane/Sinner (2012), Isasi (2006) y Ramírez Luengo (2012); o los de áreas guipuzcoanas de Osés Marcaida (1993). Parece que asumimos que las descripciones generales del «castellano» cubren la información lingüística de todas las zonas que pueden incluirse y generalmente incluimos en dicha etiqueta, como si no existieran variedades diatópicas o cronológicas, entre otras. Sin embargo la idea del castellano como complejo dialectal no es precisamente nueva; puede remontarse al menos a 1950, con V. García de Diego, y en fechas mucho más recientes I. Fernández-Ordóñez ha insistido en la cuestión (1994 y 2001), mostrando de manera indiscutible diferencias e isoglosas internas.3 No obstante, hay que reconocer que en los últimos tiempos algunos dominios castellanos o castellano-leoneses norteños han recibido una mayor atención en lo que se refiere a estudios de variación, al menos en aspectos específicos como la metafonía, la referencia pronominal de los clíticos de tercera persona o el fenómeno comúnmente conocido como neutro de materia. La descripción de tales hechos lingüísticos afecta a una extensa zona septentrional que incluye Asturias, Cantabria, partes contiguas del País Vasco, Burgos, Palencia, el occidente de León y Valladolid, y ha permitido establecer diferencias lingüísticas significativas que muestran la variación en esta parcela del continuo septentrional (Isasi 2006; Gómez Seibane/Sinner 2012, 13–14), en el que podemos incluir el norte de Burgos y la zona mirandesa en concreto.

2 Los primeros están disponibles en http://corpuscodea.es/ [última consulta: 15. 01. 2016]. Los segundos se encuentran incluidos en el corpus de la Red Internacional CHARTA (http://www. charta.es/ [última consulta: 15. 01. 2016]), disponible en línea en breve. 3 También C. Hernández Alonso (1996, 197), al describir la situación lingüística de Castilla la Vieja en nuestros días, señala que el castellano no es uniforme: «Es, como todo sistema lingüístico comunicativo, un complejo de variedades diatópicas, diastráticas y diafásicas».

La documentación medieval de Miranda de Ebro

159

2 El corpus 2.1 Descripción El corpus de documentos medievales de Miranda de Ebro está integrado por doscientos tres documentos depositados en el Archivo Histórico Provincial de Burgos (AHPB) y en el Archivo Municipal de Miranda (AMME). Pueden agruparse en dos grandes bloques: los documentos de concejo, cuyo número asciende a noventa y nueve, y los documentos de la cancillería real, que incluyen noventa y cuatro documentos originales, siete traslados de cartas reales y tres documentos redactados por orden de sendas autoridades: el adelantado mayor de Castilla, el señor de Vizcaya y el merino mayor de Castilla. Se trata, en total, de ciento cuatro documentos que, si bien no poseen el mismo interés lingüístico para el estudio del habla y los usos escriturarios de la zona, resultan igualmente interesantes para estudiar los usos romances de la cancillería real a lo largo de la Edad Media y la posible acomodación de la documentación cancilleresca a las diferentes regiones a las que iba dirigida. El grueso de la documentación de concejo, sesenta y tres documentos, tiene data tópica en Miranda de Ebro. Hallamos diversos documentos redactados en lugares próximos de la provincia de Burgos: dos en el monasterio de Herrera y en Santa Gadea y uno en cada una de las siguientes localidades: Briviesca, Carraleo, Frías, Gorejo y Pancorbo; otros quince documentos proceden de la ciudad de Burgos. Cuatro tienen data tópica en sendos lugares de La Rioja: Briones, Haro, Sajazarra y Santo Domingo de la Calzada. De la provincia de Álava hallamos cuatro documentos de Salvatierra y uno de Vitoria. Finalmente, se conserva en el Archivo Histórico Provincial de Burgos un documento compuesto en León en 1347 que recoge diversas cartas de personería y un acuerdo entre procuradores del monasterio de Herrera y del concejo de Miranda. Es importante destacar que se trata de un corpus de documentación concejil, cuando la mayor parte de los documentos medievales de zonas próximas son eclesiásticos. En cuanto a la data cronológica, de los documentos reales y de autoridades, contamos con veinticinco testimonios del siglo XIII, de los que uno es traslado; setenta documentos son del siglo XIV, en los que se incluyen seis traslados; y solo nueve están fechados en el siglo XV. Por su parte, la documentación concejil se distribuye en cuarenta y cuatro documentos del siglo XIII, veintinueve del siglo XIV y veintiséis del siglo XV.

160

Vicente J. Marcet Rodríguez y M.ª Nieves Sánchez González de Herrero

Tabla 1: Archivos y cronología ARCHIVOS Y CRONOLOGÍA A R CHIVO H ISTÓRICO IS TÓR ICO P ROVINCIAL DE B URGOS (AHPB)

A RCHIVO RCHIV O M UNICIPAL UNIC IP AL DE M IRANDE DE E BRO (AMME)

DOCUMENTOS DOC UMENTOS REALES

DOCUMENTOS REALES RE ALES

T OTAL

Siglo XIII

5 Siglo XIII

20

25

Siglo XIV

18 Siglo XIV

52

70

Siglo XV

3 Siglo XV

6

9

DOCUMENTOS DOC UMENTOS DE CONCE CONC EJO JO

DOCUMENTOS DE CONCEJO

Siglo XIII

38 Siglo XIII

6

44

Siglo XIV

15 Siglo XIV

14

29

Siglo XV

19 Siglo XV

7

26

T OTAL

203

Por lo que se refiere a la tipología de la documentación de concejo, nos encontramos en el siglo XIII con cartas de personería, de sentencia, de procesos de pleitos y de intercesión, si bien el grueso lo constituyen treinta y seis cartas de avecindamiento, más dos que, además del avecindamiento, incluyen la venta de un solar, en un caso, y una carta de desafío, en otro.4 Los documentos del XIV incluyen sobre todo cartas de venta, de personería, de pleitos y sentencias y de acuerdos con concejos vecinos; hallamos también una larga relación de prendas tomadas por el merino.5 En la documentación del siglo XV predominan las cartas de procuración, de reclamación y sentencia y las actas del concejo.

4 Martín Viso (2002, 151–152) subdivide estos avecindamientos en dos tipos diferentes; por un lado estaría la integración de individuos pertenecientes a la baja nobleza local que se hacían vecinos de Miranda en distintas aldeas y recibían a cambio una serie de exenciones fiscales; por otro lado estaría la adscripción a Miranda de solares, palacios y dependientes de esa pequeña nobleza que habitaba en localidades cercanas, pero no siempre en el ámbito jurisdiccional de la villa. En los dos casos, los nuevos vecinos pasaban a formar parte de la villa fiscal y señorialmente. En cuanto a las causas de este movimiento, Martín Viso apunta como factor clave el desarrollo económico y político de Miranda de Ebro, «convertida en un eje comercial de importancia supracomarcal, que convive con una debilidad demográfica y jurisdiccional». 5 Este último es el documento 10, de 1301, con signatura AMME, Libro H111, documento 01; es un cuadernillo de diecinueve hojas de papel cosidas en desorden.

La documentación medieval de Miranda de Ebro

161

2.2 Edición y estudio del corpus La documentación de Miranda de Ebro fue editada por Cantera Burgos y Andrío Gonzalo en 1991, si bien se trata de una edición que no puede utilizarse para efectuar estudios lingüísticos con rigor.6 Por este motivo nos decidimos a llevar a cabo la edición íntegra tanto de la documentación concejil como de la cancilleresca con criterios filológicos rigurosos, para que pudiera ser utilizada tanto por los historiadores de la lengua como por el resto de la comunidad científica. Hemos seguido para ello los criterios de la Red Internacional CHARTA (Sánchez-Prieto 2011),7 que propone una triple edición de los documentos que incluye el facsímil, la transcripción paleográfica y la presentación crítica. Debido a que el volumen de testimonios que manejamos (más de doscientos) hacía muy difícil su edición en papel siguiendo este triple sistema, optamos por la publicación íntegra del corpus tan solo en su versión crítica, al entender que, de esta forma, facilitábamos su acceso a un mayor número de posibles interesados, y no solo a los lingüistas especializados en el castellano medieval. Con este propósito, hemos desarrollado las abreviaturas sin dejar constancia, hemos unificado los valores de i, j, y, u, v según su valor vocálico o consonántico, hemos acentuado de forma que se reflejara la prosodia antigua siguiendo las normas ortográficas de la RAE y hemos tratado de mantener también la sintaxis de la época a través del sistema actual de puntuación. Los documentos han aparecido publicados en la editorial Luso-Española en dos volúmenes independientes que se corresponden a los dos bloques documentales antes mencionados: la documentación escrita en el propio concejo o en alguno de los concejos vecinos, por un lado, y, por otro, los documentos reales y aquellos cuya intitulación corresponde a alguna autoridad ajena al concejo (cf. Sánchez González de Herrero et al. 2014a; 2014b).

6 Los editores no explican sus criterios de edición, que es semipaleográfica, tampoco aclaran los de selección y mezclan algún traslado muy posterior al original sin indicación explícita. En muchas ocasiones no editan el documento completo, sino que eliminan fragmentos recurriendo a puntos suspensivos, como sucede con algunos fragmentos ilegibles pero también, de forma bastante arbitraria, con otros en los que abundan las fórmulas o contextos protocolarios. A modo de ejemplo, podemos mencionar un breve documento, el nº 9 de la colección, que tiene dieciocho líneas de extensión, en cuya trascripción recurren a los puntos suspensivos y al etc., con los consiguientes saltos y omisiones, hasta en cinco ocasiones. Varias grafías y palabras nos resultaron sospechosas desde el principio y efectivamente no son pocas las ocasiones en que nuestras lecturas presentan diferencias. 7 También se encuentran disponibles en http://www.charta.es/criterios-de-edicion-/ [última consulta: 15. 01. 2016].

162

Vicente J. Marcet Rodríguez y M.ª Nieves Sánchez González de Herrero

Es posible que este corpus pueda incorporarse en un futuro a la web de CHARTA y sumarse a otros subcorpus de áreas próximas, lo que permitiría estudios más amplios y completos. Una muestra parcial del triple trabajo de edición puede verse ya en la web del grupo GEDHYTAS,8 donde, además de encontrar de forma confrontada la transcripción paleográfica y la presentación crítica de cuatro documentos, puede accederse a una versión facsimilar en color de los mismos. Asimismo, también se ha editado en papel, en la colección Textos para la historia del español, publicada por la Universidad de Alcalá de Henares, una selección de veintiséis documentos de concejo, nueve de los cuales están datados en el siglo XIII, once en el siglo XIV y seis en el siglo XV. Junto con la triple edición de cada documento, el volumen cuenta con un detallado estudio que contempla los niveles paleográfico, gráfico-fonético, morfológico, sintáctico y léxico, además de un estudio introductorio sobre Miranda de Ebro en la Edad Media (cf. Sánchez González de Herrero et al. 2014c). Al margen de la edición íntegra del corpus y del estudio lingüístico completo de conjunto sobre una parte de la documentación, hemos llevado a cabo estudios específicos de aspectos lingüísticos concretos sobre la totalidad del corpus. En todos los casos hemos tenido en cuenta si los hechos lingüísticos analizados aparecían o no vinculados a determinada escribanía, así como restringidos o no a usos formularios. Los estudios para el nivel gráfico-fonético incluyen testimonios de la apócope (Lobo 2013), la confusión de las sibilantes (Marcet 2015a; 2015b; 2015c), la pérdida de la /y/ intervocálica en casos como maor o mardomo (Sánchez González de Herrero 2012), el tratamiento de las consonantes implosivas y los grupos consonánticos cultos (Lobo 2014 y 2015) o los errores de copia (Grande 2013). En el plano morfológico, hemos tratado cuestiones tales como los usos de preposición + artículo (presencia de formas como enna, ennas), de las formas átonas del pronombre, de posesivos y numerales, o de algunos empleos verbales, como es el caso del futuro analítico y el sintético (cf. Martín Aizpuru 2014 y en prensa). Hemos abordado igualmente el estudio del léxico, describiendo a lo largo de varios artículos usos propios de la época, como aldegación ‘alegación’, assessiego ‘sosiego’, cabtener ‘conservar o proteger’, calostra ‘claustro’, cuantra, escuantra ‘contra’, lombradamente ‘nombradamente’, quano ‘cuando’, etc. Otros usos parecen ser comunes con zonas geográficamente próximas, como ferrán ‘herrén’, nozedo ‘nogal’, costiero ‘guarda de campo’, rad, rades ‘dehesa comunal’, ‘monte

8 Disponible en http://campus.usal.es/~gedhytas/index.php/txt/doc/cmir [última consulta: 15. 01. 2016].

La documentación medieval de Miranda de Ebro

163

comunal con arbolado, generalmente de encina o roble, y pastos’ o pieza ‘terreno de labor’, ‘finca de cultivo’, mientras que más restringidos en lo geográfico parecen voces como almajerizo ‘pastor que cuida del almaje o rebaño’, atestiguado en Álava, o, sobre todo, alzina ‘encina’, para el que no hallamos continuidad geográfica (cf. Sánchez González de Herrero 2011–2012 y 2012).

3 Análisis lingüístico Uno de los principales objetivos perseguidos con la transcripción, edición y análisis filológico de la documentación de Miranda de Ebro era la contribución a los estudios más recientes sobre el continuo lingüístico del norte de la Península. Con relación a la aportación que las investigaciones de este corpus añaden a nuestro conocimiento del continuo norteño peninsular, creemos que ayudan a delimitar mejor la extensión de diversos fenómenos que hasta la fecha se han tenido en cuenta en su descripción. Tal es el caso, por ejemplo, con relación a usos de escritura, del dígrafo –ij–, que hallamos principalmente en diversos documentos de finales del siglo XIII y de la primera mitad del XIV en la representación del resultado prepalatal fricativo sonoro procedente de –LJ– y grupos análogos (como en coijedor, conceijo, conseijo, espeijo, oijos, oueijas, semeijaua, uieijo o ujeija). También se registra este dígrafo, aunque en menor medida, para representar la evolución de J–, –Gi– (aijuntaron, privilleijo), el sufijo –aje (almaijerizo, carcelaije) y las realizaciones consonánticas de palabras incorporadas del árabe (truijamanes) y de topónimos de diversa procedencia (como canpaijares, limoijas, rrioija, saijuela, ssaija çaarra o uaroija) (cf. Sánchez González de Herrero 2015, 1083).9 Podemos subrayar que se trata de un empleo que no parece aislado, sino que cuenta con una cierta presencia en tradiciones escriturarias ligadas al norte peninsular, desde Cantabria hasta Navarra y Aragón (cf. Sánchez González de Herrero 2013, 19 y 2014). En lo diatópico, hemos observado que la presencia de formas como yenero muestra la pervivencia de un sonido consonántico inicial no exclusivo de las variedades asturiano-leonesas o aragonesas, aunque haya divergencia en el resultado concreto. La presencia de la misma voz en La Rioja y en el norte de Burgos prueba la continuidad del fenómeno en los dominios norteños centro-orientales (cf. Martínez Ezquerro 2000, 82). La misma continuidad suponen formas como

9 No se trata de la única opción para representar el resultado de –LJ– y análogos en la documentación mirandesa, pues, al margen de las grafías más habituales acordes a los usos castellanos, i, j, g, encontramos también formas como foga o fiyos, aunque sea esporádicamente.

164

Vicente J. Marcet Rodríguez y M.ª Nieves Sánchez González de Herrero

maor y mardomo, con pérdida de /–y–/ sin que medie la presencia de una vocal palatal contigua, y que permiten enlazar la zona leonesa y cántabra con la vizcaína, riojana y navarra (cf. Moral 2013, 619; Morala 2004, 558; Sánchez-Prieto/ Torrens 2008, 492). Por lo que se refiere al uso de los posesivos, a grandes rasgos, la evolución descrita es la general al castellano, con algunos matices particulares. Por un lado, la evolución de so(s)/su(s) no presenta tendencias acordes con otros estudios, o, al menos, no tan claras, si bien el resultado final es similar. Por otro lado, parece que la fecha del establecimiento definitivo de mi, tu y su resulta tardía frente a lo descrito en otros trabajos (cf. Sánchez Romo 2013). Ambas particularidades van en dirección opuesta a la supuesta innovación y homogeneidad que se había atribuido tradicionalmente al norte de Burgos como foco irradiador de los cambios en el romance expandido por la Península. Recordamos a este respecto la expansión de la extinción de la estructura determinante + posesivo + sustantivo, que Fernández-Ordóñez (2012) situó de oriente a occidente, precisamente en defensa de la descentralización de los cambios en el castellano que ha llegado a la actualidad. En lo que respecta a lo cronológico, registramos en la documentación medieval de Miranda de Ebro diversos fenómenos en proceso de cambio. Así, observamos la persistencia hasta finales del siglo XIII e inicios del XIV de la asimilación de preposición y artículo en enna, ennas, que marca también continuidad geográfica con Cantabria (cf. Alvar/Pottier 1983, 114 y 115; Moral 2013, 680). Otro de los fenómenos en marcha que parece reflejarse en el corpus de Miranda es el aparente inicio del proceso de neutralización de las sibilantes. En estudios anteriores ya señalados hemos podido observar que, en la documentación del siglo XIII, las confusiones o alternancias gráficas entre sibilantes son bastante frecuentes, pues registramos ejemplos en más de la mitad de los documentos de concejo.10 En el caso de la pareja de sibilantes apicoalveolares, los ejemplos de confusiones, en ambas direcciones (ss en lugar de s y s en lugar de ss, predominante), más del centenar, se concentran en veinticuatro documentos, si bien la gran mayoría procede de una misma notaría, con lo que podrían tratarse de preferencias o reajustes gráficos de determinados escribas, puesto que, en términos generales, predominan de forma mayoritaria los usos rectos de ss y s. En cuanto a las sibilantes dentoalveolares, predomina en la documentación del siglo XIII el empleo de c/ç y z según los usos tradicionales del castellano, que prefiere las primeras para la representación de la sorda /ts/ y la segunda para la

10 Cf. Marcet (2015a) para la confusión de sibilantes en el siglo XIII y Marcet (2015b) y (2015c) para el siglo XIV.

La documentación medieval de Miranda de Ebro

165

sonora /dz/. Sin embargo, son varios los casos de confusión en posición intervocálica, aunque casi todos ellos agrupados en seis documentos. Distinto es el caso de las sibilantes prepalatales, las cuales apenas presentan casos de confusión gráfica. De hecho, los ejemplos, bastante escasos, parecen deberse a una indistinción gráfica entre x e y, y no a un posible ensordecimiento de /ʒ/ (cf. Sánchez González de Herrero 2015). A lo largo del siglo XIV nos encontramos con la paulatina indistinción gráfica entre las sibilantes apicoalveolares. En el primer tercio de la centuria, entre 1300 y 1330, las confusiones son bastante escasas, en ambas direcciones; sin embargo, entre 1330 y 1350 se tornan mucho más frecuentes, si bien siguen predominando los casos rectos, con una frecuencia de en torno al 65 %. En la segunda mitad del siglo se consolida esta tendencia de forma repentina, pues el dígrafo –ss– prácticamente desparece de la escritura notarial, con tan solo dos ejemplos en sendos documentos compuestos en 1358 y 1399. Su desaparición corre pareja a la de ss– en posición inicial, que, durante la primera mitad de la centuria, predominaba con una frecuencia del 70 %. Una situación totalmente distinta es la que presentan las sibilantes dentoalveolares, ya que las confusiones a lo largo del siglo XIV son bastante escasas, y concentradas en nueve documentos (el 31 % del total). Salvo en dos testimonios, las confusiones tienden a ser a favor de la grafía ç, lo que podría deberse a una incipiente pérdida de la sonoridad, al influjo de la grafía etimológica o a la confluencia de ambos fenómenos. La oposición gráfica entre las sibilantes prepalatales se mantiene con regularidad también a lo largo de esta centuria. Ya en el siglo XV, siguiendo con la situación imperante en la representación de las sibilantes apicoalveolares en la segunda mitad de la centuria anterior, predomina ampliamente el empleo de la grafía s, tanto en la representación de /s/ como de la antigua /z/, en cualquier contexto fonético. Los escasos ejemplos de ss se concentran en posición inicial (ssanchez, ssancho, ssennor, ssuarez) o final de palabra (doss, ess, mess, tress), en nueve documentos compuestos entre 1416 y 1427. Se trata de usos superfluos del dígrafo ss sin matiz opositor. Los únicos ejemplos en posición intervocálica corresponden a las formas assi y passaren, en un documento de 1416, e interesse, en un documento de 1423; en ambos predomina el empleo de s. Igual suerte a la de ss corre el dígrafo ff, predominante durante el siglo XIII y los dos primeros tercios del XIV, pero que queda desterrado de la escritura notarial a partir de 1375, reemplazado por f. No sucede lo mismo con el empleo de rr–, que en posición inicial sigue siendo habitual durante los siglos XIV y XV, en algunos documentos alternando con R. En las dos neutralizaciones mencionadas podría haber influido el nuevo trazo que adoptan las grafías s y f en la escritura de albalaes en el siglo XIV, lo que hace que, en muchos casos, puedan llegar a

166

Vicente J. Marcet Rodríguez y M.ª Nieves Sánchez González de Herrero

confundirse con sus correspondientes geminadas, debido a la tendencia a duplicar de forma paralela el trazo principal de la letra (Ruiz 2008, 141). Podemos suponer que, si los escribas no consideraban necesario distinguir de forma clara en la escritura las grafías ss y s, podría deberse al hecho de que las antiguas sibilantes /s/ y /z/ habían confluido en un único sonido, posiblemente la sorda /s/, en cuya representación, por economía gráfica, se recurriría tan solo a la grafía s.11 Algo similar tiene lugar con las grafías ff y f, que representan un único sonido, y de las cuales se suprime el dígrafo. Por el contrario, en el caso de la pareja rr y r, al poder representar dos sonidos distintos, se produce con el correr del tiempo una distribución más precisa de las grafías, al reservar de forma mayoritaria el dígrafo rr para la vibrante múltiple y la grafía r para la vibrante simple, con independencia del lugar que ocupen en la palabra. Podríamos concluir, a tenor de estos datos, que la tradición escrituraria mirandesa muestra, a partir de mediados del siglo XIV, una tendencia a eliminar los dígrafos superfluos, como es el caso de ff y ss, una vez generalizado el ensordecimiento de la sibilante apicoalveolar. No sucede lo mismo con los dígrafos que poseen un valor fonético propio, como es el caso de rr, pero también de ll y nn, distinto al de las grafías homólogas simples, r, l y n, respectivamente. Por lo que respecta a la representación de las sibilantes dentoalveolares, durante el siglo XV se sigue manteniendo en la documentación mirandesa el antiguo reparto tradicional entre z (doze, gozar, hazia ‘hacia’, juezes, plazo, razon, rayzes, vezinos, vezjndat, etc.) y ç (cabeça, carnjçero, creçidas, gradeçer, neçesario, paçer, pareçiere, pedaço, pieça, plaça, recreçeren, rreçibir, rroçin, etc.). Muy esporádico es el empleo de la grafía c, recogida en las formas doce, especial mente, proceder y gracia, en sendos documentos redactados en 1419, 1422, 1423 y 1486 respectivamente, en los cuales predomina el empleo de ç. En el siglo XIII lo habitual era el empleo de ç ante las vocales /a, o, u/ y el de c ante /e, i/, pero durante los siglos XIV y, especialmente, XV, asistimos a una clara voluntad por parte de los escribas de homogeneizar la representación del sonido /ts/ en favor de la grafía ç, independientemente de la vocal precedida, mientras que c queda reservada para la representación del sonido /k/. Durante el siglo XV también es altamente frecuente el uso del dígrafo sç en las voces con las secuencias –Ke,i–, –KJ– y –TJ– precedidas por una –S–, que queda pronto asimilada al grupo (acaesçiere, conosçemos, fenesçer, gradesçere-

11 Algo similar ha señalado Sánchez-Prieto (1998, 460 y 461), quien en una serie de documentos cancillerescos observa que la escritura cortesana del siglo XIV tiende a rechazar los trazos dobles.

La documentación medieval de Miranda de Ebro

167

mos, nasçimjento, obedesçer, paresçe, pertenesçen). En muy menor medida se recurre al uso de sc (crescidas, nascimjento, parescen). En ocasiones aisladas, se emplea este dígrafo de forma contraria a la etimología, como en resçibir o resçebido. En el último documento conservado, fechado hacia finales del siglo XV o comienzos del XVI, ya no se registra el dígrafo etimológico en la representación de /ts/ (paçer, paçiendo, pareçe, pareçen). En aquellas voces cultas y semicultas o de entrada más tardía al léxico romance en las que se ha mantenido la yod, lo habitual es la aparición de la sibilante sorda, representada a través de ç (anotiçia, bacaçion, condiçion, contradiçion, derogaçion, exeçiones, hedefiçio, hesecuçion, jurediçion, justiçia, juyçio, maliçiosa mente, negoçio, ofiçiales, palaçio, perturbaçion, protestaçion, relaçion, tasaçion ynformaçion, ynquiraçion, etc.). Encontramos, asimismo, la grafía ç, correspondiente a la esperable africada sorda, en otros cultimos sin yod, como en ljçençiado, neçesario o neçesidad. De forma muy esporádica recogemos el uso no etimológico del dígrafo sç, también en la voz nesçesario, en un documento de 1494. Registramos el empleo de la grafía z en la forma juyzjo, recogida diversas veces en tres documentos compuestos en 1416, 1423 y hacia finales del siglo XV o principios del XV. No parece tratarse de un caso de confusión gráfica, ya que esta voz tuvo seguramente una evolución popular con sonorización de la sibilante, a juzgar por los numerosos testimonios medievales y por la existencia de la variante popular juizo, con pérdida de la yod etimológica (cf. Marcet 2011, 69). La misma explicación consideramos que puede darse a las formas perjuyzjo y perjuyzio, presentes en tres documentos de 1470, 1482 y 1494. Las posibles confusiones entre las dos sibilantes dentoalveolares se concentran en cuatro documentos en los que predominan los usos rectos en la representación de ambas sibilantes. Los ejemplos pertenecen a las formas doçe y doce, por un lado, y palazjo, parezja, parezjo, rezjbjese, rretenenzja y serujzjo, por otro, en un documento de 1419; treçientos, junto a trezientos, en uno de 1422; ofrezieron, en uno de 1427; y veçes, en uno de 1486. Mucho menos frecuente es la alternancia gráfica en aquellos contextos fonéticos en los que, por distribución defectiva de las consonantes, únicamente se da una de las dos sibilantes. Así, en posición inicial, donde tan solo encontramos la /ts/ procedente de Ke,i–, predomina claramente la grafía ç (çebada, çellorigo, çerca, çertificamos, çibdat, çierta, çinco, çinquanta, etc.), por un solo caso de z, en la forma zeder, en un documento de finales del siglo XV o inicios del XVI. En posición inicial de sílaba tras consonante es asimismo claramente mayoritario el empleo de la grafía ç (conçejo, fuerça, jnçidençias, março, merçed, terçer, etc.), con el único caso contrario de venzjdos, en un documento de 1426. La excepción la presentan aquellas voces en las que tuvo lugar, muy posiblemente, la sonorización de la sibilante antes de la síncopa de la vocal postónica, y en las que es

168

Vicente J. Marcet Rodríguez y M.ª Nieves Sánchez González de Herrero

frecuente el empleo de la grafía z (catorze, honze, quinze, salzes). En posición final de sílaba y de palabra parece que tuvo lugar en fecha bastante temprana, desde comienzos de la escritura en romance, la generalización del uso de z. Se trata de la única grafía que registramos en los documentos mirandeses del XV, tanto en los términos patrimoniales (cruz, diez, diz, ffaz, ffiz, juez, paz, rrayz, uez, uoz, etc.), como en los patronímicos (ferrandez, perez, sanchez, rodriguez, xemenez, etc.). Lo mismo sucede en posición implosiva (juzgado, juzgando, juzgar, empezca, ofrezca). Finalmente, en cuanto a las sibilantes prepalatales, carecemos de ejemplos de confusión gráfica también en el siglo XV. Encontramos bastante plausible a la hora de explicar esta circunstancia la hipótesis de Morala (1993), para quien la sibilante sonora podría tener una realización africada, /dʒ/, por lo que se opondría a la sibilante fricativa /ʃ/ no solo por la sonoridad, sino por el modo de articulación, lo que haría más difícil la convergencia de ambos sonidos en uno solo una vez iniciado el proceso de ensordecimiento de las sibilantes. A ello hay que sumar la gran distinción de forma entre sus grafías (i, j, g frente a x), a diferencia de lo que sucede con las restantes parejas de sibilantes. En lo que se refiere a la morfología, concretamente a la morfología nominal, podemos señalar entre las vacilaciones más frecuentes aquella que afecta al cierre esporádico de la vocal átona o final en los pronombres (como en lu, lis) o al género del artículo ante los sustantivos femeninos que empiezan por –a átona (con casos como la aljama y el aljama). Por su parte, en lo que respecta a la sintaxis, podemos señalar algunos fenómenos propios de una lengua en estadio de cambio, como es el caso de la falta de fijación de los pronombres átonos, los cuales pueden aparecer tanto en forma antepuesta con relación al verbo como pospuesta. En cuanto a la morfosintaxis verbal podemos señalar como vacilaciones más destacadas las alternancias de s– etimológica y –z– en la 1ª persona del singular ESCERE E (conosco, paresco, por un lado, y ofrezco, por de los verbos formados con –ESCER otro), entre la inflexión y la conservación intacta de la vocal pretónica por la yod desinencial del gerundio (diciendo frente a deziendo), y entre la pérdida y el mantenimiento de –e en las formas verbales (diz, sal junto a dize, sale), así como la convivencia de formas analíticas y sintéticas en el condicional y en el futuro de indicativo, si bien con predominio de las segundas, más modernas. En lo que respecta a la consolidación de determinados fenómenos morfosintácticos puestos en marcha a lo largo de la Edad Media y que suponen la aproximación del castellano medieval al moderno en el norte de la Península, podemos mencionar la desaparición a partir de comienzos del siglo XIV de la forma de relativo qui y el empleo exclusivo de quien; el triunfo a lo largo del siglo XIV de la forma preposicional fasta, frente a fata, y del elemento compositi-

La documentación medieval de Miranda de Ebro

169

vo adverbial –mente, que se impone a las variantes diptongadas –miente y –mientre; la consolidación, también durante esta centuria, de las desinencias verbales modernas –ía, –ían en el imperfecto de indicativo, frente a –ié, –ién, y de –ido, –ida en el participio, frente a –udo, –uda; y la aparición a finales del siglo XV de la forma y de la conjunción copulativa. Otro fenómeno que podemos destacar es la escasa representatividad en los documentos mirandeses de los rasgos morfosintácticos propios de la primitiva falta de cohesión de las formas compuestas del verbo. Tal es el caso de la concordancia en género y número del participio de la forma compuesta y el complemento directo, del que solo registramos un ejemplo evidente en el corpus: «so pena que oviesen perdidas las dichas casas» (AHPB, Concejil, 50/2, fol. 277, líneas 14 y 15). Parece, por lo tanto, que el participio se ha inmovilizado ya en fecha bastante temprana en la forma del masculino singular, lo que coincide con la hipótesis de Fernández-Ordóñez (2011, 76), para quien la pérdida de la concordancia en las formas compuestas se inicia en Navarra, para desplazarse posteriormente hacia el oriente y el centro de la Península. Tampoco se encuentra prácticamente representada la interpolación de elementos oracionales entre el auxiliar y el participio, fenómeno bastante habitual en el oriente de la Península durante la Edad Media (Rodríguez Molina 2008, 136– 138) y del que tan solo contamos con un posible ejemplo, con el verbo ser como auxiliar. E si disiéremos nós, o otro por nós o en nuestra boz, que non fuemos bien pagados e bien entregados de todos los moravedís sobredichos, que nos non vala nin seamos sobre ello oídos ante alcalle nin ante señor (AHPB, Concejil, 50/1, fol. 8, líneas 19–21).

Una representación mayor tiene en el corpus mirandés el orden variable de los constituyentes, pues son varios los ejemplos recogidos hasta bien avanzado el siglo XV en los que el participio antecede al auxilar. Se trata de un fenómeno también habitual en el oriente de la Península (en Navarra, Aragón, Valle del Ebro, Cuenca y Guadalajara) (Rodríguez Molina 2008, 136 y 137), si bien en la documentación mirandesa predomina el orden auxiliar + participio. Entre los ejemplos de anteposición del participio encontramos los siguientes: E dissieron los dichos judíos que más judíos d’ellos non bivían en Miranda, salvo Çagui Pardo, e que eran pagados de la vezindat e de lo que el concejo les fazían, segunt dicho avían, salvo en razón del testimonio (AMME, libro H213, doc. 53, líneas 21–22). Lo otro, porque, fablando con reberencia, como dicho é, la tal merced o gracia por vosotros fecha era y es ninguna de derecho y por defecto de poderío que non teníades nin tenedes para fazer la tal merced (AHPB, Concejil, 50/2, fol. 109, 2v, líneas 1–5).

170

Vicente J. Marcet Rodríguez y M.ª Nieves Sánchez González de Herrero

Salvo por nombramiento y voluntad del concejo de la dicha villa de Miranda, como dicho é (AHPB, Concejil, 50/2, fol. 109, 3r, líneas 2–4).

4 Conclusiones En líneas generales, hemos podido comprobar que la documentación medieval de Miranda de Ebro refleja el estadio de lengua esperable en este tipo de escritos redactados en esta región del norte peninsular durante la Edad Media. En el caso de las confusiones de las sibilantes, fenómeno al que hemos prestado una especial atención, dada su importancia en la historia del español, podemos concluir que la situación que presenta su evolución en la documentación concejil de Miranda de Ebro coincide con la cronología tradicional atribuida al ensordecimiento de las distintas sibilantes, según la cual en primer lugar se ensordece la apicoalveolar /z/, posteriormente la dentoalveolar /dz/ y, en último lugar, con posterioridad al siglo XV, la prepalatal /ʒ/ (o africada /dʒ/) (cf. Cano 2005, 837). También queremos destacar, nuevamente, la posible influencia que pudieron haber ejercido los cambios de tipos de letra en la confusión o posterior neutralización gráfica de algunas parejas de sibilantes; unos cambios que podrían haber coincidido, coadyuvándolo, con el inicio del proceso de ensordecimiento de estas consonantes. Lo que este fenómeno, junto como otros fenómenos gráficos, morfológicos y sintácticos ya comentados, revela es que, en el corpus documental de Miranda de Ebro, nos encontramos ante una lengua todavía en fase de formación, que se va despojando, de forma aún vacilante en numerosos casos, de algunas reminiscencias arcaizantes, al tiempo que empieza a adoptar de forma mayoritaria, especialmente a lo largo de la segunda mitad del siglo XV, algunos fenómenos propios del castellano moderno.

5 Referencias bibliográficas Alvar, Manuel, El dialecto riojano, Madrid, Gredos, 1976. Alvar, Manuel, Riojano, in: Alvar, Manuel (dir.), Manual de dialectología hispánica. El español de España, Barcelona, Ariel, 1996, 81–96. Alvar, Manuel/Pottier, Bernard, Morfología histórica del español, Madrid, Gredos, 1983. Cano Aguilar, Rafael, Cambios en la fonología del español durante los siglos XVI y XVII, in: Cano Aguilar, Rafael (coord.), Historia de la lengua española, Barcelona, Ariel, 2004, 825–916. Cantera Burgos, Francisco/Andrío Gonzalo, Josefina, Historia medieval de Miranda de Ebro, Miranda de Ebro, Fundación Cultural «Profesor Cantera Burgos», 1991.

La documentación medieval de Miranda de Ebro

171

Ciérbide, Ricardo, Notas gráfico-fonéticas sobre la documentación medieval navarra, in: Blecua, José Manuel/Gutiérrez, Juan/Sala, Lidia (edd.), Estudios de grafemática en el dominio hispano, Salamanca, Instituto Caro y Cuervo/Ediciones Universidad de Salamanca, 1998, 37–47. Enguita Utrilla, José María, Evolución lingüística en la Baja Edad Media: aragonés, navarro, in: Cano Aguilar, Rafael (coord.), Historia de la lengua española, Barcelona, Ariel, 2004, 571–592. Fernández-Ordóñez, Inés, Isoglosas internas del castellano. El sistema referencial del pronombre átono de tercera persona, Revista de Filología Española 74 (1994), 71–125. Fernández-Ordóñez, Inés, Hacia una dialectología histórica: reflexiones sobre la historia del leísmo, el laísmo y el loísmo, Boletín de la Real Academia Española 81 (2001), 389–464. Fernández-Ordóñez, Inés, La lengua de Castilla y la formación del español, Discurso leído el 13 de febrero de 2011 en su recepción pública en la Real Academia Española, Madrid, Real Academia Española, 2011. Disponible en http://www.rae.es/sites/default/files/Discurso_Ingreso_Ines_Fernandez_Ordonez.pdf [última consulta: 20. 03. 2015]. Fernández Ordóñez, Inés, El norte peninsular y su papel en la historia de la lengua española, in: Gómez Seibane, Sara/Sinner, Carsten (edd.), Estudios sobre tiempo y espacio en el español norteño, San Millán de la Cogolla, Cilengua, 2012, 23–68. García de Diego, Vicente, El castellano como complejo dialectal y sus dialectos internos, Revista de Filología Española 34 (1950), 107–124. Gómez Seibane, Sara/Sinner, Carsten (edd.), Estudios sobre tiempo y espacio en el español norteño, San Millán de la Cogolla, Cilengua, 2012. González Ollé, Fernando, Navarro, in: Alvar, Manuel (dir.), Manual de dialectología hispánica. El español de España, Barcelona, Ariel, 1996, 305–316. Grande López, Clara, De cómo Semuel acabó senil. Errores de copia en la documentación medieval de Miranda, Cuadernos del Instituto de Historia de la Lengua 8 (2013), 139–154. Hernández Alonso, César, Castilla la Vieja, in: Alvar, Manuel (dir.), Manual de dialectología hispánica. El español de España, Barcelona, Ariel, 1996, 197–212. Hilty, Gerold, Las «scriptae» aragonesas y navarras, in: Holtus, Günter/Metzeltin, Michael/ Schmitt, Christian (edd.), Lexikon der Romanistischen Linguistik, vol. 8, I.2, Tubinga, Max Niemeyer, 1995, 512–527. Isasi Martínez, Carmen, El romance de los documentos vizcaínos en el espacio variacional castellano, Oihenart 21 (2006), 209–227. Líbano Zumalacárregui, Ángeles, Consideraciones lingüísticas sobre algunos tributos medievales navarro-aragoneses y riojanos, Príncipe de Viana 40:154–155 (1979), 65–80. Líbano Zumalacárregui, Ángeles, Diacronía de las alternancias gráficas navarro-aragonesas: las sibilantes medievales, in: Blecua, José Manuel/Gutiérrez, Juan/Sala, Lidia (edd.), Estudios de grafemática en el dominio hispano, Salamanca, Instituto Caro y Cuervo/Ediciones Universidad de Salamanca, 1998, 135–148. Líbano Zumalacárregui, Ángeles, Evolución y desarrollo del léxico romance en la sociedad medieval vascongada: los grupos sociales, in: Medina Guerra, Antonia María/Ayala Castro, Marta C. (coords.), Los diccionarios a través de la historia, Málaga, Universidad de Málaga, 2010, 349–370. Líbano Zumalacárregui, Ángeles, Historia y léxico medieval del País Vasco: La tierra, el hombre y su hábitat; transición del latín al romance, in: Clavería Nadal, Glòria/Freixas Alás, Margarita/Prat Sabaner, Marta/Torruella Casañas, Joan (coords.), Historia del léxico: perspectivas de investigación, Madrid, Iberoamericana, 2012, 93–125.

172

Vicente J. Marcet Rodríguez y M.ª Nieves Sánchez González de Herrero

Líbano Zumalacárregui, Ángeles/Villacorta Macho, Consuelo, Paisaje rural y explotación agropecuaria (Siglos XIII–XVI), Zaragoza, Prensas de la Universidad de Zaragoza, 2013. Lobo Puga, Ana, Casos de apócope en la documentación medieval del concejo de Miranda de Ebro, Cuadernos del Instituto de Historia de la Lengua 8 (2013) 173–196. Lobo Puga, Ana, Grupos consonánticos cultos en la documentación medieval de Miranda de Ebro, in: Grande López, Clara/Martín Aizpuru, Leyre/Salicio Bravo, Soraya (coords.), Con una letra joven. Avances en el estudio de la Historiografía e Historia de la Lengua Española, Salamanca, Ediciones Universidad de Salamanca, 2014, 159–167. Lobo Puga, Ana, Consonantes implosivas en la documentación medieval de Miranda de Ebro: -t y -d finales, in: García Martín, José María (dir.), Actas del IX Congreso Internacional de Historia de la Lengua Española, tomo I, Madrid, Iberoamericana, 2015, 489–505. Marcet Rodríguez, Vicente J., Las sibilantes en la documentación notarial leonesa en el paso del latín al romance: alternancia gráfica o confusión fonética, Lletres Asturianes 104 (2011), 15–44. Marcet Rodríguez, Vicente J., La confusión de sibilantes en el castellano norteño (siglo XIII), in: Sánchez Méndez, Juan Pedro/Codita, Viorica/de la Torre, Mariela (edd.), Temas, problemas y métodos para la edición y el estudio de documentos hispanos antiguos, Valencia, Tirant lo Blanch, 2015, 517–533 (= 2015a). Marcet Rodríguez, Vicente J., Variación gráfica o cambio fonético: la representación gráfica de las sibilantes en el castellano norteño, in: Azzopardi, S./Sarrazin, S. (dirs.), Langage et dynamiques de sens. Études de linguistique ibéro-romane, Bruselas/Berna/Berlín/Fráncfort/Nueva York/Oxford/Viena, Peter Lang, 2015 (= 2015b). Marcet Rodríguez, Vicente J., Contribución al estudio del ensordecimiento de las sibilantes en el castellano norteño: los documentos de Miranda de Ebro (siglo XIV), in: García Martín, J. M. (dir.), Actas del IX Congreso Internacional de Historia de la Lengua Española, Madrid, Iberoamericana, 2015, tomo I, 507–521 (= 2015c). Martín Aizpuru, Leyre, Sobre el futuro sintético y analítico en la documentación de Miranda de Ebro, in: Grande López, Clara/Martín Aizpuru, Leyre/Salicio Bravo, Soraya (coords.), Con una letra joven. Avances en el estudio de la Historiografía e Historia de la Lengua Española. Salamanca, Ediciones Universidad de Salamanca, 2014, 169–176. Martín Aizpuru, Leyre, Sobre leísmo, laísmo y loísmo en la documentación de concejo de Miranda de Ebro (siglo XIII–XIV), in: Actas del XII Congreso Internacional de la Asociación de Jóvenes Investigadores de Historiografía e Historia de la Lengua Española, Padua (Italia), 2–4 de mayo de 2012, (en prensa). Martín Viso, Iñaki, Miranda de Ebro y su comarca en la plena Edad Media (siglos XI–XIII): formación, desarrollo y consolidación de la villa, in: Peña Pérez, Francisco Javier (coord.), Miranda de Ebro en la Edad Media, Miranda de Ebro, Ayuntamiento de Miranda de Ebro, 2002, 127–156. Martínez Ezquerro, Aurora, Afinidades entre los dialectos riojano y aragonés medievales, Archivo de Filología Aragonesa 56 (2000), 79–94. Moral del Hoyo, M.ª Carmen, Documentación medieval de Cantabria: Estudio lingüístico (Siglo XIII), Tesis doctoral inédita, Universidad de Deusto, 2013. Morala, José Ramón, Las sibilantes en la documentación medieval leonesa, in: Lorenzo, R. (coord.), vol. IV, Actas del XIX Congreso Internacional de Lingüística e Filoloxía Románica, La Coruña, Fundación «Pedro Barrié de la Maza, conde de Fenosa», 1993, 99–119. Morala, José Ramón, Del leonés al castellano, in: Cano Aguilar, Rafael (coord.), Historia de la lengua española, Barcelona, Ariel, 2004, 555–569.

La documentación medieval de Miranda de Ebro

173

Osés Marcaida, Cristina, El romance medieval en el País Vasco: los documentos del Concejo de Segura (Guipúzcoa) (1290–1450), Bilbao, Universidad de Deusto, 1993. Ramírez Luengo, José Luis, Diacronía y sincronía del uso del condicional por el pasado de subjuntivo en el castellano del País Vasco, in: Camus Bergareche, Bruno/Gómez Seibane, Sara (edd.), El castellano del País Vasco, Bilbao, Universidad del País Vasco, 2012, 235–253. Rodríguez Molina, Javier, La extraña sintaxis verbal del Libro de Alexandre, Troianalexandrina 8 (2008), 115–146. Ruiz Asencio, José Manuel, Propuesta de elaboración de unas normas de transcripción de textos castellanos medievales, in: Díez Calleja, B. (ed.), El primitivo romance hispánico, Burgos, Instituto Castellano y Leonés de la Lengua, 2008, 137–143. Ruiz Asencio, José Manuel/Ruiz Albi, Irene/Herrero Jiménez, Mauricio (edd.), Los Becerros Gótico y Galicano de Valpuesta, Burgos, Real Academia Española/Fundación Instituto Castellano y Leonés de la Lengua, 2010. Sánchez González de Herrero, M.ª Nieves, Prendas y peños en Miranda de Ebro a comienzos del siglo XIV, Cuadernos de Historia de España 85–86 (2011–2012), 681–699. Sánchez González de Herrero, M.ª Nieves, La documentación de Miranda de Ebro (siglos XIII y XIV), Cuadernos del Instituto de Historia de la Lengua 7 (2012), 425–453. Sánchez González de Herrero, M.ª Nieves, Aproximación al castellano medieval del norte de Burgos. Algunas características lingüísticas de la documentación de Miranda de Ebro, in: Bargalló Escrivá, María/Garcés Gómez, M.ª Pilar/Garriga Escribano, Cecilio (edd.), «Llaneza». Estudios dedicados al profesor Juan Gutiérrez Cuadrado, La Coruña, Universidade da Coruña, 2014, 234–247. Sánchez González de Herrero, M.ª Nieves, De la foija del monte fasta la piera del rio. Variación gráfica en la documentación de los siglos XIII y XIV de Miranda de Ebro, in: García Martín, J. M. (dir.), Actas del IX Congreso Internacional de Historia de la Lengua Española, tomo I, Madrid, Iberoamericana, 2015, 1079–1093. Sánchez González de Herrero, M.ª Nieves, Algunas particularizaciones sobre el continuo norteño peninsular en la Edad Media a propósito de la documentación de Miranda de Ebro, Oihenart 28 (2013), 9–47. Sánchez González de Herrero, M.ª Nieves, et al. (dir.), Documentos medievales de Miranda de Ebro (Archivos Municipal de Miranda de Ebro e Histórico Provincial de Burgos). I. Documentación de concejo, Salamanca, Luso-Española de Ediciones, 2014 (= 2014a). Sánchez González de Herrero, M.ª Nieves, et al. (dir.), Documentos medievales de Miranda de Ebro (Archivos Municipal de Miranda de Ebro e Histórico Provincial de Burgos). II. Documentación de cancillería, Salamanca, Luso-Española de Ediciones, 2014 (= 2014b). Sánchez González de Herrero, M.ª Nieves, et al. (dir.), Textos para la historia del español IX. Documentos medievales de Miranda de Ebro, Alcalá de Henares, Universidad de Alcalá, 2014 (= 2014c). Sánchez Romo, Raquel, Los posesivos en la documentación medieval de Miranda de Ebro, Cuadernos del Instituto de Historia de la Lengua 8 (2013), 269–298. Sánchez-Prieto Borja, Pedro, Fonética común y fonética de la lectura en la investigación sobre los textos castellanos medievales, in: Atti del XXI Congreso Internazionale di Lingüística e Filologia Romanza, vol. 1, Tubinga, Max Niemeyer, 1998, 455–470. Sánchez-Prieto Borja, Pedro, La edición de textos españoles medievales y clásicos. Criterios de presentación gráfica, San Millán de la Cogolla, Cilengua, 2011. Sánchez-Prieto Borja, Pedro/Torrens Álvarez, M.ª Jesús, Las tradiciones de escritura del País Vasco comparadas con las regiones limítrofes, Oihenart 23 (2008), 481–502.

174

Vicente J. Marcet Rodríguez y M.ª Nieves Sánchez González de Herrero

Saralegui, Carmen, El dialecto navarro en los documentos del monasterio de Irache (958–1397), Pamplona, Diputación Foral de Navarra/Institución Príncipe de Viana/CSIC, 1977. Saralegui, Carmen, Aragonés/Navarro. Evolución lingüística externa e interna, in: Holtus, Günter/Metzeltin, Michael/Schmitt, Christian (edd.), Lexikon der Romanistischen Linguistik, vol. 1, Tubinga, Niemeyer, 1992, 37–54.

Catarina Carvalheiro, Ana Luísa Costa, Rita Marquilhas, Clara Pinto, Fernanda Pratas e Gael Vaamonde

A idade dos «desvios»: diacronia, variação social e linguística de corpus 1 Introdução Entre os corpora diacrónicos de línguas ibero-românicas atualmente em construção, figura o caso do P.S., Post Scriptum1 doravante Post Scriptum, sediado no Centro de Linguística da Universidade de Lisboa e objeto deste trabalho. A sua cronologia é a da Idade Moderna —recolhem-se textos de um intervalo que se estende do século XVI ao início do século XIX— e as línguas em causa são o espanhol e o português. Com este corpus pretende-se constituir uma amostragem do uso das duas línguas nos seus espaços europeu e extraeuropeu ao longo daqueles séculos. Com efeito, verifica-se ao nível das fontes históricas portuguesas e espanholas que a documentação oficial dos tribunais dos dois reinos conservou peças de especial relevância histórico-linguística: cartas particulares de gente diversa, muita dela gente vulgar. Ficaram arquivadas dentro de processos civis e, sobretudo, de processos criminais, e foram contextualizadas pelos próprios tribunais que as usaram como instrumento de prova para perseguir os respetivos autores, destinatários, ou indivíduos com eles relacionados. Apesar de ser evidentemente variado o tipo de utilização a que se presta um recurso baseado em documentação que espelhe usos quotidianos da língua, ele é sobretudo um recurso novo para a perspetiva da Sociolinguística Histórica. Permite recolher dados abundantes e fidedignos no estudo da mudança linguística, abrindo a hipótese de uma fina reconstituição diacrónica da sua variação geográfica e social. Com fontes de tal natureza, e com esta facilidade de pesquisa, minimiza-se consideravelmente um risco conhecido em Linguística Histórica: o de se construir conhecimento pouco verificável do ponto de vista empírico. Terttu Nevalainen descreveu assim esse risco:

1 O projeto P.S., Post Scriptum: Arquivo digital da escrita quotidiana em Portugal e Espanha na época moderna é financiado pelo Conselho Europeu de Investigação (7FP/ERC Advanced Grant 2011, Grant Agreement 295562). Catarina Carvalheiro, Ana Luísa Costa, Rita Marquilhas, Clara Pinto, Fernanda Pratas e Gael Vaamonde: CLUL – Universidade de Lisboa

176

Catarina Carvalheiro et al.

[L]ooking for authentic material produced by individuals, the historical sociolinguist is faced with the fact that it is only available from the literate section of the population. This represents the tip of the iceberg at a time when the vast majority of the population was illiterate. As the social structures of an earlier era are not familiar to the researcher, they have to be reconstructed on the basis of social, demographic and economic history. Placing historical linguistic findings in their social contexts thus requires more back-ground information than those present-day studies in which the researchers are familiar with the communities they [study] (Nevalainen 2011, 281).

Pretende-se que os materiais do Post Scriptum contornem os problemas apontados na citação acima em função dos seguintes factos: – incluem muitas cartas originais de natureza privada escritas por falantes semi-alfabetizados, não só por falantes letrados; – incluem amostras de uso da língua por parte de atores sociais de estratos muito diversos; – muitas das histórias de vida dos agentes em causa, tanto na sua faceta de falantes, como na de atores sociais, são do nosso conhecimento porque o próprio tribunal as investigou e reconstituiu; – muitas situações de comunicação relacionadas com os documentos são também conhecidas, fruto da mesma investigação judicial. O Post Scriptum estará finalizado em 2017, com uma envergadura de dois milhões de palavras —um milhão para cada língua—, mas a partir dos materiais já disponíveis, que ultrapassam meio milhão de palavras, é possível extrair amostras para fundamentação dos dois argumentos que queremos defender concretamente: i) o de que o conceito de desvio linguístico é facilmente desmontável com a demonstração da antiguidade de processos que, enquanto «desvios», costumam ser estigmatizados pelo público leigo; ii) o de que os atlas histórico-dialetais são um recurso linguístico que se pode realizar, hoje em dia, com um grau de incerteza cada vez mais insignificante. No presente artigo, após uma descrição sumária do Post Scriptum (secção 2), apresentaremos exemplos ilustrativos dos dois argumentos. Na secção 3, ocupamo-nos da existência de pois como marcador discursivo em usos não descritos nas gramáticas tradicionais. Na secção 4, do uso de cujo sem valor possessivo. Na secção 5, descrevemos o grau de difusão e a distribuição geográfica dos usos inovadores dos pronomes átonos da terceira pessoa em espanhol; estes usos não respeitam a função sintática do referente, traduzindo-se em fenómenos conhecidos como leísmo, laísmo e loísmo. Finalmente, na secção 6, apresentamos uma breve conclusão e perspetivas para trabalhos futuros.

A idade dos «desvios»: diacronia, variação social e linguística de corpus

177

2 Corpus Post Scriptum A equipa do Post Scriptum, formada por historiadores e linguistas portugueses e espanhóis, desempenha a tarefa de verificar milhares de processos, desde os mais importantes, que são os da Inquisição, aos da justiça episcopal, da Coroa, periférica da Coroa, da Intendência da polícia e das ordens militares. O ordenamento jurídico do Antigo Regime oferece, com efeito, o panorama de um sistema plural, panorama esse que tinha raízes medievais e só desapareceu com a racionalização iluminista que acompanhou a instituição dos estados liberais no século XIX. Significa isto que havia muitas justiças paralelas na Idade Moderna. A Igreja tinha duas, a da Inquisição, que perseguia os crimes contra o 1.° mandamento, e a episcopal, que perseguia os outros «pecados», sendo que pecado e crime podiam ser conceitos sinónimos (Carvalho 1988). A justiça da Coroa, por seu lado, perseguia crimes contra a estabilidade do Estado e podia ser ministrada no centro dos reinos ou na periferia (caso da justiça periférica da Coroa, a cargo dos juízes de fora); a Intendência da Polícia velava pela segurança nas cidades; a das ordens militares era aquela onde tinham direito a ser julgados, como privilégio, os indivíduos com a distinção de cavaleiros. Havia, finalmente, mas também com grande protagonismo, a justiça local (Hespanha 2003). O paralelismo entre estas justiças traduzia-se num considerável equilíbrio de poderes: «Cada corpo [era] provido de uma jurisdição que permit[ia] uma espécie de autogoverno: a possibilidade de ter magistrados próprios, a capacidade de julgar os seus próprios conflitos internos, o poder de fazer leis» (Camarinhas 2010, 19). Na Inquisição, por exemplo, apesar de a maioria dos processos ser de judaísmo, havia também processos movidos aos familiares do Santo Ofício que faltassem às suas obrigaçãos, ou a sujeitos externos que se fizessem passar por familiares do Santo Ofício. A variedade de documentação processual gerada por todo este sistema está, por conseguinte, bastante garantida, como garantido está um espelhamento verosímil do dinamismo da sociedade da época. Em termos de faseamento e metodologia de trabalho, sempre que se depara nos arquivos com processos de qualquer daqueles tribunais que contenham cartas privadas enquanto prova instrumental, a equipa do Post Scriptum transcreve-as, digitaliza-as e edita-as em função dos mesmos cuidados que a crítica genética dedica ao manuscrito de autor literário (Grésillon 1994; Castro 2001). Trata-se, com efeito, de documentos originais que exibem vestígios materiais do processo da respetiva génese,2 sendo por isso mesmo extremamente ilustrativos

2 Algumas cópias são também transcritas, no caso de serem historicamente relevantes. Mas essas não integram o corpus linguístico anotado; só são utilizadas enquanto fontes históricas.

178

Catarina Carvalheiro et al.

dos juízos metalinguísticos dos falantes envolvidos. Reconstitui-se também a situação de comunicação e classificam-se sociologicamente, com o máximo possível de dados, os perfis de autores e destinatários, com base no que ficou indicado pelos tribunais que recolheram aqueles documentos. A digitalização do facsímile da carta, a transcrição e a edição, bem como as bases de dados históricos e biográficos associados, são todos eles recursos tornados acessíveis num ambiente online que permite não só a edição interativa, como a anotação automática e uma potente busca cruzada na plataforma TEITOK (Janssen 2014),3 especialmente construída para processar documentos em formato XML-TEI, que é o formato adotado pelo Post Scriptum.4 O TEITOK tem incorporado um sistema, originário do CorpusWiki,5 que permite que as tarefas de modernização ortográfica, lematização, anotação morfossintática e alinhamento com a anotação sintática sejam automaticamente efetuadas, não dispensando, evidentemente, um refinamento manual. Quanto à edição digital propriamente dita, ela cabe na categoria a que se vem chamando, em Humanidades Digitais, «edição digital documentária», composta pela fonte, pelos resultados do seu tratamento editorial e pelas ferramentas informáticas que permitiram que o mesmo tratamento se processasse (Pierazzo 2011). Assim, qualquer investigador pode replicar todas as experiências já feitas com os mesmos dados. Na anotação morfossintática, adota-se o sistema de etiquetas Eagles, levemente modificado para garantir compatibilidade com recursos comparáveis, nomeadamente o corpus Tycho Brahe,6 CORDIAL-SIN7 e WOChWEL.8 Na anotação sintática, segue-se o sistema de anotação dos Penn Parsed Corpora of Historical English (Kroch/Santorini/Delfs 2004) mediante o recurso a um analisador sintático de base estatística (Collins 1999 e Bikel 2004) e a uma interface gráfica de edição da anotação, a ferramenta CorpusDraw, que integra o motor de busca CorpusSearch2,9 desenvolvido por Randall (2005–2007). Ambas as anotações, morfossintática e sintática, uma vez que estão alinhadas com a marcação do texto, são plenamente pesquisáveis em articulação com os dados extralinguísticos, sejam eles cronológicos, geográficos ou sociais.

3 Cf. http://alfclul.clul.ul.pt/teitok/site/index.php [última consulta: 06. 01. 2016]. 4 Cf. http://ps.clul.ul.pt [última consulta: 06. 01. 2016]. 5 Cf. http://www.corpuswiki.org/ [última consulta: 06. 01. 2016]. 6 Cf. http://www.tycho.iel.unicamp.br/corpus/ [última consulta: 06. 01. 2016]. 7 Cf. http://www.clul.ul.pt/sectores/cordialsin/projecto_cordialsin.html [última consulta: 06. 01. 2016]. 8 Cf. http://alfclul.clul.ul.pt/wochwel/index.html [última consulta: 06. 01. 2016]. 9 Cf. http://corpussearch.sourceforge.net [última consulta: 06. 01. 2016].

A idade dos «desvios»: diacronia, variação social e linguística de corpus

179

3 Pois como marcador discursivo O primeiro caso que apresentamos diz respeito a funções de pois ignoradas pelas gramáticas tradicionais e, consequentemente, excluídas da descrição gramatical consagrada a usos da variedade padrão.

3.1 Pois na tradição gramatical Não é difícil encontrar, em gramáticas e dicionários, exemplos que permitem classificar pois como conjunção coordenativa explicativa ou análises que procuram explicar quer o seu estatuto ambíguo entre subordinador e coordenador, quer o seu valor causal ou explicativo (Brito 2003; Cunha/Cintra 1984; Lobo 2001 e 2013; Matos e Raposo 2013; Mendes 2013; Peres 1997; e.o.). Também se obtém com relativa facilidade, e nas mesmas obras de referência, informação sobre o valor conclusivo de pois, determinado pela sua ocorrência em posições intercaladas na frase. Além destas funções, associadas ao estabelecimento de conexões interfrásicas, pois é ainda reconhecido em instrumentos de normalização linguística como advérbio de afirmação, veiculando normalmente valor confirmativo. O percurso histórico de pois, de advérbio a conjunção temporal, como no exemplo (1), a conjunção subordinativa causal, como no exemplo (2), a conjunção coordenativa causal/explicativa, como no exemplo (3), tem sido, igualmente, objeto de atenção de alguns estudos (Fiéis/Lobo 2009; Lima 2002, e.o.). (1)

Mando o meu salteyro grande a Jo(han) Ean(e)s, sucelareyro, q(ue) o aia elle en sua uida & poys sua mort(e) que fique ao m(o)est(e)i(r)o (Doc. 55, Orense (1281); Maia 1986, 133)

(2)

Outrossi pediu que pois o dito scudeiro nõ pagaua o dito trebuto ao dito Monsteiro que lhj abrisse mão das ssas herdades (DN091 (1339); Martins 2001, 571)

(3)

Andei mais devagar do que o normal, pois não havia razão para correr riscos. (CRPC, O Jogo, apud Mendes 2013, 1732)

Contudo, o contacto com o nosso corpus de escrita do quotidiano, que preserva alguma proximidade com o género dialogal, torna evidente que o leque de funções enunciadas para pois é insuficiente para dar conta de todos os seus contextos de uso. Disso são exemplo as ocorrências de pois no excerto transcrito em (4). (4) Pois vosa senhoria non fica Pobre / e non le sosedera mal Algum / Pois se nom me mandar le aguro pe/lo santisimo sacramento tamta / huma Parte como hotra P fica

180

Catarina Carvalheiro et al.

queimada / e para heste dinhiro som 20 e 4 [. . .] / omes e todos estam d espias e / e manda rar hotro emteregorom / e o portador esta Inosemte Pois / he mandado Pois os 20 e 4 estam / De Parte Pois se nom quer mam/dalas emPrestemas Pois obrigome pe/la fe que Profeso demtero em ter / meses mandalas e sabera quem he / e me dara As Alvisas (CARDS0004 (1825); CLUL 2014)

3.2 Funções discursivas de pois Se pois tem, em alguns contextos, uma distribuição conjuncional e pode ser interpretado como tendo valor explicativo, como se pode verificar nas paráfrases em (5) e (6), nas quais se substituiu pois por porque, o mesmo não se aplica aos restantes contextos, como se atesta, por exemplo, na estranheza de (7). (5)

E o portador está inocente, porque é mandado.

(6) […] se não quer mandá-las, empreste-mas, porque me obrigo, pela fé que professo, dentro em três meses mandá-las, (7)

#Porque os 20 e 4 estão de parte. #Porque, se não quer mandá-las, empreste-mas

A proposta de normalização (4') do excerto antes transcrito em (4) evidencia que alguns pois estão associados a fronteiras prosódicas com uma marcação diferente da de subordinadas explicativas. Em casos como os de (7), pois tem uma pausa ou quebra entoacional anterior mais acentuada, o que é comum entre marcadores discursivos (Fraser 1999; Martín Zorraquino/Portolés Lázaro 1999). (4') Pois Vossa Senhoria não fica pobre e não lhe sucederá mal algum. Pois, se não me mandar, lhe juro, pelo Santíssimo Sacramento, tanta uma parte como outra fica queimada. E para este dinheiro são 20 e 4 [. . .] homes, e todos estão d'espias, e manda rar outro entregaram. E o portador está inocente, pois é mandado. Pois os 20 e 4 estão de parte. Pois, se não quer mandá-las, empreste-mas, pois obrigo-me, pela fé que professo, dentro em três meses mandá-las. E saberá quem é, e me dará as alvíssaras. (Ed. modernizada, CARDS0004 (1825); CLUL 2014)

Crucialmente, estes pois estabelecem a ligação entre dois segmentos de discurso sem contribuir para a interpretação do conteúdo proposicional de nenhum dos segmentos, como acontece quando funciona como conjunção explicativa ou como advérbio conetivo conclusivo. A sua função parece antes ser a de orientar o ouvinte/leitor quanto à natureza da informação que introduz, tal como refere Fraser (1999, 946) relativamente a «marcadores discursivos que relacionam tópicos». Concretamente, pois parece desempenhar uma função de estruturação da

A idade dos «desvios»: diacronia, variação social e linguística de corpus

181

informação, ao nível da tematização, assegurando a introdução de informação discursivamente nova e relevante para o mesmo tópico discursivo, que, em (4), é a entrega de dinheiro ‒ tema dominante desta carta de extorsão. Esta atuação de pois ao nível da estrutura temática e informacional não é a sua única função como marcador discursivo. Em Lopes (1991) apresenta-se uma identificação de funções a nível pragmático relativamente a contextos como (8), nos quais pois introduz, no português contemporâneo, um enunciado que consiste numa reação a um ato ilocutório anterior. (8) – Estou com sono! – Pois deita-te. (Lopes 1991, 185)

Na análise do percurso diacrónico de pois, entre conjunção e marcador discursivo fático, Lima (2002) considera vários exemplos em que este marcador, à semelhança do que se observa em (8), introduz enunciados que instanciam reações a atos ilocutórios presentes no discurso precedente, como (9), um exemplo do século XVI. (9) Ines Pereyra. Marido nam digo isso, Pe. Pois q(ue) dizeis vos molher Ines. Yr folgar onde eu quiser (Gil Vicente, Inês Pereira, ed. C. A. Ribeiro, ll. 1002–1004 apud Lima 2002)

3.3 Um pois estruturador A análise dos pois existentes nas cartas portuguesas do Post Scriptum, além de atestar exemplos de usos conjuncionais e adverbais como os inicialmente descritos, e de registar um elevado recurso a pois como marcador discursivo, com diversas funções, permitiu identificar uma função de estruturador temático-informacional e perceber que esta especificação tem um uso crescente até ao século XX. Embora não haja eco da função de marcador discursivo estruturador nas gramáticas e estudos que se debrucem sobre os valores de pois, o seu uso parece ter sido produtivo no português da Idade Moderna e mantém-se ativo no português contemporâneo. Os enunciados em (10), (11) e (12) incluem exemplos deste pois estruturador dos séculos XVIII, XIX e XX, respetivamente. (10) eu pesote pelo amor deos q(ue) te Lenbres q(ue) eu sou teu marido pois torna a pedir a Senhora q(ue) pedia por mim que me valha (CARDS0033 (1791), CLUL 2014)

182

Catarina Carvalheiro et al.

(11) [Munto estimarei que te tenhas tido felecidades Como eu p(ar)a mim dezejo i Juntamente em Comp(anhi)a da nosa Mai dos mais irmaus.]arenga Pois eu sahi da cidade do porto a dezoito de no(vem)bro de mil 818 i chiguei aqui a esta prisão de desta cida do Rio de jan(ei)ro Com trinta digo Com sesenta dias de viaige. (CARDS7052 (1818), CLUL 2014) (12) poues cá reçebim a aeçomenda que de lisboa poues esquzavas de andar a ecomodar esa xente poues a gente ca gozaramos pouco pela pascoa que a gente não tinha alegria para iço q estava pera açentar paraça o meu [N] (FLY2153 (1917), Marquilhas 2010)

Destes exemplos, salienta-se que, em (11) e em (12), pois se encontra em início absoluto, anunciando um novo tópico discursivo; quando não se encontra em posição inicial absoluta, contribui para a progressão temática, introduzindo novas informações relativas ao tópico anterior. Face à constatação da existência deste marcador discursivo, pelo menos desde o século XVIII, desenvolvemos uma análise exploratória da sua distribuição por século. Para isso, foi considerada uma amostra de cerca de 2095 cartas, das quais apenas 803 continham estruturas com pois, havendo 1912 ocorrências na totalidade. Devido à falta de equilíbrio da distribuição pelos diferentes séculos, classificaram-se cerca de cem estruturas por cada século. As cartas dos séculos XVII, XVIII e XIX pertencem ao Post Scriptum e as cartas do século XX estão disponíveis no corpus FLY.10 Na tabela 1, sistematizam-se os resultados.11 Tabela 1: Ocorrências de pois estruturador por século Séculos

XVII

XVIII

XIX

XX

Totais

105

101

101

112

419

Totais de pois estruturador

0

10

18

33

61

% de pois estruturador

0

9,9 %

17,8 %

29,5 %

14,5 %

Dados Estruturas analisadas

Os resultados apresentados confirmam a produtividade de pois como marcador discursivo estruturador nas interações discursivas do género epistolar, que podem ser entendidas como janelas temporais de registos menos formais do portu-

10 Cf. http://fly.clul.ul.pt/ [última consulta: 06. 01. 2016]. 11 Uma análise mais detalhada dos dados do século XX, relativos ao corpus FLY, é apresentada em Costa (2014).

A idade dos «desvios»: diacronia, variação social e linguística de corpus

183

guês da Idade Moderna. Esta análise contrapõe-se às descrições gramaticais tradicionais, que restringem as funções de pois, e ilustra a importância de se considerarem corpora linguísticos como o Post Scriptum para se evitarem marginalizações de alguns usos de língua.

4 Cujo: ocorrências não canónicas em português a partir do século XVII O segundo exemplo que apresentamos é o da ocorrência do relativo cujo desprovido de valor possessivo, o que constitui um outro caso de estrutura linguística considerada marginal, embora consagrada pelo uso.

4.1 Palavra relativa possessiva Em todas as fases da língua portuguesa, cujo está atestado como palavra relativa que exprime uma relação semântica de «posse material ou jurídica, mas também de parentesco ou relação entre a parte e o todo» (definição para o português contemporâneo em Raposo 2013, 906). Cumulativamente, cujo apresenta-se também, até ao séc. XVI, como uma variante de de quem, expressão relativa e interrogativa (cf. Martins 2003, 57). (13) Emtam lhe pregumtou Lionel: ‒Estes tindilhõões cujos sam? (DSG172,1.18/ID)

Enquanto palavra relativa, cujo desempenha duas funções. Por um lado, retoma o antecedente nominal que corresponde ao possuidor, como ilustrado em (14): (14) A Ana, cujo colar desapareceu, queixou-se à polícia. (Veloso 2013, 2097)

Por outro lado, atribui uma interpretação definida ao «sintagma nominal que forma o constituinte relativo», sendo, assim, proibida a sua ocorrência com um determinante com valor (in)definido (15): (15) *comprei um livro as cujas páginas vinham rasgadas. (Veloso 2013, 2097)

184

Catarina Carvalheiro et al.

4.2 Uso não possessivo Num registo muito específico do português europeu contemporâneo, encontramos, no entanto, um uso de cujo não possessivo, ilustrado em (16): (16) […] e foi a mulher quem salvou a situação oferecendo um copo de água à velhota e um anis ao senhor, cujo vestia um casaco de quarto agaloado, no fio, e calças creme compridas de mais […] (António Lobo Antunes, Fado Alexandrino, 1983)

Em Moreira (1907, 40), ficamos a saber a posição que este uso não possessivo de cujo suscita da parte das gramáticas normativas: «A fórma cujo apparece uma ou outra vez, todavia usada apenas por pessoas de limitada leitura e pretenciosas [e] por pessoas letradas, de certo por descuido» […] «A sua construcção, porém, afasta-se da que é ensinada pelos grammaticos». Estas observações tomavam como exemplos frases como as que se seguem, de uma personagem criada por Camilo Castelo Branco, que é satirizada pelo autor: (17) […] tudo em nome do seu particular amigo José Bernardo e do mano conde, cujos, dizia, são meus íntimos […] (Camilo Castelo Branco, A Corja, 1880)

Curiosamente, no Post Scriptum, encontramos um cujo com uso semelhante ao que é condenado por Moreira (1907). Partindo de uma amostra de 800 cartas do Post Scriptum, verificamos que as atestações deste cujo não possessivo começam no século XVII. (18) hum arratel de xá bom cujo he de preso 1600 [réis] (CARDS2160 (177?), CLUL 2014)

O uso de cujo exemplificado em (18) parece equivaler ao uso de o qual, em (19), também ele expressão relativa não possessiva. Assumindo como hipótese de investigação uma possível alternância, na diacronia do português, entre as duas expressões pronominais, apresentamos o paralelismo entre cujo e o qual, partindo da descrição feita por Cardoso (2008, 2010, 2011) sobre o uso de o qual, até ao século XVII, em contextos de coordenação especificante (de Vries 2002). (19) entrego e outorgo. ao Mosteiro de san Saluador de Moreyra. Hũu casal que e en Rial de Pereyra. o qual casal a dita dona Mayor uëegas (. . .) mandou ao dito Mosteiro. (1282, Martins 2001)

De acordo com Cardoso, existem várias propriedades que permitem distinguir o uso de o qual em português europeu contemporâneo do seu uso enquanto coordenação especificante até ao século XVII.

A idade dos «desvios»: diacronia, variação social e linguística de corpus

185

A primeira dessas propriedades diz respeito ao facto de o sintagma nominal em que estas expressões participam poder ou não ter um núcleo interno. Quando esse núcleo interno ocorre, pode ter uma forma diferente da do antecedente da expressão relativa. Verificamos que, tal como acontece com o qual, em (20), também o sintagma nominal encabeçado por cujo pode apresentar núcleo interno, lexicalmente diferente do seu antecedente. No exemplo (21), o antecedente «a quantia de Sem mil reis em moeda papel» é recuperado por «dinheiro». (20) mostrarõ logo ẽ Jujzo húú testamẽto [. . .] na qual mãda fazía mẽçom Antre as outras coussas que A mãdara fazer Sancha gíl.

(1328, Martins 2001)

(21) intregara ao portador desta a quantia de Sem mil reis em moeda papel e fixadas dentro de huma carta pois he para livramento de hum nosso companheiro q(eu) se acha prezo nessa Cadeia e cujo d(inhei)ro he p(ar)a sua soltura (CARDS0087 (1824), CLUL 2014)

Além disso, esse núcleo interno pode também ser modificado: em (22), o nome «casal», núcleo interno do sintagma nominal encabeçado por o qual, é modificado por «com suas perteenças»; em (23), «almocreve», núcleo interno do sintagma nominal encabeçado por cujo, é modificado por «dito». (22) o quall casal com suas perteenças disse que trazia ẽ pregã

(1472, Martins 2001)

(23) vindo de palmela para as virtudes ca por esta banda encontrei hum almocreve e o cujo dito almocreve trazia duas bestas dezocopadas (CARDS0002 (1827), CLUL 2014)

Outra propriedade identificada em Cardoso para o qual em contextos de coordenação especificante relaciona-se com o antecedente, que, ao contrário do que acontece com o qual do português europeu contemporâneo, pode ser oracional. Mesmo nesse caso, o núcleo interno é sempre nominal, como se verifica em (24). Com cujo ocorre uma situação idêntica, como se ilustra no exemplo (25), em que o antecedente oracional é recuperado sob a forma nominal «ouCazião». (24) os ditos cassaaes fforõ cõprados dos dinheiros do dito mosteiro polla quall Razom de derejto perteçem e perteçyam ao dito mosteiro (1437, Martins 2001)

(25) Paçado o emtrudo paçamos a Almada fazer a Correição, em cuja ouCazião hei de paçar a essa Ci(da)de (CARDS0292 (1827), CLUL 2014)

Também para ambas as expressões que aqui comparamos, o constituinte relativo pode ser extraposto. Veja-se os exemplos em (26) e (27).

186

Catarina Carvalheiro et al.

(26) — Senhor, chegou ally o allmocadẽ, e pareçe-me que diz que lhe he neçessario de vos fallar llogo amte que amanheça. O qual comde mamdou que viesse. (séc. XV, Brocardo 1997)

(27) intregara ao portador desta a quantia de Sem mil reis em moeda papel e fixadas dentro de huma carta pois he para livramento de hum nosso companheiro q(eu) se acha prezo nessa Cadeia e cujo d(inhei)ro he p(ar)a sua soltura (CARDS0087 (1824), CLUL 2014)

Ainda em ambos os casos, a força ilocutória da oração relativa pode ser independente da oração que inclui o antecedente. Assim, nas frases em (28) e (29), com o qual e cujo, respetivamente, a oração que contém o antecedente tem um objetivo diretivo e a força ilocutória de ‘instruções’, enquanto a oração relativa, mantendo-se diretiva, já tem a força ilocutória de ‘pedido’ (Searle 1975, 346). (28) Com o teor do qual mandei passar esta carta testemunhável ao dito Bento Henriques, à qual mando que seja dada tanta fé e autoridade, em juízo e fora dele, e onde quer que fôr apresentada, quanta por direito se lhe deve dar. O qual uns e outros assim cumpram e al não façais (1578, Pereira 1987)

(29) Fasme o favor de ajuntares a demasia q(u)e te pedi q(u)e são 240 o q(u)e te ficarei obrigado pois estou nesta ora sem hum vintem em casa cujo favor eu to agradecerei

(CARDS6069 (1828), CLUL 2014)

Finalmente, a palavra relativa pode, em ambos os casos, co-ocorrer com uma conjunção coordenativa.Vejam-se os exemplos (30) para o qual e (31) para cujo. (30) custumarõ dauer e ouuerom no dicto Monsteiro bõa raçom e mãtijmeto de pam aluo boroa. carne e vıho e o qual mãtijmeto os Priores [. . .] auiã e som theudos de dar ao dicto conueto (1364, Martins 2001)

(31) desta tua Molher e que munto te quer e a cucha te dezega para meu emparo de teos filhos

(CARDS5073 (1825), CLUL 2014)

Encontram-se ainda por atestar no Post Scriptum outras propriedades descritas por Cardoso, nomeadamente pied-piping de um Determiner Phrase (DP) (quando um sintagma nominal mais vasto é movido juntamente com a expressão relativa); um nome próprio como núcleo interno da expressão relativa; coordenação do pronome relativo com um grupo nominal; e um antecedente descontínuo. Procurar esta evidência é um dos objetivos do nosso trabalho futuro. Consideramos, no entanto, que a ausência de atestações para as propriedades acima listadas não inviabiliza a conclusão de que cujo não possessivo se apresenta no corpus como um caso de coordenação especificante, semelhante a o qual.

A idade dos «desvios»: diacronia, variação social e linguística de corpus

187

4.3 Evolução diacrónica A coordenação especificante com o qual vai desaparecendo da documentação escrita, embora no século XX ainda se encontre em «contextos literários ou registos de grande formalidade» (Veloso 2013, 2096; Brito 1991). Isto é diferente do que acontece com a coordenação especificante com cujo, que, por um lado, permanece ao longo dos séculos XVII, XVIII e XIX (como atestam os exemplos extraídos do Post Scriptum) e, por outro, surge, no século XX (a) condenado nas gramáticas normativas (Moreira 1907); (b) abonado na dialetologia do português europeu (Barreiros 1917) e na descrição de variedades não europeias de português (Brito 2001); e (c) consagrado no registo literário, como se viu no exemplo (16), aqui repetido em (32), a que agora juntamos um outro, em (33). (32) […] e foi a mulher quem salvou a situação oferecendo um copo de água à velhota e um anis ao senhor, cujo vestia um casaco de quarto agaloado, no fio, e calças creme compridas de mais […] (António Lobo Antunes, Fado Alexandrino, 1983) (33) Ali […] corre um rio, o Irati, que, nascido em França, vai desaguar no Erro, espanhol, por sua vez afluente do Aragón, o qual é tributário do Ebro, cujo finalmente levará e lançará no Mediterrâneo as águas de todos. (José Saramago, Jangada de Pedra, 1986)

5 Leísmo, laísmo, loísmo no espanhol: distribuição e algumas evidências12 Como caso concreto para o espanhol, escolhemos um problema bem conhecido da sintaxe hispânica: a variação no uso dos pronomes átonos da terceira pessoa. É sabido que esta variação permite estabelecer uma diferença entre os chamados usos canónicos ou etimológicos —formas de acusativo la(s), lo(s) para objeto direto (OD) e formas de dativo le(s) para objeto indireto (OI)— e os chamados usos inovadores ou confundidores, que não respeitam a função sintática do referente, dando lugar, assim, a fenómenos conhecidos como leísmo, laísmo e loísmo. Na presente secção, levaremos a cabo uma breve análise quantitativa baseada, sobretudo, em duas questões: 1) o grau de difusão dos usos inovadores e 2) sua distribuição geográfica no território peninsular espanhol. Para cumprimento deste

12 Para mais informação, consultar uma versão ampliada deste trabalho em Vaamonde (2015).

188

Catarina Carvalheiro et al.

pressuposto, alicerçámos a pesquisa num corpus de 784 cartas de 358 autores diferentes, o que equivale a um total de 4.460 ocorrências.

5.1 Graus de difusão A tabela que se segue permite verificar qual o panorama geral da variação dos pronomes em causa no nosso corpus. Nela encontramos a percentagem de uso de leísmo, laísmo e loísmo organizada por século. De notar que a coluna da direita dá conta da percentagem total de inovação.13 Tabela 2: Percentagem de leísmo, laísmo e loísmo leísmo

laísmo

loísmo

inovação total

séc. XVI

23

24

0

16

séc. XVII

26

14

1

16

séc. XVIII

27

42

2

22

séc. XIX

21

39

0

15

TOTAL

25

34

1

18

Os dados obtidos permitem que teçamos algumas reflexões de ordem geral. Em primeiro lugar, mostramos que tanto o leísmo quanto o laísmo apresentam uma frequência muito maior do que o loísmo, que se revela, definitivamente, como um fenómeno residual. Na literatura (Lapesa 1968, 305; Fernández-Ordóñez 1999, 1320), tem-se considerado recorrentemente o loísmo como uma confusão pronominal de baixa frequência, indo os dados do nosso corpus ao encontro de tal assunção. Em segundo lugar, importa notar que as percentagens totais de inovação não totalizam 25 % em nenhum dos períodos, o que demonstra um claro predomínio

13 A percentagem de leísmo foi calculada contabilizando o número de formas le(s) com função de OD no total de clíticos com função de OD (foram, portanto, descartados os casos de lo com referente neutro, dado que não entram em competição com nenhuma outra forma pronominal em espanhol). Chegou-se à percentagem de laísmo calculando o número de formas la(s) em função de OI no total de clíticos com referente feminino em função de OI. Por último, chegou-se à percentagem de loísmo contabilizando o número de formas lo(s) em função de OI no total de clíticos com referente masculino ou neutro em função de OI. As frequências absolutas correspondentes podem ser consultadas no Apêndice 1, no final do artigo.

A idade dos «desvios»: diacronia, variação social e linguística de corpus

189

das distinções canónicas no emprego dos clíticos. Contudo, a percentagem de inovação com que trabalhamos (18 %) é bastante relevante se a cotejarmos com outros estudos diacrónicos baseados em corpora. A título de exemplo, Flores Cervantes (2006), num corpus predominantemente literário do século XII ao XIX, obtém uma percentagem total de inovação de 12 %. Assumindo que qualquer tipo de comparação está circunscrita, em última instância, à língua escrita, parece viável reconhecer diferenças de ocorrência significativas entre o corpus de Flores Cervantes, de marcado caráter literário, e o corpus por nós analisado, composto por cartas privadas de caráter informal. O uso dos pronomes constitui um marcador sociolinguístico, de tal forma que certas manifestações inovadoras —de laísmo e loísmo— estão associadas, desde há muito, a variedades não standard da língua. É por conseguinte plausível que o estilo familiar e popular das cartas do Post Scriptum possa favorecer —ao contrário do que ocorre na produção literária— a manifestação de traços vernáculos, entre os quais se incluem os usos inovadores dos clíticos. Por fim, parece-nos interessante ressaltar que a ocorrência de usos laístas se mantém presente nos nossos dados do séc. XIX, atingindo 39 %. De notar que a norma académica tinha encetado nos finais do séc. XVIII uma atitude de censura para com os usos confundidores, que não distinguem caso, o que se traduziu numa progressiva regressão do seu emprego na variedade culta da língua. Tal condicionante levou alguns autores a considerar os textos escritos depois dessa época uma fonte ilegítima de dados para o estudo da variação pronominal (Fernández-Ordóñez 1993, 70; 1999, 1322). Claramente, esta condicionante não se aplica ao nosso corpus, cujos textos foram escritos, na sua maioria, por pessoas pertencentes a classes populares, muitas das quais semiletradas. Não estamos, pois, perante uma documentação que reflita uma aproximação progressiva à variedade padrão. A percentagem de 39 % de usos laístas do séc. XIX sugere, em nosso entender, a pouca ou nula influência que as decisões académicas poderiam exercer sobre as variedade linguísticas mais espontâneas dos autores destas cartas.

5.2 Distribuição geográfica A análise dialetal sobre dados contemporâneos revelou a delimitação clara de, pelo menos, duas áreas territoriais no que ao emprego dos pronomes átonos diz respeito: uma zona «distinguidora» (ZD) de caso e uma zona «confundidora» (ZC) (Klein-Andreu 1981, Fernández-Ordóñez 1994). Esta última abarcaria, aproximadamente, a parte ocidental e central de Castela, do sul da Cordilheira Cantábrica a La Mancha, e afetaria, pelo menos, as províncias de Ávila,

190

Catarina Carvalheiro et al.

Burgos, Cáceres, Madrid, Palência, Salamanca, Segóvia, Sória, Toledo e Valladolid.14 Para o corpus espanhol do Post Scriptum, foi-nos possível averiguar a origem geográfica de 270 autores (75 % do total utilizado para este trabalho), tomando sempre a província como indicador de referência.15 Os autores procedentes de alguma das províncias citadas foram catalogados dentro da ZC; já os restantes se catalogaram na ZD. Centrámo-nos, assim, em três fenómenos da variação pronominal, exclusivos da ZC: o leísmo inanimado, o laísmo e o loísmo. A tabela 3 mostra que dados nos forneceu o nosso corpus em termos de número de ocorrências. Tabela 3: Distribuição geográfica de leísmo inanimado, laísmo e loísmo Área

leísmo (inan.)

%

laísmo

%

loísmo

%

16

15

14

19

11

0

0

ZD

26

25

15

9

4

29

ZC

63

61

136

80

10

71

104

100

170

100

14

100

NA

Total

Esperando expandir as nossas contagens, os dados, para já, apontam para uma correlação entre estes três usos inovadores e a atual ZC, pois é dentro dos limites desta que se registam as maiores percentagens. A confirmação de tal tendência, que parece clara no caso do laísmo, poderá indicar um cenário dialetal de variação muito semelhante ao que se conhece na atualidade, podendo sugerir que a difusão da confusão pronominal terá tido início anteriormente à época moderna. Esta coincidência de isoglossas torna-se ainda mais evidente se atentarmos nos territórios em que nos deparámos com ocorrências de usos inovadores. Nos mapas que abaixo apresentamos, surgem destacadas, à esquerda, as províncias em relação às quais se registou um ou mais autores exemplificando o fenómeno em causa. Para minimizar a possibilidade de falsos positivos (i.e. erros de leitura de manuscrito ou procedências geográficas duvidosas), foram incluídos os mapas

14 Os trabalhos de Fernández-Ordóñez (1994, 1999) demonstram um panorama dialetal mais complexo, que inclui variantes dentro da ZC e diversas áreas de transição. 15 Estamos conscientes de que assumir um nível provincial leva à perda de granularidade na análise, porque as fronteiras geográficas e as isoglossas linguísticas raramente coincidem. No entanto, esta estratégia permite-nos trabalhar com um conjunto fechado de opções sem perder excessivo rigor geográfico. 16 NA = não aplicável, por desconhecimento da procedência geográfica.

A idade dos «desvios»: diacronia, variação social e linguística de corpus

191

da direita, os quais destacam unicamente as províncias com, pelo menos, dois autores diferentes como informantes do fenómeno em questão. Aproveitamos para incluir alguns exemplos:

Figura 1: Províncias com autores leístas (apenas leísmo de coisa)

(34) a. quando te se antojo la cosa de regalo y te le trajeron y no le quisiste sino que se le ynbiaste a la enferma hiciste lo que Dabid con el agua. (PS7091 (1689) autor de Cuenca; CLUL 2014) b. el cilicio nada incomoda a vezes pero al contado le pondre de modo que no ofenda si se me permite. (PS8083 (1799) autor de Guadalajara; CLUL 2014)

Figura 2: Províncias com autores laístas

192

Catarina Carvalheiro et al.

(35) a. Mi muger repite lo mismo q(u)e yo, y q(u)e manda a V(uestra) m(erce)d q(u)e la dijo q(u)e era su verdadera amiga. (PS9031 (1810) autor de Valladolid; CLUL 2014) b. y estava guisando unas anguilas y gustandolas savianla bien y bolbio a probar y sintio una pressenzia bellisima que la dezia que siempre a de ser golossa y galamera. (PS6150 (1706) autor de Madrid; CLUL 2014)

Figura 3: Províncias com autores loístas (36) a. y aran lo q(ue) quissieren, pues yo solo vine a salir de con ellos. y aun de esta suerte no nos an de dejar. Dios los abra los ojos, q(ue) vien lo an Menester. (PS6155 (1706) autor de Madrid; CLUL 2014) b. i al istante que esta cantidad se de io en persona me vere con ustedes u los escrivire un papel avisandolos lo que an de açer. (PS5019 (1684) autor de Toledo; CLUL 2014)

O Post Scriptum não permite aprofundar quais as origens da confusão pronominal, uma vez que estão documentados casos de leísmo e de loísmo em textos do séc. XIII e de laísmo, em termos fidedignos, desde o séc. XIV (Lapesa 1968; Echenique Elizondo 1981). Não obstante, revela-se muito importante para verificar outros aspetos que dizem respeito à variação. Por um lado, o marco temporal dentro do qual trabalhámos inclui períodos de franco apogeu dos usos inovadores dos pronomes (Matute Martínez 2004, 26) e novos dados sobre a sua difusão e alcance. Por outro lado, temos em mãos informação sobre a procedência geográfica de múltiplos autores, o que nos permitiu desenhar um mapa dialetal da variação numa época não contemporânea. Nesta incursão, necessariamente breve, propusemo-nos explorar esses dados, cumprindo o objetivo de facultar novas evidências sobre o leísmo, laísmo e loísmo, as quais tentaremos confirmar no futuro a partir de um conjunto de dados mais alargado.

A idade dos «desvios»: diacronia, variação social e linguística de corpus

193

6 Conclusão Terminamos com uma nota sobre o conjunto dos três fenómenos que aqui comentámos, a saber, o marcador discursivo POIS do português e duas estruturas anafóricas, o CUJO em português e os clíticos verbais de terceira pessoa em espanhol, LE(S), LO(S), LA(S). A razão pela qual os três captaram a nossa atenção logo nas primeiras análises teve a ver com o facto que aqui salientámos: apesar de continuarem vivos nas duas línguas, todos se distanciam do que se pode considerar usual nas suas variedades cultas. Mas não podemos deixar de notar, também, que todos três são mecanismos de coesão textual, o que não é certamente um acaso. Os dados das cartas do Post Scriptum contêm advérbios e pronomes desafiantes para os linguistas, mas organizam-se também, sobretudo, em enunciados cuja coesão, logo, coerência, foi instrumental para os autores que os produziram. Um dos nossos próximos desafios é o de conciliarmos análises gramaticais com análises discursivas, e assim contribuirmos para uma futura história das duas línguas na perspetiva dos seus falantes vulgares.

7 Referências Barreiros, Fernando Braga, Vocabulário Barrosão, Revista Lusitana 20:1–2 (1917), 137–161. Bikel, Daniel, On the Parameter Space of Generative Lexicalized Statistical Parsing Models, PhD Dissertation, University of Pennsylvania, 2004. Brito, Ana Maria, A Sintaxe das Orações Relativas em Português, Porto, INIC & CLUP, 1991. Brito, Ana Maria, Relativas de genitivo no Português Europeu e no Português de Moçambique, in: Gonçalves, Anabela/Correia, Clara Nunes (edd.), Actas do XVI Encontro Nacional da APL, Lisboa, Colibri/APL, 2001, 115–129. Brito, Ana Maria, Subordinação adverbial, in: Mira Mateus, Maria Helena, et al. (edd.), Gramática da Língua Portuguesa, Lisboa, Caminho, 2003, 695–728. Camarinhas, Nuno, Juízes e administração da justiça no antigo regime: Portugal e o império colonial, séculos XVII e XVIII, [Lisboa], Fundação Calouste Gulbenkian & Fundação para a Ciência e a Tecnologia, 2010. Cardoso, Adriana, Relativas com núcleo interno e relativo de ligação na história do português, in: Frota, Sónia/Santos, Ana Lúcia (edd.), Actas do XXIII Encontro Nacional da Associação Portuguesa de Linguística [Évora, 2007], Lisboa, Colibri/APL, 2008, 77–92. Cardoso, Adriana, Variation and change in the syntax of relative clauses: new evidence from Portuguese. Tese de Doutoramento, FLUL, 2010. Cardoso, Adriana, Orações apositivas em português: entre a sincronia e a diacronia, Estudos de Lingüística Galega 3 (2011), 5–29. Carvalho, Joaquim Ramos de, A jurisdição episcopal sobre leigos em matéria de pecados públicos: as visitas pastorais e o comportamento moral das populações portuguesas de Antigo Regime, Revista Portuguesa de História 24 (1988), 121–163.

194

Catarina Carvalheiro et al.

Castro, Ivo, Metodologia do aparato genético, in: Simões, Manuel/Castro, Ivo/Pinto Correia, João David (edd.), Memória dos afectos: homenagem a Giuseppe Tavani, Lisboa, Colibri, 2001, 69–81. CLUL (ed.), P.S. Post Scriptum: A Digital Archive of Ordinary Writing (Early Modern Portugal and Spain), 2014. Disponível em: http://ps.clul.ul.pt/index.php?action=home. Collins, Michael, Head-Driven Statistical Models for Natural Language Processing, PhD Dissertation, University of Pennsylvania, 1999. Costa, Ana Luísa, Um Pois Comentador, in: Veloso, João, et al. (edd.), Textos selecionados. XXIX Encontro Nacional da Associação Portuguesa de Linguística, Porto, APL, 2014, 199–211. Cunha, Celso/Cintra, Lindley (edd.), Nova Gramática do Português Contemporâneo, Lisboa, Edições João Sá da Costa, 1984. Echenique Elizondo, María Teresa, El sistema referencial en español antiguo, Revista de Filología Española 61 (1981), 113–157. Fernández-Ordóñez, Inés, Leísmo, laísmo y loísmo: estado de la cuestión, in: Soriano, Olga Fernández (ed.), Los pronombres átonos, Madrid, Taurus, 1993, 63–96. Fernández-Ordóñez, Inés, Isoglosas internas del castellano. El sistema referencial del pronombre átono de tercera persona, Revista de Filología Española 74 (1994), 71–125. Fernández-Ordóñez, Inés, Leísmo, laísmo y loísmo, in: Bosque, Ignacio/Demonte, Violeta (edd.), Gramática descriptiva de la lengua española, Madrid, Espasa Calpe, 1999, 1317–1397. Fiéis, Alexandra/Lobo, Maria, Para uma diacronia das orações causais e explicativas do português, in: Fiéis, Alexandra/Coutinho, Antónia (edd.), Textos seleccionados. XXIV Encontro Nacional da Associação Portuguesa de Linguística, Lisboa, Colibri/APL, 2009, 265–280. Flores Cervantes, Marcela, Leísmo, laísmo y loísmo, in: Company Company, Concepción (ed.), Sintaxis histórica de la lengua española. Primera parte: La frase verbal, vol. 1, México, Fondo de Cultura Económica, 2006, 669–749. Fraser, Bruce, What are discourse markers?, Journal of Pragmatics 31 (1999), 931–952. Grésillon, Almuth, Élements de critique génétique, Paris, PUF, 1994. Hespanha, António Manuel, Cultura Jurídica Europeia: Síntese de um Milénio, 2.ª ed., Mem Martins, Publicações Europa-América, 2003. Klein-Andreu, Flora, Distintos sistemas de empleo de le, la, lo. Perspectiva sincrónica, diacrónica y sociolingüística, Thesaurus: boletín del Instituto Caro y Cuervo 36:2 (1981), 284–304. Kroch, Anthony/Santorini, Beatrice/Delfs, Lauren, The Penn-Helsinki parsed corpus of Early Modern English (PPCEME), Department of Linguistics, University of Pennsylvania, CD-ROM, first edition, 2004. Lapesa, Rafael, Sobre los orígenes y evolución del leísmo, laísmo y loísmo, in: K. Baldinger (ed.), Festschrift Walther von Wartburg, Tubinga, Max Niemeyer, 1968, 523–551. Lima, José Pinto de, Grammaticalization, subjectification and the origin of phatic markers, in: Wischer, Ilse/Diewald, Gabriele (edd.), New Reflections on grammaticalization, Amsterdam, John Benjamins, 2002. Lobo, Maria, Para uma sintaxe das orações causais do português, in: Actas do XVI Encontro Nacional da Associação Portuguesa de Linguística, Lisboa, APL/Colibri, 2001, 291–306. Lobo, Maria, Subordinação Adverbial, in: Raposo, Eduardo Buzaglo Paiva/Bacelar do Nascimento, Maria Fernanda/Mota, Maria Antónia Coelho da/Segura, Luísa/Mendes, Amália (coords.), Gramática do Português, Lisboa, Fundação Calouste Gulbenkian, 2013.

A idade dos «desvios»: diacronia, variação social e linguística de corpus

195

Lopes, Óscar, Da partícula pois ao conceito de apodeixis, in: Actas do VII Encontro da Associação Portuguesa de Linguística, Lisboa, Colibri/APL, 1991, 179–192. Maia, Clarinda de Azevedo, História do Galego-Português, Coimbra, INIC, 1986, 19–295. Marquilhas, Rita (ed.), Forgotten Letters Years 1900–1974, 2014. Disponível em: http://fly.clul.ul. pt/index.php?page=mainen. Martín Zorraquino, María Antonia/Portolés Lázaro, José, Los marcadores del discurso, in: Bosque, Ignacio/Demonte, Violeta (edd.), Gramática Descriptiva de la Lengua Española, vol. 3. Entre la oración y el discurso. Morfología, Madrid, Espasa, 1999, 4051–4213. Martins, Ana Maria, Documentos Portugueses do Noroeste e da Região de Lisboa: Da Produção Primitiva ao Século XVI, Lisboa, Imprensa Nacional – Casa da Moeda, 2001. Martins, Ana Maria, Relatório da cadeira de História da Língua Portuguesa, apresentado a concurso para Professor Associado, FLUL, 2003. Matos, Gabriela/Raposo, Eduardo Paiva, Estruturas de coordenação, in: Raposo, Eduardo Buzaglo Paiva/Bacelar do Nascimento, Maria Fernanda/Mota, Maria Antónia Coelho da/Segura, Luísa/Mendes, Amália (coords.), Gramática do Português, Lisboa, Fundação Calouste Gulbenkian, 2013. Matute Martínez, Carmen, Los sistemas pronominales en español antiguo. Problemas y métodos para una reconstrucción histórica, Madrid, Universidad Autónoma, 2004. Mendes, Amália, Coesão Textual, in: Raposo, Eduardo Buzaglo Paiva/Bacelar do Nascimento, Maria Fernanda/Mota, Maria Antónia Coelho da/Segura, Luísa/Mendes, Amália (coords.), Gramática do Português, Lisboa, Fundação Calouste Gulbenkian, 2013. Moreira, Julio, Estudos de Lingua Portuguesa, Lisboa, Livraria Clássica Editora, 1907 (2.ª ed., 1922). Nevalainen, Terttu, Historical Sociolinguistics, in: Wodak, Ruth/Johnstone, Barbara/Kerswill, Paul (edd.), The SAGE Handbook of Sociolinguistics, Los Angeles, SAGE, 2011, 279–95. Peres, João, Sobre conexões proposicionais em Português, in: Maria Brito, Ana, et al. (edd.), O Sentido que a vida faz. Estudos para Óscar Lopes, Porto, Campo das Letras, 1997, 775–787. Pierazzo, Elena, A rationale of digital documentary editions, Literary and linguistic computing 26:4 (2011), 463–77. Randall, Beth, CorpusSearch 2, 2005–2007. Raposo, Eduardo Buzaglo Paiva, Pronomes, in: Raposo, Eduardo Buzaglo Paiva/Bacelar do Nascimento, Maria Fernanda/Mota, Maria Antónia Coelho da/Segura, Luísa/Mendes, Amália (coords.), Gramática do Português, Lisboa, Fundação Calouste Gulbenkian, 2013, 881–918. Searle, John R., A Taxonomy of Illocutionary Acts, in: Gunderson, Keith (ed.), Language, Mind and Knowledge. Minnesota Studies in the Philosophy of Science, Minneapolis, University of Minnesota Press, 1975, 344–369. Vaamonde, Gael, Distribución de leísmo, laísmo y loísmo en un corpus diacrónico epistolar, Res Diachronicae 61 (2015), 58–79. Veloso, Rita, Subordinação Relativa, in: Raposo, Eduardo Buzaglo Paiva/Bacelar do Nascimento, Maria Fernanda/Mota, Maria Antónia Coelho da/Segura, Luísa/Mendes, Amália (coords.), Gramática do Português, Lisboa, Fundação Calouste Gulbenkian, 2013, 2059–2134. Vries, Mark de, The Syntax of Relativization, Utrecht, LOT, 2002.

196

Catarina Carvalheiro et al.

1 Apêndice Apêndice 1: Frequências absolutas e relativas de leísmo, laísmo e loísmo leísmo

%

séc. XVI

80

(354)

23

séc. XVII

170

(665)

séc. XVIII

292 (1073)

séc. XIX TOTAL

94

laísmo

loísmo

%

(38)

24

0

(157)

0

26

15 (110)

14

4

(435)

27

128 (308)

42

10

(46)

39

0

170 (502)

34

(443)

21

636 (2535)

25

9

%

18

inov. total 89

%

(549)

16

1

189 (1210)

16

(579)

2

430 (1960)

22

(252)

0

112

(741)

15

14 (1423)

1

820 (4460)

18

Guillermo Rojo

Citius, maius, melius: del CREA al CORPES XXI 1 Introducción En 1995, la Real Academia Española tomó la decisión de acometer la construcción del Corpus de referencia del español actual (CREA) para lograr así mayor amplitud y seguridad en los materiales utilizados en la confección de su diccionario. Vistos los primeros resultados obtenidos, se decidió ampliar el banco de datos que comenzaba a formarse para incorporar también el español de períodos anteriores y, de acuerdo con los mismos objetivos generales, construir el Corpus diacrónico del español con el fin de disponer de materiales mejores y mucho más voluminosos para la redacción del Diccionario histórico del español. Las primeras versiones de ambos corpus fueron publicadas en 1998 y ampliadas y mejoradas hasta la finalización de ambos proyectos en 2008. A lo largo de todos esos años y hasta la actualidad, la RAE y todas las Academias que forman con ella la Asociación de Academias de la lengua española (ASALE) han basado en el CREA y el CORDE todas las obras que han ido publicando. Pero el impacto de estos dos corpus ha sido considerablemente mayor, puesto que han supuesto una modificación radical también en los modos de trabajo de cuantos se dedican a la investigación de la lengua española. Aunque siguen siendo útiles, tanto el CREA como el CORDE tienen un diseño que, dado que fueron concebidos hace casi veinte años, no resulta congruente con las prácticas actuales, un tamaño insuficiente para buena parte de las necesidades que se plantean en la investigación y una aplicación de búsqueda rica y flexible, pero un tanto envejecida. Como consecuencia de todo ello, las Academias de ASALE decidieron, en 2007, acometer la creación del Corpus del español del siglo XXI y encargar su realización a la Real Academia Española. La primera versión beta del CORPES se presentó en el Congreso internacional de la lengua española (CILE) celebrado en Panamá en noviembre de 2013 y se publicó como versión 0.6. en diciembre de ese mismo año. En abril de 2015 se publicó la versión 0.8. del CORPES, que acaba de entrar en su segunda fase, cuya finalización está prevista en diciembre de 2018. El propósito de este trabajo es analizar las novedades que supone el CORPES en la lingüística española por un lado y en la lingüística de corpus por otro. Para Guillermo Rojo: Real Academia Española – Universidade de Santiago de Compostela

198

Guillermo Rojo

ello, en el apartado 2 se analizan las características de sus antecedentes (fundamentalmente el CREA), enmarcados en el contexto de la época, y también algunas cuestiones generales referidas al lugar que ocupan los corpus de referencia en la lingüística de corpus actual. El apartado 3 se centra en las características que tiene el CORPES, con especial atención a lo que supone novedad con respecto al CREA y el CORDE y también a otros corpus de español.

2 Antecedentes inmediatos: el CREA y el CORDE Como es sobradamente conocido, en 1995 la Real Academia Española tomó la decisión de emprender la construcción de un banco de datos electrónico del español contemporáneo, el Corpus de referencia del español actual (CREA). La intención básica del proyecto era proporcionar a la RAE y a todas las demás integrantes de la Asociación de Academias de la lengua española (ASALE) un recurso gracias al cual fuera posible documentar con mayor seguridad los usos lingüísticos reales y, como consecuencia de ello, basar mejor las decisiones de carácter normativo que estas instituciones han de adoptar continuamente. Pero desde el principio quedó claro que se trataba de construir un banco de datos al que pudieran acceder y del que pudieran beneficiarse también todas las personas interesadas en el conocimiento de las características del español actual, con finalidades investigadoras (no solo en lingüística), de aplicación a la producción de materiales de diferentes tipos, documentación, etc. Vistos los primeros resultados, muy pocos meses después la Academia decidió crear otro corpus textual, el Corpus diacrónico del español (CORDE), cuya finalidad era reunir en formato electrónico una gran cantidad de textos en español correspondientes al período comprendido entre los orígenes de la lengua y el punto de arranque del CREA. El proyecto fue desarrollado conjuntamente a un ritmo bastante alto gracias a la financiación parcial del Ministerio de Educación en los primeros años de trabajo. Ambos corpus, pues, constituyen en realidad un proyecto único que se escinde en dos subproyectos en atención a las características básicas de los que se consideraban sus ámbitos de trabajo principales: el CREA iba a ser la fuente básica de datos para el español contemporáneo y el CORDE serviría fundamentalmente para los estudios de carácter diacrónico. En su diseño inicial, el CREA comprendía textos de los más diversos tipos y géneros, con un 10 % del total formado por transcripciones de textos orales, procedentes de todos los países hispánicos y con una distribución general que asignaba el 50 % a textos producidos en España y el otro 50 % a textos producidos en América. Tendría un volumen total de 125 millones de formas correspondientes a los 25 años comprendidos entre 1975 y 1999. Se estructuraba en cinco quinquenios, a cada uno de los

Citius, maius, melius: del CREA al CORPES XXI

199

cuales correspondía un porcentaje que, siguiendo una línea muy utilizada en aquel momento, iba aumentando desde los más antiguos a los más modernos (10 %, 15 %, 20 %, 25 % y 30 %, respectivamente). Por su parte, el CORDE fue proyectado para reunir trescientos millones de formas procedentes de los más variados tipos y géneros, de todos los países hispánicos (incluida Filipinas) desde los orígenes de la lengua hasta 1974. Los treinta años transcurridos desde la aparición del Brown Corpus hasta el arranque del proyecto de la RAE pueden hacer pensar que la decisión fue tomada con un retraso notable con respecto a la marcha general de la lingüística de corpus (LC). La distancia temporal es innegable, pero hay que tener en cuenta que durante esos años no se habían producido muchos corpus textuales y, por supuesto, muy pocos con el alcance y el volumen que tienen el CREA y el CORDE. Aunque la visión dominante de la historia de la LC se refiere sistemáticamente a un período inicial muy difícil, en un contexto hostil dominado por la pujante y novedosa orientación chomskyana, lo cierto es que esa caracterización es válida solo para los Estados Unidos, mientras que en países como Inglaterra, Noruega, Suecia y, en menor medida, Francia, Alemania o Italia la LC tuvo en esa época un desarrollo creciente y progresivo desde sus arranques respectivos.1 En 1995, el momento en que la Academia decide emprender la construcción de CREA y CORDE, las referencias fundamentales están en el inglés, lengua en la que al corpus conocido como Lancaster-Oslo-Bergen (LOB) y el COBUILD han seguido otros y, sobre todo, el British National Corpus (BNC), constituido por cien millones de formas y que es, sin duda, el modelo en el que basamos las características del CREA. En el ámbito hispánico, dejando a un lado los que podemos considerar proyectos de transición,2 en la época inmediatamente anterior a la planificación de CREA y CORDE pueden encontrarse corpus insertos en cinco bloques diferentes. En primer lugar, los de tamaño pequeño (incluso para los estándares de la época), como el corpus de Lovaina o las dos entregas de ENTRE-

1 Tienen gran importancia en esta fase los corpus construidos para uso en proyectos lexicográficos. Son, en general, proyectos de alto coste económico y también organizativo, que implican un cambio en la práctica lexicográfica que tardará algún tiempo en consolidarse y emprender el camino que lleva a la situación actual. Para detalles, vid. Rundell (2012, 18). 2 Es la denominación que empleo en Rojo (2015) para los que se sitúan en las cercanías de la LC, pero sin llegar a emplear recursos electrónicos, como el Proyecto de estudio coordinado de la norma lingüística culta, y los que suponen la preparación de textos ya en formato electrónico, pero sin llegar a constituir un corpus en sentido estricto, como los materiales reunidos en el Hispanic Seminar of Medieval Studies para la redacción del Dictionary of Old Spanish Language, los textos periodísticos informatizados en la Universidad de Göteborg o las obras de teatro informatizadas por Hiroto Ueda. Vid. Rojo (2015, apdo. 2) para detalles sobre estos proyectos y las referencias bibliográficas correspondientes.

200

Guillermo Rojo

VIS. El segundo bloque es el constituido por los que se construyen, siguiendo el modelo del COBUILD, para servir a propósitos lexicográficos, como el Vox-Biblograf, el CUMBRE o el Corpus del español mexicano contemporáneo (CEMC). El tercer grupo está constituido por corpus de tamaño pequeño que se desarrollan en el marco de proyectos europeos, como CRATER, NERC o PAROLE. El cuarto bloque lo forman varios corpus de carácter general y volumen reducido, como los dirigidos por Francisco Marcos Marín en diversas acciones patrocinadas por la Sociedad Estatal del Quinto Centenario3 o el corpus LEXESP. Por fin, en la dimensión diacrónica, hay que mencionar el proyecto ADMYTE, cuyos responsables son Francisco Marcos Marín, Charles Faulhaber, Ángel Gómez Moreno y Antonio Cortijo Ocaña.4 El retraso con que partieron los corpus de la RAE tuvo algunos efectos beneficiosos. En primer lugar, la evolución de las computadoras, con el enorme incremento de capacidad y velocidad experimentado en aquellos años, hacía posible pensar en emprender la confección de corpus de cientos de millones de formas, siguiendo y superando el modelo establecido por el BNC. Al tiempo, los procedimientos utilizables para la digitalización de textos habían avanzado considerablemente, de modo que la posibilidad de usar escáneres y programas de reconocimiento óptico de caracteres aliviaba mucho el penoso trabajo de conversión de texto impreso en texto electrónico.5 Por otra parte, el desarrollo de la Text Encoding Initiative (TEI) establecía un modelo y un estándar de codificación adaptable de forma no excesivamente complicada a cualquier proyecto de corpus. La conjunción de estos tres factores (mayor capacidad y velocidad, facilidad en la digitalización y sistema estándar de codificación en SGML) produjo un cambio enorme en la propia concepción de los corpus, que dejaron de ser conjuntos consultables solo de forma integral, con lo que ello supone para la representatividad de los materiales incluidos y su equilibrio, y pasaron a constituir complejos textuales en los que era posible construir, de forma dinámica, subcorpus virtuales configurados mediante la selección de diferentes valores en los parámetros de construcción (soporte, tipo de texto, año, características socio-

3 Son el Corpus de referencia de la lengua española contemporánea, el Corpus lingüístico de referencia de la lengua española en Argentina y el Corpus lingüístico de referencia de la lengua española en Chile. 4 Para detalles sobre todos estos y algunos otros proyectos y las referencias bibliográficas pertinentes, vid. Rojo (2015, apdo. 3). 5 Salvo en los textos de prensa, con los que el trabajo de conversión a formato electrónico seguía presentando muchas dificultades. Curiosamente, la situación dio un giro radical con la generalización de la prensa digital. Cf. Rojo/Sánchez (2010, cap. 4). para una perspectiva panorámica de la evolución experimentada.

Citius, maius, melius: del CREA al CORPES XXI

201

lingüísticas, país, etc.). Por último, el desarrollo de Internet, aunque todavía muy reducido en aquel momento, permitía ya pensar directamente en un modelo cliente-servidor que hiciera posible la consulta cómoda y sencilla de los corpus desde cualquier parte del mundo, con cualquier máquina, cualquier sistema operativo y cualquier navegador. El CREA y el CORDE surgieron, pues, en un contexto favorable a la creación de corpus de referencia y encajaban perfectamente en los estándares del momento en cuanto a tamaño, codificación, estructuración y sistema de recuperación de datos. Además, presentaban algunas características adicionales de especial interés. El CORDE fue proyectado con un tamaño (300 millones de formas) difícilmente alcanzable por un corpus de carácter diacrónico.6 El CREA tenía un diseño que lo situaba a caballo entre los corpus cerrados (al estilo del BNC), que se terminan cuando alcanzan el tamaño previsto, y los abiertos, que añaden textos de forma continua, con los efectos fácilmente imaginables sobre la estabilidad de los resultados obtenidos en las consultas. Fue proyectado en realidad como el corpus textual de los últimos veinticinco años de historia del español, de modo que al período abarcado en su configuración inicial (1975–1999) se irían añadiendo luego quinquenios posteriores (2000–2004, 2005–2009, etc.). La entrada de cada quinquenio nuevo supondría la retirada del más antiguo, para mantener así siempre un tramo general de veinticinco años. Y, dado que ambos corpus constituían un proyecto conjunto, el tramo retirado del CREA se integraría en el CORDE, que iría de este modo ampliando su período de actuación. Por esa razón, los ficheros del CREA llevan en su cabecera los rasgos clasificatorios que les corresponderían en el CORDE cuando se produjera su integración en este corpus. El diseño tenía un punto débil: el hecho de que los diferentes lustros integrados en el CREA tuvieran porcentajes diferentes sobre el total hacía que la operación de reajuste resultara especialmente complicada: con el paso al CORDE del tramo 1975–1979, el tramo siguiente (1980–1984) debería perder los textos necesarios (y hacerlo de forma congruente con el diseño general para mantener el equilibrio), dejar de suponer el 15 % del total y pasar a ser únicamente el 10 %. Como es lógico, habría que aplicar una operación equivalente sobre los demás tramos. Además de la enorme complejidad de una remodelación de este tipo, los textos retirados para ajustar los porcentajes no podrían pasar todavía a formar parte del CORDE, que no habría llegado a esos años. En consecuencia,

6 La excepción más notable es, sin duda, el Corpus of Historical American English (COHA), construido por Mark Davies, que contiene unos cuatrocientos millones de formas procedentes de textos editados entre 1810 y 2009.

202

Guillermo Rojo

ese ajuste no se produjo nunca y el CREA amplió su ámbito al período 2000– 2004 con un tamaño similar al del inmediatamente anterior (unos 37,5 millones de formas), con lo que, cuando se cerró en 2008, el CREA había llegado a tener en torno a 160 millones de formas, las mismas que pueden ser consultadas en la actualidad.7 La publicación, a partir de 1998, de varias versiones provisionales del CREA y el CORDE dio lugar a un fuerte cambio en la metodología aplicada por las Academias de la lengua española en la preparación de las obras publicadas desde ese momento,8 así como en los recursos disponibles para los investigadores del español de todas las épocas y variedades. Desde su cierre, en 2008, ambos corpus han permitido mejorar considerablemente nuestros conocimientos sobre el español.9 Pero, a pesar de su importancia y utilidad, es evidente que estos corpus son el resultado de un proyecto que tiene ya más de veinte años de antigüedad, con lo que ello supone, en una disciplina de desarrollo tan acelerado como la LC, para el diseño, los procesos intermedios y la recuperación de datos. El CREA, por ejemplo, posee una enorme flexibilidad para la creación de subcorpus virtuales y la consiguiente recuperación selectiva de datos, pero la versión pública no está lematizada y la aplicación de consulta presenta inconvenientes en recuperaciones de cierta complejidad. En efecto, a lo largo de todos estos años se han producido importantes modificaciones en el proceso de diseño, construcción y explotación de corpus que hacían necesario el replanteamiento de las características que deben tener los corpus de referencia del estilo del CREA y el CORDE. En términos generales, este tipo de corpus se sitúa actualmente en una zona comprendida entre dos tendencias muy diferentes entre sí. En un extremo, los corpus pequeños (unos pocos millones de formas) que suponen una edición muy cuidada y sometida a unos principios únicos de los textos que los componen. Frente a la dependencia que tienen los textos que integran el CORDE con respecto a los diferentes criterios utilizados en las ediciones integradas en él, las que componen proyec-

7 En el proceso de organización de los materiales para el Nuevo diccionario histórico del español, la mayor parte de los textos que componen el CORDE y el CREA han sido integrados en el Corpus del NDHE (CDH). 8 En efecto, todas las obras publicadas por las Academias desde 1998 (las ediciones vigésima segunda (2001) y vigésima tercera (2014) del DRAE, el Diccionario Panhispánico de Dudas (2005), el Diccionario del Estudiante (2005 y 2011), el Diccionario Esencial de la lengua española (2006), la Nueva gramática de la lengua española (2009) y la Ortografía de la lengua española (2010)) se han beneficiado de los datos contenidos en el CORDE y, sobre todo, el CREA. 9 En febrero de 2015, el CREA recibió casi 100.000 consultas. El CORDE, algo menos de la mitad.

Citius, maius, melius: del CREA al CORPES XXI

203

tos como CODEA, Biblia medieval o CORDIAM10 tienen unas directrices muy marcadas y todos los textos responden estrictamente a ellas. Son, además, textos transcritos específicamente para los proyectos respectivos y pueden integrar diferentes presentaciones del mismo «texto» (por ejemplo, una edición paleográfica al lado de una edición crítica y la imagen del manuscrito). Como es lógico, ese cuidado exquisito tiene como contrapartida el limitadísimo tamaño que se puede conseguir y también la habitual restricción a un cierto tipo de textos. Estos corpus son «small and tidy», para usar la expresión utilizada por Mair (2006). Al otro lado, el constituido por los que resultan «big and messy» y que pueden tener el Bank of English como su modelo inicial, se encuentran actualmente los que resultan de la tendencia conocida como 'Web as Corpus', que produce conjuntos obtenidos de modo oportunista a partir de lo que se encuentra ya en la red. En una formulación estricta, estos conjuntos textuales carecen de diseño y, por tanto, no encajan realmente en lo que se exige para que puedan recibir la consideración de corpus,11 pero es preciso reconocer que permiten construir, con unos plazos y unos costes muy reducidos, conjuntos textuales formados por miles de millones de formas12 y que los filtros automáticos para seleccionar los textos, evitar repeticiones, excluir las zonas escritas en lenguas diferentes, etc. han mejorado considerablemente desde los utilizados hace unos años. Cerca de este segundo tipo se encuentran también otros corpus de gran tamaño y, al menos de entrada, mucho más homogéneos, que se construyen directamente con alguno de los recursos globales existentes del estilo de la Wikipedia, las intervenciones en el Parlamento europeo, en la ONU, etc. Los corpus de referencia no pueden competir en cuidado con los pequeños ni en tamaño con los grandes. Con unos costes elevados, pero asumibles para instituciones de cierta importancia, consiguen reunir cientos de millones de formas con un determinado diseño en el que quede garantizada la representativi-

10 El Corpus de documentos españoles anteriores a 1700 (CODEA) contiene unos 1500 documentos transcritos hasta el momento según las directrices seguidas en el proyecto Corpus hispánico y americano en la red: textos antiguos (CHARTA). El proyecto Biblia medieval, constituido por traducciones de la Biblia al castellano tiene una enorme gama de posibilidades de recuperación de datos y consta de unos cinco millones de formas. El Corpus diacrónico y diatópico del español de América (CORDIAM), cuya publicación está prevista para finales de 2015, contendrá la transcripción de unos 3000 documentos, con un total de unos cuatro millones de formas. Para detalles, cf. Rojo (2015, apdo. 4). 11 Cf. Sinclair (2005, 15). 12 El corpus EsTenTen, construido por Adam Kilgarrif tenía, en diciembre de 2013, algo más de 8300 millones de formas, etiquetadas, procedentes de todos los países hispánicos. Cf. Kilgarriff/ Renau (2013).

204

Guillermo Rojo

dad, la presencia de textos de los más diversos tipos en proporciones adecuadas y un nivel de codificación que permita la recuperación selectiva de la información a partir de los rasgos pertinentes en cada caso (país, época, tipo de texto, características de los hablantes, etc.). Constituyen, pues, un recurso intermedio que, sin negar la necesidad de los otros tipos para ciertas clases de análisis o aplicaciones, aúna un tamaño que garantiza la fiabilidad y generalidad de los datos que se pueden obtener de su análisis con el detalle de la codificación añadida, que permite una selección de datos muy fina y estructurada de modo acorde con las características propias de los textos. Por otro lado, el aumento en la capacidad de las computadoras y la reducción de sus costes, unidos a la mayor facilidad existente para la obtención, codificación y anotación automática de textos, permiten que los corpus de referencia puedan superar la división tradicional entre corpus cerrados al estilo del Corpus del español construido por Mark Davies o el BNC (estables, pero condenados a una pronta obsolescencia) y corpus abiertos, como el Bank of English (siempre actualizados, pero sistemáticamente inestables). Un corpus de referencia puede ser concebido como el resultado de la incorporación año tras año de una determinada cantidad de formas distribuidas de acuerdo con unos principios constantes, de modo que está cerrado y es estable en los años que ya han sido terminados, pero está abierto y actualizado en tanto que va añadiendo nuevos textos a medida que pasa el tiempo.

3 El Corpus del español del siglo XXI (CORPES) Esta es precisamente la línea en la que se inscribe el CORPES. Pretende ser un recurso lingüístico en el que se aúnen la riqueza y variedad de datos que solo pueden aparecer como consecuencia del aumento del tamaño del corpus y la finura que se alcanza en los corpus pequeños, aunque, como es lógico, no en el mismo grado ni con el mismo detalle. La proyección de las formulaciones generales sobre la situación y características actuales del español configura una serie de parámetros que vertebran la codificación de los textos por una parte y la recuperación de la información por la otra. En el congreso que celebraron en Medellín (Colombia) en marzo de 2007, las Academias de la lengua española decidieron encomendar a la Real Academia Española la confección de un corpus textual que respondiese a las características actuales de la LC en todos los aspectos. Y en ese proyecto ha venido trabajando la RAE desde entonces, con el asesoramiento y la colaboración de las demás Academias de la lengua, el patrocinio de Banco Santander, la colaboración de grupos editoriales y autores de todo el mundo hispánico y la participación de equipos de codificación pertenecientes a distintas

Citius, maius, melius: del CREA al CORPES XXI

205

instituciones españolas y americanas, dirigidas y coordinadas por un equipo central radicado en Madrid.13 La configuración general del CORPES XXI consiste en la incorporación de 25 millones de formas gráficas por año, lo cual supondrá un total de 400 millones al final de la segunda fase del proyecto (años 2001 a 2016). Esos 25 millones anuales se reparten de modo que el 30 % corresponde a textos editados o producidos en España y el 70 % restante se distribuye entre todos los demás países, tomando en cuenta rasgos como la población, el volumen de su producción editorial y su integración en alguna de las áreas lingüísticas con las que las Academias han venido trabajando tradicionalmente.14 Por ejemplo, al área constituida por México y los países centroamericanos le corresponde el 21 % del total de cada año. Para cada país y año, los textos se distribuyen con diferentes pesos según los distintos parámetros que entran en la configuración del corpus: medio (oral / escrito), bloque (ficción / no ficción), soporte (internet / libro / miscelánea / prensa), área temática (actualidad / artes / ciencia y tecnología / ciencias sociales / política y economía / salud) y, en los textos de ficción, género (novela / teatro / relato / guion). A estas caracterizaciones, muy parecidas a las que se utilizan en el CREA, el CORPES añade, para cada texto, una indicación tipológica en función del grupo al que pertenece; así, por ejemplo, los textos de prensa son caracterizados como noticia, reportaje, entrevista, carta al director, etc. Todos esos rasgos son combinables entre sí y también, por supuesto, con zona, país, año e incluso con autor y obra si tal grado de especificación es deseable. Así pues, el CORPES posee una configuración estable tanto en lo referente al volumen de formas para cada año como a su distribución según los diferentes parámetros tenidos en cuenta en su construcción. La estabilidad en el volumen correspondiente a cada año y su distribución interna hace que pueda ser considerado como un recurso que combina las características de los corpus abiertos y los corpus cerrados. Es abierto en tanto que irá aumentando en 25 millones de formas por cada año transcurrido. Es cerrado en tanto que los años y los quinquenios ya completados se harán fijos y proporcionarán la estabilidad en los resultados propia de este tipo de corpus.

13 Los equipos externos que han colaborado en el proyecto hasta 2014 son la Academia Argentina de Letras, la Academia Puertorriqueña de la lengua española, la Fundación Comillas, la Universidad de Alcalá de Henares, la Universidad Autónoma de Barcelona, la Universidad de Salamanca, la Universidad de León, la Universidad de Santiago de Compostela y la Universidad de Valencia. Para más detalles sobre la colaboración de grupos editoriales y autores, cf. http:// www.rae.es/recursos/banco-de-datos/corpes-xxi. 14 Son las siguientes: Chile, Río de la Plata, zona andina, Caribe continental, México y Centroamérica, Antillas y Estados Unidos, a las que se añaden Filipinas y Guinea Ecuatorial.

206

Guillermo Rojo

Como se ha indicado, la distribución interna por países, tipos de texto, bloques, etc. obedece a un reparto que se considera razonable, proporcionado a lo que se persigue habitualmente en la investigación y con unos costes elevados, pero asumibles. Es evidente que el tan discutido problema de la representatividad ha estado mal planteado. Todo corpus es una muestra extraída de una población cuyas características desconocemos, de modo que el objetivo real es que esté equilibrado (es decir, que contenga textos con un volumen suficiente para cada uno de los corpus virtuales que se puedan obtener de forma dinámica mediante la selección de valores en los diferentes parámetros de consulta). Es igualmente claro que la representatividad es un problema de gran importancia en corpus de tamaño pequeño (digamos, inferiores a diez millones de formas), que, además, habitualmente solo admiten consultas globales. Un corpus con esas características no debería dar resultados generales sesgados como consecuencia de su constitución. Pero lo que se persigue habitualmente en los corpus de referencia no es el resultado global, sino la comparación entre los resultados que arroja un cierto corpus virtual y los que se obtienen en otro. El uso de las frecuencias normalizadas permite establecer una base de comparación segura entre volúmenes de formas y textos dispares.15 Esta recuperación selectiva de la información es posible gracias a que todos los textos, independientemente de sus características y procedencias, han sido codificados en XML mediante un esquema común para todos ellos. La experiencia obtenida en el desarrollo del CREA y el CORDE nos ha llevado a organizar un procedimiento que, sin dejar de estar basado en las indicaciones generales de la TEI, reduce fuertemente su complejidad en todos aquellos aspectos que no son de interés para la recuperación de la información practicada para la investigación lingüística. Con esta simplificación se consigue también que el manejo y la extracción de los casos relevantes de un conjunto de cientos de millones de formas se haga con unos tiempos muy razonables a pesar de la considerable cantidad de parámetros que pueden entrar en juego en una consulta. Los textos del CORPES han sido anotados, lematizados y desambiguados automáticamente mediante un complejo conjunto de programas desarrollados, lo mismo que la aplicación de consulta, en el departamento de informática de la RAE.16 Es evidente el progreso que la adición de esta información supone para las búsquedas léxicas, puesto que no será necesario ya recurrir a la utilización de expresiones regulares que remeden la estructura morfológica de, por ejemplo, un verbo para obtener todas las formas vinculadas al lema (del tipo lleg* para las

15 Para un análisis más amplio de estas cuestiones, cf. Rojo (2014, 376 y ss.). 16 El etiquetario de la versión 0.82 consta de aproximadamente 330 etiquetas.

Citius, maius, melius: del CREA al CORPES XXI

207

formas del verbo llegar y similares) y, por otro lado, permitirá la recuperación correcta de los casos en los que hay formas homógrafas que deben ser vinculadas a lemas distintos (del tipo casa, desarrollo o vino). Sin embargo, lo más interesante de esta característica radica en el enorme avance que supone para la obtención de materiales necesarios para estudios gramaticales. En efecto, el sistema de búsqueda ha sido diseñado de modo tal que admite la petición de elementos que tienen una determinada característica gramatical con independencia del lema al que pertenezcan, por ejemplo los que han sido etiquetados como pertenecientes al futuro de subjuntivo de cualquier verbo. Además, dado que la aplicación admite la incorporación de varios elementos en la búsqueda (tanto en secuencia inmediata como en una ventana de proximidad), es posible, por ejemplo, localizar casos de un sustantivo seguido inmediatamente por dos adjetivos (del tipo situación política actual) o bien de un verbo cualquiera seguido de la conjunción que y otro verbo en modo subjuntivo. En definitiva, la estructura de la información incorporada a los textos y las formas del CORPES permite una gran riqueza de recuperación de fenómenos léxicos y gramaticales, siempre con la posibilidad de restringir los resultados a un cierto subconjunto del corpus (es decir, un cierto país, un tipo de texto determinado, etc.). El CORPES permite, pues, una auténtica recuperación selectiva de la información. Como es bien sabido, la mayor riqueza de un corpus, sea cual sea su tipo, consiste en la posibilidad de construir corpus virtuales de forma dinámica y permitir así establecer la comparación entre las características que presenta un determinado fenómeno en un cierto subconjunto (por ejemplo, noticias de prensa referentes a economía publicadas en periódicos colombianos en 2008) con las que tiene en otro (por ejemplo, de un año y un país distintos, un área temática diferente, etc.). Esta posibilidad es, por cierto, la que permite superar el viejo problema de la representatividad y su repercusión sobre los diferentes pesos que en un conjunto como el CORPES deberían tener los diferentes países o zonas, áreas temáticas, medios, etc. Además, la aplicación de consulta facilita sistemáticamente tanto la frecuencia general como la frecuencia normalizada para los datos de cada corpus virtual, lo cual hace posible realizar las comparaciones pertinentes con carácter inmediato y obtener las conclusiones oportunas. Las búsquedas pueden hacerse, como es de esperar a partir de lo anterior, por formas (que pueden estar constituidas por varias palabras gráficas) o por lemas. Es posible también exigir la grafía original o bien tolerar el tratamiento indiferenciado de caracteres habitual en estos casos (con y sin tilde, mayúsculas y minúsculas). Dada la complejidad originada por los numerosos parámetros con respecto a los cuales se ha caracterizado cada texto, la aplicación de consulta se organiza sobre un sistema de ventanas desplegables que van mostrando niveles a medida

208

Guillermo Rojo

que se va haciendo la selección y que, por tanto, no tienen más valores que los válidos en cada uno de los parámetros en los que es posible hacer la elección. Este sistema se aplica tanto en los valores clasificatorios como en la selección de las categorías y subcategorías gramaticales. Una vez se ha optado por el rasgo «verbo» en la clase de palabras, aparecen las ventanas correspondientes a modo, tiempo, número y persona, con los valores seleccionables en cada una de ellas. Este procedimiento, más largo y pesado en su desarrollo informático, evita a quienes consulten el CORPES la necesidad de profundizar en la organización de, por citar el caso más complejo, las etiquetas gramaticales que recibe cada elemento. Las búsquedas de ejemplos, con posibilidad de restringirlos a subconjuntos del CORPES, admiten dos grandes tipos de salida. La más general contiene la estadística de resultados, que se puede ir especificando por zonas, países, tipos de texto, etc., siempre con indicación de frecuencia general y frecuencia normalizada. La segunda proporciona las concordancias en el formato habitual, con indicación de la procedencia de cada ejemplo y la posibilidad de obtener un contexto más amplio si es necesario. Ambas salidas están interconectadas, de modo que pulsando la zona correspondiente a la frecuencia de un elemento en un cierto país se accede a los ejemplos correspondientes. La búsqueda por formas, lemas o rasgos gramaticales admite la concatenación de cualesquiera de esos rasgos en un contexto próximo, como se ha indicado antes. Las condiciones de la búsqueda pueden referirse a un contexto de cierta longitud a cualquiera de los lados del que se utiliza como central o bien a elementos que se sitúen a una distancia determinada del primero. Así, por ejemplo, cabe plantear la búsqueda de casos del verbo dudar seguido inmediatamente por la preposición de o bien con la preposición de en un margen de, por ejemplo, tres elementos a la derecha (para cubrir casos del tipo dudaba muy intensamente de su sinceridad). Utilizando las caracterizaciones gramaticales pueden recuperarse los casos de ir seguido inmediatamente de a y luego de un verbo cualquiera en infinitivo, los de cualquier verbo seguido inmediatamente por cualquier otro en infinitivo, los de un verbo seguido a una distancia no superior a cinco elementos por una preposición, etc. Además de la estadística y los ejemplos correspondientes al elemento seleccionado, la aplicación de búsqueda permite obtener aquellos otros elementos que coaparecen con el seleccionado en un contexto que abarca por defecto cinco elementos a cada lado. Como es bien sabido, las coapariciones17 han ido ganando

17 A mi modo de ver, el término colocación no es el adecuado en español, que ha atribuido un significado diferente a las palabras procedentes de esa raíz latina. Quizá conlocación podría

Citius, maius, melius: del CREA al CORPES XXI

209

importancia en los más diversos estudios, de modo que disponer de un recurso que permita identificar las que se dan con respecto a un determinado elemento supone una importante vía de acceso a sus características léxicas y gramaticales. En la versión 0.82, la aplicación trabaja directamente con lemas (no con formas) y permite la indicación de la clase de palabras a la que pertenece. El resultado muestra los elementos que, de acuerdo con la frecuencia general y tres estadísticos distintos (información mutua, verosimilitud (log-likelyhood simple) y distribución t (t-score)),18 coaparecen con el seleccionado en un cierto grado de importancia. Esos lemas llevan también la indicación de la clase de palabras a la que pertenecen, de modo que es sencillo seleccionar, por ejemplo, los adjetivos que coaparecen con un determinado sustantivo. Por otro lado, siempre en la línea de la creación dinámica de corpus virtuales, la aplicación permite trabajar con únicamente los ejemplos de un determinado país o área temática (o ambos factores al mismo tiempo), lo cual supone una importantísima mejora en la calidad y profundidad de los datos obtenidos. Así, por ejemplo, los cinco términos que coaparecen con el índice de información mutua (MI) más alto con el lema saco son terrero, yute, arpillera, tweed, amniótico. La aparente incongruencia de estos resultados se aclara al hacer las búsquedas diferenciadas y comprobar que en América son yute, tweed, abotonar, corbata y solapa, mientras que en textos procedentes de España son terrero, arpillera, cemento, romper y patata. Es evidente que solo la recuperación diferenciada (en la que sería posible profundizar todavía más) permite entender lo que sucede con las dos grandes acepciones que tiene esta palabra en los diferentes países hispánicos. El CORPES, pues, va en este punto bastante más allá de lo que es habitual en un corpus de referencia. De acuerdo con el diseño inicial, un 10 % de los materiales del CORPES estará constituido por transcripciones de textos orales. Por causas de diferentes tipos, el porcentaje que estos materiales suponen en la versión 0.82 (noviembre de 2015) es todavía muy inferior al previsto y procede de una única fuente original: el corpus CORALES, construido por la RAE en paralelo a la última etapa del CREA. Comprende algo menos de un millón de formas gráficas correspondientes a textos orales de diversos tipos y de todos los países hispánicos producidos entre los años 2001 y 2004. Su característica más llamativa consiste en que el texto de la transcripción está alineado con el sonido correspondiente. La información, por

servir, pero parece mucho más razonable adoptar una expresión perfectamente reconocible para cualquier hablante de español con un significado general que resulte congruente con el que se le atribuye en lingüística. 18 Para una explicación general de las características de estos tres estadísticos puede verse la ayuda que se despliega en la página de resultados de la aplicación de consulta del CORPES-XXI.

210

Guillermo Rojo

tanto, se recupera, como en todos los casos, a través de la versión textual, pero ofrece la posibilidad de obtener el sonido vinculado a la zona devuelta por la concordancia. Esta posibilidad, que será utilizada también en materiales de otras procedencias, abre una vía del mayor interés para estudios en los que el análisis directo del componente fónico (y no su traducción, más o menos detallada, a marcas añadidas del texto) resulta importante. Dado que, además, las búsquedas textuales incluyen ya la posibilidad de localizar signos de puntuación, el análisis de, por ejemplo, aspectos relacionados con la entonación en secuencias interrogativas, exclamativas o parentéticas se hace algo relativamente sencillo. En la versión siguiente (la 0.83, prevista para junio de 2016), el CORPES incorporará textos procedentes del proyecto PRESEEA,19 con cuyos responsables firmó la Academia un acuerdo de cesión de materiales en 2008. Dado que PRESEEA tiene un ámbito de actuación que comprende todo el mundo hispánico, los materiales de este proyecto enriquecerán considerablemente la variedad de la parte oral del CORPES. No obstante, en la nueva fase del proyecto (entre 2015 y 2018) será necesario dedicar una atención muy especial a la incorporación de textos orales, tarea todavía muy complicada y costosa a pesar de los importantes avances de estos años en el tratamiento de los materiales sonoros. Con un importante porcentaje de los textos orales con sonido alineado, el CORPES se situará en el camino de la integración de diferentes capas y perspectivas sobre los textos. A partir de 2016, la aplicación de búsqueda, con las características que tiene ya en este momento (noviembre de 2015) y algunas adicionales, tendrá a su lado la posibilidad de consulta de la nómina de textos por cualquier combinación de los parámetros de configuración. Habrá también una lista de lemas y formas asociadas con sus frecuencias generales y normalizadas. Las consultas seguirán siendo realizables únicamente mediante el sistema clásico de las concordancias de longitud restringida, con posibilidad de cierta ampliación de contexto. Esta limitación, inevitable en los corpus de referencia, es compensada con creces por las ventajas de los más diversos tipos que la restricción de la longitud proporciona. Por citar únicamente la más importante, hace posible que el CORPES contenga multitud de textos de gran interés lingüístico que, por cuestiones legales, no podrían ser incluidos en condiciones diferentes de consulta y descarga. Por todo ello, el CORPES representa, en el conjunto de los corpus textuales del mundo hispánico, un recurso que va más lejos, tiene mayor volumen y es mejor que los anteriores.

19 En el Proyecto para el estudio sociolingüístico del español de España y de América (PRESEEA), dirigido por Francisco Moreno, participan en la actualidad cerca de 40 equipos de todo el mundo hispánico. Para más información, cf. http://preseea.linguas.net.

Citius, maius, melius: del CREA al CORPES XXI

211

4 Relación de corpus y otros recursos electrónicos mencionados en el texto Bank of English (http://www.titania.bham.ac.uk/docs/svenguide.html). Biblia medieval (http://www.bibliamedieval.es/index.php). BNC – British National Corpus (http://www.natcorp.ox.ac.uk/). Brown Corpus: The Standard Corpus of Present-Day Edited American English (http://www.helsinki.fi/varieng/CoRD/corpora/BROWN/). CDH – Corpus del nuevo diccionario histórico del español (http://www.rae.es/recursos/banco-de-datos/cdh). CE – Corpus del español (http://www.corpusdelespanol.org/). CEMC – Corpus del español mexicano contemporáneo (http://www.corpus.unam.mx:8080/cemc/). CHARTA – Corpus hispánico y americano en la red: textos antiguos (http://www.charta.es). COBUILD – Collins Birmingham University International Language Database (http://www.collins.co.uk/category/English+Language+Teaching/COBUILD+Reference). CODEA – Corpus de documentos españoles anteriores a 1700 (http://demos.bitext.com/codea/). COHA – Corpus of Historical American English (http://corpus.byu.edu/coha/). CORDE – Corpus diacrónico del español (http://rae.es/recursos/banco-de-datos/corde). CORDIAM – Corpus diacrónico y diatópico del español de América (http://http://www.cordiam.org/). CORPES – Corpus del español del siglo XXI (http://rae.es/recursos/banco-de-datos/corpes-xxi). CRATER – Corpus Resources and Terminology Extraction (http://ucrel.lancs.ac.uk/projects.html#crater). CREA – Corpus de referencia del español actual (http://rae.es/recursos/banco-de-datos/crea). Es-Ten-Ten (http://www.sketchengine.co.uk/documentation/wiki/Corpora/esTenTen). LOB – The Lancaster-Oslo/Bergen Corpus (http://www.helsinki.fi/varieng/CoRD/corpora/ LOB). PRESEEA – Proyecto para el estudio sociolingüístico del español de España y de América (http://preseea.linguas.net/).

5 Referencias bibliográficas Kilgarrif, Adam/Renau, Irene, EsTenTen, a Vast Web Corpus of Peninsular and American Spanish, Procedia – Social and Behavioral Sciences 95 (2013), 12–19. Descargable de http://www.sciencedirect.com/science/article/pii/S1877042813041372. Mair, Christian, Tracking ongoing grammatical change and recent diversification in present-day standard English: the complementary role of small and large corpora, in: Renouf, Antoinette/Kehoe, Andrew, The changing face of corpus linguistics, Amsterdam, Rodopi, 2006, 355–376. Rojo, Guillermo, Hispanic Corpus Linguistics, in: Lacorte, Manel (ed.), The Routledge Handbook of Hispanic Applied Linguistics, Nueva York, Routledge, 2014, 371–387. Rojo, Guillermo, Los corpus textuales del español, in: Gutiérrez-Rexach, Javier (ed.), Enciclopedia lingüística hispánica, Nueva York, Routledge, en prensa.

212

Guillermo Rojo

Rojo, Guillermo/Sánchez, Mercedes, El español en la red, Madrid/Barcelona, Fundación Telefónica/Ariel, 2010. Rundell, Michael, The road to automated lexicography: An editor’s viewpoint, in: Granger, Silviane/Paquot, Magali (edd.), Electronic Lexicography, Oxford, Oxford University Press, 2012, 15–30. Sinclair, John, Corpus and text. Basic principles, in: Wynne, Martin (ed.), Developing Linguistic Corpora. A Guide to Good Practice, Oxford, Oxbow Books, 2005, 1–16.

III. Corpus y análisis cuantitativos

Dorien Nieuwenhuijsen

Notas sobre la aportación del análisis estadístico a la lingüística de corpus 1 Introducción Hoy en día es un hecho que la lingüística histórica como disciplina académica está cambiada profunda y definitivamente, debido al desarrollo de la lingüística de corpus y las nuevas metodologías ofrecidas y hasta impuestas por los corpus diacrónicos digitales. Mientras que en el pasado se reunían los ejemplos leyendo minuciosamente una serie de textos o fragmentos de textos, actualmente es posible recopilar de manera más o menos automática cantidades considerables de ejemplos. Una ventaja del método tradicional era que el investigador podía evaluar sobre la marcha la validez o invalidez de un ejemplo, procurando que su corpus de ejemplos fuera homogéneo y no contuviera ejemplos indebidos. Además, la lectura detenida de los textos que le servían de fuente le permitía, ya durante el proceso de la recolección de los datos, hacerse una idea de los contextos específicos sintácticos o pragmáticos en que aparecía la forma o construcción investigada. Al mismo tiempo, el investigador ya podía ir formulando hipótesis sobre los factores involucrados en la selección de la forma o construcción en cuestión. Este método, a la que Kabatek (2014) en un artículo reciente se refiere con el término de «lingüística empática», hacía que el investigador llegara a conocer muy bien su material, condición que, obviamente, es fundamental para un buen análisis lingüístico.1 No cabe duda de que hoy en día la mayor ventaja de un corpus digital es la disponibilidad de un banco de datos muy extenso, y la posibilidad de reunir un corpus de ejemplos mucho más amplio, y basado en muchos más textos, que con el método tradicional.2 Sin embargo, con el estado actual de los corpus diacróni-

1 Kabatek (2014, 707) describe la lingüística empática como «la posibilidad, aun en el caso de la lengua de épocas remotas, de adquirir una cierta competencia lingüística y de desarrollar un ojo crítico que permite identificar fenómenos que eran de algún modo llamativos en la época». 2 Es interesante que Rojo (2012, 435) considere la gran cantidad de ejemplos que se puede reunir con un corpus digital justamente como una desventaja; compárense también las otras ventajas e inconvenientes que menciona Rojo en su trabajo de 2012 (435–436). Dorien Nieuwenhuijsen: Universiteit Utrecht

216

Dorien Nieuwenhuijsen

cos digitales del español, hay temas lingüísticos que no se dejan estudiar fácilmente, es decir, no con una serie de búsquedas directas. Por ejemplo, en el ámbito de la morfología: el surgimiento del pronombre átono os como variante descuidada del átono vos (De Jonge/Nieuwenhuijsen 2009, 1629–1635). En el caso de os, se trata de una forma que originalmente surgió en posición enclítica, condición que constituye un obstáculo inseparable, dado que las posibles búsquedas o bien proporcionan más ejemplos de los que puede procesar el programa (CORDE), o bien únicamente ofrecen ejemplos impropios (Corpus del español; de aquí en adelante: CdE) (Nieuwenhuijsen 2009, 376–379). Asimismo, por poner un ejemplo en el ámbito de la sintaxis: el desarrollo de las oraciones yuxtapuestas (Nieuwenhuijsen 2013; 2014). Puesto que la yuxtaposición supone la unión de dos oraciones sin conjunción o nexo, el signo que se busca carece de presencia formal, característica que obviamente complica sumamente su análisis en un corpus digital. Además, el trabajo con un corpus digital entraña el riesgo de que entre los ejemplos reunidos se encuentren casos indebidos, lo cual, obviamente, no solo contamina los datos sino también el análisis y los resultados. Buscando en CORDE las formas del imperfecto de subjuntivo en –ra y en –se de los verbos ser e ir para comparar su frecuencia relativa, rápidamente se obtienen las formas correspondientes, pero también la forma homónima del adverbio fuera y la preposición compuesta fuera de (cf. Rojo 2008, 167, nota 9; 2010, 34, nota 16). Una cala en CORDE muestra que la palabra fuera en el periodo 1900–1950 en España en todos los medios proporciona para los tres textos con más casos por texto, un total de 990 casos, de los que 377 ejemplos son casos del adverbio fuera o de la preposición fuera de. Esto implica que el 38 % de los casos recogidos no corresponde a la forma verbal. En el CdE se pueden introducir categorías gramaticales, lo que permite, por ejemplo, la búsqueda de construcciones pasivas perifrásticas con el auxiliar ser y un complemento agente introducido por la preposición de o por: [ser] [VPS*] de/ por [NP*]/[NN*]. No obstante, este tipo de búsqueda ofrece también casos como fueron expulsados de España y primero sea arrastrado por las calles públicas. Mientras que la primera desventaja —la imposibilidad de buscar ciertas formas o construcciones—, que se sepa, por el momento no tiene remedio, la segunda se puede remediar con una revisión «manual» cuidadosa de todos los ejemplos seleccionados automáticamente por el programa. Al mismo tiempo, de esta manera el investigador puede acercarse a su material de estudio, comparable con el proceso por el que pasaba el lingüista tradicional. Es evidente que una mayor cantidad de datos disponibles incide positivamente en la fiabilidad de los resultados. Sin embargo, más allá de la presentación de números absolutos y porcentajes, no cabe duda de que la fiabilidad de los

Notas sobre la aportación del análisis estadístico a la lingüística de corpus

217

resultados puede aumentarse con un tratamiento estadístico de los datos, procedimiento todavía no muy común en la lingüística histórica de corpus.3 En el presente trabajo nos proponemos demostrar, a través de un caso concreto, que un análisis estadístico puede llevar a conocimientos más profundos sobre el tema lingüístico bajo estudio y que puede matizar conclusiones sacadas a base de los porcentajes calculados sobre los números absolutos de ejemplos. Para tal fin, estudiaremos la variación del modo indicativo y subjuntivo en oraciones interrogativas indirectas negadas que dependen del verbo saber (no sé si/qué puedo/pueda), encabezadas por distintos sintagmas interrogativos en textos de procedencia peninsular y americana.

2 Modo verbal en las subordinadas interrogativas indirectas negadas dependientes del verbo saber Las gramáticas, en general, suelen afirmar que en las oraciones interrogativas indirectas se utiliza el modo del indicativo en la subordinada. Esto puede ocurrir también si el verbo principal está negado, aunque entonces se admiten los dos modos, indicativo y subjuntivo, principalmente en caso de las llamadas dubitativas (Bello 1982, 335–336; Borrego Nieto/Gómez Asencio/Prieto 1987, 112; Fernández Álvarez 1987, 47; Gili Gaya 1981, 134–136; Matte Bon 1992, 64; Molho 1975, 416; RAE/ASALE 2010, 480; Sarmiento/Sánchez 1989, 269; Suñer 1999, 2184–2185). Tanto Suñer (1999, 2185) como Ridruejo (1999, 3226) sostienen que el uso del subjuntivo en las oraciones interrogativas indirectas negadas era más frecuente en el español clásico que en la lengua actual. Keniston (1937, 348, 391, 392), para el siglo XVI, documenta tanto casos con indicativo como con subjuntivo en las interrogativas indirectas con un verbo de conocimiento, aunque añade que en este tipo de oraciones el indicativo es muy común, aún si el verbo principal está negado. Woehr (1977, 319) confirma este dato en un corpus que abarca los siglos XII a XVI. Por otra parte, varios autores mencionan que el empleo del modo subjuntivo en esta clase de oraciones es dialectal. Así, Alarcos Llorach (1978, 247) caracteriza el uso como propio de hablantes no castellanos como los gallegos o asturianos. Asimismo, Suñer (1999, 2185) comenta que la alternancia entre subjuntivo o infinitivo (no sé qué te diga/no sé qué decirte) «ocurre en algunos dialectos 3 Cf. Torruella Casañas (2009, 100): «La utilización de técnicas estadísticas en la investigación en general y en la investigación en el campo de la lingüística histórica en particular, es hoy inevitable, puesto que abre la puerta a la justificación de las teorías existentes o a la argumentación de nuevas sobre bases analíticas».

218

Dorien Nieuwenhuijsen

hispanoamericanos como el peruano y el colombiano (entre otros)», dato confirmado en el Manual de la RAE y ASALE (2010, 480), donde se advierte que en el español americano, particularmente en México, Centroamérica, el Caribe y la zona andina, se suele usar el subjuntivo en expresiones como no sé si te guste esta comida. Además, un estudio de DeMello (1997) corrobora el carácter dialectal del empleo del subjuntivo en las interrogativas indirectas negadas, con mayor presencia en el español mexicano y menor presencia en el español chileno y frecuencias intermedias en el español colombiano y venezolano. Asimismo, Nieuwenhuijsen (2001), a partir de un corpus limitado, concluye que, mientras que en España se ha perdido la variación de modo en las subordinadas interrogativas negadas con el verbo saber, en México se conserva la misma. De los estudios mencionados se puede desprender que antiguamente el uso del subjuntivo en las interrogativas indirectas negadas era más frecuente que hoy en día, si bien el indicativo siempre ha tenido una mayor frecuencia que el subjuntivo. Además, parece haber variación diatópica, dado que en varios trabajos se señala que el empleo del subjuntivo es más frecuente en el español americano que en el español peninsular. En España la variación se da sobre todo en hablantes no castellanos. A continuación, en la sección 3 expondremos brevemente la recopilación y composición del corpus de ejemplos por medio del CdE; en la sección 4 analizaremos la evolución del empleo del indicativo y subjuntivo en el contexto sintáctico en cuestión. Además, en la sección 5 investigaremos la señalada variación diatópica distinguiendo entre ejemplos peninsulares y americanos. La sección 6 resume los resultados y considera la utilidad de los análisis estadísticos para la lingüística histórica de corpus.

3 El corpus Como el CdE en gran parte está lematizado, es posible reunir un corpus de ejemplos amplio con un número de búsquedas muy reducido. La introducción de las secuencias: no [saber] si/[PQ*][VIP*] (no+forma verbal de saber+si/pronombre interrogativo+forma verbal del presente de indicativo)

y no [saber] si/[PQ*][VSP*] (no+forma verbal de saber+si/pronombre interrogativo+forma verbal del presente de subjuntivo)

Notas sobre la aportación del análisis estadístico a la lingüística de corpus

219

resultó en ejemplos como los de (1) a (4). Para las subordinadas introducidas por cómo, por qué y cuándo se han realizado búsquedas aparte, dado que no salían automáticamente al buscar por la categoría de pronombre interrogativo (cf. los ejemplos (5) y (6)). (1)

son blancas de dentro, y el pescado de ellas, y muy sabrosas, no saladas, sino dulces y que han menester alguna sal, y dize que no saben si naçen en nácaras. (Textos y documentos completos de Cristobal Colón, siglo XV, CdE) (2) ¿En qué me ejercitaré para agradaros? Gloria mía, yo no sé qué haga; decidmelo Vos, pues sabéis que deseo acertar a honraros y glorificaros. (Epistolario, siglo XVI, CdE) (3) Aunque es verdad que la debo obligaciones, repara que ella no sabe quién es; y es bajeza y es infamia casarme yo con mujer. . . Clotaldo. (La vida es sueño, siglo XVII, CdE) (4) Respuesta. – No sé cuál sea la estrategia que vaya a tomar el Pri, la verdad es un problema del Pri en este punto y nosotros estamos defendiendo nuestros puntos de vista de una iniciativa válida, meditada, bien hecha, (Entrevista PAN, siglo XX, CdE) (5) Pues assí goze de mi alma, no se me ha quitado el mal de la madre; no sé cómo pueda ser. (La Celestina, siglo XV, CdE) (6) No sé por qué pasa ni cómo explicarlo, pero sé que ocurre y que el público también lo siente. (Entrevista ABC, siglo XX, CdE)

El corpus así formado, por tanto, comprende subordinadas indirectas que dependen del verbo saber y están encabezadas por los sintagmas interrogativos cómo, cuál, cuándo, cuánto, dónde, por qué, qué, quién y si. Todos los ejemplos se han revisado «a mano», para quitar algunos casos dobles. En total se trata de 2202 ejemplos (1833 de indicativo, 369 de subjuntivo).

4 Frecuencia del modo verbal en las subordinadas interrogativas indirectas negadas con el verbo sabe 4.1 Frecuencias generales Como primer paso se ha calculado la frecuencia del indicativo y subjuntivo en las subordinadas interrogativas indirectas negadas en general. Se ha utilizado el programa estadístico SPSS, con el cual se pueden realizar cómputos relativamente sencillos así como pruebas estadísticas relativamente complejas, como se verá más adelante. Los resultados del primer cálculo se plasman en el gráfico 1, del que se desprende claramente que el indicativo, en general, es mucho más frecuente que el subjuntivo (el 83,24 % frente al 16,76 %).

220

Dorien Nieuwenhuijsen

Gráfico 1: Frecuencia general (%) de indicativo y subjuntivo en subordinadas interrogativas indirectas negadas con saber

En el gráfico 2 se observa la frecuencia de los distintos tipos de interrogativas indirectas negadas. Es evidente que las interrogativas introducidas por si son las más frecuentes (35,2 %), seguidos por las que llevan qué (26,48 %) y cómo (13,03 %). Por otra parte, las interrogativas indirectas encabezadas por cuándo y cuánto ni siquiera llegan al 1 % en el corpus. Como las subordinadas con cuándo y cuánto, además, solo registran formas verbales en indicativo, los ejemplos correspondientes se han excluido de los demás cálculos del corpus.

Gráfico 2: Frecuencia (%) de los distintos sintagmas interrogativos en interrogativas indirectas negadas con saber

Notas sobre la aportación del análisis estadístico a la lingüística de corpus

221

El gráfico 1 presenta la frecuencia de los modos indicativo y subjuntivo en el corpus en su totalidad, pero de los estudios citados en la sección 2 se desprende que la distribución de ambos modos no siempre ha sido igual, es decir, en épocas anteriores el subjuntivo era más frecuente en las subordinadas interrogativas que en la actualidad. Por eso, se han hecho cortes para cada siglo presente en el corpus, calculando los porcentajes de uso de ambos modos. Los resultados del cálculo, presentados en la tabla 1, arrojan luz sobre la propagación de un modo frente al retroceso del otro a través de los siglos. Tabla 1: Frecuencia de indicativo y subjuntivo en subordinadas interrogativas indirectas negadas con saber a través de los siglos Siglo

Modo

Total

INDICATIVO

SUBJUNTIVO

3

0

3

100 %

0%

100 %

XIV

–

–

–

XV

1

3

4

25 %

75 %

100 %

385

147

532

72,4 %

27,6 %

100 %

395

111

506

78,1 %

21,9 %

100 %

144

32

176

81,8 %

18,2 %

100 %

308

31

339

90,9 %

9,1 %

100 %

597

45

642

93 %

7%

100 %

1833

369

2202

83,2 %

16,8 %

100 %

XIII

XVI

XVII

XVIII

XIX

XX

Total

Chi2=123,233 (gl=6; p=0,000)

En los primeros siglos el uso del subjuntivo oscila considerablemente, pero es de notar que el corpus cuenta con muy pocos ejemplos para los siglos XIII y XV y no

222

Dorien Nieuwenhuijsen

registra ningún caso para el siglo XIV. Asimismo, los tres ejemplos del siglo XIII provienen de Siete partidas, un texto cuyo manuscrito original data del siglo XIII, pero que en CORDE aparece con la fecha de 1491, de acuerdo con la fecha de la primera edición conocida. A pesar de eso, en general se puede concluir que el empleo del subjuntivo en las subordinadas interrogativas indirectas negadas con saber, efectivamente, baja a lo largo de los siglos, del 27,6 % en el siglo XVI al 7 % en el siglo XX. El desarrollo esbozado aquí se aprecia con mayor nitidez en el gráfico 3, que representa los datos de la tabla 1.

Gráfico 3: Frecuencia del empleo de indicativo y subjuntivo en subordinadas interrogativas indirectas negadas con saber a través de los siglos

4.2 La influencia del factor tiempo Los porcentajes de la tabla 1 están calculados sobre los ejemplos del corpus reunido para este trabajo y, en tal calidad, dan información sobre la distribución de los dos modos verbales en el mismo. Sin embargo, dado que estudios anteriores advierten que el uso del subjuntivo en las interrogativas indirectas negadas era más frecuente en el español clásico, lo cual se comprueba en nuestro corpus, interesa conocer también el grado de influencia que ejerce el factor tiempo sobre la aparición del subjuntivo en esta clase de oraciones, es decir, interesa saber si existe una correlación entre el tiempo y el uso del subjuntivo en general. Para investigar dicha correlación, se ha aplicado un test de regresión logística binaria, con el que se puede examinar si una o más variables independientes o predictoras tienen influencia sobre una variable dependiente y si el efecto es

Notas sobre la aportación del análisis estadístico a la lingüística de corpus

223

positivo o negativo. En el siguiente cómputo, la variable dependiente es el modo verbal y la variable independiente la constituye el tiempo. El test se basa en todos los ejemplos del corpus y, a partir de su codificación en términos de siglo y modo, desarrolla un modelo que predice la probabilidad de que aparezca uno de los modos verbales. Asimismo, el test indica si los valores encontrados tienen significación estadística. La tabla 2 recoge los datos más importantes del test de regresión logística binaria. Tabla 2: Probabilidad y valor de significación del empleo del subjuntivo con la variable independiente de siglo

siglo constante

Wald

gl

Sig.

Exp(B)

103,531

1

,000

,666

64,376

1

,000

266,195

Chi2=116,329 (gl=1; p=0,000)

En la columna izquierda se encuentra la variable independiente de tiempo (siglo). En esta misma columna figura también la constante o intersección, que indica la probabilidad estimada de que aparezca el subjuntivo si el valor de todas las variables independientes es de 0. En general, el valor de la constante no tiene relevancia independiente. La columna titulada ‘Wald’ da el resultado de la prueba de Wald, un test con el que se determina si los datos de la columna derecha (Exp(B), el exponencial del coeficiente u odds ratio) son significativos. El Exp(B), por su parte, indica la probabilidad de que aparezca la variable dependiente con la variable independiente. Un valor de Exp(B) mayor de 1 quiere decir que la probabilidad de que la variable dependiente aparezca con la variable independiente aumenta (si la variable independiente sube con un punto). Un Exp(B) mayor de 1, por tanto, apunta a un efecto positivo. En cambio, con un Exp(B) < 1 la misma probabilidad disminuye, en cuyo caso, por consecuencia, se detecta un efecto negativo. La columna titulada ‘gl’ indica los grados de libertad, o sea el número de variables involucradas en el cálculo, determinado automáticamente por el programa. Por último, en la columna ‘Sig.’ se da el valor p, que señala la significatividad estadística del efecto dado bajo Exp(B). Si el valor p es < 0,05 se entiende que tiene significatividad estadística y que la diferencia encontrada probablemente no se deba al azar. En cambio, con un valor de p > 0,05 no hay significación estadística y no se puede descartar la posibilidad de que se trate de una asociación casual. De la tabla 2 se puede concluir que la probabilidad de que el verbo aparezca en subjuntivo (frente al indicativo) en la interrogativa indirecta negada disminuye

224

Dorien Nieuwenhuijsen

a través de los siglos (Exp(B) e) y la trasposición acentual.3 Estas tesis van desde generalizar esta tendencia a todos los hiatos con vocal alta (Hanssen 1913), hasta situar el origen en la relajación de la secuencia vocálica de los auxiliares proclíticos (Gassner 1897), conceder a determinadas consonantes finales (–s, –n, –t) la capacidad de provocar el cambio de la vocal precedente a > e (Hanssen 1897) o, una de las que más eco han recibido en los manuales de gramática histórica del español posteriores, proponer la acción asimilatoria de –í provocando el cierre a > e y la subsiguiente diptongación4 (Menéndez Pidal 1968, §117). Avanzado el siglo XX, en 1959, Malkiel publica su imprescindible Reconsideration of the Old Spanish Imperfect, en el que desgrana la secuencia cronológica de todas estas aportaciones (y sus críticas) para hacer notar cómo, frente a este grupo mayoritario, hubo dos autores (Ford 1906, Lang 1911) que plantearon otra dirección argumental apenas desarrollada pero de un enorme potencial explicativo; la analogía morfológica, en tanto otros tiempos del pasado, fundamentalmente el pretérito, presentaban –ié enlas desinencias (–iémos, –iéstes,…). Reformulando esta teoría, el origen del extraño paradigma en –ié del castellano se inicia, para Malkiel, porque, una vez extendido el diptongo –iemos al pretérito débil (por expansión analógica de diemos, con diptongo etimológico), este «moves precariously close to imperf. vendíamos which […] [most speakers] were bound to pronounce vendiámos, almost in alegro speech». Dado que no existía una nítida distinción entre ambos tiempos,5 ambas formas pudieron ser 3 El trabajo de Malkiel (1959) es una revisión absolutamente exhaustiva de todas las aportaciones teóricas hechas sobre el problema hasta la fecha de su publicación; sólo esbozamos aquí algunas de las más señaladas. Imhoff (1996; 1998; 2000; 2007) o Henriksen (2008; 2009) añaden la de otras propuestas recientes. 4 No es objeto de este trabajo ocuparnos de la discusión sobre la naturaleza tautosilábica o heterosilábica de esta secuencia (la detalla también Malkiel 1959) pero, recientemente, Pla Colomer (2013) ha realizado un estudio de la pronunciación castellana medieval a través de la escansión métrica de los poemas que le conduce a justificar como diptongada –ié y como bisílaba –ía (excepto formas de compromiso). 5 El uso del imperfecto con valor de indefinido en el Mio Cid es analizado por Menéndez Pidal (1944, 352) y Lapesa (1981, 224); ante la posibilidad de extrapolarlo como hecho de lengua general, se pregunta Moreno de Alba (2006, 34–35) si «este empleo del imperfecto como indefinido puede quizá explicarse mejor como un rasgo estilístico de la poesía épica y líricoépica, frecuente en los siglos XII al XV, que como un uso característico de determinada época de la lengua española». No obstante, Sanchis (1991, 493) señala también en la Fazienda de Ultramar cómo «hay una gran vacilación en el uso del pretérito perfecto simple y del imperfecto. Con mucha frecuencia, se emplea uno por otro».

324

Mª Carmen Moral del Hoyo

intercambiables en numerosos contextos lo que, coadyuvado por el estrecho margen fonético que los diferenciaba, terminaría por asociar el modelo –iémos al imperfecto, seguramente actuando después sobre la 5ª persona y, más tarde, sobre la 6ª y la 3ª.6 Desde entonces, no se han cuestionado las principales líneas argumentales y la mayoría de las gramáticas históricas del español se ha limitado a posicionarse,7 de modo que, cuatro décadas después de la tesis de Malkiel, Imhoff (1998, 243) declara: «[g]iven the non-etymological and uniquely Hispanic nature of the development […] it is surprising that so little scholarly attention has been devoted to it over the last forty years». Así, este autor (Imhoff 1998; 2000a; 2000b; 2004; 2007) vuelve a poner el foco sobre la génesis del proceso e introduce un aspecto desatendido en la bibliografía: la posible relación entre el desarrollo del imperfecto castellano –ié y un contacto dialectal con las hablas pirenaicas desde un enfoque variacional según el que a paradigm which recognizes manifest heterogeneity as a natural result of dialect contact can focus on characterizing and correlating the mechanisms which affect diffusion and, thereby, effect change. This theoretical position […] obtains for the pre-literary period of Old Spanish associated with the Pyrenean region with respect to the morphology of the simple past tense paradigms (Imhoff 2000a, 393).8

A través de un estudio de corpus, Imhoff confirma, en los documentos que representan el aragonés de la etapa primitiva, una divergencia morfológica neta entre el paradigma del imperfecto, formado sobre la solución etimológica –ía, y el del perfecto, formado por la también etimológica –ié,9 diferencia formal que, a su juicio, evidencia la estabilidad, ya en esta época, de una diferencia funcional

6 Además, esto justifica que en gallego-portugués, donde el pretérito débil no diptonga, no se produzca la expansión de –ié al imperfecto. 7 Como señala Cano Aguilar (2004, 82–83), la tesis de Malkiel «no tuvo repercusión en la morfología hecha en España», v.g. para Alvar/Pottier (1983, 241, n. 112), la tesis de Menéndez Pidal es la adecuada y«las explicaciones de otros investigadores carecen de fundamento». No opina así Lloyd (1993, 574–579). 8 En este sentido, hay una sólida corriente que argumenta el importante papel de la koineización en la formación y posterior expansión del castellano a través de un detallado análisis cronológico y geográfico de cambios lingüísticos que dan lugar a procesos de simplificación y nivelación dialectal surgidos, precisamente, por la variación de los hablantes que integran esa(s) koiné(s) (Penny 1995; 2000; Tuten 2003). 9 Menéndez Pidal (1950, 363), Buesa/Castañer (1994), López Bobo (1996, 52), Imhoff (2004; 2007). Hay excepciones al uso de –ié en la 3ª persona de los pretéritos débiles de la 2ª y 3ª conjugación en estos textos pero, según Imhoff, son muy pocas.

El castellano en los orígenes del cambio gramatical

325

entre ambos tiempos (sostenida hasta la primera mitad del XIV). Sin embargo, en castellano «the regularization of […] –ie imperfect did not take place until the literay period», lo que se suma a dos procesos tradicionalmente aceptados, «semantic convergence between the imperfect and preterit tenses and the high degree of variation during the pre-literary period» (Imhoff 2000a, 391) para, al menos, plantear la posible influencia de variables extralingüísticas en el desarrollo castellano del paradigma novedoso. Lo que propone Imhoff puede, pues, complementar la tesis de Malkiel: si, como pretende, el contacto lingüístico es un factor preponderante en el origen del nuevo modelo de imperfecto en castellano, la presencia de un paradigma mucho más desarrollado en –ié para el pretérito en aragonés (y variantes conexas en las hablas pirenaicas), sería otro desencadenante a sumar respecto de lo que, por causas internas como la analogía morfológica y regularización paradigmática, ya apuntaba en la misma dirección en castellano, a saber, la generalización del diptongo en las desinencias del pretérito. En un trabajo posterior (Imhoff 2004) se muestra más tajante en su tesis: El origen del imperfecto en –ie no se encuentra ni se encontrará sino en la región pirenaica. Pero, insisto en que no hay por qué justificar una transferencia directa […] Nada nos sorprende que con tan prolongado contacto entre estos y otros dialectos —inclúyanse en la lista al menos el navarro, el aragonés, el occitano y el castellano, sin mencionar el vasco— se produjera una convergencia formal y funcional entre los pasados simples. Pero la hegemonía lingüística castellana de la que tanto se ha escrito, no se aplica a la época antigua, al menos en cuanto a dichas formas del pasado simple respecto al aragonés antiguo y la región pirenaica (Imhoff 2004, 234).

Lo que parece claro es que, si los textos aragoneses del siglo XIII ofrecen el uso de –ía como forma exclusiva del imperfecto y, en los mismos textos, el pretérito exhibe –ié sin apenas excepción, el hecho de que haya una proximidad entre –iémos y la variante oral –iámos del imperfecto, que presupondríamos también en esta variedad,10 no actúa como causa aislada sin la convergencia (¿influen-

10 Suponer que la señalada «repugnancia por los esdrújulos» del aragonés (Alvar 1953, 145), resuelta a favor de una acentuación paroxítona, fuera coadyuvante para una mayor confluencia de ambas formas en estas hablas, se enfrenta a la posibilidad de que la generalización de este rechazo ha podido darse «cuando menos en el Alto Aragón […] en fechas no muy antiguas, pues esa tendencia no ha llegado a imponerse totalmente en los topónimos» (Vázquez Obrador 2000, 22) a lo que debemos sumar el hecho de que «quedan fuera de este comportamiento las primeras personas del plural de los pretéritos imperfectos de indicativo y subjuntivo, así como de los condicionales» (Vázquez Obrador 2011, 147, n.2).

326

Mª Carmen Moral del Hoyo

cia?)11 de ambos tiempos, que pasa, entonces, a ocupar una posición destacada en el origen del cambio. Del mismo modo, habrá que estudiar detenidamente qué ocurre en leonés porque, si la tesis de Imhoff es cierta, sería esperable que el paradigma –ié se retrasara respecto de su estabilización en castellano y fuera cuantitativamente menos significativo, toda vez que suponer en este ámbito occidental un mantenimiento estricto de la distinción indefinido/imperfecto como la aducida para el aragonés no parece posible, es más, «the influence [on the imperfect by the preterite] was likely to be stronger in the West where the preterite forms are more firmly rooted in the language» (Posner 1961, 48). Por eso, si el paradigma –ié en leonés muestra una cronología y una frecuencia paralelas al castellano, habrá que dilucidar si las causas estructurales que conducen al empleo de –ié son, entonces, las mismas y considerar si la influencia por contacto con las hablas pirenaicas queda relativizada. Otra cosa es que Imhoff tenga razón en cuestionar la «hegemonía lingüística castellana» en este aspecto de la morfología verbal si se comprueba que, además del aragonés, no todo el leonés o no con idéntica cronología se aviene al modelo –ía (1ª)/–ié (no 1ª) una vez regularizado en castellano.

2 Selección y justificación del corpus Lo cierto es que las teorías sobre este cambio deberían fundamentarse en estudios de corpus y, en concreto, dado que pretendemos comprobar si las tesis expuestas encuentran reflejo en los datos tanto desde el punto de vista temporal cuanto, sobre todo, espacial, incorporando el factor diatópico, consideramos idóneo expurgar la documentación notarial pues, a diferencia de los textos literarios romances de la primera época medieval, aquella puede ser convenientemente fechada, fidedignamente localizada12 y está exenta de requerimientos métricos. Por ello, para medir la dinámica de las variantes del imperfecto en castellano, centraremos nuestro estudio en documentación burgalesa del siglo XIII —especialmente, por el significativo incremento de documentos redactados en un

11 Lloyd (1993, 576) matiza que «[a]unque el pretérito y el imperfecto se han mantenido distintos en todas las lenguas románicas, el hecho de que compartan el rasgo común de ‹pasado› ha sido suficiente en algunos casos para que un tiempo tenga alguna influencia sobre la forma del otro sin que se produzca un movimiento general tendente a suprimir la distinción aspectual que existe entre ellos». 12 Para una revisión del binomio documento notarial / dialectología histórica, vid. Matute (2004), Moral del Hoyo (2013).

El castellano en los orígenes del cambio gramatical

327

romance consistente (Sánchez-Prieto 2007), en su segunda mitad— momento de máxima expansión del paradigma –ié.13 Lo haremos utilizando los documentos burgaleses de San Salvador de Oña y del monasterio de Las Huelgas de Burgos contenidos en el Corpus Histórico del Español Norteño (CORHEN) y completados, para alcanzar un número significativo, por los editados por Álamo (1950) y Oceja (1983; 1985), en el caso de la colección diplomática oniense, y por Lizoain (1985) y Castro/Lizoain (1987) en el caso de Las Huelgas. En total, 278 documentos que, cronológicamente se reparten como sigue: Tabla 1: Origen y cronología de los documentos estudiados San Salvador de Oña (SO)

Las Huelgas de Burgos (LH)

1200–1210

–

4

1211–1220

–

4

1221–1230

–

6

1231–1240

2

2

1241–1250

12

31

1251–1260

10

39

1261–1270

20

28

1271–1280

43

16

1281–1290

17

19

1291–1299

17

8

121

157

13 Por eso no nos ocuparemos de la recesión y eliminación del imperfecto en –ié, otro de los aspectos que también ha generado teorías encontradas. Las resume Malkiel (1959, 476–477), quien enumera las que denomina «opposing forces» al triunfo permanente de –ié. En época más reciente, Rini (1999, 38–39) postula la existencia de paradigmas mixtos surgidos por presión analógica y posterior regularización; Luquet (2002) opina que el fracaso del paradigma –ie– para imperfecto y condicional se produjo porque el español priorizó el carácter inactualizador del significado de ambos; Bustos Gisbert (2006) realiza un análisis crítico del estado de la cuestión y Henriksen (2008), un análisis cuantitativo multivariado para concluir que «the variable root-final segment was identified as a potential trigger of –ie’s emergence, while other variables such as root vowel height and grammatical person appeared to habe led the way for –ia’s reemergence and restoriation». Vid. Imhoff (1998) para una revisión sobre la cronología en la que esta alternancia queda eliminada en castellano y, sobre todo, González Ollé (2000), quien demuestra cómo, en detrimento del tópico, la pervivencia de –ié nutre todavía en el XVI la obra de diversos autores relevantes.

328

Mª Carmen Moral del Hoyo

Contemplaremos la diversidad geográfica castellana norte-sur (Oña-Burgos) por si apuntara tendencias dispares, como hemos comprobado en otros apartados de la morfología verbal (Moral del Hoyo 2015).14 Una vez estudiada la distribución de las formas burgalesas, procederemos a valorarlas en torno a un corpus de control representativo del mapa de variación diatópica norteña con el fin de evaluar en tal marco los resultados del castellano burgalés y poder perfilar, con datos homogéneos, la viabilidad de hipótesis más estructurales o más dialectales en el caso del cambio sufrido por la morfología del imperfecto romance en el centro peninsular. Y es que abordar la gramática histórica del español desde un enfoque dialectal es una tarea pendiente cuyos resultados, como ha hecho Rodríguez Molina (2010) en un trabajo paradigmático sobre la formación de los tiempos compuestos, pueden reescribir dicha historia.15 Para ello, se ha compilado una representación de casi 300 documentos notariales del siglo XIII pertenecientes a: – – – – – – – –

León occidental (Monasterio de Carrizo)16: 40 docs. (1224–1297) León central (Catedral de León): 38 docs. (1237–1297) León oriental (Monasterio de Sahagún): 32 docs. (1232–1299) La Montaña (Santillana del Mar y Santo Toribio): 52 docs. (1200–1300) Palencia (CODEA17): 18 docs. (1202–1290) Rioja (CODEA y Santo Domingo de la Calzada): 41 docs. (1212–1299) Navarra (CODEA y Monasterio de Irache): 43 docs. (1232–1296) Aragón (CODEA): 31 docs. (1225–1290)

Por último, se han analizado también 53 documentos de la cancillería, de las colecciones de San Salvador y de Las Huelgas, datados en Burgos, para evaluar el

14 En este trabajo se utiliza el mismo corpus aquí descrito para analizar determinadas variantes en la morfología desinencial del futuro e imperfecto de subjuntivo. 15 «La existencia de este estado de variación obliga, por un lado, a modificar de raíz el estado de la cuestión sobre la evolución de los tiempos compuestos, y por otro lado, aconseja replantearse igualmente los presupuestos sobre los que se ha construido la historia de la lengua española de los siglos XIII–XV, que si apenas ha dado cabida a la variación dialectal en su conjunto, ha olvidado del todo punto el estudio de la variación gramatical» (Rodríguez Molina 2010, 693). 16 Ver en Fuentes bibliográficas las colecciones diplomáticas impresas que se han utilizado. 17 La consulta de los documentos del proyecto CODEA [http://demos.bitext.com/codea/codea_ form.asp] ha sido posible porque, hace unos años, la generosidad intelectual de Sanchez-Prieto y sus colaboradores hizo que, antes de la operatividad del corpus electrónico en la red, yo dispusiera de las ediciones paleográficas y críticas por ellos compiladas. De este corpus, seleccioné los documentos locales del siglo XIII según su adscripción geográfica y pude realizar las búsquedas de interés.

El castellano en los orígenes del cambio gramatical

329

grado de homogeneidad con los diplomas burgaleses privados (y empezar a fundamentar a qué castellano se aproxima más el castellano alfonsí).

3 La variación –ié/–ía en los estudios sobre documentación asturleonesa, castellana y navarroaragonesa en el siglo XIII Presentado el corpus, debemos hacer un repaso previo de aquellas observaciones realizadas respecto al uso del imperfecto en los estudios sobre documentación coetánea a la que aquí nos va a ocupar18 y que, normalmente, se limitan a apreciar si el uso mayoritario cumple con el modelo esperable en esta centuria según la tradición gramatical descrita (–ía para primera persona, –ié para las restantes) o no, sin aventurar tesis explicativas en estos últimos casos o trazar una visión de conjunto.

3.1 Sobre el castellano En los documentos de la cancillería alfonsí analizados por Sánchez González (2002, 161) «predominan, con diferencia significativa, los imperfectos y condicionales en -ie», comportamiento idéntico al detectado por Hartman (1974) en varias obras del escritorio regio. En documentación privada local, las colecciones diplomáticas riojanas del siglo XIII de Santo Domingo y San Millán responden, según García Turza (1996, 150) y González Bachiller (2002, 80), al tratamiento general descrito con muy pocas excepciones.Y con ninguna, según Hernández Alonso (2001, 93), la documentación de Palencia: [e]n todos los documentos palentinos estudiados por nosotros, aparecen solamente las formas en –ie. La primera en –ía que encontramos es de bien entrado el s. XIV. Por el contrario, en los documentos regios de Burgos (desde 1255) y en el Fuero Real hay bastantes casos en –ía. Ello nos dice que, a mediados del siglo, esta forma era más culta que la –ie, mientras en los documentos privados, más próximos al pueblo, predominan las en –ie.

18 Se trata de estudios que describen los usos lingüísticos (fonéticos, morfosintácticos) de corpus documentales representativos de determinada variedad porque, en lo que conocemos, no hay un estudio consagrado al estudio del imperfecto que los tome como base.

330

Mª Carmen Moral del Hoyo

Hernández Alonso considera, por lo tanto, que la exclusividad de –ié después de 1250 en documentación local se debe a una diferencia diafásica respecto de –ía, forma marcada como más prestigiosa según se desprende de su empleo en documentos cancillerescos, algo que no coincide con los datos que presentaremos en este trabajo. De hecho, en otros documentos castellanos como los de Miranda de Ebro de la 2ª mitad del XIII estudiados por Sánchez González et al. (2014, §3.2.3.1), predominan ampliamente las soluciones –ía. Por su parte, Imhoff (2000a, 386) examina los Documentos lingüísticos de España (DLE) editados por Menéndez Pidal (1919) correspondientes al periodo prealfonsí para determinar la fuerte preferencia por –ié (90,2 % de casos) y situar el foco de mayor presencia de –ía en la 3ª persona. En concreto, divide estos documentos en tres grupos y, según la tabla de porcentajes, obtenemos que lo que denomina «grupo occidental» (documentos de Campó y Valladolid), –ié representa el 44 % de las formas; en el «grupo central» (Montaña, Castilla, Burgos, Segovia, Toledo y Andalucía) en torno a un 92 % y, en el «grupo oriental» (Rioja, Osma, Sigüenza, Cuenca), un 98 %.

3.2 Sobre el asturleonés Staff afirma que, en el leonés del siglo XIII, al margen de la primera persona «les formes avec ie sont beaucoup plus nombreuses que celles avec ia. Tout cela cadre parfaitement avec les résultats généraux auxquels ont abouti les recherches faites sur cette question» (Staaff 1907, 289), lo que contrasta con los documentos de la catedral de Salamanca analizados por Onís (1909, 37), con dos únicos casos de –ié, y con los textos asturianos occidentales que estudia Lapesa en los que, a pesar de la prudencia que impone la escasez de testimonios, «puede observarse el predominio, o por lo menos gran proporción de ia» (Lapesa 1998, 64). Lo mismo ocurre en los diplomas de San Bartolomé de la Nava, cuya única excepción al modelo –ía es un caso de diçiemos ya en 1363 para el cual Viejo (1993, 45) considera dos hipótesis fonéticas: o se deben al cierre de la vocal átona o reflejan la vacilación temprana que experimentó el diptongo [je]~[ja]. En realidad, la falta de observación crítica de los datos bajo la asunción de la premisa tradicional debe explicar la inexacta apreciación de Staaff sobre el uso del imperfecto en el corpus de documentos leoneses que analiza pues, si computamos en función del factor geográfico —y temporal— los casos de imperfecto que el autor va expurgando, obtenemos diferencias evidentes: Grupo I (leonés oriental): el primero ejemplo no aparece hasta 1239 y, desde entonces hasta 1259, hay una clarísima tendencia a –ié, incluso aparece en la

El castellano en los orígenes del cambio gramatical

331

1ª persona; se usa en el 80 % de docs. y el 94,3 % de los casos. A partir de 1259, –ié en 50 % en documentos y 40,7 % en casos. Grupo II (leonés central): la situación es visiblemente distinta; desde el principio (1233), la tendencia al uso de –ía es manifiesta mientras –ié aparece en un 41,7 % en docs. y un 33,3 % en formas y su uso se incrementa a finales de siglo (desde 1286). Grupo III (leonés occidental): solo hay formas en dos documentos. Uno, de 1235, con –ía como solución única (1 forma); otro, de 1294, con 9 casos de –ía frente a 7 de –íe. El 50 % de documentos y 42,2 % de formas ofrecen –ié. Así las cosas, afirmar que los resultados en –ié son «mucho más numerosos» que los respectivos en –ía contemplando la documentación leonesa en su conjunto, no funciona más que para los documentos orientales hasta la década de 1260.19

3.3 Sobre el navarroaragonés La documentación navarra estudiada por Pérez-Salazar (1993, 140) muestra que la terminación –ie es excepcional, lo que coincide con lo observado por Saralegui (1977, 13, 221) en el imperfecto de los documentos de Irache (si bien en el condicional de estos mismos documentos destaca como desinencia preponderante)20 y con lo que Gifford/Hodcroft (1966, 127) habían notado en los textos medievales navarros y aragoneses. También Imhoff (2000a, 389), que revisa la documentación del reinado de Teobaldo I y los posteriores Documentos lingüísticos del Alto Aragón (Navarro 1957) se manifiesta en idénticos términos. Los resultados descritos reafirman las conclusiones de Hanssen quien, ya en 1896, dedicó dos pioneros estudios a sistematizar, a través de un grupo de textos no literarios, las características de la «conjugación aragonesa» y de la «conjugación leonesa» en los siglos XIII y XIV para evaluar sus similitudes y divergencias con las soluciones castellanas coetáneas. Lo que obtiene de los datos extraídos respecto de la fluctuación –ié/–ía en el imperfecto de las conjugaciones 2ª y 3ª es que en los documentos aragoneses21 «ya prevalecen las terminaciones que tienen a», hecho que explica por causas internas (como en castellano, la terminación –ia de la 1ª persona se extendió a la 19 Vid. infra n.21. 20 Ciérvide (1972, 72), sin embargo, señala casos de –ie en los documentos navarros que estudia, pero se limita a dar las formas que encuentra en tres documentos sin que podamos sacar conclusiones sobre su representatividad. 21 Los textos que compila se datan desde 1225.

332

Mª Carmen Moral del Hoyo

3ª del singular y, de ahí, al resto del paradigma) y externas («aceleró este desarrollo la analogía de dialectos vecinos, portugués, gallego, asturiano, catalán», Hanssen 1896a, 409). En la misma dirección, en los documentos leoneses «vienen las terminaciones ias, íamos, íades, ian de la influencia gallega. Parece que se usaban mas las terminaciones ias, ia, ian que ies, ie, ien pero prevalecian iemos i iedes» (Hanssen, 1896b, 764).22 Por lo tanto, analizados en conjunto, los datos no parecen respaldar que, aún en el siglo XIII, el asturleonés, por un lado (en sus variedades centrooccidentales), y el navarroaragonés, por otro, siguieran el paradigma presupuesto para el castellano, pues la resistencia de –ia en las variedades occidentales y su casi exclusividad en las orientales dibujan una suerte de continuidad rota por el castellano y sus estribaciones vecinas en tanto que el leonés oriental, el castellano palentino y el riojano, sí se suman al modelo –ié.

4 Análisis de los datos Vamos a presentar, a continuación, las tablas que computan la alternancia –ia/ié en la documentación burgalesa del siglo XIII haciendo un corte cronológico en 1250, con el fin de comprobar si, como sostiene Imhoff, la regularización de –ié se manifiesta en época alfonsí pero no antes. Debemos, no obstante, advertir de que el número de textos con romance estable en Oña antes de 1250 no es tan elevado como en Las Huelgas.

4.1 Variantes del imperfecto en documentación castellana burgalesa < 1250 En los diplomas onienses, los imperfectos se datan desde 1238 y se localizan en 5 documentos. En Las Huelgas, hay casos desde 1202 y, desde 1210, en formas distintas a la 1ª. El reparto se establece como sigue:

22 Por eso, en su gramática histórica de 1910, excluye la franja occidental leonesa del uso de –ié, que reclama para el resto del territorio (Hanssen 1910, §28, apud Malkiel 1959, 444). Lo mismo Lloyd: «El nuevo modelo de imperfecto fue el que dominó en Castilla, Aragón y León ‹con exclusión de las zonas más occidentales›» (Lloyd 1993, 575. El resalte es nuestro).

El castellano en los orígenes del cambio gramatical

333

Tabla 2: –ie/–ia en doc. burgalesa < 1250 Oña (5 doc.)

Huelgas (11 doc.)

–ié

–ía

–ié

–ía

1ª

–

–

–

2 (2)23

3ª

3 (3)

–

9 (5)

10 (3)

4ª

1 (1)

–

1 (1)

–

5ª

3 (3)

–

1 (1)

–

6ª

1 (1)

–

–

1 (1)

Computado el total de casos susceptibles de mostrar la variación (esto es, excluyendo la 1ª persona ante la regularidad sistemática en ella de la forma –ía), la competencia entre ambos paradigmas es la norma en los documentos burgaleses de la primera mitad del siglo XIII, que se reparten casi al 50 %, lo que contrasta aún más con la exclusividad de –ié de los textos onienses. No obstante, creemos necesario relativizar las cifras absolutas con el cómputo de las variantes –ie/–ia (no 1ª) en función del número de documentos en las que se concentra cada una; se trata, así, de evitar generalizaciones puesto que un elevado número de testimonios puede estar reducido a un escaso número de documentos o escribanos. De este modo, la igualdad entre –ie/–ia en Las Huelgas se ve desequilibrada a favor de –ie en una proporción de 77,8 % frente a 22,2 %24 cuando consideramos el parámetro del número de documentos, lo que aproxima los resultados a la sistematicidad de Oña. Resulta de interés, además, establecer la distribución de las variantes en función de la persona gramatical, dado que la tesis de Malkiel postula una difusión de –ié consolidado, primero, en la 4ª y la 5ª personas para pasar, después, a la 6ª y a la 3ª. Si los datos de esta primera mitad del XIII apuntan en esta dirección, deberían ofrecer la mayor estabilidad de –ié en la 4ª y la 5ª personas, con mayor fluctuación en la 6ª y aún mayor en la 3ª. En Oña, los 8 casos de imperfecto, todos de –ié, se distribuyen en todas las personas, si bien los ejemplos de la 4ª y la 6ª son únicos.

23 En la presentación de los datos, Exponemos el número de formas y, entre paréntesis, el número de documentos donde esas formas son localizadas. 24 Calculado sobre el número de documentos con imperfecto en formas distintas de la 1ª.

334

Mª Carmen Moral del Hoyo

Gráfico 1: Burgos < 1250: –ie/–ia (casos)

Gráfico 2: Burgos < 1250: –ie/–ia (docs.)

Gráfico 3: Oña < 1250: –ie/–ia (paradigma)

En Las Huelgas tampoco localizamos más de un testimonio de la 4ª y la 5ª, ambas con –ié, y de la 6ª, con –ía. Es en la 3ª donde convergen ambas variantes, con una mínima mayoría de –ía que, sin embargo, está presente en menos documentos que –ié:

335

El castellano en los orígenes del cambio gramatical

Gráfico 4: Huelgas < 1250: –ie/–ia (casos)

Gráfico 5: Huelgas < 1250: –ie/–ia (docs)

4.2 Comparativa de variantes del imperfecto en documentación leonesa/castellana/ navarroaragonesa < 1250 Como es previsible, la documentación con romance estable previa a 1250 es bastante más escasa que la posterior. Con todo, recogemos la variación –ía/–ié en el imperfecto de los documentos que componen el corpus de control en la siguiente tabla: Tabla 3: –ie / –ia en doc. leonesa, castellana, navarroaragonesa < 1250 Docs. imperf.

–ié (docs)

–ía (no 1ª) (docs)

–ié (casos)

–ía (no 1ª) (casos)

Reales (Burgos)

3

2

1

7

4

Carrizo

–

–

–

–

–

León

3

0

3

0

3

Sahagún

2

1

2

1

6

Palencia

4

3

2

17

11

La Montaña

6

1

3

1

4

Rioja

5

4

1

10

1

Navarra

3

0

3

0

5

Aragón

–

–

–

–

–

336

Mª Carmen Moral del Hoyo

Para visualizar mejor estos datos, configuramos, en primer lugar, el gráfico que representa la distribución –ía / –ié en función del número de documentos en los que se emplean:

Gráfico 6: –ie/–ia (docs.) < 1250

En segundo lugar, el referido al número de casos:

Gráfico 7: –ie/–ia (casos) < 1250

El trazado del uso de –ié en ambos casos es muy similar, lo que confirma que no se trata de desviaciones puntuales excepto en Sahagún, documentación de la que, precisamente, trataremos con detalle más abajo:

El castellano en los orígenes del cambio gramatical

337

Gráfico 8: –ie/–ia (casos / docs.) < 1250

En líneas generales, el modelo no etimológico se concentra, antes de 1250, en el sector castellano oriental, con un 100 % de casos y documentos en Oña y un 90,1 % (80 % en documentos) en La Rioja. Después, va decreciendo paulatinamente en dirección oeste hasta el leonés oriental (Burgos, 47,4 % en privados y 63,6 % en reales > La Montaña, 16,7 % > Sahagún, 14,3 %), con una elevación considerable en Palencia, que equipara sus resultados a los reales de Burgos. Todo este grupo, a su vez, se aglutina en torno al uso de –ié frente al leonés central y el navarro que, sin un solo testimonio de –ié, representan la exclusividad de –ía en las áreas laterales.25 Según esta distribución, antes de 1250 el modelo que se describe como el genérico para el imperfecto medieval en los romances centrales (–ié para todas las personas gramaticales diferentes a la 1ª) ni siquiera está apuntado en el leonés centro–occidental o en el navarroaragonés. Pero tampoco es dominante en castellano si consideramos el factor diatópico: únicamente en el burgalés nororiental y en la Rioja es hegemónico, en el centro de Burgos y en Palencia la variante –ía permanece todavía siendo muy significativa y es la dominante en el castellano de La Montaña.26

25 A pesar de que no documentamos casos en los extremos más occidental (Carrizo) y oriental (Aragón), podemos suponer que seguirían la tendencia de León y Navarra en el uso sistemático de –ía. 26 Si contrastamos estos resultados con los que obtenemos en los DLE de Menéndez Pidal anteriores a 1250, los resultados muestran tendencias similares en algunos grupos: la coexistencia de ambas variantes parece la tendencia de Campó, si bien sólo hay dos testimonios, uno de –iémos (1219) y numerosos de –ía en un mismo documento donde proliferan rasgos occidentales

338

Mª Carmen Moral del Hoyo

Aparentemente, los datos hacen plausible la hipótesis de Imhoff: que Oña y La Rioja presenten, en el XIII prealfonsí, los mayores índices de –ié podría tener relación con el mayor contacto de estas zonas con las hablas pirenaicas (por geografía y por asentamientos de colonos). Ahora bien, en el sector oriental del leonés está ocurriendo un proceso similar. En Sahagún, aunque nuestros datos señalan la marcada minoría de –ié en el cómputo de casos, en documentos alcanza el 50 % y, ampliando la muestra, los diplomas del corpus de Staaff contabilizados más arriba presentan aquí una situación análoga a Oña y La Rioja, con un 94 % de casos (y un 80 % de documentos) hasta el fin de la década de 1250. De hecho, en leonés central se localizaban ya formas en –ié. Por lo tanto, la irrupción de –ié se da con intensidad también en la conjunción entre el castellano y el leonés, no sólo en el castellano con el navarroaragonés, lo que lleva a pensar en una causa estructural compartida. Si esta causa es la analogía con el pretérito, y no una acción fonética, el análisis del reparto –ié/–ía en función de las personas gramaticales es de interés: En la 3ª persona:

Gráfico 9: –ie/–ia (casos), 3ª persona < 1250

(1223). Y La Rioja tiene una preferencia por –ié casi absoluta: La Rioja Baja sólo muestra un caso y es de –ié y, en La Rioja Alta, su uso es abundantísimo en todas las personas desde 1199, con un excepcional –ía en la 3ª persona en 1249.

El castellano en los orígenes del cambio gramatical

339

En la 6ª persona:

Gráfico 10: –ie/–ia (casos), 6ª persona < 1250

En la 4ª y en la 5ª personas, aunque los casos son muy pocos (3 y 4 en total, respectivamente):

Gráfico 11: –ie/–ia (casos), 4ª/5ª persona < 1250

Así las cosas, a pesar de que el número de testimonios de la 4ª y la 5ª personas es muy bajo respecto a la 3ª y la 6ª y se concentra en los diplomas de Palencia, Oña y Las Huelgas, no hay excepción al empleo de –ié, a diferencia de la fuerte competencia que ejerce –ía en la 3ª y la 6ª. Excluyendo del cómputo al leonés central y el navarro, la media de –ié en la 3ª es de 48,4 % y de 58,3 % en la 6ª lo que, con el 100 % en la 4ª y la 5ª, representa de menos a más la difusión descrita por Malkiel aunque creemos que no necesariamente hubo de cumplirse la dirección 6ª > 3ª.

340

Mª Carmen Moral del Hoyo

4.3 Variantes del imperfecto en documentación castellana burgalesa > 1250 La cuantía de documentos de los que se dispone en esta segunda mitad hace posible identificar numerosos casos de imperfecto: Tabla 4: –ie/–ia en doc. burgalesa > 1250 Oña (22 doc.)

Huelgas (25 doc.)

–ié

–ía

–ié

–ía

1ª

–

10 (8)

–

5 (4)

3ª

14 (7)

6 (5)

8 (4)

2 (1)

4ª

2 (2)

2 (2)

14 (9)

–

5ª

2 (2)

2 (1)

3 (3)

–

6ª

6 (6)

3 (3)

11 (6)

2 (1)

Las variantes se reparten así:

Gráfico 12: Burgos >1250: –ie/–ia (casos)

Gráfico 13: Burgos >1250: –ie/–ia (docs.)

Si comparamos los resultados con los obtenidos antes de 1250, se ha producido una inversión: del 100 % de casos y documentos en los que atestiguábamos –ié en Oña, la variante –ía ha aumentado en proporciones muy significativas con más de un tercio de los casos y localizándose en casi la mitad de documentos, en personas distintas a la 1ª. A su vez, los diplomas de las Huelgas han experimentado la evolución contraria: de un 47,8 % de casos con –ié se ha pasado a un 90 % y es la

El castellano en los orígenes del cambio gramatical

341

forma casi absoluta, también, en el número de documentos con formas de imperfecto, presentando –ía un residual 4,6 % de los mismos, frente al 22,2 % anterior. Distribución de formas por casos:

Gráfico 14: Oña >1250: –ie/–ia (casos)

Gráfico 15: Huelgas > 1250: –ie/–ia (casos)

Distribución de formas por documentos:

Gráfico 16: Oña > 1250: –ie/–ia (docs.)

Gráfico 17: Huelgas > 1250: –ie/–ia (docs.)

Mientras la 1ª persona sigue sin ofrecer otra solución que –ía, en el resto hay cambios: en las Huelgas, como ocurría en la 1ª mitad del siglo, la 4ª y la 5ª personas solo presentan la variante –ié y, aunque se mantiene la fluctuación en la 3ª y la 6ª, –ié es ahora notablemente mayoritaria en ambas personas. En Oña, con exclusividad de –ié (aunque pocos testimonios) para todo el paradigma antes de 1250, la variante –ía no solo alcanza proporciones en torno al 30 % en la 3ª y en la 6ª personas sino que, además, en la 4ª y en la 5ª, donde –ié /–ía se reparten equitativamente.

342

Mª Carmen Moral del Hoyo

De estos datos se desprende que, en la región norteña, la variante –ié está perdiendo fuerza con rapidez e intensidad mientras, por el contrario, la región central ha experimentado un auge de esta variante hasta hacerla casi sistemática. De hecho, la desinencia etimológica se usa, también, en la 4ª y 5ª personas donde, según la tesis de la analogía morfológica, se habría iniciado el nuevo modelo de imperfecto por causas que, como veremos, inciden también en la convergencia formal y funcional de indefinido e imperfecto.

4.4 Comparativa de variantes del imperfecto en documentación leonesa/castellana/ navarroaragonesa < 1250 La tabla que contiene los datos es la siguiente: Tabla 5: –ie/–ia en doc. leonesa, castellana, navarroaragonesa > 1250 Docs. imperf.

–ié (docs)

–ía (no 1ª) (docs)

–ié (casos)

–ía (no 1ª) (casos)

Reales (Burgos)

14

10

7

37

5

Sahagún

10

3

6

19

6

Catedral

14

0

14

0

41

Carrizo

6

1

6

1

13

Palencia

4

3

1

27

3

La Montaña

10

1

9

1

10

Rioja

15

12

5

18

16

Navarra

5

0

5

0

18

Aragón

6

0

6

0

9

Y los gráficos, según las ocurrencias en documentos:

El castellano en los orígenes del cambio gramatical

343

Gráfico 18: –ie/–ia (docs.) > 1250

Y, por casos:

Gráfico 19: –ie/–ia (casos) > 1250

Al superponer los gráficos de la distribución de –ié en función del número de casos y el número de documentos se verifica que hay alguna divergencia notable pero, como ocurría con el gráfico de la primera mitad de la centuria, las tendencias son bastante homogéneas.

344

Mª Carmen Moral del Hoyo

Gráfico 20: –ie (docs./casos) > 1250

En La Rioja los diplomas ofrecen un 52,9 % de formas –ié que, sin embargo, se localizan en el 80 % de los documentos. Esto indica que, puede haber, en algunos casos, cierta distribución de formas ligada a determinados escribanos. Con todo, el paradigma –ié sigue concentrándose en el ámbito castellano pero se ha producido un «corrimiento» de fuerzas oriente > sur y occidente, como se desprende del gráfico inferior: mientras Oña y Rioja lideraban el empleo del modelo –ié antes de 1250, es ahora Burgos, tanto en sus documentos privados como cancillerescos, los que mayor uso hacen del mismo, casi exclusivo en Las Huelgas, al mismo nivel que los documentos de Palencia. Sahagún experimenta, también, un importante auge. Sin embargo, Oña y Rioja reducen en casi un 40 % los casos de –ié frente a –ía. Curiosamente, contrastando la evolución de –ié en función del número de casos y de documentos se aprecia que, a lo largo de la centuria, la presencia de –ié en cuanto a los documentos se mantiene mucho más estable que los casos. Así ocurre en León, Palencia, La Montaña, La Rioja y Navarra, así como en los documentos reales firmados en Burgos. Sin embargo, tanto Sahagún como Las Huelgas y, sobre todo, Oña, experimentan un salto cualitativo en el empleo de –ié coincidiendo con la elevada diferencia que muestra el número de casos: en el Oña, para disminuir y, en el de Las Huelgas y Sahagún, para aumentar.

El castellano en los orígenes del cambio gramatical

345

Gráfico 21: –ie < 1250 / –ie > 1250 (casos)

Gráfico 22: –ie< 1250 / –ie> 1250 (docs.)

Si pasamos, ahora, al análisis de la distribución de variantes en función de la persona gramatical, obtenemos:

346

Mª Carmen Moral del Hoyo

3ª persona:

Gráfico 23: –ie/–ia, 3ª persona > 1250 (casos)

6ª persona:

Gráfico 24: –ie/–ia, 6ª persona > 1250 (casos)

De un 48,4 % en la 3ª y un 58,3 % en la 6ª hemos pasado 71,8 % (excluyendo León centrooccidental, donde incluso aquí ya hay casos, y Navarra/Aragón) y 70,61 %. La frecuencia media de uso de –ié se ha incrementado notablemente en esta segunda mitad de la centuria, sobre todo en la 3ª persona, puesto que supone la marca morfológica adecuada para deshacer la homomorfia con la 1ª persona. Esta forma experimenta un salto cualitativo en la documentación burgalesa de

El castellano en los orígenes del cambio gramatical

347

cancillería y Palencia, donde es casi sistemática, y en Sahagún y la documentación de Las Huelgas de Burgos, La Rioja y Oña reducen los casos de modo que, si situamos aquí la mayor representatividad de –ié en la 1ª mitad de siglo, también parece ser más temprana la tendencia a recuperar –ía. 4ª persona:

Gráfico 25: –ie/–ia, 4ª persona > 1250 (casos)

5ª persona:

Gráfico 26: –ie/–ia, 5ª persona > 1250 (casos)

348

Mª Carmen Moral del Hoyo

Lo más significativo de ambos gráficos es que, contrastados con los que dibujaba la documentación anterior a 1250 y, aunque los casos vuelven a ser escasos, la sistematicidad de –ié está cediendo, de nuevo, en el castellano norteño lo que, unido a la disminución de casos en la 6ª y, sobre todo, 3ª persona, apuntala la tendencia a la nivelación paradigmática en –ía que, en la documentación de los ámbitos limítrofes, muestra mayor resistencia.

5 Replanteamiento del origen y la difusión de –ié y conclusiones Lo que los datos del corpus de análisis perfilan cuando el romance es ya el código vehicular estable es que, en el siglo XIII, no hay homogeneidad en la distribución del doble paradigma –ía/–ié en las tres variedades centrales. En castellano, si adoptamos una visión global de los datos, la implantación de –ié es la norma general durante toda la centuria excepto en la 1ª persona, cumpliendo la descripción tradicional de las gramáticas, sin que –ía deje, no obstante, de estar representada (con una media del 35 % de casos). Sin embargo, en una visión de este ámbito que incorpore el factor geográfico y cronológico es perceptible que, hasta 1250, la mayor concentración de casos en –ié ocurre en el castellano nororiental (documentos onienses, 100 %, y riojanos, 90,1 %) para, después de 1250, pasar a los documentos de Las Huelgas de Burgos (90 %), los campurrianos (90 %) y los reales (86,4 %), mostrando los diplomas de La Rioja y Oña, ahora, un incremento significativo de –ía (47,1 % y 35,1 %, respectivamente). El área más septentrional del castellano, La Montaña, se desgaja completamente de este empleo más o menos general de –ié al optar, durante todo el siglo, por el paradigma –ía con apenas excepciones, aproximándose al comportamiento de las variedades no castellanas. Los documentos navarros y aragoneses estudiados, por su parte, se muestran aún más decididos en el empleo de –ía que la tendencia apuntada por Hanssen, dado que no hay excepción a este modelo, en consonancia con los estudios sobre colecciones coetáneas del mismo ámbito dialectal (y, probablemente, porque los documentos de nuestro corpus son privados y, a pesar de que él no lo advierte, los pocos ejemplos de –ié que atestigua Hanssen están en solo dos documentos, ambos reales). El leonés comparte con el navarroaragonés la sistematicidad de –ía en su sector occidental y central, si bien hay algún ejemplo esporádico de –ié en la 2ª mitad del siglo (y en la 1ª según Staaff 1907). El leonés oriental, por el contrario, evidencia la competencia –ía/–ié antes de 1250 para primar –ié después aunque no más allá de un 75 %.

El castellano en los orígenes del cambio gramatical

349

Para sustentar la tesis de Malkiel, este tipo de datos son imprescindibles, puesto que él toma únicamente como indicios empíricos del origen del imperfecto –ié en la analogía con las formas plurales diptongadas de los perfectos el hecho de que, en el Poema de Mio Cid, Menéndez Pidal (1944) encuentre un caso de –iémos y cinco de –iédes pero ninguno de –íamos/–íades frente a la competencia –ié/–ía en la 3ª y 6ª personas, y que Hanssen «had similarly encountered in Old Leonese texts a marked preponderance of –ie only in conjunction with –mos and –des» (Malkiel 1959, 474), limitación que, por otra parte, reconoce no ser totalmente acorde con su teoría, dado que se esperaría –ié también en el resto del paradigma. Tampoco hace ninguna apreciación respecto al hecho de que el inventario que el propio Hanssen lleva a cabo sobre documentos del antiguo aragonés «led him to the conclusion that –ía, here more strongly represented than the center, had extended itself from the 1st […] [and] in part under the pressure of neighboring dialects and languages» (Malkiel 1959, 442), de modo que, al exponer su teoría, que pretende ser inclusiva de los tres dialectos (con –ié) frente al gallego-portugués (sin –ié), no tiene en cuenta estos desajustes de las tres variedades. Nuestros datos favorecen la tesis de Malkiel en tanto que, a pesar de ser muy pocos los casos de 4ª y 5ª antes de 1250, los encontramos en Palencia, Burgos, Oña, donde ambos paradigmas podrían darse, y el 100 % ofrecen –ié frente a la competencia en la 3ª y la 6ª (más en la 6ª que en la 3ª) aunque, como comentamos, es discutible que la difusión de la analogía siga la dirección prevista por Malkiel. En leonés oriental no hay casos en el corpus, pero un recuento de los que enumera Staaff demuestra cómo apenas hay excepción.27 Después de 1250, la variante –ié también es la hegemónica en castellano y leonés oriental y, de forma más sistemática, en la 5ª que en la 4ª, donde –ía se implanta con fuerza en Oña (50 %) y Palencia (75 %). Aunque pueda estar operando una acción analógica desde la 1ª persona del singular –ía al plural, también es posible que la mayor incidencia de –íamos ocurra para evitar la ambigüedad con –iémos, frente a –iédes, que no corre ese riesgo con –iestes. Esta reacción asimétrica de la 4ª respecto de la 5ª reforzaría, entonces, el papel de la convergencia imperfecto/indefinido tanto en el origen de –ié como en la regularización multicausal de –ía y, en este mismo sentido, constatamos en los documentos una preferencia absoluta por –iestes en el pretérito a lo largo de todo el siglo, pero no así de –iemos, puesto que –imos alcanza porcentajes en torno al 30 % desde Carrizo hasta Oña28. 27 Pues sólo el grupo oriental ofrece testimonios; 4ª: 10 –iémos vs. 2 –íamos/ / 5ª: 1 –iédes. 28 Frecuencia de –imos. Carrizo: 33,3 %; León, 35,7 %; Sahagún: 33,3 %; Palencia, 25 %; La Montaña 273 %; Burgos: 26,3 %; Reales Burgos: 0 %; Oña: 35,3 %; Rioja, Navarra, Aragón: 100 %.

350

Mª Carmen Moral del Hoyo

Ahora bien, las formas 4ª y 5ª registradas en León (centro), Navarra y Aragón ofrecen –ía en todo caso en estas mismas décadas, por lo que la tesis de Malkiel, que concibe una explicación única para los tres bloques lingüísticos, como si el comportamiento de –ié fuera homogéneo, debe matizarse cronológica y geográficamente. Malkiel pretende justificar por qué, dándose las mismas circunstancias en origen, el gallegoportugués no conoce el paradigma en –ié para el imperfecto de 2ª y 3ª conjugación, y la razón la encuentra en el arraigo en esta variedad de un sistema de tres conjugaciones en el pretérito débil, donde los verbos en –er la han desarrollado analógicamente, que resisten la diptongación analógica (–emos, –estes / –imos, –istes). Así pues, sólo donde se generalizó –ié en el pretérito tenemos imperfecto en ié. Pues bien, la explicación que da puede extenderse también al asturleonés centrooccidental y, en principio, al navarroaragonés y justificar, de este modo, la excepcionalidad de –ié en los diplomas del XIII de estos ámbitos cuando la convergencia sería posible, incluso favorecida por la fluctuación [jé, já] del diptongo procedente de Ĕ . En ambos casos, se ha demostrado que, frente al castellano, existe la «preservación de los paradigmas desinenciales etimológicos e, i para –er, –ir que manifiestan los textos aragoneses del siglo XIII [y] está ampliamente documentada en el dominio astur-leonés, esencialmente en sus zonas más conservadoras» (López Bobo 1996, 52)29, frenando la analogía de los perfectos fuertes. Por lo tanto, el desequilibrio en el reflejo del imperfecto –ié en los documentos lo sería también de la diferente cronología con la que, en las tres variedades, se extiende el diptongo en el perfecto y reforzaría la tesis analógica. Pero tampoco en este caso la homogeneidad de resultados entre ambos extremos peninsulares parece absoluta. El aragonés otorga una expansión mucho más amplia al paradigma diptongado ie, que no solo invade el plural del perfecto y los tiempos afines de las clases –er, –ir y fuerte, sino también las formas singulares. Este romance debió de conocer un desarrollo autóctono en ie para el tipo –ir ( –ie tan corriente en la Edad Media». Es decir, que estos primeros ejemplos de –ié (comprometidos, con todo, por tratarse de una copia) únicamente los localiza en la Rioja Alta y en la 3ª persona. 32 «Así, seguramente en poblaciones como Logroño, Santo Domingo de la Calzada, Nájera, Burgos, Carrión, Sahagún, León, Oviedo. . ., los individuos de oriundez ultrapirenaica podrían suponer al filo del 1200 quizá entre un 20 y un 25 % del vecindario total de esos centros urbanos y, desde luego, muchos de ellos figuraban entre la burguesía local más cualificada» (Ruiz de la Peña 2000). 33 No será casual, entonces, que en los DL de La Montaña los únicos casos de –ié se acumulen en un documento temprano, de 1191, de Santa Mª del Puerto (Santoña), en la zona oriental, que fue en la que más tiempo resistió la dominación navarra.

352

Mª Carmen Moral del Hoyo

modo que es después, a partir del XII, cuando se refuerza la población intramontes (Tuten 2003, 150) y, además, queda fuera de esta ruta de influencia y asentamiento francos, que discurre al sur de la cordillera cantábrica. Pero el proceso es estructural en todos los casos: como explica Posner (1961), hay una tendencia primitiva a la convergencia de pretérito e imperfecto donde, a mayor uso del pretérito, mayor influencia en el imperfecto, que cede su significado aspectual a favor del temporal de pasado y no requiere, por tanto, de marcación morfológica distintiva. Con la progresiva implantación de los tiempos compuestos, el imperfecto recupera sus valores aspectuales o modales y esto culmina en la reintroducción de una marca propia. La autora acude a esta teoría para intentar ofrecer una explicación de conjunto a la caída o el mantenimiento de –B – en el imperfecto de las lenguas romances pero, creemos, es posible recuperar sus argumentos para la irrupción, difusión y eliminación de –ié. Además, el papel que puede jugar la progresiva implantación de los tiempos compuestos en la variación formal del imperfecto resulta de gran interés si lo conjugamos con la demostración de Rodríguez Molina (2010, cap.6, §8.4.2) sobre la direccionalidad de este proceso en la Península Ibérica: «Todo el territorio del actual País Vasco, Navarra, Aragón y, en menor medida, el noroeste de Burgos, el oriente de Cantabria y Guadalajara aragonés al norte del Ebro configuran la zona donde […] los tiempos compuestos muestran un grado de gramaticalización mayor» (Rodríguez Molina 2010, 1217). Si aunamos, por tanto, estas propuestas con el reparto –ié/–ía que, en el XIII, presentan documentos de los tres romances centrales, podemos concluir que, si bien inicialmente el proceso pudo ser común (analogía formal por convergencia funcional), no así su evolución: a) En el ámbito (centro)occidental del asturleonés, la convergencia funcional entre ambos tiempos es prácticamente segura, pero el paradigma –ié es muy reducido porque también lo es su presencia en el plural de los pretéritos de donde parte la acción analógica. A medida que la castellanización opere en el territorio, aumentarán los casos de –ié que, además, podrán fosilizarse con mayor facilidad en tanto los tiempos compuestos presentan aquí los testimonios más tardíos de gramaticalización. b) En leonés oriental y en castellano (hasta el oriente de Cantabria por el norte) la convergencia también está acreditada y, además, –ié está bien asentado en los plurales del perfecto, de modo que ambos factores actúan en la difusión progresiva de –ié. La presencia del modelo aragonés de pretérito –ié y variantes francas pudo impulsar el proceso en zonas de contacto. La progresiva eliminación de –ié, además de deberse a la acción de diversas fuerzas morfológicas, coincide también con la gramaticalización de los tiempos compuestos.

El castellano en los orígenes del cambio gramatical

353

c) En navarroaragonés, la convergencia funcional parece no ser ya operativa o no tener reflejo formal por lo que, aunque la presencia de –ié en el pretérito se ha extendido a todo el paradigma en determinadas variedades, el imperfecto selecciona –ía como marca diferencial en todo el territorio. Progresivamente, la influencia del castellano reintroduce –ié y esto coincide con la documentación de imperfectos –eba, –iba.34 En este ámbito, donde más tempranamente se constata la individuación morfológica (que se supone funcional) del indefinido y el imperfecto, es donde también se acreditan los casos más tempranos de tiempos compuestos gramaticalizados. En definitiva, los datos no avalan que pueda predicarse un comportamiento homogéneo para la variación –ié/–ía en las tres variedades centrales peninsulares durante el siglo XIII y su estudio desde un corpus construido con un enfoque intrae interdialectal se revela de gran interés para comprender la dinámica del cambio operado en castellano, pues es aquí donde se focaliza la irrupción y difusión de –ié frente a la resistencia de los ámbitos occidentales y orientales, con dinámicas propias todavía no anuladas por la pretendida hegemonía del castellano.

6 Fuentes bibliográficas Álamo, Juan del, Colección Diplomática de San Salvador de Oña (822–1284), Madrid, CSIC, 1950. Casado, Mª Concepción (ed.), Colección diplomática del Monasterio de Carrizo, vol. I (969–1260) y II (1260–1299), León, Centro de estudios e investigación San Isidoro, 1983. Castro, Araceli y José Manuel Lizoain, Documentación del monasterio de las Huelgas de Burgos (1284–1306), Burgos, Fuentes Medievales Castellano-Leonesas, 1987. Díez, Carmen/López, Luis/Pérez, Rogelio, Abadía de Santillana del Mar. Colección diplomática, Madrid, Fundación Santillana, 1983. Escagedo, Mateo, Colección diplomática. Privilegios, escrituras y bulas en pergamino de la insigne y real Colegiata de Santillana, Santoña, El Dueso, 1927. Fernández Flórez, José Antonio (ed.), Colección diplomática del Monasterio de Sahagún, (1200–1300), León, Centro de estudios e investigación San Isidoro, 1994. Lacarra, José Mª, Colección diplomática de Irache, Pamplona, Institución Príncipe de Viana, 1986. Lizoain, J. Manuel, Documentación del monasterio de las Huelgas de Burgos (1116–1230), (1231–1262), Burgos, Fuentes Medievales Castellano-Leonesas, 1985. López de Silanes, Ciriaco/Sáinz, Eliseo, Colección diplomática calceatense: Archivo Catedral (años 1125–1397), La Rioja, Instituto de Estudios Riojanos, 1985. López de Silanes, Ciriaco/Sáinz, Eliseo, Colección diplomática calceatense: Archivo Municipal (años 1207–1498), La Rioja, Instituto de Estudios Riojanos, 1989.

34 La discusión sobre si –eba es conservación etimológica o creación analógica está en Khun (1989), Rolfs (1935) y Alvar (1953).

354

Mª Carmen Moral del Hoyo

Martín, J. Antonio/Ruiz Asencio, J. Manuel (edd.), Colección documental del archivo de la Catedral de León, vol. IX (1269–1300), León, Centro de estudios e investigación San Isidoro, 1994. Menéndez Pidal, Ramón, Documentos lingüísticos de España, I. Reino de Castilla, Madrid, CSIC, 1919. Navarro Tomás, Tomás, Documentos lingüísticos del Alto Aragón, Siracusa, Syracus University Press, 1957. Oceja, Isabel, Documentación del Monasterio de San Salvador de Oña (1032–1284), Burgos, J.M. Garrido Garrido, 1983. Oceja, Isabel, Documentación del Monasterio de San Salvador de Oña (1284–1310), Burgos, J.M. Garrido Garrido, 1985. Ruiz Asencio, José Manuel (ed.), Colección documental del archivo de la Catedral de León (1230–1269), León, Centro de estudios e investigación San Isidoro, 1993. Sánchez Belda, Luis, Cartulario de Santo Toribio de Liébana, Madrid, Patronato Nacional de Archivos, 1948.

7 Referencias bibliográficas Alvar, Manuel, El dialecto aragonés, Madrid, Gredos, 1953. Alvar, Manuel/Pottier, Bernard, Morfología histórica del español, Madrid, Gredos, 1983. Azofra, M.ª Elena, Morfosintaxis histórica del español: de la teoría a la práctica, Madrid, Uned, 2009. Buesa, Tomás/Castañer, Mª Rosa, El pretérito perfecto simple en las hablas pirenaicas de Aragón y Navarra, Archivo de Filología Aragonesa 50 (1994), 65–132. Bustos Gisbert, Eugenio, La morfología histórica del verbo español, in: Girón, J. Luis/ Bustos, J. Jesús de (edd.), Actas del VI Congreso Internacional de Historia de la Lengua Española, vol. 1, Madrid, Arco Libros, 2006, 387–415. Cano Aguilar, Rafael, La morfología histórica del español en los últimos cien años, in: Cisneros, L. Jaime/Lerner, Isaías/Oesterreicher, Wulf (edd.), Homenaje José Luis Rivarola, vol. 2, Lima, Fondo Editorial de la Pontificia Universidad Católica del Perú, 2004, 71–104. Ciérvide, Ricardo, Primeros documentos navarros en romance, (1198–1230): comentario lingüístico, Pamplona, Institución Príncipe de Viana, 1972. Egido, Mª Cristina, El sistema verbal en el romance medieval leones, León, Universidad de León, 1996. Ford, J. D, Old Spanish Readings, Boston, Athenaeum Press, 1906. García Turza, Claudio/García Turza, Javier, Una nueva visión de la lengua de Berceo a la luz de la documentación emilianense del siglo XIII, Logroño, Universidad de la Rioja, 1996. García-Macho, Mª Lourdes/Penny, Ralph, Gramática histórica de la lengua española: morfología, Madrid, Uned, 2013. Gassner, Armin, Das altspanische Verbum, Halle, Max Niemeyer, 1897. Rohlfs, Gerhard, Le gascon. Études de philologie pyrénéenne, Halle, Max Niemeyer, 1935. Gifford, D.F./Hodcroft, F.W, Textos lingüísticos del medievo español, Oxford, The Dolphin Book, 1966. González Bachiller, Fabián, El léxico romance de las colecciones diplomáticas calceatenses en los siglos XII y XIII, Logroño, Universidad de La Rioja, 2002.

El castellano en los orígenes del cambio gramatical

355

González Ollé, Fernando, Pretérito imperfecto y condicional con desinencia –ie en el siglo XVI, Revista de Filología Española 80/3–4 (2000), 341–377. Hanssen, Friedrich, Sobre la formación del imperfecto de la segunda y tercera conjugación castellana en las poesías de Gonzalo Berceo, Anales de la Universidad de Chile 85 (1894), 655–694. Hanssen, Federico, Estudios sobre la conjugación aragonesa, Archivo de Filología Aragonesa 26/27 (1896), 401–418 (=1896a). Hanssen, Federico, Estudios sobre la conjugación leonesa, Santiago de Chile, 1896 (=1896b). Hanssen, Friedrich, Das Possessivpronomen in den altspanischen Dialekten, Valparaíso, Imprenta del Universo de G. Helfmann, 1897. Hanssen, Friedrich, Gramática histórica de la lengua castellana, Halle, Niemeyer, 1913. Hartman, Steven L., Alfonso el Sabio and the varieties of verb grammar, Hispania 72 (1974), 48–55. Henriksen, Nicholas, A reanalysis of paradigmatic variation in the Old Spanish imperfect, Studies in Hispanic and Lusophone Linguistics, 1 (2008), 287–316. Henriksen, Nicholas, Imperfect variation and class marking in the Old Spanish third conjugation, in: Masullo, P./O’Rourke, E./Huang, C., Romance Linguistics 2007, Amsterdam, John Benjamins, 2009, 143–156. Hernández Alonso, César, De las glosas al Mio Cid, in: Criado del Val, Manuel (ed.), Los orígenes del español y los grandes textos medievales: Mio Cid, Buen Amor, Celestina, Madrid, CSIC, 2001, 87–96. Imhoff, Brian, On the Chronology and Recession of the Old Spanish –ie Imperfect, La Corónica 46/2 (1998), 243–255. Imhoff, Brian, Dialect Contact and Historical Linguistic Variation: The Old Spanish –ie imperfect, Hispanic Review 68 (2000), 381–396 (=2000a). Imhoff, Brian, Socio-historic network ties and medieval Navarro-Aragonese, Neuphilologische Mitteilungen101 (2000b), 443–450 (=2000b). Imhoff, Brian, A note on the Old Aragonese –ie preterite, Bulletin of Hispanic Studies 81 (2004), 1–4. Imhoff, Brian, Menéndez Pidal y el origen del imperfecto en –ie, Anuario de Letras 45 (2007), 229–237. Kuhn, Alwin, El perfecto simple aragonés. Arag. –ll– > –ts–, Archivo de Filología Aragonesa 42– 43 (1989), 279–291. Lang, Henry R., Hanssen, Friedrich, Spanische Grammatik auf Historischer Grundlage, Romanic Review 2 (1911), 327–347. Lapesa, Rafael, El Dialecto Asturiano Occidental en la Edad Media, Sevilla, Universidad de Sevilla, 1998. Lapesa, Rafael, Historia de la Lengua Española, Madrid, Gredos, 1981. Lausberg, Heinrich, Lingüística románica. Morfología, Madrid, Gredos, 1982. Lloyd, Paul M., Del latín al español. Fonología y morfología históricas de la lengua española, vol. 1, Madrid, Gredos, 1993. López Bobo, Mª Jesús, El castellano como . Replanteamiento de la tesis pidaliana a partir de un estudio diacrónico del verbo aragonés (I), Archivo de Filología Aragonesa 51 (1995), 31–74. Luquet, Gilles, Modos y persona en la historia del verbo español. Observaciones sobre los imperfectos y condicionales en –ie del castellano antiguo, in: Echenique, Mª Teresa/Sán-

356

Mª Carmen Moral del Hoyo

chez Méndez, Juan (edd.), Actas del V Congreso Internacional de Historia de la Lengua Española, vol. 1, Madrid, Gredos, 2002, 757–765. Malkiel, Yakov, Toward a Reconsideration of the Old Spanish Imperfect in –ía ~ –ié, Hispanic Review 27 (1959), 435–481. Matute, Cristina, Los sistemas pronominales en español antiguo. Problemas y métodos para una reconstrucción histórica, Madrid, Universidad Autónoma de Madrid, 2004 [Ed. de la autora en http://www.lllf.uam.es/coser/publicaciones/cristina/1_es.pdf] [Consultada el 15/02/ 2015]. Menéndez Pidal, Ramón, Cantar de Mio Cid. Texto, gramática y vocabulario, Madrid, Espasa Calpe, 1944. Menéndez Pidal, Ramón, Orígenes del Español.Estado lingüístico de la Península Ibérica hasta el siglo XI., Madrid, Espasa Calpe, 31950. Menéndez Pidal, Ramón, Manual de gramática histórica española, Madrid, Espasa Calpe, 13 1968. Moral del Hoyo, Mª Carmen, Documentación medieval de Cantabria: estudio lingüístico. (Siglo XIII), Universidad de Deusto, [Tesis doctoral inédita], 2013. Moral del Hoyo, Mª Carmen, Hacia una dialectología gramatical del castellano medieval: cuestiones morfológicas del imperfecto y futuro de subjuntivo, Scriptum digital 4, (2015, 143– 164). Moreno de Alba, José G., Valores verbales de los tiempos pasados de indicativo y su evolución, in: Company, Concepción (dir.), Sintaxis histórica de la lengua española. Primera parte: la frase verbal, vol. 1, t. 1, México, Fondo de Cultura económica, 2006, 5–94. Onís, Federico de, Contribución al estudio del dialecto leones. Examen filológico de algunos documentos de la catedral de Salamanca, Salamanca, F. Núñez Izquierdo, 1909. Penny, Ralph, Sobre el concepto del castellano como dialecto revolucionario, in: Mª Teresa Echenique/Milagros Aleza/María J. Martínez (edd.), Actas del I Congreso de Historia de la lengua española en América y España, Valencia, Tirant lo Blanch, 1995, 403–407. Penny, Ralph, Variation and Change in Spanish, Cambridge, Cambridge University Press, 2000. Pérez Salazar, Carmela, Rasgos morfosintácticos y léxicos del romance navarro (primer tercio del siglo XIII), Principe de Viana 198 (1993), 111–184. Pla Colomer, Francisco, Reconstrucción de la pronunciación castellana medieval: la voz de los poetas, Valencia, 2013 [http://www.infoling.org/repository/PhDdiss-Infoling-35-6-2013. pdf] [Consultada el 15/02/2015]. Posner, Rebecca, The imperfect endings in Romance, Transactions of the Philological Society 60:1 (1961), 17–55. Rini, Joel, Exploring the Role of Morphology in the Evolution of Spanish, Amsterdam/Philadelphia, John Benjamins, 1999. Rodríguez Molina, Javier, La gramaticalización de los tiempos compuestos en español antiguo: cinco cambios diacrónicos, Universidad Autónoma de Madrid, 2010 [Tesis doctoral inédita]. Ruiz de la Peña, J. Ignacio, Las colonizaciones francas en el Camino de Santiago, in: García Turza, Javier (coord.), El Camino de Santiago y la sociedad medieval, Logroño, Instituto de Estudios Riojanos, 2000, 135–142. Sánchez González de Herrero, Nieves, Rasgos fonéticos y morfológicos de los documentos alfonsíes, Revista de Filología Española 82:1–2 (2002), 139–177. Sánchez González de Herrero, Nieves, et al. Textos para la Historia del Español IX: Documentos medievales de Miranda de Ebro, Madrid, Universidad de Alcalá de Henares, 2014.

El castellano en los orígenes del cambio gramatical

357

Sánchez-Prieto, Pedro, El romance en los documentos de la catedral de Toledo (1171–1252): la escritura, Revista de Filología Española 87:1 (2007), 131–178. Sanchis, Mª del Carmen, El lenguaje de la Fazienda de Ultramar, 49, Madrid, Anejos del Boletín de la Real Academia Española, 1991. Saralegui, Carmen, El dialecto navarro en los documentos del monasterio de Irache (958–1397), Pamplona, Diputación foral de Navarra, 1977. Staaff, Erik, Étude sur l’ancien dialecte léonais d’après des chartes du XIIIe siècle, Upsala, Almqvist & Wiksell, 1907. Tuten, Donald N., Koineization in Medieval Spanish, Berlin/New York, Mouton de Gruyter, 2003. Vázquez Obrador, Jesús, Diacronía vocálica en la toponimia de Sobremonte, Sobrepuerto y Tierra de Biescas (Huesca), Alazet 12 (2000), 201–242. Vázquez Obrador, Jesús, Aspectos fonéticos, morfonológicos y léxicos del aragonés antiguo desvelados por los topónimos, Archivo de Filología Aragonesa 67 (2011), 143–172. Viejo, Xulio, La llingua de los documentos del monesteriu de San Bartolome de Nava (sieglos Xlll–XIV), Lletres Asturianes 47 (1993), 7–48.

Inés Carrasco Cantos y Livia Cristina García Aguiar

Análisis de la sufijación en el corpus DITECA 1 Introducción Uno de los aspectos fundamentales del estudio del léxico desde el punto de vista histórico lo constituye la investigación de los sufijos utilizados para la formación de nuevos elementos léxicos, en tanto que son uno de los más importantes recursos para la ampliación y renovación del vocabulario de una lengua (Pharies 2002; Clavería 2012). El corpus de trabajo sobre el que hemos planteado la investigación lo constituye un conjunto de ordenanzas concejiles, textos del ámbito de la tradición jurídica, que representan muestras de la lengua que discurre entre el siglo XIII y el siglo XVIII: Sevilla (s. XIII), Córdoba (1435), Sevilla (1492), Carmona (1525– 1535), Lepe (s. XVI–XVIII), Baeza (s. XVI), Monda (1574), Aljarafe (s. XVI) y Archidona (1598). Estos documentos integran la base sobre la que hemos elaborado el Diccionario de textos concejiles de Andalucía (DITECA), disponible en la red (), desde donde nos es posible obtener información de cada uno de los términos en los tres niveles considerados: categorial, etimológico y semántico. En esta investigación nos proponemos establecer las bases para poder estudiar la vitalidad, productividad o el desgaste que sufren los elementos sufijales en la cronología mencionada a partir del DITECA. Nuestros datos podrán ser contrastados con los distintos corpus del dominio hispánico. Las partes de que consta el trabajo son las siguientes: en primer lugar, ofrecemos un análisis con la cuantificación de los afijos derivativos del corpus, excepción hecha de las formaciones sufijales de carácter apreciativo; en un segundo apartado nos centramos en el análisis de algunas de las parejas sufijales que se han presentado en la historia de la lengua como rivales por su diferente tratamiento evolutivo para determinar sus diferentes funciones. Por último, ofrecemos unas conclusiones.

Inés Carrasco Cantos: Universidad de Málaga Livia Cristina García Aguiar: Universidad de Granada

Análisis de la sufijación en el corpus DITECA

359

2 Análisis cuantitativo de los elementos sufijales del corpus Para la cuantificación de los sufijos derivativos partimos de una primera clasificación en función de la configuración categorial, denominal, deadjetival o deverbal, que se obtiene del proceso de la adición de un afijo a una determinada base. Establecemos tres grandes grupos en correspondencia con esos grandes tipos. Por otro lado, hemos de señalar que en los diferentes cuadros que hemos elaborado con los resultados distinguimos entre productividad o rendimiento (número de entradas o formas diferentes registradas en DITECA con ese afijo) y frecuencia (número de ocurrencias o apariciones de cada morfema en el corpus).1 Cuadro 1: Indicadores de los tipos de derivación Tipo de derivación

Entradas

Ocurrencias

Derivados nominales

Entradas

Ocurrencias

Derivados adjetivales

Entradas

Ocurrencias

Derivados verbales

Productividad frecuencia

% de derivación

% frente a la misma categoría (sustantivos, adjetivos y verbos)2

902

58,34 % (902/1546)

32,11 % (902/2809)

12402

70,19 % (12402/17668)

13,97 % (12402/88776)

324

20,96 % (324/1546)

59,78 % (324/542)

2410

13,64 % (2410/17668)

26,92 % (2410/8952)

320

20,70 % (320/1546)

34,30 % (320/933)

2856

16,16 % (2856/17668)

8,68 % (2856/32903)

1 A partir de estos dos indicadores se obtiene la disponibilidad. A mayor frecuencia y productividad de un proceso, mayor será la disponibilidad o posibilidad de reconocimiento y uso por parte del hablante (Alcoba 2008, 46). 2 En esta columna ofrecemos los datos que muestran la proporción de derivados frente a los demás términos de su misma categoría; esto es, el porcentaje de derivados nominales frente a todos los sustantivos (derivados y no derivados) del corpus, el porcentaje de derivados adjetivales frente al total de adjetivos del corpus y, finalmente, el porcentaje de derivados verbales frente al número general de verbos de DITECA.

360

Inés Carrasco Cantos y Livia Cristina García Aguiar

Cuadro 1: (continuada) Tipo de derivación

Entradas

Ocurrencias

Total

Productividad frecuencia

% de derivación

% frente a la misma categoría (sustantivos, adjetivos y verbos)2

1546

100 % (1546/1546)

36,09 % (1546/4284)

17668

100 % (17668/17668)

13,52 % (17668/130631)

Gráfico 1: Proporción de tipos de derivación en el corpus

2.1 Derivación nominal Los derivados nominales van clasificados en tres grupos de acuerdo con sus rasgos semánticos dominantes: ‘nombres de acción y efecto’, ‘nombres de cualidad’ y ‘nombres de persona, instrumento y lugar’.

Análisis de la sufijación en el corpus DITECA

361

2.1.1 Derivación nominal: nombres de acción y efecto Cuadro 2: Derivación nominal: los nombres de acción y efecto Sufijos –a/–e/–o

–ción

–da/–do

–miento

–ncia

–dura

–azgo

–aje

–ío

–ón

Subtotal

Entradas/frecuencia

% dentro del grupo

% deriv. nominal

126

24,05

13,97

1715

21,73

13,83

119

22,71

13,19

1162

14,72

9,37

101

19,27

11,20

2111

26,75

17,02

71

13,55

7,87

827

10,48

6,67

51

9,73

5,65

1730

21,92

13,95

24

4,58

2,66

178

2,26

1,44

15

2,86

1,66

84

1,06

0,68

12

2,29

1,33

65

0,82

0,52

3

0,57

0,33

17

0,22

0,14

2

0,38

0,22

3

0,04

0,02

524

58,09

7892

63,63

Los nombres de acción y efecto se definen de acuerdo a la paráfrasis ‘acción y efecto de V’. En la actualidad constituyen uno de los conjuntos más extensos y articulados de la morfología española (GRAE 2010, 101). Así también en DITECA, en donde hemos establecido una nómina de 10 tipos de sufijos, algunos de los cuales ofrecen variantes en relación con las soluciones cultas y vernáculas: –ción/–zón;

362

Inés Carrasco Cantos y Livia Cristina García Aguiar

–miento/–mento; –ncia/–nza. Suman un total de 524 términos (58,09 % de todos los derivados nominales del corpus), con 7892 ocurrencias (63,63 %). El índice de productividad más alto lo ofrecen los sufijos vocálicos deverbales3 (126, un 24,05 % de los sufijos nominales de acción y efecto), que continúan siendo sufijos muy rentables en el español actual (GRAE 2010, 107–109), seguidos muy de cerca por el sufijo –ción (119, 22,71 %). El tercer puesto en cuanto a número de entradas lo ocupan los derivados participiales (101 formas), que expresan ‘acción’ (en sentido amplio) y también ‘efecto’ (GRAE 2010, 111). Estos, sin embargo, son los primeros en número de ocurrencias (2111, 26,75 %)4. Los puestos sucesivos se distribuyen entre los sustantivos en –miento5, o –mento6 (71/827), –encia (51/1730),7 –dura,8 –azgo9 y –aje. Son minoritarios, con una proporción inferior al 1 %, los derivados en –ío (0,57 %), formados normalmente sobre bases nominales (poderío, señorío), y los derivados en –ón (0,38 %),

3 Algunos ejemplos de los sufijos –a, –e, –o son: ayuda, cata, caza, compra, consulta, contienda, corta, cría, demanda, denuncia, derrama, excusa, firma, guarda, iguala, junta, jura, mejora, mengua, protesta; contraste, corte, deslinde, remate, temple, trance; acarreo, arreo, despolvoreo, rodeo, vareo. 4 Representantes de los sufijos participiales son entre otros: alzada, arada, arribada, asomada, cabalgada, entrada, estada, morada, obrada, parada, posada, quebrada; apeado, cercado, criado, demandado, delegado, jurado, mandado, sembrado, vidriado. 5 Representantes del sufijo –miento: abundamiento, acatamiento, alargamiento, alongamiento, amojonamiento, apartamiento, apercibimiento, aprovechamiento, arrendamiento, atrevimiento, avenimiento, ayuntamiento, bastecimiento, cohechamiento, conocimiento, consentimiento, contentamiento, crecimiento, cumplimiento, detenimiento, emplazamiento, encabezamiento, encendimiento, enherbolamiento, establecimiento, estreñimiento, fallecimiento, gastamiento, guisamiento, hacimiento, hacinamiento, heredamiento, igualamiento, libramiento, llamamiento, mandamiento, mantenimiento, merecimiento, movimiento, nacimiento, nombramiento, ordenamiento, partimiento, pedimiento, pensamiento, perdimiento, proveimiento, quebrantamiento, quitamiento, recibimiento, recogimiento, reconocimiento, recudimiento, regimiento, repartimiento, requerimiento, saneamiento, seguimiento, señalamiento, tratamiento, vedamiento. 6 –Mento es una variante de gran importancia en la época medieval (Pattison 1975, 49), comúnmente asociada a bases cultas y que ya no es productiva. La mayoría de los ejemplos son derivados latinos. En nuestro corpus se encuentra en minoría respecto de –miento. Algunos ejemplos son: bastimento, detrimento, pagamento. Solamente hemos podido registrar la alternancia entre –miento y –mento en tres términos, entre los que la opción latinizante es la dominante: aditamento (6 ocurrencias) / aditamiento (1 ocurrencia); impedimento (16) / impedimiento (1) y juramento (108) / juramiento (1). 7 Advertencia, asistencia, audiencia, avenencia, querencia, resistencia. 8 Así las voces barredura, cabalgadura, corredura, empedradura, encapachadura, enjabonadura, majadura, moledura, remoledura, sembradura. 9 Cf. infra 3.3.

Análisis de la sufijación en el corpus DITECA

363

de los que como representantes de nombres de acción y efecto se atestiguan dos: manchón (2), derivado de mancha, y pisón (1), derivado de pisar, usado en la locución a pisón.

2.1.2 Derivación nominal: nombres de cualidad Cuadro 3: Derivación nominal: los nombres de cualidad, estado y condición Sufijos –dad

–ía

–ncia

–ería

–eza/–icia

–ura

–ia

–dumbre

–itud

–or

Subtotal

Entradas/frecuencia

% dentro del grupo

% deriv. nominal

53

28,80

5,88

851

32,77

6,86

34

18,48

3,77

463

17,83

3,73

29

15,76

3,22

255

9,82

2,06

25

13,59

2,77

117

4,51

0,94

22

11,96

2,44

829

31,92

6,68

9

4,89

1,00

35

1,35

0,28

7

3,80

0,78

35

1,35

0,28

2

1,09

0,22

5

0,19

0,04

2

1,09

0,22

3

0,12

0,02

1

0,54

0,11

4

0,15

0,03

184

20,40

2597

20,94

364

Inés Carrasco Cantos y Livia Cristina García Aguiar

El segundo grupo de sufijos corresponde a los sustantivos de cualidad, estado y condición. Cuenta con un total de 184 formas (20,40 % de los derivados nominales) y una frecuencia de 2597 formas (20,94 %). El más productivo es –dad, con un campo léxico integrado por 53 formas (28,80 % de los sufijos nominales analizados). El significado básico de ‘cualidad’ se incrementa con otros, tales como ‘comportamientos, designaciones de personas, lugares, temporales, conjuntos, designaciones de estatus, objetos que poseen la cualidad X’ (Santiago/ Bustos 1999, 4535–4537). Algunos de los derivados con este sufijo lo eran ya en latín (autoridad, fidelidad, necesidad). Este morfema derivativo tiene cuatro variantes: –edad (representado con 11 formas);10 su frecuencia es la más elevada (325 ítems) y no da lugar hoy a derivados nuevos; –idad (representado con 28 formas),11 variante muy productiva en el español actual; –dad (con 6 formas),12 y –tad, variante culta con 8 representantes, todos ellos derivados directos del latín.13 Cuadro 4: El sufijo ‑dad Sufijos

Entradas

Frecuencia

–idad

28

284

–edad

11

325

–dad

6

87

–tad

8

155

Total

53

851

El siguiente en productividad es –ia (34 formas, 18,48 %). Se utiliza en la formación de un buen número de nombres de cualidad a partir de adjetivos o sustantivos. En algunos casos se habla más de ‘condición’,14 sentido que se extiende a las designaciones de rangos, cargos, profesiones,15 etc. (vid. GRAE 2010, 120; Santiago/Bustos 1999, 4566; Pharies s.v.).

10 Antigüedad, brevedad, enfermedad, falsedad, gravedad, heredad, humedad, novedad, propiedad, suziedad, variedad. 11 Algunos de sus representantes son: ancianidad, autoridad, calidad, claridad, cantidad, comodidad, facilidad, fidelidad, honestidad, parcialidad, puntualidad, utilidad. 12 Hermandad, fieldad, igualdad, maldad, verdad, vecindad. 13 Amistad, dificultad, enemistad, facultad, honestad, libertad, majestad, voluntad. 14 Así en alegría, cercanía, mejoría, osadía, rebeldía, valía, umbría. 15 Alcaldía, asesoría, almotacenía, capellanía, escribanía, recatonía, veeduría.

Análisis de la sufijación en el corpus DITECA

365

Después vienen –ncia y –nza, dos alomorfos del mismo sufijo que se encuentran en distribución complementaria, pues cuando aparece uno se bloquea la aparición del otro (GRAE 2010, 113). Aplicado a bases adjetivas forma nombres de cualidad. En total son 29 formas (15,76 %).16 Es también importante –ería, sobre cuya independencia de –ia es posible hablar siempre que no exista una base previa en –ero (Pharies 2002, 226). Su campo sufijal consta de 25 términos (13,59 %).17 Los menos representativos de esta serie son los derivados en –itud (rectitud, solicitud), –dumbre (certidumbre, servidumbre) y –or (gordor), que es el único sufijo existente para formar nombres de cualidad en masculino. No es productivo en la actualidad. En DITECA alterna con –ura (gordura).

2.1.3 Derivación nominal: nombres de persona, instrumento y lugar Cuadro 5: Derivación nominal: nombres de persona, instrumento y lugar Sufijos ‑ero/‑era

‑dor/‑dora

‑nte

‑dero/‑dera

‑iego

Subtotal

Entradas/frecuencia

% dentro del grupo

% deriv. nominal

113

58,25

12,53

1130

59,07

9,11

43

22,16

4,77

518

27,08

4,18

25

12,89

2,77

156

8,15

1,26

12

6,19

1,33

107

5,59

0,86

1

0,52

0,11

2

0,10

0,02

194

21,51

1913

15,42

16 Abundancia, asistencia, ausencia, congruencia, conveniencia, diferencia, diligencia, distancia, dolencia, excelencia, experiencia, ignorancia, inexperiencia, negligencia, observancia, pertenencia, preeminencia, presencia, providencia, querencia, residencia, resistencia, reverencia, suficiencia, vigilancia. 17 Abarquería, albañería, solería.

366

Inés Carrasco Cantos y Livia Cristina García Aguiar

El tercer grupo de sufijos está formado por todos los que significan nombre de persona, instrumento y lugar. El primero en productividad es el sufijo –ero/–era para la designación de los oficios, con una nómina de 113 formas (58,25 %). Algunos de los términos, en una proporción mínima, solo vienen expresados en su forma femenina al quedar restringido el desempeño de esos oficios a las mujeres: bercera ‘verdulera’, trecenera, andalucismo, derivado de tresnar (DCECH s.v.), ‘llaman en Córdova a las panaderas, y quiere decir cosarias’ (Del Rosal, s.v. trezenera, apud NTLLE), ramera.18 Son también muy representativos en el corpus los nombres de agente en –dor (43 ítems19 = 22,16 %), los derivados en –nte (25 ítems20 = 12,89 %) y en menor proporción los derivados en –dero (12 ítems21 = 6,19 %). El sufijo con menor índice de productividad es –iego, registrado en la voz maniego de las ordenanzas de Carmona y sobre cuyo significado hemos aventurado el de ‘trampa o red para cazar conejos’.22

2.2 Derivación adjetival Cuadro 6: Derivación adjetival

Sufijación adjetival

Sufijos –do/–da

Entradas/ frecuencia

% deriv. adj. Sufijos

Entradas/ frecuencia

% deriv. adj.

57

17,59 –dero/ –dera 23,11

4

1,23

15

0,62

4

1,23

11

0,46

557 –nte

38 189

11,73 –izo/–iza 7,84

18 Hay también –ero/–era para ‘sitio’: barrero ‘sitio de donde se saca el barro para usar en los alfares y para otras obras’, tablero ‘tablar’, caldera, calera, ribera, cantera, carrera, junquera, ladera, lobera, melonera, pedrera, pesebrera, ribera, talanquera, testera. 19 Acarreador, aperador, atajador, cambiador, cavador, cazador, sagador, solador, trasquilador, etc. 20 Apelante, caminante, litigante, marchante, querellante, representante, asistente, bienqueriente, delincuente, pariente, etc. 21 Abrevadero, agostadero, asidero, atadero, bebedero, descansadero, lavadero, matadero, etc. 22 Cf. Pharies (2002, 317–319) para los significados de este sufijo que, en principio, forma adjetivos susceptibles de sustantivarse.

Análisis de la sufijación en el corpus DITECA

367

Cuadro 6: (continuada) Sufijos –oso/–osa

–al

Entradas/ frecuencia

% deriv. adj. Sufijos

32

4

1,23

86

9,88 –dizo/ –diza 3,57

9

0,37

23

7,10 –‘il

4

1,23

5,81

9

0,37

14

4,32 –ísimo

3

0,93

65

2,70

99

4,11

13

4,01 –uno/ –una 7,43

3

0,93

50

2,07

3

0,93

24

1,00 0,93

140 –to/–ta

–dor/–dora

179 –ero/–era

–ble

12

3,70 –ino/–ina

85

3,53

12

3,70 –eno/ –ena 1,83

3

3,40 –orio/ –oria 2,53

3

0,93

4

0,17

3,09 –iego/ –iega 7,68

3

0,93

3

0,12

2,78 –iondo/ –ionda 1,37

2

0,62

5

0,21

2,47 –áneo/ –ánea 1,41

2

0,62

2

0,08

2,47 –engo/ –enga 0,79

1

0,31

14

0,58

2,47 –eño

1

0,31

0,79

4

0,17

2,16 –areo

1

0,31

0,75

2

0,08

1

0,31

1

0,04

44

Sufijación adjetival

–ano/–ana

11 61

–ario/–aria

10 185

–so/–sa

9 33

–o/–a

8 34

–ivo/–iva

8 19

–ar

8 19

–ado/–ada

7 18

–‘ico/–‘ica

Entradas/ % deriv. adj. frecuencia

5 288

1,54 –enco/ –enca 11,95

8

368

Inés Carrasco Cantos y Livia Cristina García Aguiar

Cuadro 6: (continuada)

Sufijación adjetival

Sufijos –‘imo/–‘ima

Entradas/ frecuencia 5 36

–ío

4 72

–il

4 36

% deriv. adj. Sufijos

Entradas/ frecuencia

% deriv. adj.

1,54 –és/–esa

1

0,31

1,49

1

0,04

1,23 –isco

1

0,31

2,99

1

0,04

324

59,78

2410

26,92

1,23 Total 1,49

El cómputo total de términos adjetivales derivados es de 324 elementos, que suponen el 20,96 % del corpus analizado y el 59,78 % del total de los adjetivos. El total de ocurrencias correspondientes a la derivación adjetival llega a 2410 (13,64 %). El inventario de sufijos que sirven para la formación de adjetivos en el DITECA es de 37 elementos, según se refleja en el cuadro 6. El grupo mayoritario está constituido por los derivados participiales en –do, –da,23 integrado por 57 formas (17,59 % del conjunto), con una frecuencia de 557 ocurrencias (23,11 %). Les siguen los derivados en –nte24 (38 /189); –oso25 (32/86); y el denominal –al 26 (23/140).

23 Algunos testimonios son abonado, acontiado, acostumbrado, antepasados, apelado, atrevido, azumbrado, cencido, rosado, tapetado, templado, violado, etc. 24 Estas formaciones aparecen frecuentemente sustantivadas: antecedente, ausente, bastante, competente, consciente, corriente, conveniente, dependiente, diligente, entrante, evidente, otorgante, procedente, etc. 25 Los adjetivos con este morfema derivativo son fundamentalmente denominales pero los hay también deverbales. Algunos ejemplos son calumnioso, canosa, cauteloso, celoso, criminoso, cuantioso, dañoso, defectuoso, dudoso, engañosas, escandaloso, forzoso, etc. 26 Es uno de los sufijos más productivos dentro de los adjetivos de relación y tiene carácter culto además de estar confinado esencialmente a los lenguaje de especialidad (Rainer 1999, 4616). Algunos de nuestros ejemplos son asnal, boyal, cecial, cutral, foral, general, humanal, judicial, penal, perjudicial, procesal.

Análisis de la sufijación en el corpus DITECA

369

Entre los que quedan por debajo del 5 % de productividad están: –to27 (14/ 65); –dor/–dora28 (13/179); –ble29 (12/44); –ero30 (12/85); –ano31 (11/61); –ario32 (10/185). Hay elementos sufijales de poca productividad y un alto porcentaje de ocurrencias: –‘ico33 (5/288); –ío34 (4/72); –‘imo35 (3/99). Entre los que no son ya productivos aparecen –engo,36 –iondo,37 –enco.38 Otro tanto se aprecia con el sufijo –iego, uno de los más castizos en la época clásica para la creación de adjetivos a partir de sustantivos: enciniego (Ordenanzas de Lepe); merchaniego (Ordenanzas de Monda) ‘aplicábase al ganado que se llevaba a vender en las ferias y mercados’ (DRAE s.v.). Se ha señalado su falta de productividad en el lenguaje literario por el tono rústico que imprime a los vocablos, excepto en el campo de los gentilicios (Pharies 2002, 318).39

27 Forma parte de los adjetivos deverbales pasivos participiales: abierto, atento, exutas, esentos. 28 Debdor, administrador, cogedor, encubridor, guardador, matador, sabidoras, trabajadora, etc. 29 Entra en la formación de adjetivos deverbales pasivos potenciales: convenible, fiable, loable, notable, razonable. Para sus diferentes matices, cf. Rainer (1999, 4609–4610). 30 Este sufijo participa en las formaciones de adjetivos de carácter fundamentalmente relacional: casero, cerreras, delantero, conejero, trasero, pesquera, terrera. 31 Entre los derivados con este sufijo se encuentran los adjetivos relacionales como comarcano, cristiano, humano, metropolitano, y particularmente los deonomásticos de lugar: castellano, toledano . 32 Sufijo culto que forma adjetivos a partir por lo general de bases nominales. Algunos de los términos son creaciones del latín: arbitrarias, cosario, falsario, ordinario, originario, pecuniario. 33 Ejemplos de este sufijo de origen culto son apostólica, auténtico, eclesiástico, público. En español actual es muy productivo (Rainer 2999, 4618). 34 Baldío, cabrío, tardío. 35 Grandísimo, ilustrísimo, santísimo. 36 De origen germánico: realengo. 37 Su origen es el latín (i)bundus usado para crear adjetivos que expresan la acción verbal intensificada (Pharies 2002, 435): hedionda. El grupo más antiguo y auténtico, según Pharies, de derivados en –iondo en español consta de cinco palabras que describen una hembra en celo (2002, 435). Entre ellas se encuentra el ejemplo del corpus correspondiente a la voz torionda ‘dicho especialmente de una vaca: Que está en celo’, documentada en Nebrija y derivada de un verbo hipotético *torir ‘montar un toro a la vaca’ (DCECH s.v. toro). 38 De origen germánico: mostrenca ‘dicho de una persona: Que no tiene casa ni hogar, ni señor o amo conocido’. Es una alteración de mestenco, derivado de mesta (DCECH s.v. mostrenco). 39 Carrasco (2011, 178).

370

Inés Carrasco Cantos y Livia Cristina García Aguiar

2.3 Derivación verbal Cuadro 7: Derivación verbal (Prefijo +) sufijo –ar

A– + base + –ar

Des– + base + –ar

En– + base + –ar

Re– + base + –ar Sufijación en –ar In– + base + –ar

De– + base + –ar

Tras– + base +–ar

Sobre– + base +–ar

Con– + base + ar Subtotal

–ear Sufijación en –ear

A– + base + –ear Subtotal

Entradas/frecuencia

% deriv. verbal

108

33,75

1704

59,66

70

21,88

529

18,52

46

14,38

141

4,94

23

7,19

117

4,10

20

6,25

130

4,55

3

0,94

8

0,28

2

0,63

6

0,21

1

0,31

5

0,18

1

0,31

4

0,14

1

0,31

1

0,04

275

85,94

2645

92,61

17

5,31

66

2,31

3

0,94

5

0,18

20

6,25

71

2,49

Análisis de la sufijación en el corpus DITECA

371

Cuadro 7: (continuada) (Prefijo +) sufijo –ecer

En– + base + –ecer Sufijación en –ecer A– + base + –ecer

Com– + base + –ecer Subtotal

–izar

Sufijación en –izar

Des– + base + –izar

En– + base + –izar Subtotal

Sufijación en –ificar

–ificar

Entradas/frecuencia

% deriv. verbal

13

4,06

100

3,50

3

0,94

22

0,77

3

0,94

7

0,25

1

0,31

1

0,04

20

6,25

130

4,55

2

0,63

5

0,18

1

0,31

2

0,07

1

0,31

1

0,04

4

1,25

8

0,28

1

0,31

2

0,07

El español es una lengua especialmente rica en la creación de verbos a partir de bases pertenecientes a diversas categorías. Así se manifiesta en nuestro corpus, que recoge 320 términos verbales derivados (lo que supone un 34,30 % de todas las formas verbales de DITECA) con una frecuencia de 2856 ítems (8,68 % de frecuencia verbal en DITECA). Con respecto a los procesos de verbalización, distinguimos entre los directos, también conocidos como de derivación inmediata, representados por el sufijo –ar, y los de derivación indirecta o mediata, que emplean los sufijos –ear, –ecer, –izar e –ificar.

372

Inés Carrasco Cantos y Livia Cristina García Aguiar

En nuestro corpus, como también sucede en la actualidad, los derivados verbales con una mayor presencia son aquellos que se forman a partir de una base y del sufijo –ar. Con una productividad de 108 formas diferentes (33,75 % del corpus analizado), muestran, además, una elevadísima frecuencia de aparición, ocupando casi el 60 % de las ocurrencias verbales del corpus (1704 ítems= 59,66 %). Esta situación se corresponde con la de la actualidad, en la que este procedimiento de formación de verbos está ampliamente representado y ofrece una notable productividad (Serrano-Dolader 1999, §72.1.1.1). Los demás sufijos verbales del corpus presentan una menor productividad. –Ear se emplea en 17 formas diferentes (5,61 %) con 66 ocurrencias (2,31 %); le sigue –ecer, que aunque tiene una menor productividad (13 formas, 4,06 %) muestra una frecuencia de aparición mayor (100 ítems, 3,50 %). En el documento más antiguo del corpus (ordenanzas sevillanas) encontramos un ejemplo de la rivalidad léxica entre –ecer/–ir: guarir/guarecer. Con una presencia muy reducida encontramos también derivados en –izar (2 entradas, 0,63 %; 5 ítems, 0,18 %)40 y en –ificar (1 forma, 0,31 %; 2 apariciones, 0,07 %). Los esquemas de parasíntesis verbal, generalmente heredados del latín, son también muy productivos en el corpus, especialmente los que presentan como prefijo los morfemas a–, des y en–. El modelo más productivo y frecuente es el formado por el prefijo a– y el sufijo –ar. Lo encontramos en 70 formas verbales (21,88 %) y 529 ítems (18,52 %). Le siguen los esquemas des– –ar, con 46 entradas (14,38 %) y 141 apariciones (4,94 %) y en– –ar (23 entradas, 7,19 % y 117 ocurrencias, 4,10 %). También es posible encontrar parasíntesis verbal con otros sufijos, como el esquema en– –ecer, aunque son menos productivos (3 entradas, 0,94 %; 22 ocurrencias, 0,77 %). En definitiva, son las formas de la primera conjugación con el sufijo directo –ar (con o sin prefijación añadida) las más productivas y frecuentes en el corpus, sumando 275 entradas (85,94 %) y 2645 frecuencias (92,61 %).

40 Señala Serrano-Dolader (1999, §72.1.1.3) que la productividad del sufijo –izar es bastante reciente, como demuestra el hecho de que solo una mínima parte de los verbos hoy utilizados estén documentados antes del siglo XX.

Análisis de la sufijación en el corpus DITECA

373

3 Análisis cualitativo 3.1 Los sufijos –ción/sión frente a –zón Cuadro 8: Sufijos –ción/–sión/–zón Sufijo

Entradas

Frecuencias

–ción

100

895

–sión

16

257

–ión

1

2

–zón

2

8

Gráfico 2: Porcentaje de los sufijos –ción/–sión frente a –zón

3.1.1. El campo sufijal de este elemento lo constituyen 119 unidades repartidas entre –ción y la variante –sión, creada a partir de los temas de supinos latinos (ej. amisión ‘pérdida’, comisión, confesión, disensión ‘oposición’). Constituye uno de los recursos más utilizados en el corpus para la formación de sustantivos femeninos a partir de lexemas verbales con el significado fundamental de nomina actionis (Pattison 1975, 88–97; Pharies 2002, 148–149). Así también en la época actual, en donde todavía tiene una gran vitalidad dentro del vocabulario científico (Monge 1978, 156). Es un sufijo culto y por esa razón muchos de los derivados presentan alternancias gráficas del tipo –ción/–cción/–ctión, algunas de las cuales se han

374

Inés Carrasco Cantos y Livia Cristina García Aguiar

cristalizado para diferenciar significados: affectión ‘afición, inclinación, apego’ y afición ‘ahínco, empeño, afán, interés’. En otros casos son solo variantes sin transcendencia: elección/electión. Muchas de las formas documentadas vienen ya constituidas desde el latín, por lo que responden al modelo sufijal de los derivados cultos (base léxica + sufijo prestado). De entre las latinas, hay algunas en las que se aprecia el proceso de formación por existir el verbo simple (Pattison 1975, 88–97): absolución, condición. En otras, sin embargo, la base de derivación no existe: colación (lat. COLLATIO ). En lo que atañe a su función, hemos de indicar que en una gran proporción las voces así compuestas mantienen la que tenía el sufijo en latín, es decir, expresan acciones verbales de carácter abstracto, algo que se cumple en los derivados latinos y también en los romances, en cuya base semántica se expresa tanto la acción significada del verbo base como el resultado de esa acción: absolución ‘acción de absolver’, aclaración ‘acción y efecto de aclarar’; vejación ‘acción y efecto de vejar’. Pero junto a esta función, a partir de la acepción de ‘resultado’ se obtienen significados secundarios de carácter concreto, al que se le suma a veces un valor colectivo.41 Así se observa en constitución ‘cada una de las ordenanzas o estatutos con que se gobernaba una corporación’ (Ordenanzas de Baeza); población ‘conjunto de personas que habitan la tierra o cualquier división geográfica de ella’; transacción ‘trato, convenio, negocio’. Como ejemplo de las distintas funciones señaladas para algunas voces, pueden consultarse en DITECA los término declaración, posesión, provisión.42 Este sufijo en –ción se ha convertido en uno de los índices caracterizadores del lenguaje de especialidad jurídico-administrativa. A este respecto, destacan los tecnicismos siguientes:43 quitación ‘renta, sueldo o salario’; fatigación ‘molestia causada por la pretensión de alguien’; protestación ‘declaración jurídica que

41 Cf. ejemplos del español moderno en Monge (1978, 159). 42 Declaración es ‘declaración que bajo juramento hace el testigo o perito en causas criminales o en pleitos civiles, y la que hace el reo sin llenar aquel requisito’ y ‘manifestación o explicación de lo que otro u otros dudan o ignoran’. Posesión es ‘acto de poseer o tener una cosa corporal con ánimo de conservarla para sí o para otro’ y ‘cosa poseída. Díc. principalmente de las fincas rústicas’. Provisión se define como ‘acción y efecto de proveer. Suministrar o facilitar lo necesario o conveniente para un fin’ y ‘despacho o mandamiento que en nombre del rey expedían algunos tribunales para que se ejecutase lo que por ellos se ordenaba’ o ‘providencia o disposición conducente al logro de algo’. 43 Carrasco/López Mora (2011).

Análisis de la sufijación en el corpus DITECA

375

se hace para que no se perjudique, antes bien se asegure, el derecho que alguien tiene’; prorrogación ‘continuación de una cosa por un tiempo determinado’. 3.1.2. En contraste con la riqueza léxica ofrecida por –ción, aparece la variante –zón, que es su paralelo vernacular y cuya productividad en DITECA se limita a la presencia de dos lemas con 8 ocurrencias en la totalidad del corpus. Se trata de las palabras barbechazón (7) ‘acción y tiempo de barbechar’ (NDHE s.v.) y cargazón (1) ‘cargamento’. Estos resultados vienen a confirmar los obtenidos por Pattison (1975, 93) para la etapa medieval, en donde solo 13 de las 148 palabras lo son en –zón. También anticipan la tendencia observada en el español actual excepto para Hispanoamérica (Santiago/Bustos 1999, 4533), de manera que –zón no tiene ya vitalidad para formar nuevos derivados ni apenas se siente como tal sufijo (Monge 1978, 160–161; Pena 1980, 157). Los supervivientes en –zón se encuentran restringidos a unas áreas semánticas muy concretas tales como son: vida rural, tiempo, navegación, labores realizadas a mano, reacciones fisiológicas, etc. (cf. Pattison 1975, 93; Pharies 2002, 552). Los ejemplos de nuestro corpus se circunscriben al ámbito rural y de ellos solo cargazón sigue registrado en el DRAE, mientras que barbechazón es un término que ya no se usa. Su primera referencia lexicográfica es la de Nebrija (Diccionario español‑latino, apud NTLLE s.v. barvechazón). Es además el mismo y único ejemplo de CORDE. Los casos del DITECA son exclusivos de las Ordenanzas de Carmona. 3.1.3. En lo que se refiere a las alternancias o sufijos rivales, nuestro corpus permite documentar la variación entre el sufijo –ción y el sufijo vocálico en –a, en una proporción inversa a la de la época actual. Se trata de términos técnicos del campo jurídico como los siguientes: quitación (3) y fatigación (2) se usan junto con los neologismos en –a: quita (1) y fatiga (4). Así también la pareja denunciación (84) y denuncia (1), documentada en una sola ocasión en nuestro corpus en las Ordenanzas de Aljarafe (s. XVI).

3.2 La alternancia –icia/–eza Cuadro 9: Sufijos –icia/–eza Sufijo

Entradas

Frecuencias

–ez

1

1

–eza

14

47

–icia

7

781

376

Inés Carrasco Cantos y Livia Cristina García Aguiar

Dentro de las formaciones de sustantivos de cualidad, estado y condición nos encontramos con la pareja –icia/–eza, representativa del doble resultado culto y popular, respectivamente, del latín –ITIA .44 El mayor índice de productividad lo presenta –eza con 14 lemas, frente a –icia con 7,45 si bien en cuanto a la frecuencia la proporción se invierte en un tanto por ciento muy elevado a favor de –icia, algo que encuentra su explicación en el hecho de que uno de los representantes de su campo sufijal es justicia, palabra clave de esta tradición textual, que se emplea 709 veces. El resto de las 72 ocurrencias se reparte entre los otros 6 lemas, en su mayor parte latinismos (GRAE 2010, 118).46 Por su parte, –eza, con un campo sufijal integrado por 14 lemas,47 tiene el doble de productividad en nuestro corpus en comparación con los resultados cultos, pero su frecuencia es mucho más baja. Este hecho explicaría que en la actualidad esté en regresión. El significado básico de las dos variantes es la expresión de conceptos abstractos. La mayoría de los derivados en –icia latinos son usados en este sentido, a excepción de primicia, en las Ordenanzas de Lepe ‘prestación de frutos y ganados que además del diezmo se daba a la Iglesia’ (lat. PRIMITIA ) y de inmundicia, derivado romance en las Ordenanzas de Archidona ‘suciedad, basura’. En cuanto a los derivados en –eza, la mayoría tiene un sentido abstracto, pero algunos de ellos son susceptibles de adquirir un tipo de especialización más concreta debido al usual desplazamiento semántico de lo abstracto a lo concreto (vid. Pattison 1975, 149). Así ocurre en aspereza, fortaleza y maleza, único ejemplo que se presenta bajo la alternancia de las dos variantes de las que nos estamos ocupando. Este sufijo en –eza, como mencionamos antes, ya no es productivo. En consecuencia, algunas de las formaciones con esa terminación han quedado anticuadas y han caído en desuso. Así, por ejemplo, ocurre con comunaleza (Ordenanzas de Sevilla, s. XIII) ‘medianía y regularidad entre los extremos de lo mucho y lo poco’, registrada en el fichero general del NDHE (en Libro conplido y

44 Cf. Pattison (1975, 142–150). 45 La variante –ez, procedente de –ITIES , está mínimamente representada en DITECA, con un lema y una sola ocurrencia: veiez, en las ordenanzas de Sevilla. 46 Malicia (22 ítems), noticia (41), primicia (1), codicia (5). Son romances: inmundicia (2) e injusticia (1). 47 Alteza (22 ítems), aspereza (1) (del terreno); braveza (1), careza ‘carestía’ (1), comunalza (2) ‘comunaleza’, firmeza (1), flaqueza (1), fortaleza (1), franqueza (8), largueza (1), limpieza (4), malezas (2), naturaleza (1), nobleza (1).

Análisis de la sufijación en el corpus DITECA

377

en Opúsculos legales de Alfonso X, Cortes de León y Castilla, Partidas, Sevillana medicina). Otro tanto parece que debió de suceder con el término careza, frente a su sinónimo y competidor carestía, lexema que ha conseguido desplazar al primero. Careza está documentado desde Alfonso X y otros textos como la Crónica de Alfonso XI, Cancionero de Baena, Nebrija 1495, Nebrija 1514, Ordenanzas de Granada.48 Son dos las acepciones de su base semántica. Los datos del NDHE indican que el antiguo careza ya se utilizaba en Alfonso X (Crónica General) con el significado de ‘carestía, falta o escasez’. La acepción segunda corresponde a ‘subida de precio’; en este caso la documentación que aporta la Academia es más tardía, pues remite a Guevara. La comparación con carestía nos hace sospechar que en un primer momento solo comparte con careza la primera acepción de ‘falta o escasez de algunas cosas; por antonomasia de los víveres’ (documentada en Crónica General). Para la segunda acepción, ‘subida de las cosas de uso común’, la documentación es del XIX en Alarcón, El niño de la Bola (NDHE s.v.). También Corominas certifica lo tardío de esta acepción: «En español el paso semántico a mero abstracto de ‘caro’ es tardío y lo recoge en Autoridades» (DCECH s.v.). En los textos del corpus DITECA asistimos a la rivalidad entre careza y carestía (DCECH s.v. carestía). Mientras que en las Ordenanzas de Córdoba de 1435 la acepción de ‘falta o escasez’ se expresa con careza, las Ordenanzas de Lepe, escritas a partir del XVI, usan carestía ‘falta o escasez de alguna cosa; por antonomasia, de los víveres’ (DCECH s.v.): «y porque en todos los molinos lleven igualmente las maquilas y tengan en ello horden, vista la carestía del trigo, mandaron que de oy en adelante lleven de maquila así de blanco como de baço» (Ordenanzas de Lepe, 21v). Pero además podríamos aportar una de las más antiguas documentaciones de carestía con el sentido de ‘caro’ en el siguiente texto de las Ordenanzas de Archidona de 1598: «Otrosi, que los que compran ganado en pie en la feria d' esta villa no los buelvan a vender en la feria en ese dia conforme a lo dispuesto por la ley real, so la pena d' ella, ni los corredores conpren para revender en la misma feria para escusar fraudes y carestias, so pena de seisçientos maravedis aplicados por terçias partes como dicho es» (Ordenanzas de Archidona, § 93).

48 Cf. fichero general del NDHE.

378

Inés Carrasco Cantos y Livia Cristina García Aguiar

3.3 Los sufijos –azgo y –aje Cuadro 10: Sufijos –azgo/–aje Sufijo

Entradas

Frecuencias

–azgo

15

84

–aje

12

65

3.3.1.El tradicional morfema –azgo aparece desde el principio como medio para la creación de sustantivos masculinos denominativos pertenecientes a la esfera de los nombres que designan estado, situación o condición y, especialmente, el oficio, el estatus o la dignidad que corresponde a alguien (GRAE 2010, 122). El total de formas creadas con este sufijo es de 15, con una frecuencia de 84. Los usos documentados tienen los siguientes significados: a) Oficio, estatus, dignidad: alarifadgo (1 ítem) ‘oficio de alarife’; alguaziladgo (s) (7) ‘oficio o cargo de alguacil’; almoxarifadgo(s) (13), ‘oficio y jurisdicción del almojarife’; almotacenadgo (46) ‘oficio de almotacén’, mayordomadgo (9) ‘mayordomía’ (cargo y empleo de mayordomo o administrador). b) Impuestos: portadgo (1) ‘derechos que se pagaban por pasar de un sitio determinado de un camino; terradgo (1) ‘pensión o renta que paga al señor de una tierra el que la labra’; almoxarifadgo (6) ‘derecho que se pagaba por los géneros o mercaderías que salían del reino, por los que se introducían en él, o por aquellos con que se comerciaba de un puerto a otro dentro de España’. c) La acción y su resultado (GRAE, 114): hallazgo (1) ‘acción y efecto de hallar’. 3.3.2. El sufijo –aje es el paralelo fonético de –azgo en francés, occitano y catalán. Se introduce en nuestra lengua con los préstamos de esas procedencias. A partir del XVII se independiza de sus bases extranjeras y se hace productivo en español. En DITECA registramos 12 formas, con una frecuencia total de 65. Goza actualmente de vitalidad a ambos lados del Atlántico, en parte favorecido por la existencia de formaciones paralelas en francés e inglés.49 Los significados registrados pertenecen a los siguientes apartados: a) Terminología fiscal: esta esfera semántica acapara el 38,47 %: cavallaje (6 ítems) ‘precio que se paga por acaballar’; carcelaje (12) ‘derecho que al salir de la cárcel pagaban los presos’; corralaje (1) ‘lo que se paga por la estancia del ganado detenido en los corrales del concejo’; corretaje (1) ‘comisión que

49 Cf. Pharies (2002); Alcoba (2008).

Análisis de la sufijación en el corpus DITECA

379

perciben los corredores de comercio sobre las operaciones que realizan’; hervaje (9) ‘derecho que cobran los pueblos por el pasto de los ganados forasteros en sus términos y por el arrendamiento de los pastos y dehesas’; peaje (2) ‘derecho de tránsito’. b) Indica ‘lugar’ o ‘tiempo’: pasaje ‘sitio o lugar por donde se pasa’ (2). c) Valor colectivo: ferraje (7) ‘conjunto de herraduras, aseguradas con clavos, que se ponen a las bestias’; linaje ‘conjunto de todos los descendientes de Adán’ (1) y ‘clase o condición de una cosa’ (16); vagaje/es (2) ‘bestia que, para conducir el equipaje militar y en ocasiones algunos individuos del ejército y sus familias, se tomaba en los pueblos por vía de carga concejil, pero mediante remuneración’; obraje (s) (6) ‘obra hecha a mano o con una máquina’. d) Sustantivos de acción o su resultado: caballaje ‘acción de acaballar’; viaje ‘acción y efecto de viajar’; pasaje (2) ‘acción de pasar’. La rivalidad léxica entre los dos sufijos se percibe en determinadas áreas tales como la relativa a los impuestos o rentas, en donde a partir del siglo XVII triunfará –aje, que va ganando en productividad y desde esa época se hace dominante en los campos semánticos mencionados, mientras que –azgo queda relegado a una función residual: la denominación de estados y rangos (Pharies 2002 s.v. aje). Los ejemplos del DITECA ponen de manifiesto el declinar de –azgo y la progresión de –aje. Es significativo que precisamente los términos en –azgo de esa esfera de los impuestos se registren en las ordenanzas más antiguas de nuestro corpus: portadgo en Sevilla (s. XIII) y terradgo en Córdoba (1435), mientras que los escribanos de las ordenanzas elaboradas a partir del XVI usan mayoritariamente –aje.

4 Conclusiones El uso de las herramientas tecnológicas nos ha permitido obtener el cuadro completo de todos los sufijos disponibles en el corpus DITECA, hacer comparaciones estadísticas entre ellos y diferenciar entre el campo léxico y la frecuencia. El cómputo de los 1546 términos analizados con una frecuencia de 17668 ítems se reparte entre derivados nominales (902), derivados adjetivales (324) y derivados verbales (320), lo que supone que casi el 60 % de los términos analizados son sustantivos y el resto se reparte entre adjetivos y verbos. A partir de ahí podemos estudiar la productividad sufijal y revisar los factores que contribuyen a la misma; los cambios sufijales para determinadas funciones; la especialización funcional de los sufijos.

380

Inés Carrasco Cantos y Livia Cristina García Aguiar

En los ejemplos aportados sobre el análisis de algunos de las parejas sufijales del corpus hemos intentado describir estos procesos.

5 Bibliografía Alcoba, Santiago, «Aje»: productividad, disponibilidad y rendimiento en español actual, in: Vilches Vivancos, Fernando (ed.), Creación neológica y la sociedad de la imaginación, Madrid, Dykinson, 2008, 37–84. Amador Rodríguez, Luis Alexis, La derivación nominal en español: nombres de agente, instrumento, lugar y acción, Berna, Peter Lang, 2009. Carrasco Cantos, Inés, Léxico vernacular en ordenanzas andaluzas, in: Castañer, Rosa María/ Lagüéns, Vicente (edd.), De moneda nunca usada. Estudios dedicados a José Mª Enguita, Zaragoza, Institución Fernando El Católico, 2010, 163–174. Carrasco Cantos, Inés, Rasgos de variación en textos legales de Andalucía, in: Carrasco, Pilar/ Torres, Francisco, Lengua, historia y sociedad en Andalucía. Teoría y Textos, Madrid/ Frankfurt am Main, Iberoamericana/Vervuert, 2011, 155–183. Carrasco, Inés/López Mora, Pilar, Tradición jurídica y variación léxica, in: Castillo Lluch, Mónica/ Pons, Lola (edd.), Así se van las lenguas variando. Nuevas tendencias en la investigación del cambio lingüístico en español, Berna, Peter Lang, 2011, 131–153. Clavería, Gloria, Nuevas perspectivas en el estudio de la evolución del léxico, in: Clavería, Gloria, et al. (edd.), Historia del léxico: perspectivas de investigación, Madrid/Frankfurt am Main, Iberoamericana/Vervuert, 2012, 13–90. DCECH = Corominas, Joan/José Antonio Pascual, Diccionario Crítico Etimológico Castellano e Hispánico, Madrid, Gredos, 1980–1991. Monge, Félix, –Ción, –sión, –zón, –ón: función y forma en los sufijos, in: García Arias, José Luis, et al. (edd.), Estudios ofrecidos a Emilio Alarcos Llorach, 2 vol., Oviedo, Servicio de Publicaciones de la Universidad de Oviedo, 1978, 155–165. Muñoz Armijo, Laura, La historia de los derivados en –ismo e –ista en el español moderno, Tesis doctoral, Universidad Autónoma de Barcelona, 2010. Pattison, David, Early Spanish Suffixes. A Functional Study of the Principal Nominal Suffixes of Spanish up to 1300, Oxford, Publications of the Philological Society, 1975. Pena, Jesús, La derivación en español. Verbos derivados y sustantivos verbales, Anejo 16 de Verba, Santiago de Compostela, Universidad de de Santiago de Compostela, 1980. Pharies, David, Diccionario etimológico de los sufijos españoles, Madrid, Gredos, 2002. Rainer, Franz, La derivación adjetival, in: Bosque, Ignacio/Demonte, Violeta (edd.), Gramática descriptiva de la lengua española, vol. 3, Madrid, Espasa Calpe, 1999, 4595–4644. Real Academia Española/Asociación de Academias de la Lengua Española, Nueva gramática de la lengua española, Madrid, Espasa, 2010 (GRAE). Real Academia Española, Nuevo Tesoro Lexicográfico de la Lengua Española, [en línea]. (NTLLE). Real Academia Española, Nuevo diccionario histórico del español, [en línea]. (NDHE). Real Academia Española, Banco de datos (CORDE) [en línea], Corpus diacrónico del español . .

Análisis de la sufijación en el corpus DITECA

381

Santiago Lacuesta, Ramón/Bustos Gisbert, Eugenio, La derivación nominal, in: Bosque, Ignacio/ Demonte, Violeta (edd.), Gramática descriptiva de la lengua española, vol. 3, Madrid, Espasa Calpe, 1999, 4505–4594. Torrens Álvarez, Mª Jesús/Quirós García, Mariano, La configuración del sistema de sufijos locativos en español (siglos XII–XVII), in: Sinner, Carsten/Ramírez Luengo, José Luis /Torrens Álvarez, Mª Jesús (edd.), Tiempo, espacio y relaciones espacio–temporales desde la perspectiva de la lingüística histórica, San Millán de la Cogolla, Cilengua, 2011, 265–296. Serrano Dolader, David, La derivación verbal y la parasíntesis, in: Bosque, Ignacio/Demonte, Violeta (edd.), Gramática descriptiva de la lengua española, vol. 3, Madrid, Espasa Calpe, 1999, 3683–4755.

IV. Cuestiones lingüísticas diacrónicas iberorrománicas y lingüística de corpus

Beatriz Arias Álvarez y Juan Antonio Hernández Mendoza

Argumentos dialectológicos y sociolingüísticos que ayudan a la caracterización del español en la nueva España en el siglo XVI 1 Introducción

1

Estamos de acuerdo con Rivarola (2005) en señalar que cada región americana llevó a cabo una reestructuración particular del español peninsular: los eventos comunicativos tienen escenarios diferentes al de los peninsulares y diferentes entre sí. Dado que el lenguaje es un fenómeno social y cultural, en la construcción de un corpus deben considerarse aquellos parámetros que nos aproximen a una realidad lingüística, en nuestro caso, al español novohispano. De ahí que un corpus que pretenda dar cuenta de la variación y el cambio, además de la estandarización de ciertos elementos o estructuras lingüísticas, debe emplear las variables utilizadas en la dialectología y en la sociolingüística. Ahora bien, debemos señalar que con respecto a los trabajos de sociolingüística estos pueden, grosso modo, tener dos vertientes importantes: a) estudiar las variedades asociadas con grupos de hablantes que pertenecen a una región geográfica, con una ubicación social y étnica específicas, y a un sexo o a una generación determinados; b) o investigar sobre las variedades asociadas a situaciones de uso. En este trabajo nos centramos no sólo en la variación que es propia a un grupo de hablantes dada su localización en un espacio geográfico y social, sino también en la variación que corresponde a la diversa tipología documental y a los diferentes tipos de registros, es decir, a la variación que corresponde a las características de la enunciación. El objetivo de este trabajo es advertir que el diseño del COREECOM (CORPUS ELECTRÓNICO DEL ESPAÑOL COLONIAL MEXICANO) permite acercarnos al conocimiento del español colonial mexicano, para lo cual hemos escogido analizar dos estructuras: artículo indefinido + posesivo + sustantivo y artículo definido +

1 Este trabajo forma parte del Proyecto CONAyT CB2012-1/180245. Beatriz Arias Álvarez y Juan Antonio Hernández Mendoza: UNAM

386

Beatriz Arias Álvarez y Juan Antonio Hernández Mendoza

cual + (dicho) + sustantivo, además de una forma gramatical: dende, y las palabras comadre y compadre. Nuestra elección se sustenta en diversas razones: a) la estructura artículo indefinido + posesivo + sustantivo del tipo ‘un su sobrino’ es común entre los hablantes de la península de Yucatán, Chiapas y parte de Centroamérica; b) la construcción artículo definido + cual + (dicho) + sustantivo como ‘los cuales (dichos) alimentos’ se registra en textos de tipo jurídico, y desde el siglo XIII en las obras de Alfonso X, al respecto habría que preguntarse si su uso continúa en ese mismo tipo de textos en la Nueva España; c) la forma dende es actualmente utilizada en zonas rurales de México y también en otras zonas de habla hispana; d) y los vocablos comadre y compadre son empleados en todas las capas sociales de México. Para nuestro estudio hemos tomado en cuenta las características dialectales y sociales del que escribe y las características de la enunciación: tipo de documento y tipo de registro. En otras palabras, el diseño del COREECOM puede ayudar a advertir cómo algunas estructuras o formas se pierden, otras restringen su uso y unas más llegan a estandarizarse, es decir, a normalizarse, hacerse frecuentes en el español novohispano.2 Dado lo amplio que puede ser esta investigación, la limitamos a lo que sucede en el siglo XVI en la Nueva España.

2 Marco teórico Es conocido por todos que la lengua histórica no es homogénea. Coseriu señala que en la arquitectura de la lengua histórica hay diferencias diatópicas, diastráticas y diafásicas. A ello añade que «en cada dialecto se pueden comprobar niveles y estilos de la lengua, así como en cada nivel de lengua se pueden verificar diferencias dialectales y estilísticas, etc.» (1996, 30).3 Del mismo modo, y

2 Las preguntas que se hace Schlieben-Lange son: ¿Cómo se originan unas formas de prestigio lingüístico y cómo llegan a codificarse hasta convertirse en norma obligatoria? ¿Qué papel desempeña tal norma lingüística en una sociedad? 3 Penny hace referencia más o menos a los diferentes tipos de variación que hemos señalado: geográfica o diatópica, social, diacrónica o histórica, además de mencionar que un hablante puede escoger diferentes variantes dependiendo del acto de comunicación que tenga lugar. En cuanto al pasado, advierte que en cualquier lengua debieron existir todos estos tipos de variación y que, aunque es difícil comprobarse, «[l]a comparación entre los distintos fragmentos de testimonios históricos puede ampliar las posibilidades de variación observables, pero nunca puede llegar a establecer el amplio conjunto de variaciones que debió de haber existido en cada momento del pasado» (2004, 25–26). Aun así, creemos que configurar un corpus histórico que pueda ofrecer diversas muestras de habla de una comunidad nos permite tener una visión más cercana de la misma.

Argumentos dialectológicos y sociolingüísticos que ayudan a la caracterización

387

siguiendo a Coseriu, para Schlieben-Lange (1977) la heterogeneidad se da en dos sentidos: en cuanto a que ella misma presenta subsistemas y en cuanto a que cada hablante dispone hasta cierto punto de diversos subsistemas. En cuanto a la competencia multilingüística del hablante, en ella se encuentran las diversas variantes lingüísticas que conoce un individuo y que se encuentran más o menos determinadas por las diferencias arribas señaladas. Si bien la situación es compleja en el sentido de poder identificar las variantes que se encuentran en el habla de un individuo, esta es aún más difícil cuando se trabaja con textos escritos. De ahí que surjan preguntas como «¿El que escribe puede estar sujeto a estas variantes?», «¿De qué manera?». Además, en cuanto a los textos que se analizan, se debe considerar que el emisor también debe adaptarse al código de la lengua escrita y que el manejo que tenga del mismo puede determinar su expresión y dejar traslucir los diferentes subsistemas de su habla. En otras palabras para poder caracterizar el español novohispano deben conocerse, hasta donde sea posible, las características del escribiente y del escenario comunicativo.

2.1 El que escribe Como se ha indicado arriba, el escribiente puede estar sujeto a los diferentes subsistemas de la lengua histórica. A continuación explicaremos brevemente las diversas variables que pueden determinar al que escribe y su caracterización en el corpus.

2.1.1 Variable dialectal Las diferencias diatópicas o geográficas conforman subsistemas regionales que van modelándose a través del tiempo y en las que las condiciones históricas de cada comunidad influyen de manera importante. En nuestro material el origen dialectal de los escribientes fue dividido en tres grandes zonas, que corresponden a las raíces (península ibérica), a las posibles zonas de coinización y de tránsito y a las diferentes zonas de asentamiento en el territorio novohispano. En lo que respecta a la Nueva España, si el tejido social fue complicado, el contacto de las diferentes etnias a través del territorio lo fue también. Así, el proceso de cohesión presenta áreas que implican mayor o menor grado de integración. Por ejemplo, mientras que en la zona norte no hubo un gran mestiza-

388

Beatriz Arias Álvarez y Juan Antonio Hernández Mendoza

je debido al tipo de asentamiento (misiones, presidios y reales de minas) y la presencia criolla fue más importante, en la zona central, caracterizada por la existencia de grandes centros urbanos, con un gran número de españoles, además de numerosos grupos de indios, mestizos y de criollos (incluso con presencia africana), se vio favorecido el mestizaje biológico y cultural. En contraparte, en la zona peninsular, que abarca Yucatán, zonas de Campeche y Quintana Roo, con un reducido número de españoles y un gran número de indígenas mayas, se advierte un mestizaje menor, además de que presentan comunidades indígenas con mayor unidad étnica. Además hay que señalar que los puertos del Golfo y del Pacífico tienen habitantes heterogéneos, dada la llegada continua de influencias extranjeras a través de los navíos. Por último la Capitanía General de Guatemala, a la que pertenece Chiapas, posee diferencias no sólo étnicas sino también sociohistóricas en cuanto a su conquista y colonización con respecto a las otras zonas y en concreto con el centro cultural del virreinato: la ciudad de México.4 A lo anterior hay que sumar las diferencias entre las zonas urbanas (algunas de ellas centros de expansión de las normas cultas) y las zonas rurales alejadas de los centros ‘culturales’.

2.1.2 Variable sociolectal Las diferencias diastráticas o sociales conforman también subsistemas lingüísticos. Los diferentes tipos de comunicación entre grupos sociales o la presión de una lengua dominante pueden llevar a la diversificación de usos lingüísticos; en algunas sociedades complejas la presencia de una lengua dominante con un alto grado de estandarización puede ejercer tal presión oral y escrita sobre las otras que llegue a ‘restringir’ y hasta ‘nulificar’ los usos de estas (López Morales 1993). Con respecto a la sociedad novohispana, esta se organiza en estratos sociales inexistentes en España, con un gran número de indígenas, seguidos por mestizos, criollos y negros, y un reducido número de españoles, que son los portadores del poder social y económico (Rivarola 2005). Producto de la dicotomía español/indígena se instituyen en las colonias ‘la república de españoles o de gente de razón’ y ‘la república de indios’, con estatus jurídicos diferenciados, aunque ambos espacios estaban sometidos a la Iglesia y a la Corona. Si bien la república de indios se legislaba por medio de las Leyes de 4 Hay que advertir que en cuanto a la península ibérica (las raíces) se consideran cinco zonas: tres de ellas señaladas por Peter Boyd-Bowman (1968, XXIV–XXV): Andalucía, Extremadura y Castilla; además se cuenta con los vascos, por su numerosa migración, y con los habitantes de Toledo y Madrid, por ser centros irradiadores de cultura, al igual que Sevilla.

Argumentos dialectológicos y sociolingüísticos que ayudan a la caracterización

389

Indias, los españoles se regían por medio de la legislación general del reino de Castilla. El uso de la palabra república en América fue utilizado con el significado clásico griego de sociedad política o Estado, cualquiera que fuese su forma de gobierno (Levaggi 2001).5 Además es importante señalar las diferencias entre las repúblicas de indios que se establecían en las zonas urbanas y las que se daban en las áreas rurales. Por un lado, en las grandes ciudades los indios tenían contacto con el gobierno español, en las zonas rurales podían pasar meses y hasta años sin que los funcionarios españoles visitaran esas regiones. Por el otro lado, la población india urbana se constituía por migrantes de diversos orígenes y lenguas, con una relación cotidiana entre mestizos, mulatos y españoles que fomentaba el mestizaje biológico y el empleo del español; por el otro, en los pueblos la identidad étnica y lingüística de los indios era uniforme y su trato con mestizos y sobre todo con españoles no era usual, lo cual mantenía el uso de la lengua vernácula. A este parámetro se podría sumar el del sexo del autor del manuscrito. La división entre textos escritos por hombres o por mujeres surge de la importancia actual que en los estudios de sociolingüística histórica se está dando al discurso femenino como generador de cambios (Conde Silvestre 2007).

2.2 Situación comunicativa 2.2.1 El registro Aun cuando se estudien comunidades lingüísticas relativamente homogéneas en lo espacial y social, pueden observarse diferencias lingüísticas en el estilo; por lo menos puede advertirse uno familiar y otro oficial. Un hablante no utiliza siempre la misma forma de hablar: esta varía según las circunstancias o situaciones. Halliday (1982) distingue tres parámetros: el primero tiene que ver con el «campo», el tema del que se habla o se escribe; el segundo está determinado por el

5 El concepto de la República como grupo social, comunidad y pueblo ya estaba definido en España antes de la Conquista. Fue trasladado a América, principalmente a la Nueva España. Como es conocido hubo república de indios y de españoles, ambas podían incluso coexistir en una misma zona aunque de manera independiente (Jiménez Gómez 2008). En las ciudades los barrios formaban parte de una república que tenía gobernadores, alcaldes, alguaciles y escribanos. También las repúblicas tenían bienes comunes: cofradías, hospitales, tierras, etc. (Castro Gutiérrez 2010). Si bien en una primera etapa se utilizó el término República para cada una de las comunidades de los naturales, posteriormente fue empleada para el conjunto de sociedades indígenas (Levaggi 2001).

390

Beatriz Arias Álvarez y Juan Antonio Hernández Mendoza

receptor, con quién se habla o a quién se escribe: sería el «tono»; y el tercero tiene que ver con el canal, con el tipo de lenguaje que se está empleando, es decir, con el «modo». Estos tres parámetros determinan los significados y las formas que se usan para expresarse. Es decir, el lenguaje que hablamos o escribimos depende de la situación, la cual determinada el tipo de registro.6 Con base en Biber (1988) y en Koch/Oesterreicher (2007) y tomando en cuenta lo señalado por Halliday, hemos considerado los siguientes parámetros para diferenciar y conjuntar los textos: – la implicación emocional del emisor, – el manejo que este tenga del código escrito, – el propósito que tiene el escribiente: informativo, afectivo o imperativo, – la fijación temática que presenta el texto (uno o varios temas), – el grado de publicidad, es decir, si va dirigido a uno o varios receptores, – la relación entre emisor y receptor (diferencia e igualdad —familiaridad—). La combinación de los parámetros anteriores ha llevado a agrupar los textos en tres tipos diferentes: 1. Textos informales: se aproximan a lo señalado por Koch y Oesterreicher como inmediatez comunicativa. Contienen los siguientes parámetros: escritor semiculto, implicación emocional, propósito afectivo-informativo, sin fijación temática, dirigido a un solo receptor y la relación entre escribiente y receptor es de igualdad (familiaridad). Este grupo se encuentra constituido por cartas de amor, cartas escritas a familiares y amigos y algunos recados. 2. Textos semiformales: contienen los parámetros que a continuación se enumeran: escritor culto o semiculto, con o sin implicación emocional, propósito informativo, con o sin fijación temática, un receptor, la relación entre emisor y receptor es desigual. Los textos pueden ser denuncias, autodenuncias, cartas de relación y defensas. 3. Textos formales: tienen las siguientes características: escritor culto, sin implicación emocional, propósito informativo o imperativo, fijación temática, uno o varios receptores con una relación de desigualdad. Abarcan juicios, testamentos, cédulas, cartas de autoridades, facturas y actas. Estos se encuentran en el polo de la distancia comunicativa.7

6 Otros como Joos, citado por Schlieben-Lange (1977, 112) señalan hasta cinco formas de «registro» para el inglés: frozen, formal, consultative, casual, intimate. 7 Los parámetros incorporados a cada registro se sustentan en el análisis de oraciones de relativo en el siglo XVI (Arias 2014).

Argumentos dialectológicos y sociolingüísticos que ayudan a la caracterización

391

2.2.2 El tipo de texto Si anteriormente se consideraba que la variación textual no aportaba datos ‘estadísticamente’ relevantes para conocer la historia de una lengua, actualmente y según la teoría de las Tradiciones discursivas, cuando se mira hacia la historia de las lenguas se puede descubrir que muchos fenómenos lingüísticos se encuentran relacionados con ciertos textos. En otras palabras y según Kabatek «la historia de la lengua no presenta solo variación a nivel de dialectos, sociolectos o estilos sino que la lengua varía también de acuerdo con las tradiciones de los texto» (2008, 8), ya que un tipo de texto condiciona o puede condicionar la selección de determinados elementos o fenómenos lingüísticos. Así, los documentos o textos en cuestión pueden analizarse a partir de tipos de discurso y de cómo estos se construyen y configuran. Los documentos con los que se trabaja son heterogéneos: se ha tratado de incorporar todas las variedades textuales posibles para poder advertir diferentes fenómenos lingüísticos. Para la clasificación de los manuscritos, se consideran dentro de una misma tradición aquellos documentos que presentan un mismo propósito para su creación y similares elementos o estructuras lingüísticos. Ejemplos de esta división son: cartas privadas, cartas de relación, informaciones, notas, relaciones de carga, pareceres, denuncias, defensas, cédulas, solicitudes, testamentos, etc.

3 Análisis de documentos novohispanos a través de la dialectología y la sociolingüística históricas En la elaboración del COREECOM hemos tenido en cuenta los parámetros arriba señalados para conocer el origen y evolución del español novohispano. La etiquetación que hemos realizado nos ha servido para aproximarnos al conocimiento de la difusión y el estado de formas y estructuras lingüísticas en el español de la Nueva España. A continuación se ofrece la cabecera de nuestros documentos:

392

Beatriz Arias Álvarez y Juan Antonio Hernández Mendoza

Imagen 1: Cabecera del documento

Como puede observarse, se señala el posible origen dialectal, étnico-social, el sexo del escribiente, así como el tipo de documento y su variedad textual, además de indicar el destinatario (como es de esperar, también se ofrece la fecha). Este etiquetado permite realizar diferentes tipos de cruces, por ejemplo: textos escritos en la Nueva España por andaluces, o manuscritos formales escritos por indígenas, etc. Además nuestro corpus permite hacer búsqueda de formas aisladas y de estructuras, como se puede observar en la siguiente imagen:

Imagen 2: Consulta de vocablo por distancia

Argumentos dialectológicos y sociolingüísticos que ayudan a la caracterización

393

Debemos advertir que, si bien el corpus nos ayuda a circunscribir ciertos fenómenos, para poder interpretarlos hay que recurrir a lo que Wright (2001) señala como sociofilología, además de a la antropología lingüística.8 En otras palabras el COREECOM ofrece una herramienta utilísima, pero los datos deben ser interpretados por el estudioso basándose en el conocimiento dialectal y sociocultural de la comunidad lingüística.

3.1 Análisis de las estructuras 3.1.2 La estructura artículo indefinido + posesivo + sustantivo Actualmente en Yucatán y Chiapas (y en otras zonas de Centroamérica) es común encontrar el artículo indeterminado con un posesivo, del tipo: un + su + sustantivo. Nuestros documentos registran esta estructura en la zona de Yucatán:9 1a. y no pudo passar adelante por falta de tamemes, y de allí se bolvió y dio la capitanía a un su sobrino que llaman Alonso (1548) 1b. y un su corregidor llamado Rodrigo de Escalona (1578)

El primer ejemplo, (1a), procede de una carta de relación (registro formal) de 1548 escrita por fray Lorenzo de Bienvenida, originario de Sevilla, en la que describe lo hecho por los conquistadores desde Honduras hasta Yucatán. Llama la atención que otro sevillano como Bernal Díaz del Castillo utilice esta misma estructura en la Historia Verdadera de la Conquista de la Nueva España: 2.

diré cómo Cortés luego mandó a un nuestro capitán que se decía Juan Velásquez de León, persona de mucha cuenta (citado por García Tesoro 2011, 199).

Igualmente, es llamativo que Frago (1999, 76) encuentre un ejemplo al que describe como un caso «del componente gramatical del español que los andaluces llevaron a América» en una carta personal:

8 Para Wright hay que «hacer hincapié en el campo del estudio filológico sobre la necesidad de prestar atención a las condiciones socioculturales que envolvían a los productores de los textos» (2011, 65–66). 9 Según García Tesoro (2011) la construcción del tipo «un su nagual» es uno de los rasgos más peculiares del español de Centroamérica, en varios estudios sobre el español de América se menciona como un rasgo característico del habla de Guatemala, El Salvador y Honduras; igualmente, Kany (1972) también lo documenta en el área de Chiapas en México, Nicaragua, El Salvador y Costa Rica». Nosotros sabemos que esta construcción también se puede registrar en Yucatán, México (comunicación personal con Fidencio Briceño Chel, investigador del INAH de Yucatán).

394

Beatriz Arias Álvarez y Juan Antonio Hernández Mendoza

3.

si quisiere venjrse con bos ella y vn nuestro hijo v entramos

El segundo caso (1b) es una denuncia (registro formal) en la que fray Pedro de Noriega en 1578 se queja del gobernador y corregidor de la provincia de Yucatán. No se conoce el origen dialectal del fraile. De lo anterior podemos advertir las siguientes cuestiones: – Los casos pertenecen a un tipo de registro formal, al igual que lo que sucede con Bernal Díaz del Castillo, pero no es lo que pasa con el ejemplo de Frago, ya este se encuentra en una carta personal. – El autor de nuestro primer ejemplo es de origen sevillano, al igual que Bernal y el escribiente del ejemplo que ofrece Frago. El del segundo es de origen desconocido, que bien podría ser andaluz. – Nuestros casos fueron escritos en la zona en la que es frecuente hoy en día este fenómeno. De todo lo cual se puede deducir que bien puede ser un componente gramatical andaluz traído a América y que era empleado en cualquier registro, es decir era un rasgo dialectal; sin embargo, no nos atrevemos a afirmar que su uso actual tenga una raíz andaluza, ya que hay una interrogante: ¿por qué en otras regiones americanas o, en nuestro caso, otras zonas de la Nueva España no se utiliza esta construcción? A nuestro modo de entender creemos que pueden existir otras causas que originen o coadyuven a la presencia de este fenómeno en dichas áreas.10

3.1.2 La estructura artículo definido + cual + (dicho) + sustantivo Este tipo de construcciones fue común en la Edad Media, ya desde el siglo XIII era empleada en la obra alfonsí.11 Nosotros la hemos podido registrar en documentos

10 Este fenómeno presente en algunas zonas de México (península de Yucatán y Chiapas) y Centroamérica ha dado pie a diferentes posturas para poder explicar su uso. Para Company (2005) no hay convergencia lingüística pero sí cultural y comunicativa. Es una prolongación del uso medieval que es reforzada por la presencia de una estructura similar en maya. Según García Tesoro (2011) esta estructura no es motivada por el contacto, o al menos, la influencia se produjo hace mucho tiempo de ahí que actualmente esté generalizada. De acuerdo con Pato (2002) no se puede atribuir su presencia a la interferencia del maya, se debe al contacto cultural y lingüístico que permitió la conservación. Nosotros, sin más datos, no nos podemos inclinar por ninguna de estas posturas, lo importante para nuestros propósitos es su registro en el siglo XVI en la Nueva España. 11 Para Elvira, la forma cual se comporta como un demostrativo, por ejemplo: La qual humana natura es de tierra, GE (1985, 85).

Argumentos dialectológicos y sociolingüísticos que ayudan a la caracterización

395

formales, en algunos con la presencia de la forma dicho antecediendo al sustantivo: 4a. […] de los cuales tormentos murieron y mancaron muchos de nosotros. (indígenas, 1567) 4b. Los cuales cien hombres vezinos con sus mujeres (español, s.f.) 4c. […] los cuales dichos maceguales, favorescidos de algunos españoles letrados e procuradores, se an subtraído y no lo quieren pagar ni reconocer a sus caciques (indígenas, 1563). 4d. […] la cual dicha sepultura e asiento míos dexo y mando a la dicha María Gómez (español, 1537) 4e. La cual dicha sentencia fue dada y pronunciada en la mañana que dicha es. (español, 1519).

Y en dos textos semiformales: 5a. los cuales escrivanos dan provanças y testimonios como las a menester el dicho tiniente (español, 1520) 5b. los cuales santos bendió mi padre (sefardita, 1597)

Dos anotaciones son importantes con respecto a esta estructura: por una parte, se puede encontrar en textos formales y semiformales de carácter jurídico: cartas de privilegio, de petición, de licencia, de relación, declaraciones, testimonios, testamentos y cédulas. Esto nos ha llevado a pensar que tiene relación con la variedad documental que se escribe. Así, al remontarnos a sus orígenes, Bassols advierte que en el latín «con bastante frecuencia el antecedente del relativo vuelve a repetirse en forma pleonástica dentro de la misma oración de relativo, […] va cayendo en desuso en el lenguaje literario, pero en el habla popular del latín decadente así como entre los juristas sigue usándose con bastante frecuencia […]» y más adelante apunta que «en castellano se admiten también estos giros, pero son privativos de y se deben a la influencia latina» (1987, 240–241). Por otra parte, podría llamar la atención que algunos de los manuscritos fueron escritos por indígenas principales. Sin embargo, dada la importancia educativa que tuvo el colegio de Tlatelolco para estos durante el siglo XVI, no es de extrañar que en documentos de carácter jurídico emplearan construcciones con influencia latina.12 Ahora bien, esta estructura no se encuentra, como es de suponer, en el registro informal, y no tiene relación con los rasgos dialectales del escribiente,

12 El colegio de Santa Cruz de Tlatelolco, institución de estudios superiores, única en América, a la que asistían los hijos de indios principales, tuvo como base de su educación la gramática latina, pero también se enseñaba castellano y náhuatl. Se impartía lógica, retórica, filosofía, medicina, música y algo de teología. Su actividad intelectual fue sorprendente: «En Tlatelolco los indios leyeron profusamente a Cicerón, conocieron bien a Aristóteles, San Agustín y otros autores clásicos y padres de la Iglesia» (Escalante 2011, 35).

396

Beatriz Arias Álvarez y Juan Antonio Hernández Mendoza

además ya no es utilizada hoy día ni en el habla culta ni en el habla popular de México, como se puede observar, su presencia se encuentra condicionada por una variedad textual ligada a la escrituralidad.13

3.1.3 La forma dende Al igual que Álvarez Nazario (1982, 111) en documentos de Puerto Rico del siglo XVI, hemos podido registrar la forma dende:14 6.

después que ya estén seguros ansí como dende a un año y más, dígaseles de parte de Vuestra Alteza como son obligados a servirle con cierto tributo (s/f)

Si bien esta es considerada como un arcaísmo vulgar en algunas zonas de América y en México se registra en zonas rurales, llama la atención que en nuestro corpus solo aparezca en documentos formales y, en menos casos, en semiformales. Sin embargo, hay que advertir que Frago (1999, 82) proporciona dos ejemplos, uno extraído de Los Naufragios de Alvar Núñez Cabeza de Vaca y el otro de una carta personal de un emigrado andaluz (documento informal): 7.

Yo escriuo ésta dende La Fauana

Lo anterior puede indicar que, si bien era una forma empleada más en los registros formales (al menos así lo indican los datos), también podía aparecer en registros informales. Lo que sí podemos señalar es que no era una forma, como la construcción anterior, cuyo uso se limitara a la lengua escrita y parece ser que es común en varios dialectos del español e incluso en algunas lenguas como el gallego.15 La presencia en el habla rústica puede deberse a un desplazamiento de la forma dende por desde que no llegó ni a todos los sociolectos ni a todos los dialectos, ya que emanó de los centros de cultura, en nuestro caso de la ciudad de México, y no llega a las zonas más apartadas.16

13 Con base en Koch y Oesterreicher (2007) podríamos afirmar que los documentos jurídicos se encuentran en el polo de la distancia comunicativa. 14 Esta forma se registra en el siglo XIII sobre todo en fueros, cartas privilegio, etc., y en obras de Alfonso X como el Lapidario, el Libro de la cruces o el Setenario. 15 Al menos en nuestros documentos la hemos encontrado en escribientes de Burgos, Andalucía, Extremadura y sefarditas. 16 Creemos que el estudio de esta forma debe realizarse a través de todo el periodo colonial para poder ofrecer una explicación con más fundamento.

Argumentos dialectológicos y sociolingüísticos que ayudan a la caracterización

397

3.1.3 Las palabras comadre y compadre Los casos de los vocablos comadre y compadre se encuentran en algunas de las obras de Alfonso X, como en la Historia de España: 8.

Otrossi establescio que assi omne como mugier que con su comadre o con su compadre casasse desde que el ninno tienen a la puerta que nol quieren babtizar; que se partan uno dotro.

Nosotros los hemos registrados, en la gran mayoría de los casos, en cartas personales, en registros informales, frecuentemente de mujeres: 9a. Vuestra comadre, la de Ayala, se os encomienda (española, 1526) 9b. Mi comadre Lucía de Alcalá besa a Vuestras Mercedes las manos (mulata, 1594) 9c. Mi comadre Veatriz Muñoz y su hijo y nuera/ de v.m., mi señora, vesa manos y a mi compadre Agustín Gutiérrez (mulata, 1594)

Aunque en un caso, en una carta de un hombre: 10. de bueno que soi azen todos bulra de mí; como mi compadre lo a echo de mí (hombre, 1569)

A pesar de que parece una constante que se encuentre en registros informales (cartas personales), también hemos obtenido la palabra compadre en un registro formal, como es un informe de la Inquisición. La presencia de esta palabra en este documento se debe a la descripción que se está haciendo de un bautismo, en el que el acusado tiene una relevancia ‘jurídica y religiosa’ que debe quedar en evidencia: 11.

y es que siendo compadre, teniendo sobre la pila una criatura para rescibir el agua del baustismo le bolvió las espaldas a el clérigo (español, 1566)

Aunque Álvarez Nazario (1990) registra estas palabras en el habla campesina de Puerto Rico (con las variantes comaire y compaire), no las menciona en los siglos XVI y XVII.17 En México estos vocablos son comunes en todos los dialectos y sociolectos y se pueden relacionar con cuestiones socioculturales. El compadrazgo es un lazo

17 Tampoco Frago las registra en su estudio sobre la historia del español de América (1999).

398

Beatriz Arias Álvarez y Juan Antonio Hernández Mendoza

familiar muy importante, ya que a través de él se podía garantizar y se garantizaba que los niños huérfanos no quedaran abandonados.18

4 Conclusiones A través del análisis de las estructuras y de los vocablos seleccionados hemos podido advertir que en los procesos de pérdida, transformación y normalización de los elementos lingüísticos intervienen muchos factores, los cuales tienen que ver con los subsistemas del escribiente y con los tipos de enunciación que se realicen. No podemos dejar de mencionar que el COREECOM ofrece una serie de herramientas muy útiles para poder conocer tanto los subsistemas que posee el escribiente como la compleja variedad de la enunciación, pero sería demasiado pretencioso decir que con sólo estas herramientas se pueden explicar los fenómenos que puedan registrarse; para ello creemos que es necesario hacer uso de la sociofilología y la antropología lingüística, es decir, conocer los aspectos no sólo dialectales sino también socioculturales que, en nuestro caso, enmarcan el español colonial mexicano.

5 Bibliografía Álvarez Nazario, Manuel, Orígenes y desarrollo del español en Puerto Rico (Siglos XVI y XVII), Puerto Rico, Universidad de Puerto Rico, 1982. Álvarez Nazario, Manuel, El habla campesina del País. Orígenes y desarrollo del español en Puerto Rico, Puerto Rico, Universidad de Puerto Rico, 1990. Arias Álvarez, Beatriz, El español de México en el siglo XVI (Estudio Filológico de quince documentos), México, UNAM, 1997. Arias Álvarez, Beatriz, Confección de un corpus para conocer el origen, la evolución y la consolidación del español en la Nueva España, in: Enrique-Arias, Andrés (ed.), Diacronía de

18 Aunque no hay duda de que el compadrazgo es un ritual que viene de España, en América y, por lo tanto, en México, adquiere un aspecto singular. En un principio el padrino era un español que velaba para que su ahijado no se desviara de la fe católica. Para algunos autores, como lo hace Zalazar (2009) para el Paraguay (y lo mismo sucedió en México), el compadrazgo viene a suplir o complementar ritos prehispánicos. Originalmente se utilizó según Gascón (2005, citado por Zalazar) «para establecer relaciones verticales entre conquistadores e indios infieles, pero más allá de esto, sirvió para crear lazos de parentesco entre ello». Posteriormente, ya durante el desarrollo de la Colonia, «la gente se adueñó de la institución y le dio una utilidad secular, se establecieron nuevas relaciones, entre compadres, que pasó a ser más fuerte que entre padrino y ahijado» (Mintz / Wolf 1995 citado por Salazar). Prueba de ello es que en México hay un día especial para celebrar al compadre y a la comadre (el tercer domingo de marzo).

Argumentos dialectológicos y sociolingüísticos que ayudan a la caracterización

399

las lenguas iberorrománicas. Nuevas aportaciones desde la lingüística de corpus, Madrid/ Frankfurt am Main, Iberoamericana/Vervuert, 2009, 55–77. Arias Álvarez, Beatriz, Variación en el uso de oraciones de relativo en el español colonial mexicano: una cuestión de registro, in: Martín Butragueño, Pedro/Orozco, Leonor (edd.), Argumentos cuantitativos y cualitativos en sociolingüística, México, El Colegio de México, 2014, 399–420. Biber, Douglas, Variation across speech and writing, Cambridge, Cambridge University Press, 1988. Boyd-Bowman, Peter, Índice geobiográfico de cuarenta mil pobladores españoles de América en el siglo XVI, tomo 2, 1520–1529, México, Editorial Jus, 1968. Boyd-Bowman, Peter, Índice geobiográfico de más de 56 mil pobladores de la América hispánica, Tomo 1, 1493–1519, México, FCE, 1985. Bassols de Climent, Mariano, Sintaxis Latina, vol. 2, Madrid, CSIC, 1987. Castro Gutiérrez, Felipe (coord.), Los indios y las ciudades de Nueva España, México, UNAM, 2010. Company, Concepción, Frecuencia y uso y contacto lingüístico en sintaxis: artículo indefinido + posesivo en el español americano, Spanish in Context 2:2 (2005), 131–156. Conde Silvestre, Juan Camilo, Sociolingüística Histórica, Madrid, Gredos, 2007. Coseriu, Eugenio, El Sistema Verbal Románico, México, Siglo Veintiuno Editores, S.A. de C.V., 1996. Elvira, Javier, Las oraciones de relativo I. El nexo que, in: Company, Concepción (ed.), Sintaxis histórica de la lengua española, México, Fondo de Cultura Económica, vol. I, 2009, 1411–1476. Escalante Gonzalbo, Pablo, La etapa indígena, in: Escalante, Pablo, et al. (edd.), La Educación en México, México, El Colegio de México, 2011, 13–32. Fernández-Ordóñez, Inés, La lengua de Castilla y la formación del español. Discurso de ingreso en la Real Academia Española, Madrid, Real Academia Española, 2011. Fernández-Ordóñez, Inés, El norte peninsular y su papel en la historia de la lengua española, Gómez Seibane, S./Sinner, C., Estudios sobre tiempo y espacio en el español norteño, San Millán de La Cogolla, Cilengua, 2012, 23–68. Frago Gracia, Juan Antonio, Historia del español de América, Madrid, Gredos, 1999. Frago Gracia, Juan Antonio/Franco Figueroa, Mariano, El español de América, Cádiz, Universidad de Cádiz, 2001. García Tesoro, Ana Isabel, «Cada quien tiene un su nagual» La construcción artículo indefinido + posesivo + nombre en el español de Guatemala, The Journal of the Faculty of Foreign Studies, 2001, 197–2009. Gonzalbo Aizpuru, Pilar, Historia de la educación en la época colonial: el mundo indígena, México, El Colegio de México, 1990. Halliday, M.A.K., El lenguaje como semiótica social. Interpretación social del lenguaje y del significado, México, Fondo de Cultura Económica, 1982. Hymes, Dell, Foundations of Sociolinguistics: An Ethnographic Approach, New York, Routledge, 1997. Jiménez Gómez, Juan Ricardo, La República de Indios en Querétaro 1550–1820. Gobierno, elecciones y bienes de comunidad, México, Porrúa, 2008. Kabatek, Johannes (ed.), Introducción, in: Sintaxis histórica del español y cambio lingüístico: Nuevas perspectivas desde las tradiciones discursivas, Frankfurt am Main/Madrid, Vervuert/Iberoamericana, 2008, 7–16.

400

Beatriz Arias Álvarez y Juan Antonio Hernández Mendoza

Koch, Peter/Oesterreicher, Wulf, Lengua hablada en la Romania: español, francés, italiano, Madrid, Gredos, 2007. Labov, William, Principles of Linguistic Change, vol. 2: Social Factors, Oxford, Blackwell, 2001. Levaggi, Abelardo, República de indios y república de españoles en los reinos de Indias, Revista de Estudios histórico-jurídicos, 2001, no. 23. (http://dx.doi.org/10.4067/S07165444200100230009). Lipski, John M., El español de América, Madrid, Cátedra, 2002. López Morales, Sociolingüística, Madrid, Gredos, 1993. Pato, Enrique, La estructura una mi amiga en el español de Guatemala, in: A. Palacios y A.I. García (edd.), El indigenismo americano III, Valencia, Universitat de Valencia, 2002, 121–154. Penny, Ralph, Variación y cambio en español, Madrid, Gredos, 2004. Rivarola, José Luis, Sobre los orígenes y la evolución del español americano, in: Noll, Volker, et al. (edd.), El español en América. Aspectos teóricos, particularidades y contactos, Madrid/ Frankfurt am Main, Iberoamericana/Vervuert, 2005, 33–48. Salazar, Raquel, El parentesco ritual: el compadrazgo en el Paraguay, antropylogia.wordpress. com/2009/03/28. Schlieben-Lange, Brigitte, Iniciación a la Sociolingüística, Madrid, Gredos, 1977. Wright, Roger, La Sociofilología y el origen de la primera documentación cancilleresca en forma romance en Castilla, in: Jakob, Daniel/Kabatek, Johannes (edd.), Lengua medieval y tradiciones discursivas en la Península Ibérica, 2001, 63–77.

Marta Fernández Alcaide

Manifestaciones de la variación del español colonial en un corpus epistolar multidimensional 1 Consideraciones teóricas: el punto de partida* La configuración de un corpus del español colonial tropieza con dos dificultades particulares del español de América y las generales de cualquier corpus. En cuanto a las dificultades particulares (Ramírez Luengo 2012, 255–256), no hay acuerdo sobre cuándo empieza a poder hablarse de español de América y, por otra parte, tenemos escasa documentación de los primeros años de gestación del español americano y, concretamente, una menguada representatividad de las diferentes tradiciones discursivas y textuales. En efecto, español de América como tal no habría hasta la primera mitad del siglo XVII, pero el español llevado a América habría empezado a transformarse desde las primeras colonizaciones (Obediente 2012, 271) e incluso en las primeras naos que zarpan rumbo a América están preparándose las condiciones lingüísticas necesarias para que pueda producirse la nivelación y, consecuentemente, la configuración de rasgos lingüísticos propios. De hecho, el español primero que llega a América es el preferido —dado que es sobre el que empieza a configurarse una realidad lingüística nueva— frente al español que sigue llegando en los sucesivos años, de ahí la permanencia en el español de América de formas lingüísticas que serían abandonadas en la península. El desechar, por tanto, esos primeros veinte o treinta años en que los españoles se instalan y comienzan a utilizar su español en América, como, entre otros, De Granda (1994), no sería probablemente más que dejar fuera del espacio variacional los momentos de vacilación propios de la transición de un estado de lengua a otro nuevo (cf. Sánchez Méndez 2012; Kabatek 2013). Así, por ejemplo,

* Este trabajo se ha realizado en el marco del proyecto de investigación «Tradiciones discursivas, tradiciones idiomáticas y unidades de análisis del discurso en la historia del español moderno» (FFI 2014-51826-P), desarrollado por el grupo de investigación El español hablado en Andalucía (HUM-134), al que pertenece la autora (cf.grupo.us.es/ehandalucia), todo ello gracias a la financiación del Gobierno de España y la Junta de Andalucía, con el respaldo de los fondos FEDER de la Unión Europea. Marta Fernández Alcaide: Universidad de Sevilla

402

Marta Fernández Alcaide

respondiendo a algunas interrogantes que a este respecto plantea Sánchez Méndez (2012), podría considerarse el diario de Colón o las crónicas de Indias dentro del español americano de orígenes, como también hace Lüdtke (2014). Sería interesante, pues, aplicar una delimitación temporal —seguimos en eso aproximadamente la propuesta de Girón (2004)— que abarque desde 1492, fecha del descubrimiento de América y de la primera gramática del español, hasta 1559, por el otro lado, como fecha de la Gramática de Villalón (1558), las de Lovaina (1559), fecha también en que se dictó una cédula para prohibir imprimir y vender libros acerca de las Indias sin permiso del rey (1556) (Toribio Medina 1958, 6–7). Por otro lado, existe el problema de la documentación colonial en dos vertientes: su escasez general en los primeros años y su falta de variedad textual.1 En efecto, en colecciones (en papel) de textos americanos de los siglos XV, XVI y XVII, son casi excepcionales los pertenecientes a la primera mitad del XVI y casi ausentes los de finales del XV.2 Lo mismo sucede en CORDE, cuyos datos resumimos en la siguiente tabla:3

1 Es fundamental en relación con nuestro estudio el recientemente creado CORDIAM (www. cordiam.org), el Corpus Diacrónico y Diatópico del Español de América, un corpus elaborado con corpus cedidos por numerosos investigadores: todos los documentos son de archivo, de modo que son textos no literarios y no periodísticos que presentan una amplia variedad discursiva; abarcan cronológicamente desde 1494 a 1905 y geográficamente, los 19 países americanos hispanohablantes más el sur y oeste de Estados Unidos, Jamaica, Haití y Guyana (antiguos territorios de la corona española). Su novedad y su ventaja es, pues, la de reunir todos esos textos, algunos previamente publicados, y hacerlos accesibles a la comunidad científica. Concretamente, para la fecha que manejamos aquí, CORDIAM recoge aproximadamente 1200, de los cuales una cuarta parte tienen fecha anterior a 1560, cerca de 300, de modo que para ese periodo se ha incluido el triple de textos de los citados en la nota 2. CORDIAM, por tanto, suple, por el momento al menos parcialmente, las carencias detectadas en otros corpus. 2 Por citar solo algunos ejemplos concretos: en Documentos para la historia lingüística de Hispanoamérica, siglos XVI a XVIII (Fontanella de Weinberg, 1993 vol.1) solo hay del siglo XVI 99 textos en total (14 textos dominicanos, 7 mexicanos, 40 limeños, 19 chilenos, 19 argentinos), de los cuales pertenecen a la primera mitad del siglo solo 9; en Documentos lingüísticos de la Nueva España, (Company 1994) son 78 textos, solo 23 de la primera mitad; en Documentos para la Historia Lingüística de Mérida (Venezuela) – (Siglos XVI–XVIII) (Obediente Sosa 2003) solo hay 3 del siglo XVI y ninguno es de la primera mitad; Textos del Caribe (siglos XV, XVI y XVII), cuya versión preliminar la editora, Martha Guzmán, me dejó consultar, contiene 26 documentos editados de finales del siglo XV y la primera mitad del XVI y otros 15 de la segunda mitad; en Cartas de particulares en Indias del siglo XVI hay editadas 640 cartas y solo 9 son de la primera mitad. 3 No se puede aún proporcionar una tabla con datos semejantes de CORDIAM pues aún no están disponibles, si bien nos consta que está en proceso de elaboración.

403

Manifestaciones de la variación del español colonial

Tabla 1: Resumen de documentos coloniales en CORDE Argt

Boliv

Colm

C.

Chile Cuba

Ecdr

Guat Mxco

Perú

Rica 1492–

1 dcho

4 dcho

P.

Rep.

Rico

Dom.

4 dcho 9 dcho

Total

18

1520 1520–

91

1550

dcho

1 hco 68

4 hco

5

169

58

51

5 dcho

166

dcho,

dchoh,

5 dcho

204

dcho e hco

15504– 6 1575

12

33

dcho dcho

1

dcho

hco, (3) social relig 15755– 18 1599

32

2 litº

dcho dcho

26

11

2 dcho

29

75

dcho

dcho,

y

dcho,

dchoh,

1 litº

social

e hco

24

44

2

59

102

1

3

4 hco

y litº

hco, litº, social,

1

relig

litº

159

130

8

24

557

No es desdeñable que, frente a esta cifra total de 557, para las mismas fechas en España haya cerca de 7 mil documentos, distribuidos entre textos de diferente temática como historia, derecho, arte, prosa narrativa, religión, ciencias aplicadas, ciencias exactas, físicas y naturales, ciencias sociales, verso, etc. Además, dado que la administración empezó a funcionar bien desde muy pronto en América, tenemos textos administrativos, notariales, ordenamientos, etc., y no tanto textos literarios, personales o históricos, como acabamos de ver:

4 Entre 1551 y 1575 hay de Argentina 6 documentos notariales; 12 de Bolivia también notariales; de Chile 10 notariales; de Colombia uno hagiográfico; de Costa Rica 33 notariales; 1 notarial de Ecuador; 58 de México entre notariales, históricos y tres religiosos en verso dramático breve; 51 de Perú, entre un texto de 1568–1570, Anónimo, Visita de los valles de Sonqo en los yunka de coca de la Paz, dos notariales, 45 de ordenamientos y códigos legales, una relación y dos textos historiográficos; 5 de República Dominicana, notariales. 5 Entre 1576 y 1599, 18 documentos notariales e históricos de Argentina; 32 documentos bolivianos notariales; en Chile 11 notariales y uno de poesía épica; de Colombia, 2 textos literarios; de Costa Rica hay 26 notariales; en Ecuador hay 1 notarial y otro social; en México 29 documentos que se reparten entre notariales, históricos, uno literario y otros religiosos; para Perú hay 75 documentos, repartidos entre notariales e históricos fundamentalmente; 4 documentos históricos para Puerto Rico; y, finalmente, de la República Dominicana hay 4 notariales y un entremés.

404

Marta Fernández Alcaide

En los documentos indianos el problema de la definición y determinación de las T.T. también es complicado, ya que, aunque las diferentes cancillerías se establecían a semejanza de la metrópoli, estas tenían sus propias particularidades, por lo que las tradiciones textuales también diferían, desapareciendo algunas y creándose otras. Además, la complejidad administrativa y cultural de esa sociedad incipiente repercutiría en la producción, transformación y creación de T.T., como se refleja en la vastedad y variedad de documentos indianos que se conservan y que permite apelar a América en esa época como «la bien documentada (Diez del Corral 2012, 327).

Este inconveniente guarda relación también con otro más subsanable: los estudiosos han preferido buscar lo americano en textos coloquiales; ahora bien, como señala Sánchez Méndez: Creo que es necesario, por tanto, considerar documento hispanoamericano todo aquello que nos ayude a inferir, analizar, conocer y comprender tanto directa como indirectamente la evolución lingüística de las hablas americanas o de sus aspectos concretos, independientemente del lugar donde se genera o de la persona que redacta o dicta (Sánchez Méndez 2012, 285).

En este sentido, importa plantear la configuración del corpus de español americano de orígenes atendiendo a las tradiciones discursivas y a características estrictamente lingüísticas. Wesch (1998, 187), por ejemplo, distinguió, dentro de los textos jurídico-administrativos, entre documentos probatorios como la información, la relación geográfica y la carta, documentos petitorios y documentos dispositivos como la real provisión, la ordenanza, el mandamiento, la real cédula y la instrucción.6 Otros autores intentan a su vez contribuir, así Obediente (2012) o Sánchez Méndez (2012).7 Por su parte, Guzmán Riverón propone una clasificación original basada en criterios puramente lingüísticos. Se fija en cuatro criterios:

6 Recientemente Greusslich (2012) vuelve a describir estos tipos de texto como acercamiento previo a las Décadas, aunque él discute la mescolanza de tradiciones discursivas y la existencia de tipos de textos bivalentes, idea con la que discrepamos: precisamente en los orígenes del español de América los textos son aprovechados para distintos fines, se superponen diferentes funciones e incluso quedan diluidos el plano de lo público y el plano de lo privado. Una muestra de ello, no la única, son las cartas entre particulares (Fernández Alcaide 2009). 7 Obediente (2012, 273) presenta un listado con los distintos tipos de textos de la colección de textos venezolanos (Obediente 2003): cartas de dote, conciertos, documentos de compraventa y traspaso, documentos relativos a encomiendas, informaciones, donaciones, cartas particulares, informaciones de visitas, obligaciones, poderes, solicitud de mercedes y licencias, testamentos y codicilos, juicios. Sánchez Méndez hace una reseña (2012, 288–292) de qué tipos de textos deberían incluirse en un corpus diacrónico americano y, aunque no es un listado exhaustivo, nos interesa reproducir aquí las sugerencias que plantea: testamento, declaración de testigos, testi-

Manifestaciones de la variación del español colonial

405

1) 2)

el marco temático, pragmático e institucional; las condiciones comunicativas de la producción textual, es decir, qué tipo de productor, qué tipo de receptor y cómo se concibe el texto, hablado, escrito o ambos; 3) las características estructurales; 4) las particularidades lingüístico-estilísticas: la existencia de fórmulas fijas y su frecuencia, la caracterización sintáctica general, los rasgos universales de oralidad y los mecanismos de escrituralización de lo hablado. El resultado es una tabla diacrónica de la extensión de ciertas tradiciones discursivas en el Caribe, que sería interesante poder contrastar con otras zonas de América (Guzmán Riverón 2008, 1858). La tipología de Oesterreicher (2004) contempla el carácter variacional de la lengua y por eso puede ser más adecuada a nuestro objetivo. Primero distingue en el universo de los textos cinco secciones: 1) los discursos jurídico–administrativos, donde habría que considerar las leyes de conquista y colonización de América; 2) los textos religiosos (tanto textos doctrinales como manuales de confesión, sermones, devocionarios, libros de oraciones, textos místicos, etc.); 3) los discursos retórico-literarios, donde se incluye la historiografía, la gramática y la literatura; 4) los discursos del saber ‘científico’, del que interesarían las historias generales y las relaciones de Indias; 5) y, finalmente, los discursos de «lo técnico», donde habría que observar los tratados y las artes de las disciplinas. Cruzada con esta clasificación se encuentra la indicación de fuentes que nos sitúan en el marco de la inmediatez comunicativa, entendida en gradación, en un continuo con la distancia: la inmediatez iría marcada por textos en un lenguaje comprensible por todos acerca de temas cotidianos o personales, se iría distanciando a medida que los textos fueran más especializados o ya científicos y de temas menos individuales o ya universales, de forma que llegaría el culmen de la distancia comunicativa cuando el texto fuera científico y tratara temas universales (Oesterreicher 2004, 738–739). A continuación propone situaciones comunicativas donde la inmediatez comunicativa puede producirse: competencia escrita de impronta oral, escrituras de personas bilingües, transcripción de testimonios y lengua de la

monio, pragmática real, auto, carta privada, carta eclesiástica, carta regia, pieza teatral, poema, tratado religioso, tratado científico.

406

Marta Fernández Alcaide

inmediatez, textos adaptados en función de la comprensibilidad del receptor, simplicidad como estilo, mímesis de lo hablado y juicios metalingüísticos. Aunque estas situaciones comunicativas están bien definidas, los textos coloniales presentan el problema ya mencionado de que no son unívocos ni presentan una única finalidad; podemos pasar de lo individual a lo general en unas líneas dentro del mismo texto o de un tema cotidiano a otro científico. Ello unido a la dificultad de separar dentro de un texto lo que pertenece a la tradición discursiva en la que se inserta, el texto repetido, de lo que es original en ese autor, nos lleva a la conclusión de que el análisis del corpus tendrá como resultado un panorama también multidimensional, característico de la etapa estudiada.

2 Análisis de la variación en una muestra Con el fin de ilustrar los problemas y la situación descritos en el apartado precedente, se ha querido analizar un texto de mediados del siglo XVI elaborado por un español emigrante en América. Concretamente, se trata de la carta 29 del corpus Cartas de particulares en Indias del siglo XVI, que escribe en 1571 el capitán Alonso Rodríguez de Villamizar, desde el Puerto de Santa María (Cuba), a su mujer, Catalina Ruiz de Avilés, que se encuentra en Daimiel (Ciudad Real), con la finalidad de pedirle que se reúnan con él sus hijos, Alonso y Marcos Rodríguez. Esta carta está guardada en el Archivo General de Indias en el expediente de solicitud de pasaje a América de Alonso y Marcos Rodríguez.8 Consta de 11 folios manuscritos (7 páginas de transcripción paleográfica en documento Word), que suponen un total de 3.274 palabras. Es una carta interesante porque Alonso Rodríguez de Villamizar narra a su mujer las desventuras que ha sufrido con un tercer hijo, Juan Rodríguez, a propósito de lo cual muestra su enorme enfado. Esos problemas constituyen, además, la justificación para no haber enviado las ganancias a España, así como para pedir que los otros hijos suyos se vayan con él. Después da recomendaciones variadas y saludos para los familiares. La carta es original, contiene los pliegos de haber sido doblada para su envío, así como el sobreescrito. Analizamos la carta tomando como referencia para nuestros objetivos trabajos previos como los de Eberenz (2003a; 2003b) y Eberenz y de la Torre (2003), Cano (1996; 1998; 2007; 2008), Bustos Tovar (1996; 2001), Pountain (2006) o el ya citado de Oesterreicher (2004). En cuanto a este último, nuestro texto se situaría entre el universo de los textos jurídicos y administrativos, de ahí su conservación

8 Archivo General de Indias, Indiferente General 2098, N 44, 3–13.

Manifestaciones de la variación del español colonial

407

en el expediente de pasaje a Indias, y el de los textos retórico–literarios, de ahí su capacidad de presentar sucesos reales únicos. Dada su cotidianeidad y su carácter personal podemos considerarlo más próximo al polo de la inmediatez y probablemente en el primer tipo que establece, competencia escrita de impronta oral, si bien es posible que tuviera un secretario que escribiera al dictado o que él mismo fuera más competente que otros (de ahí términos como suma pena, moderadamente, etc., pero también los signos de puntuación con que está escrito el texto y la división en párrafos). De Eberenz y Bustos Tovar extraeremos la presencia del hablante (2.1), la sintaxis oracional relevante (2.2), la acumulación de coordinadas (2.3), las expresiones indirectas (2.4) y las construcciones de formas no personales (2.5). La observación en el texto de los elementos que Pountain (2006) tiene en consideración a propósito de El Corbacho, adjetivos calificativos antepuestos al sustantivo y adverbios en –mente, gerundios ‘adverbiales’, construcciones absolutas y oraciones relativas, etc., no ha ofrecido nada especialmente relevante. De Cano hemos tomado el análisis sintáctico de oraciones para ver la proporción de cada tipo, con el objetivo de observar la configuración sintáctica del texto (datos extraídos de las tablas de análisis del anexo de Fernández Alcaide 2009, 348 y 355): Número de enunciados: 41; Número de oraciones: 457. Coordinación en principal: 72 (y 65, ni 1, mas 5, 1 más problemática). Yuxtapuestas: 11. Coordinación en subordinadas: 38 (y 32, ni 2, mas 1, sino 3). Subordinadas sustantivas: como sujeto 16, como CD 69, en otras funciones 22. Relativas: 80. Subordinadas adverbiales propias: de modo 10; de tiempo 16; de lugar 1. Adverbiales impropias: condicionales 19, concesivas 8, comparativas 3, consecutivas 4, finales 22, causales 64. Problemáticas, difíciles o dudosas: 2. Construcciones en formas no personales: de infinitivo 45, de participio 3, de gerundio 12.

Como puede comprobarse, la carta presenta gran variedad sintáctica en general, de modo que se puede afirmar que el remitente utiliza aquellas construcciones necesarias para la función comunicativa. Podemos reseñar una preferencia, dentro de las coordinadas, por las copulativas frente a las demás, con un 90 %; también una superioridad de subordinadas sustantivas del 50 % dentro de las subordinadas, frente al 37 % de las adjetivas y al 13 % de las adverbiales propias; así como el conjunto de subordinadas supone el doble de adverbiales impropias, destacando en este otro grupo las causales, que constituyen algo más del 50 %, las finales, que son un 18 %, y las condicionales, un 16 %. Existen muchos más elementos en variación en este texto, pero se han seleccionado tan solo los más significativos en el plano sintáctico; los hay

408

Marta Fernández Alcaide

también en el plano gráfico-fonético (como la manifestación del ensordecimiento en la pareja de sibilantes palatales: dijo / dixera), en el plano morfológico (como la asimilación en los infinitivos entre la vibrante final y la lateral del clítico remitillo, el imperfecto en –ié, etc.) o en el léxico (conchabo, etc.).

2.1 Presencia del hablante Si dividimos la carta en cuatro partes (por párrafos similares en cuanto al número aproximado de palabras: 746 +1014 + 918 + 676), obtenemos lo siguiente: Tabla 2: Persona de los verbos Verbos en primera persona con sujeto explícito

Verbos en primera persona sin sujeto

Verbos en otras personas

12 (18 %)

9 (13 %)

46 (69 %)

12 (9 %)

27 (20 %)

97 (71 %)

11 (10 %)

13 (12 %)

84 (78 %)

4 (5 %)

13 (16 %)

63 (79 %)

Como era de esperar, lo mayoritario es que el verbo aparezca en otras personas, pero dado el carácter marcadamente emotivo de una carta privada, especialmente en esta, donde el remitente se muestra tan implicado con lo que narra, se privilegia la presencia de la primera persona del singular. Es sobre todo llamativo el porcentaje de primera persona con sujeto explícito de la primera parte de la carta, donde explica el porqué de su enfado, frente a también una presencia alta de primera persona en la segunda parte, aunque se prefiere la ausencia del sujeto explícito:9 (1) Ejemplos de la primera parte en primera persona del singular con sujeto explícito: a. b. c.

el dia que yo le enbie a llamar que aquel dia tubiera yo bna calentura de cuatro dias (3, 10) abnques berdan que yo no le enbiava yo a llamar a el sino a mi hijo mateo ruyz (3,12) para que sentienda cuan mal onbre es yo juro ansi dios me llebe a ojos de quien me desea ver (3, 14)

9 Cf. Enríquez Carrasco (1984), García Salido (2013), Llorente / Mondéjar (1974), Luján (1999), Peskova (2015), etc.

Manifestaciones de la variación del español colonial

d. e. f. g. h. i. j. k.

409

¿en que juyzio de crystiano puede caber q […] yo no me bendiera y menpeñara y enbiara en alguna cantidad (3, 24) ¿de cuándo acá soy yo corto…? (4, 1) adonde tanta obligazion yo tengo de enbiar la sangre del brazo (4, 3) yo juro a nuestra sª de la conzezion que me a jugado y destruydo depues que aqui vino mas de cuatro mill ducados (4, 4) todo cuanto yo saco mi cuadrylla y lo que mas el pudo hallas prestado entre mis amygos todo lo trugo y tomo (4, 15) y ansi yo cay en mui gran falta (4, 19) me mando […] que para lo que yo pretendia quera bn buen repartimiento para mateo ruyz u para otro hijo no tenia yo nezesidad de salir de mi casa (4, 22–24) terna de comer en esta jornada que aora se haze y yo le doy serbizio (4, 29)

(2) Ejemplos de la primera parte en primera persona del singular sin sujeto explícito: a. b. c. d. e. f. g.

/ con el s masescuela dgº serrano my prymo rezebi un enboltoryo de cartas (3, 1) con el rezebi muncho contento (3, 2) mas como entendi que con lo que llebo tenian algun comodo (3, 26) y esto considerando lo que tengo dcho (4, 1) y ansi la dexe (4, 24) al cual beso mchas vezes la manos de su md (5, 1) estoy corrido zierto que sea notado de arto en el gran descuydo (5, 2)

(3) Ejemplos de la segunda parte en primera persona del singular con sujeto explícito: a. b. c. d. e. f. g. h. i. j. k. l.

porque yo no se la zertydunbre de la cantidad que sera (5, 14) no se lo perdone que yo no se lo perdono ny se lo perdonare (5, 18) pues yo tengo otros cuatro hijos mas onbres de bien que no el (5, 35) como yo doy my dinero y se aprovecha vn minero de iiiiº ducados cada bn año (6, 4) y con cuarenta esclavos q yo truga despaña terne mas de vii V ducados de renta (6, 21) a las minas a donde yo estava (7, 9) y q yo me fuese y me biniese a misa y quel me darya de comer (7, 18) ladron le dije yo (7, 19) depues de muerto no lo hare yo (7, 20) abque yo baya a españa por mi casa (7, 21) porque no puedo yo conparallo a onbre desa tierra (7, 28) que yo le diera y partiera con el de todo lo que dios me diera (7, 30)

410

Marta Fernández Alcaide

(4) Ejemplos de la segunda parte en primera persona del singular sin sujeto explícito: a. b. c. d. e. f. g. h. i. j. k. l. m. n. ñ. o. p. q. r. s. t. u. v. w. x. y.

no se si yra a españa (5, 7) no se lo perdone que yo no se lo perdono ny se lo perdonare (5, 19) digo pues que la cantidad que rezibieren no se conpre eredad nynguna (5, 21) porque no se la vida que dios me dara (5, 25) estoy determynado de traer my casa y famylya aquy (5, 36) y en esto estoy determynado (6, 10) la flota que berna con lo que pudiere yre a traer mi casa (6, 12) mi cuadrylla la cual la traygo aora mas aca por estar mas zerca (6, 19) y con cuarenta esclavos q yo truga despaña terne mas de vii V ducados de renta (6, 21) y mas la costa como e dho del mayz y de lo demas hecha (6, 23) digo esto porque ydo yo con el favor de dios no digan zesta ballesta (6, 24) ansi que en lo que digo de traer el dinero entre manos (6, 31) porque no hare otra cosa por todo el resto del mundo (6, 34) pues tengo otros hijos (7, 1) y quiero que lo que dios me diere lo gozen ellos (7, 2) y no tengo duda (7, 10) y juro a dios y a esta + que acabo de tres meses (7, 14) y q yo me fuese y me biniese a misa y quel me darya de comer (7, 18) y por vida de todo lo que puedo jurar (7, 21) ya le tengo rebocado el poder (7, 26) que yo le diera y partiera con el de todo lo que dios me diera (7, 30) y por no meterme mas en colora no digo mas en este articulo (7, 32) y juro a dios que me an zertificado que me desea la muerte (7, 35) y confio en dios de ver yo la suya antes (8, 1) y de todo cuanto dijere y hiziere con este mal onbre (8, 2) tengo mcha razon (8, 3)

Esta explicitación del pronombre de primera persona, como refuerzo de la expresividad y la subjetividad, se observa incluso en formas no personales: (5) porque ydo yo con el favor de dios no digan zesta ballesta (6, 24) (6) y confio en dios de ver yo la suya antes (8, 1)

No contamos, porque excedería los límites de este trabajo, la sobreabundancia de marcas de primera persona, como en esta muestra: (7)

que mi señor gobernador me avie hcho md de me nombrar por capitan xeneral (4, 7)

De todos modos, entendemos que estas construcciones aisladas del conjunto del texto no se aprecian plenamente. Esperamos a ver la sintaxis para completar la información y el análisis aquí presentados.

Manifestaciones de la variación del español colonial

411

2.2 Sintaxis oracional relevante 2.2.1 Sintaxis centrífuga o segmentada Este rasgo es claro en cuanto manifestación de una estrategia de verbalización diferente entre la inmediatez y la distancia comunicativa y, por tanto, su aparición en este texto nos permitiría adscribirlo a la inmediatez, al menos en las secciones donde aparece. Ofrecemos el siguiente ejemplo que podría entenderse como sintaxis centrífuga, en tanto que la oración puede considerarse relativa «libre», pues el antecedente es el sujeto no explícito, o también podría contemplarse como consecutiva sin antecedente: (8) vino aca que a sido mi cuchillo y destruyzion (3, 9)

Parece más oportuno en este caso más que presentar un ejemplo aislado, observar un fragmento más amplio que nos permita comprobar esa segmentación. Se analizarán tres que resultan especialmente interesantes para ver este rasgo. Son tres cortes en la segunda parte de la carta: el principio, el medio y el final del párrafo. Ya se comentó anteriormente que en este párrafo había abundante frecuencia de la primera persona del singular, pero en las formas verbales más que en los pronombres de sujeto: (9) quien lleba esta hasta cartajena es un/5 gran señor y amigo mio que se dize fraco varco/6 y no se si yra a españa si el fuere el llebara el/7 oro que el me quisiere prestar y si se queda/8 re lo dara a mi s capitan gª de barrionue/9 vo que el lo llebara y si no fuere el s capitan/10 gª de barrionuebo el s franco barco lo dara/11 a persona que lo llebe y enbiara dentro de este/12 pliego el rezibo porque yo no se la zertydunbre/13 de la cantidad que sera mas que senbiara/14 y mi voluntad se reziba qs muy buena esta/15 a sido entrañable del corazon y quien tiene/16 la culpa y a sido la cabsa se lo demande dios y/17 no se lo perdone que yo no se lo perdono ny se/18 lo perdonare pues asi bolvio las espaldas/19 a dios y a su madre y hsº aviendolos dejado/20 en el estremo y estado que los dejo digo pues/21 que la cantidad que rezibieren no se conpre/22 eredad ninguna sino mateo ruyz los tray/23 ga entremanos en un trato de puercos u de/24 otra cosa que les parezere (5, 5–25)

En este primer fragmento, son llamativas las numerosas repeticiones tanto desde el punto de vista léxico como desde el punto de vista sintáctico en las líneas 5 a 14, aludiendo al envío de dinero. A partir de la línea 15, cambia ligeramente la idea: (9.a) y mi voluntad se reziba qs muy buena esta a sido entrañable del corazon,

donde vemos que se unen las dos oraciones por yuxtaposición y se repite la referencia al sujeto (mi voluntad, esta), en lugar de haber dejado explícita la

412

Marta Fernández Alcaide

relación semántica entre ellas a través de algún nexo coordinante o subordinante concreto, siendo como son, además, similares en el contenido. Estas dos oraciones sirven para volver a mencionar los problemas sucedidos con el hijo como causa de no haber atendido suficientemente a su familia, lo que lo lleva de nuevo irremediablemente a manifestar su enfado con el hijo. Introduce una oración sustantiva iniciada con el pronombre quien que es otro ejemplo de esa sintaxis centrífuga: iniciando ella la nueva oración, sin ser el sujeto, le faltaría una preposición que le permitiera desempeñar su función: (9.b) quien tiene la culpa y a sido la cabsa se lo demande dios.

Ahora bien, su repetición pronominal permite entenderlo, más que como una «falta», como una construcción segmentada. El párrafo continúa con otra oración coordinada, la segunda ya, en la que surge una causal de la enunciación: (9.c) y no se lo perdone que yo no se lo perdono ny se lo perdonare.

No explica por qué le ordena que no lo perdone, lo hará después con la causal del enunciado: (9.d) pues asi bolvio las espaldas a dios y a su madre y hsº […] que los dejo,

de modo que la causal de la enunciación justifica la orden dada a su mujer. Tras la causal de la enunciación y la del enunciado, recupera el hilo discursivo en la línea 21 mediante un verbo de lengua en primera persona del singular y un pues que podríamos considerar, siguiendo a Fuentes (2009), un pues6, conector ordenador discursivo de cierre, característico de textos conversacionales y coloquiales, dado que le sirve para recuperar y cerrar la idea abandonada en la línea 14. En la sustantiva que funciona de CD del verbo de lengua, (9.e) digo pues que la cantidad que rezibieren no se conpre eredad ninguna […] de otra cosa que les parezere,

vuelve a observarse lo comentado más arriba; es otro caso de sintaxis centrífuga, pues la menor planificación y la anteposición del sintagma «la cantidad que rezibieren» favorecen que no aparezca la preposición que necesitaría para desempeñar su función, con probablemente. El segundo fragmento que queríamos comentar es el siguiente, en el que nos saltamos una parte menos significativa para no extendernos demasiado:

Manifestaciones de la variación del español colonial

413

(10) y porques/32 te bellaco no goze en mi bida desta ha/33 zienda pues yo tengo otros cuatro/34 hijos mas onbres de bien que no el/35 estoy determynado de traer/36 [5] my casa y famylya aquí (5, 32–36) […] ansi que en lo que digo/31 de traer el dinero entre manos para/32 quando lo quisieren sacar se saque/33 porque no hare otra cosa por todo/34 el resto del mundo porq este/35 [6] ladron no lleve lo que no es suyo en mys dias pues/1 tengo otros hijos y quiero que lo que dios me/2 diere lo gozen ellos myentras dios me diere by/3 da (6, 31–35 y 7, 1–3)

En él hay varios signos inequívocos de esta sintaxis centrífuga de la que venimos hablando. Empieza con una conjunción y que funciona extraoracionalmente y una oración introducida por porque, que es final, en la que se inserta una causal, cuyo nexo es pues. Tras ella aparece el verbo principal «estoy determynado». Se ha interrumpido y cortado el fragmento donde elogia la tierra donde vive y explica qué tendrían que hacer para llegar hasta allí. A continuación, unido a lo anterior, aparece una consecutiva dudosa, introducida por ansi que, que no está claro si es extraoracional o de la enunciación, dado que se abre con una relativa sustantivada donde se explicita el verbo de lengua y enlaza con el final de lo analizado en el fragmento 1, en el folio anterior de la carta: (10.a) que la cantidad que rezibieren no se conpre eredad ninguna sino mateo ruyz los trayga entremanos en un trato de puercos u de otra cosa que les parezere (10.b) en lo que digo de traer el dinero entre manos para quando lo quisieren sacar se saque.

Se trata, por tanto, de una repetición parcial que enlaza las dos partes del párrafo. Tras la relativa sustantivada se incrusta una final–temporal con para cuando y solo entonces encontramos la principal de la final–temporal, que al mismo tiempo es la principal de la relativa sustantivada y, por tanto, la oración consecutiva que había sido introducida por ansi que. A continuación se acumulan dos oraciones introducidas por porque, la primera de las cuales parece ser una causal de la enunciación de lo anterior, mientras la segunda es final: (10.c) porque no hare otra cosa por todo el resto del mundo porq este ladron no lleve lo que no es suyo en mys dias.

Sigue otra causal, esta vez con pues, donde se coordinan mediante copulativa dos oraciones. La segunda de ellas resulta más compleja, pues incluye una subordinada sustantiva de CD introducida por que, en la que además aparece una relativa sustantivada en función de CD antepuesta por el énfasis que se le otorga, por lo que se repite su referente con un pronombre átono anafórico y acaba con una temporal de mientras:

414

Marta Fernández Alcaide

(10.d) pues tengo otros hijos y quiero que lo que dios me diere lo gozen ellos myentras dios me diere byda.

Se comprueba, por tanto, el alto grado de complejidad del fragmento que va superponiendo niveles de subordinación al mismo tiempo que deja ver la tendencia sintáctica segmentada. Finalmente, el tercer fragmento, algo más extenso que los dos anteriores, nos muestra un inicio con verbo performativo jurar que introduce en realidad la narración de los hechos de ese hijo que tanto le han hecho enfadar: (11) y juro a dios y a esta + que acabo de tres/14 meses depues de casado que me echo perso/15 nas que me dijesen que hiziese dexazion/16 de los yndios y los pusiese en su cabeza y q/17 yo me fuese y me biniese a misa y quel me darya/18 de comer ladron le dije yo depues de muer/19 to no lo hare yo y por vida de todo lo que/20 puedo jurar que abque yo baya a españa/21 por mi casa que no a de quedar en la ha/22 zienda sino dejare vna persona que sea/23 tal que este en ella y le de a el lo que di/24 xere la justizia que sea justo cada vn/25 año que coma ya le tengo rebocado el poder/26 para quen cosa mya no entre ni salga/27 porque no puedo yo conparallo a onbre desa/28 tierra y plubiera a dios y fuera onbre de/29 bien que yo le diera y partiera con el de to/30 do lo que dios me diera y por no meterme/31 mas en colora no digo mas en este arti/32 culo que tenia que dezir daqui a bn a/33 ño de sus maldades y enbustes y mentiras/34 y marañas y juro a dios que me an zertifica/35 do que me desea la muerte y lo a dcho/36 [7] a personas fedidios y confio en dios de ver yo/1 la suya antes y de todo cuanto dijere y hi/2 ziere con este mal onbre tengo mcha razon pues/3 no me aviso de como quedaba su madre y her/4 manos en la nezesidad que los dejo (7, 14–36 y 8, 1–5)

En efecto, al verbo jurar le sigue una subordinada sustantiva de CD con repetición del nexo que, separado un uso del otro por un complemento temporal. En ese CD aparece una relativa dentro de otro CD con un verbo de lengua dijesen, que a su vez requiere otro CD expresado mediante subordinada sustantiva introducida por que, que contiene una muestra de discurso referido indirecto. Lo que sigue son cinco oraciones que se coordinan, repitiendo la conjunción copulativa y en las cuatro ocasiones requeridas, aumentando la tensión dramática de la narración, hasta que finalmente se yuxtapone el discurso directo del propio remitente de la carta: (11.a) ladron le dije yo depues de muerto no lo hare yo.

Ese contraste entre la repetición de la conjunción de coordinación copulativa cuatro veces y la yuxtaposición, que encierra además el contraste entre el discurso referido de otros y el discurso directo propio, se ve reforzado por la aparición de la primera persona en el verbo y el pronombre de sujeto explícito, además del uso del futuro de indicativo y la sencillez oracional en el último caso. Lo que sigue

Manifestaciones de la variación del español colonial

415

va coordinado con y también, si bien no está claro a qué se une, probablemente a la primera sustantiva de CD dependiente de jurar, 55 palabras más arriba: (11.b) y por vida de todo lo que puedo jurar que abque yo baya a españa por mi casa que no a de quedar en la hazienda sino dejare vna persona que sea tal que este en ella y le de a el lo que dixere la justizia que sea justo cada vn año que coma.

En esa nueva subordinada sustantiva de CD de jurar vuelve a repetirse que por intercalarse una concesiva de aunque (abque). En ella se da también la coordinación, que en esta ocasión es adversativa, iniciada con el nexo sino, que contiene un CD nominal en el que se inserta una relativa, dentro de la cual aparece otra oración, en este caso una consecutiva con tal que en la que además hay coordinación copulativa con y, con una relativa sustantivada con lo que, y en ella una subordinada sustantiva de CD con una subordinada sustantiva de sujeto. Como se observa, estas líneas suponen una abigarrada sintaxis por la trabazón e incrustación de cuantiosas oraciones. Continúa el párrafo con una nueva oración, claramente relacionada por la semántica con lo anterior, si bien desde el punto de vista sintáctico solo se yuxtapone. Comienza la nueva principal y enseguida se vuelve a dar el entramado oracional anterior, pues aparece una final del enunciado con para que, luego una causal con porque, donde sin embargo se observa un alejamiento semántico con lo anterior, de modo que quizá se trate de una causal de la enunciación, que justifique la revocación del poder que ha hecho sobre su hijo: (11.c) ya le tengo rebocado el poder para quen cosa mya no entre ni salga porque no puedo yo conparallo a onbre desa tierra.

Más dudosa es, con todo, la coordinación que se abre a continuación, pues se aleja del tema tratado inmediatamente antes, si bien parece estar en consonancia con la justificación de la enunciación previa, luego podríamos pensar que se coordina a la primera causal de la enunciación. Se abre con dos imperfectos de subjuntivo desiderativos coordinados tras los cuales aparece que con otros dos imperfectos de subjuntivo de difícil análisis (enlace de una subordinada sustantiva de sujeto dependiente del primer verbo, no del segundo, plubiera, o consecutiva de los dos verbos desiderativos, o causal de la enunciación de su deseo expresado como improbable) y en esa oración un relativo sustantivado parece funcionar de partitivo: (11.d) y plubiera a dios y fuera onbre de bien que yo le diera y partiera con el de todo lo que dios me diera.

416

Marta Fernández Alcaide

De nuevo empieza otra oración con la coordinada copulativa y, que supone ya una unión extraoracional a todo lo dicho anteriormente, explicitado mediante un verbo de lengua, seguida por una causal de la enunciación introducida por que. (11.e) y por no meterme mas en colora no digo mas en este articulo que tenia que dezir daqui a bn año de sus maldades y enbustes y mentiras y marañas

Es otra vez y el nexo que enlaza la nueva oración que, por otro lado, repite el juramento que iniciaba el párrafo acerca del mal comportamiento de su hijo. Se sigue, pues, una subordinada sustantiva de CD con que, dentro de la cual se produce otra subordinada sustantiva de CD, coordinada con y a otra: (11.f) y juro a dios que me an zertificado que me desea la muerte y lo a dcho a personas fedidios.

Continúa una nueva coordinación copulativa, parece que esta vez poniendo en relación con el juro anterior, precisamente por compartir la forma de primera persona del singular, pero más bien parece contraponerse a lo expresado allí, por lo tanto es una y con valor adversativo: este empleo de un nexo de sentido más amplio con valores que no le son propios es otro rasgo de la inmediatez comunicativa que se viene observando en el texto. (11.g) y confio en dios de ver yo la suya antes

Continúa el párrafo con la coordinación expresada por y, que cierra a modo de conclusión la idea tan extensa y profusamente explicada en las líneas precedentes. Se antepone un complemento en el que se inserta una relativa, tras la cual aparece el verbo principal y una causal del enunciado. En esta se suceden una sustantiva de como y una relativa con que. (11.h) y de todo cuanto dijere y hiziere con este mal onbre tengo mcha razon pues no me aviso de como quedaba su madre y hermanos en la nezesidad que los dejo

2.2.2 Problemas con las relativas En el apartado anterior, se han mencionado las numerosas relativas de los párrafos analizados. Solo vamos a citar aquí, por tanto, una cuestión que afecta de forma particular a las relativas. Son problemas que dan cuenta de una escasa planificación sintáctica, de modo que nos sitúan en las estrategias comunicativas

Manifestaciones de la variación del español colonial

417

de la inmediatez. En los tres ejemplos que siguen observamos respectivamente el uso anticipado de la preposición con el antecedente del relativo, que no la necesita, en lugar de con el relativo; la adscripción dudosa de la construcción debido a la repetición del referente en la oración de relativo; y la consideración del antecedente del relativo como todo lo dicho anteriormente, en lugar de aparecer algo concreto: (12) si el me dixera por semexas en la nezesidad que dexaba a su madre y hsº (3, 21) (13) aora averme hcho una perdida en una cuyuntura que mi señor gobernador me avie hcho md de me nonbrar por capitan xeneral para las conquistas del guazuze y unas baymar y trango y otras tres probinzias (4, 7) (14) con cargo q me digan cada viernes vna misa de pasion en todo un año con un responso cantado q dandome dios vida yo lo acrezentare (9, 13)

2.3 Acumulación de coordinadas También se ha observado en el apartado 2.2 que, con bastante frecuencia, si bien más en unos pasajes que en otros, una coordinada seguía a otra, en una extensa proliferación de la conjunción y. El polisíndeton en esos casos no puede justificarse por cuestión estética sino más bien por una falta de planificación en la construcción del discurso, que puede además tener efectos variados. A continuación se muestran algunos fragmentos con este rasgo: (15) no me dijo ni dio a entender de nezesidad ni que tubiesen sino buena pasadia y que abie conprado muchas biñas y muchas tierras y que pasaban la bida muy a su gusto (3, 16–19) (16) me mando como lo veran por esa carta suya que dejase la jornada y que para lo que yo pretendia quera bn buen repartimiento para mateo ruyz u para otro hijo no tenia yo nezesidad de salir de mi casa y ansi la dexe y sencarga della el capitan dgº morgado bn grande señor y amigo mio (4, 20–26) (17) y la misa a de ser rezada y el viernes q fuere fiesta se diga el miercoles de la mysma semana y el responso de no recorderys (9, 15–17)

2.4 Expresiones indirectas Con expresiones indirectas nos referimos, siguiendo a Searle (1969),10 a aquellas que tienen una forma y un sentido no directamente relacionados. Tienen que ver con las estrategias comunicativas propias de la inmediatez.

10 Cf. Escandell (2010) y RAE-ASELE (2009).

418

Marta Fernández Alcaide

Estos dos primeros ejemplos se refieren a la modalidad. Son enunciados formalmente interrogativos que, con todo, están enunciando negativamente, es decir, están negando su contenido, de una manera enfática, pues presentan una evidencia para el hablante que ha sido probablemente11 cuestionada por su interlocutor: (18) ¿en que juyzio de crystiano puede caber…? (3, 20) (19) ¿de cuándo acá soy yo corto…? (4, 1)

Más complejos y, por lo tanto, más discutibles también, son los casos siguientes. El primero tiene la estructura y la forma de una adverbial final, introducida por para que, con un verbo en subjuntivo; sin embargo, no guarda relación directa con lo que le sigue, es decir, lo expresado en ella indudablemente no es la finalidad de lo posterior. Parece, en cambio, una final de la enunciación, una expresión indirecta que enmarca lo que sigue y justifica el juramento realizado: (20) que para que sentienda cual mal onbre es yo juro ansi dios me llebe a ojos de quien me desea ver queste fue unobre depues de benido a mi casa que no me dijo ni dio a entender de nezesidad ni que tubiesen sino buena pasadia (3, 14)

En este otro caso sucede algo similar pero esta vez con una causal, introducida por que, con un verbo en –ra con valor de pluscuamperfecto de subjuntivo, haciendo de la causal una irrealidad y, por lo tanto, algo meramente justificativo del imperativo antes expresado: (21) y no deje el estudio gaspar rsº que si el bellaco ladron de su hº me dijera lo q pasaba yo le ayudara para su estudio (9, 26–28)

2.5 Construcciones de formas no personales En este último apartado queremos destacar la presencia de construcciones de formas no personales en cuanto elemento de variación sintáctica que ha sido relacionada con la lengua más distante o formal. Así aparece en uno de los trabajos señalados más arriba: para Pountain (2006, 18), estas construcciones caracterizan las secuencias de comentario y narración frente a su escasez o

11 Solo decimos probablemente porque es lo que parece inferirse del contexto, pero lamentablemente carecemos de la carta previa donde estaría escrito.

Manifestaciones de la variación del español colonial

419

mínima representación en el discurso directo. No parece, sin embargo, que todos los casos puedan tener esa adscripción, como tampoco en la lengua actual. Nada de particular tienen las construcciones de participio ni la mayoría de ejemplos de infinitivo, salvo lo que ya se comentó en 2.1. a propósito de la aparición del pronombre sujeto. Pueden verse los siguientes ejemplos: (22) (23) (24) (25) (26) (27) (28) (29) (30) (31)

depues de benido a mi casa (3, 16) porque ydo yo con el favor de dios no digan zesta ballesta (6, 24) y confio en dios de ver yo la suya antes (8, 1) suma pena en entender… (3, 4) no avie qué destruir (3, 8) obligazion yo tengo de enbiar la sangre del brazo aora averme hcho una perdida (4, 6) me avie hcho md de me nonbrar (4, 7) con achaque de dezir que tenia bnas calenturyllas (4, 18) abnquen ser como es tan mi s el s gobernador me mando como lo veran por esa carta suya que dejase la jornada (4, 20) (32) no tenia yo nezesidad de salir de mi casa (4, 24)

En el caso del gerundio, no aparecen formas personales de sujeto, aunque sí sintagmas que podrían analizarse como tales. Llama, sin embargo, la atención el último ejemplo de la lista, que puede considerarse propio de la inmediatez comunicativa por el abuso de gerundio con distintas funciones en apenas ocho palabras: (33) (34) (35) (36)

y esto considerando lo que tengo dicho (4, 1) y estando ya hcha la nº y enbiandolo a el a la zibdad de zaragoza [. . .] todo lo trugo (4, 11) y siendo dios servido terna de comer en esta jornada (4, 28) con cargo q me digan cada viernes vna misa de pasion en todo un año con un responso cantado q dandome dios vida yo lo acrezentare pudiendo rogando a nuestro s me llebe a mi casa (9, 13–14)

3 Conclusión Volviendo al punto de partida, queda resolver la cuestión de cómo se podría contribuir al estudio de la historia del español desde la perspectiva variacional con análisis de este tipo. Sin duda el primer paso debería ser la consideración del pluricentrismo de la norma hispánica, dado que en esta época inicial del español en América no se había producido la estandarización, de modo que la descripción de los usos lingüísticos no se haga por negación frente a ningún estándar sino atendiendo a sus propias características. Por eso sorprende, por ejemplo, la afirmación de algunos estudiosos del español de que los imperfectos

420

Marta Fernández Alcaide

en –ié acaban en el XIV y que solo dialectalmente perviven o que la anteposición del adjetivo al sustantivo es simplemente una cuestión estilística y literaria o la simplificación del análisis de ciertas oraciones como agramaticales. Así, como se acaba de ver en el apartado 2, la presencia abundante de formas de primera persona guarda relación con el tipo de texto —una carta privada—, el ámbito familiar al que se circunscribe —entre esposos— y a la fuerte emoción que desprende por la actitud del emisor ante lo narrado —un gran enfado y decepción—. Estos rasgos están ausentes, por ejemplo, en otro tipo de textos como la relación, la ley, etc., de ahí que también esté ausente el empleo de la primera persona. Las repeticiones y la sintaxis centrífuga, entremezcladas con construcciones centrípetas y fluidas, se explican del mismo modo, así como la preferencia por las coordinadas copulativas es muestra de la falta de planificación en muchos casos. Las expresiones indirectas forman parte de las estrategias discursivas que funcionan en la oralidad concepcional por las inferencias que se dejan al receptor. Todos estos rasgos —y otros más cuyo análisis no se ha abordado en este trabajo— son relevantes por el contraste con otros textos cuya finalidad discursiva es completamente distinta, de ahí la riqueza y la necesidad de estudiarlos todos. Esta idea nos lleva, en efecto, al segundo paso, que es la necesaria descripción de un conjunto superior de textos: la abertura hacia un conjunto mayor y, de ser posible, una catalogación de textos americanos en archivos y bibliotecas, como trabajo en equipo, con la ayuda fundamental de historiadores y archiveros. Lo que se plantea, por tanto, es un proyecto común multidisciplinar. Algo está avanzando ya en este sentido el grupo CHARTA y también el proyecto CORDIAM pero sin duda queda aún mucho trabajo por hacer. Sería interesante y necesario trabajar en colaboración con archiveros e historiadores de América para poder contribuir a una clasificación de los documentos americanos de las fechas mencionadas. No presento pues unas conclusiones cerradas. El análisis de la variación realizado por otros lingüistas e historiadores de la lengua sirve de orientación y traza el camino, pero queda pendiente la representación conjunta de lo que hasta ahora sabíamos del español colonial y lo que se pueda ir conociendo a partir de un nuevo acercamiento a los textos con la perspectiva de la variación y a partir de un conjunto distinto y más amplio de documentos.

Manifestaciones de la variación del español colonial

421

4 Bibliografía Bustos Tovar, José Jesús de, La imbricación de la oralidad en la escritura como técnica del discurso narrativo, in: Kotschi, Thomas/Oesterreicher, Wulf/Zimmermann, Klaus (edd.), El español hablado y la cultura oral en España e Hispanoamérica, Madrid, Vervuert/Iberoamericana, 1996, 359–374. Bustos Tovar, José Jesús de, De la oralidad a la escritura en la transición de la Edad Media al Renacimiento: la textualización del diálogo conversacional, Criticón (2001), 191–206. Cano Aguilar, Rafael, Lenguaje «espontáneo» y retórica epistolar en cartas de emigrantes espanoles a Indias, in: Kotschi, Thomas/Oesterreicher, Wulf/Zimmermann, Klaus (edd.), El español hablado y la cultura oral en España e Hispanoamérica, Frankfurt am Main/Madrid, Vervuert/Iberoamericana, 1996, 375–404. Cano Aguilar, Rafael, Presencia de lo oral en lo escrito: la transcripción de las declaraciones en documentos indianos del siglo XVI, in: Oesterreicher, Wulf/Stoll, Eva/Andreas Wesch (edd.), Competencia escrita, tradiciones discursivas y variedades lingüísticas: aspectos del español europeo y americano en los siglos XVI y XVII, Tübingen, Gunter Narr, 1998a, 219–242. Cano Aguilar, Rafael, De nuevo sobre oralidad e historia de la lengua: el caso de Guzmán de Alfarache, in: Cortés Rodríguez, Luis María (coord.), Discurso y oralidad: homenaje al profesor José Jesús de Bustos Tovar, vol. 1, Madrid, Arco/Libros, 2007, 41–64. Cano Aguilar, Rafael, La sintaxis de los documentos primitivos: interacción oral y convencionalismo discursivo, in: Díez Calleja, Beatriz (coord.), El primitivo romance hispánico, Burgos, Fundación Instituto Castellano y Leonés de la Lengua, 2008, 397–406. Company, Concepción, Documentos lingüísticos de la Nueva España, México, UNAM, 1994. Diez del Corral Areta, Elena, La problemática de las tradiciones textuales en el estudio lingüístico del documento indiano, in: Torrens Álvarez, María Jesús/Sánchez-Prieto Borja, Pedro (edd.), Nuevas perspectivas para la edición y el estudio de documentos hispánicos antiguos, vol. 12, Bern, Peter Lang, 2012, 323–333. Eberenz, Rolf, Huellas de la oralidad en textos de los siglos XV y XVI, in: Bustos Tovar, José Jesús (coord.), Textualización y oralidad, Madrid, Instituto Universitario Menéndez Pidal/Visor, 2003a, 63–83. Eberenz, Rolf, En busca de la palabra viva: sobre la representación de la lengua hablada en las Actas de la Inquisición, in: Carrasco Cantos, Inés (coord.), El mundo como escritura: estudios sobre Cervantes y su época, Málaga, Universidad de Málaga, 2003, 59–78. Eberenz, Rolf y Mariela de la Torre, Conversaciones estrechamente vigiladas: interacción coloquial y español oral en las actas inquisitoriales de los siglos XV a XVII, Zaragoza, Pórtico, 2003. Enríquez Carrasco, Emilia Victoria, El pronombre personal sujeto en la lengua española hablada en Madrid, Madrid, Consejo Superior de Investigaciones Científicas, Instituto Miguel de Cervantes, 1984. Escandell, M. Victoria, Introducción a la Pragmática, Barcelona, Ariel, 2010. Fernández Alcaide, Marta, Cartas de particulares en Indias del siglo XVI. Edición y estudio discursivo, CDRom, Madrid/Frankfurt am Main, Iberoamericana/Vervuert, 2009. Fontanella de Weinberg, Beatriz (comp.), Documentos para la historia lingüística de Hispanoamérica, siglos XVI a XVIII, Anejo LIII del Boletín de la Real Academia Española, vol. 1, Madrid, RAE, 1993. Fuentes Rodríguez, Catalina, Diccionario de conectores y operadores del español, Madrid, Arco / Libros, 2009.

422

Marta Fernández Alcaide

García Salido, Marcos, La expresión pronominal de sujeto y objetos en español: Estudio con datos conversacionales, Verba, Anexo 70, Santiago de Compostela, Servicio de Publicaciones de la Universidad de Santiago de Compostela, 2013. Girón Alconchel, José Luis, Cambios gramaticales en los Siglos de Oro, in: Cano, Rafael (coord.), Historia de la lengua española, Barcelona, Ariel, 2004, 859–894. Guzmán Riverón, Martha, Tradiciones discursivas e historia de la lengua española en América, in: Fernández Alcaide, Marta/Araceli López, Serena (edd.), Cuatrocientos años de la lengua del Quijote: estudios de historiografía e historia de la lengua española, Sevilla, Universidad, 2007, 79–88. Guzmán Riverón, Martha, Tradiciones discursivas en textos coloniales del Caribe: características, origen y evoluciones, in: Company Company, Concepción/Moreno de Alba, José G. (edd.), Actas del VII Congreso Internacional de Historia de la Lengua Española, vol. 2, Madrid, Gredos, 2008, 1851–1868. Granda, Germán de (1994): Español de América, español de África y hablas criollas hispánicas, Madrid: Gredos. Greusslich, Sebastian, Text, Autor und Wissen in der «historiografía indiana» der Frühen Neuzeit. Die Décadas von Antonio de Herrera y Tordesillas, Berlín/Boston, de Gruyter, 2012. Kabatek, Johannes, ¿Es posible una lingüística histórica basada en un corpus representativo?, Iberoromania 77 (2013), 8–28. Llorente, Antonio/Mondéjar, José, La conjugación objetiva en español, RSEL 4/1, (1974), 1–60. Lüdtke, Jens, Los orígenes de la lengua española en América. Los primeros cambios en las Islas Canarias, las Antillas y Castilla del Oro, Madrid/Frankfurt am Main, Iberoamericana/Vervuert, 2014. Luján, Marta, Expresión y omisión del pronombre personal, in: Bosque, Ignacio/Demonte, Violeta (coords.), Gramática descriptiva de la lengua española, vol. 2, Madrid, Espasa Calpe, 1999, 1277–1311. Obediente Sosa, Enrique, Documentos para la Historia Lingüística de Mérida (Venezuela) – (Siglos XVI–XVII), 2003, http://www.linguisticahispanica.org/corpus/docs-coloniales/. Obediente Sosa, Enrique, El documento americano: problemas de definición y de edición, in: Torrens Álvarez, María Jesús/Sánchez-Prieto Borja, Pedro (edd.), Nuevas perspectivas para la edición y el estudio de documentos hispánicos antiguos, vol. 12, Bern, Peter Lang, 2012, 270–281. Pountain, Christopher John, Towards a history of register in Spanish, Spanish in Context 3:1 (2006), 5–24. RAE-ASELE, Nueva gramática de la lengua española, Madrid, Espasa Calpe, 2009. Ramírez Luengo, José Luis, Edición de documentos americanos: problemas, métodos y aspectos específicos. Introducción, in: Torrens Álvarez, María Jesús/Sánchez-Prieto Borja, Pedro (edd.), Nuevas perspectivas para la edición y el estudio de documentos hispánicos antiguos, vol. 12, Bern, Peter Lang, 2012, 255–259. Sánchez Méndez, Juan Pedro, Aspectos para la elaboración de un corpus diacrónico de documentos hispanoamericanos, in: Torrens Álvarez, María Jesús/Sánchez-Prieto Borja, Pedro (edd.), Nuevas perspectivas para la edición y el estudio de documentos hispánicos antiguos, vol. 12, Bern, Peter Lang, 2012, 282–296. Searle, John R. Actos de habla: ensayo de filosofía del lenguaje, Madrid, Cátedra, 1969. Toribio Medina, José, Historia de la imprenta en los antiguos dominios españoles de América y Oceanía, vol. 1, Santiago de Chile, Fondo histórico y bibliográfico José Toribio Medina de la Biblioteca Nacional, 1958.

Manifestaciones de la variación del español colonial

423

Torrens Álvarez, María Jesús/Sánchez-Prieto Borja, Pedro (edd.), Nuevas perspectivas para la edición y el estudio de documentos hispánicos antiguos, vol. 12, Bern, Peter Lang, 2012. Wesch, Andreas, Hacia una tipología lingüística de los textos administrativos y jurídicos españoles (siglos XV–XVII), in: Oesterreicher, Wolf/Stoll, Eva/Wesch, Andreas (edd.), Competencia escrita, tradiciones discursivas y variedades lingüísticas, Tubingen, Gunter Narr Verlag, 1998, 187–218.

Olivier Iglesias

«Se le quedó mirando»: la atracción de clíticos en un corpus de idiolectos (s. XIX–XXI) 1 Introducción 1.1 Precedentes Bien es sabido que en español es posible decir y escribir tanto puedo decirlo como lo puedo decir. Este fenómeno, que se suele llamar «subida de clíticos»,1 ha interesado a muchos hispanistas estos últimos años, porque se trata de un fenómeno de variación importante a priori anti-económico. En efecto, en la mayoría de los casos, los estudios sobre este tema intentan buscar los contextos que impiden o frenan la subida del clítico e intentan también demostrar que hay diferencias pragmáticas,2 sociales3 o incluso semánticas.4 Es decir, la gran mayoría de los estudios parecen basarse en un axioma según el que cada forma lingüística tendría una función. Es lo que Barra-Jover (2009) llama (y critica) el axioma de «dos formas, dos funciones». Según este axioma, principio clásico del estructuralismo, dos formas diferentes no pueden tener una misma función por una razón de economía del lenguaje. Además, al servir de base a muchos estudios sobre la cuestión de la subida de clíticos en español, obliga al lingüista a encontrar una explicación causal a todo cambio

1 En este artículo, no voy a debatir sobre la pertinencia o no de la expresión «subida de clíticos», ni tampoco pretendo dar un panorama exhaustivo de los estudios sobre este fenómeno. Para ello, remito a la bibliografía y más particularmente a Iglesias (2012). 2 Véanse Myhill (1988), Davies (1995), Troya (2003), Zabalegui (2008), Schwenter/Torres Cacoullos (2009). Según la mayoría de estos estudios, la subida es más frecuente con un referente animado que con un referente inanimado. Sin embargo, el estudio de Schwenter/Torres Cacoullos (2009) revela resultados contradictorios con esta hipótesis. 3 Véanse Troya (2003), Gudmestad (2006), Zabalegui (2008). Para todos ellos, la subida es significativamente más frecuente en las poblaciones más jóvenes. 4 Véase Bermúdez (2005, 175). Según él, la posición del clítico en el complejo verbal (CV de ahora en adelante) deber + infinitivo conduce al interlocutor a interpretar el auxiliar como epistémico (con subida de clítico) o como deóntico (cuando el clítico se sitúa a la derecha). Olivier Iglesias: Université Sorbonne Nouvelle – Paris 3

«Se le quedó mirando»: la atracción de clíticos

425

(en diacronía) o a encontrar una diferencia semántica o funcional a dos variantes (en sincronía) lo cual puede llegar a ser problemático, pues permite encontrar muchas explicaciones diferentes y a veces contradictorias, como subraya Iglesias (2012, 64). Además, los trabajos sobre subida de clíticos suelen diferir de manera bastante significativa en el corpus de construcciones analizadas. En efecto, estos corpus pueden describir la posición del clítico en CV muy diferentes. Encontramos, pues, en la literatura sobre el tema, trabajos sobre CV de infinitivo, excluyendo por ende, las de gerundio (Davies 1995). Otros trabajos solo incluyen los CV más frecuentes como poder, deber, tener que, etc., (Zabalegui 2008) y otros intentan cubrir más construcciones como el trabajo de Schwenter/Torres Cacoullos (2009), con 15 construcciones verbales. En todos los casos se suele analizar la posición del clítico en CV bastante frecuentes, y la razón parece bastante evidente, puesto que si queremos obtener resultados estadísticamente fiables, lo más fácil es buscar las construcciones más frecuentes para obtener un máximo de ejemplos. El problema es que, como queda demostrado en Iglesias (2012, 204), las construcciones más frecuentes son las que presentan más variación5 (si exceptuamos estar e ir + gerundio). Por todo ello, en este trabajo me propongo observar la posición de los clíticos en construcciones mucho menos frecuentes y nunca incluidas en los precedentes estudios, analizando los CV que presentan un clítico que depende del primer verbo de la construcción (V1 de ahora en adelante) y otro que depende semánticamente del segundo verbo (V2). En estos contextos, puede haber también una variación importante, ya que el clítico que depende de V2 puede desplazarse a la izquierda o no, como vemos en los ejemplos (1) y (2), inventados pero fácilmente observables en el español actual. Es lo que llamaremos a partir de ahora «contextos de atracción de clítico», puesto que se podría considerar a priori que el primer clítico atrae el segundo hacia la izquierda. (1) (2)

Me lo quedé mirando. / Me quedé mirándolo. Me lo pongo a pensar. / Me pongo a pensarlo.

5 Iglesias (2012, 204): «Enfin, il me semble assez clair […] que c’est dans les contextes les moins simples que l’on peut trouver davantage de règles. En effet, […] les contextes les plus «normaux», les plus fréquents, sont bien plus sujets à une variation incontrôlée, les variantes de ces contextes étant parfaitement invisibles».

426

Olivier Iglesias

1.2 Método y corpus Para analizar el fenómeno de subida de clíticos en este contexto, adopto aquí el método idiolectal propuesto y descrito por Barra-Jover (2015), según el cual «la gramática social de un tiempo pasado nos es inaccesible y lo más que podemos conocer son ciertas propiedades correlacionadas de la gramática de un locutor x en un momento t». Los beneficios de analizar lo que pasa en las producciones de unos locutores precisos ya han sido tratados en precedentes trabajos.6 El análisis de grandes corpus, que mezclan las producciones de cientos de locutores, nos da una visión global del fenómeno, nos permite saber qué variante es la más utilizada, etc., pero en absoluto nos permite observar regularidades individuales en los usos. Lo que resulta de un hipertexto7 es un caos absoluto,8 una importante variación inter-idiolectal imposible de analizar correctamente. En este sentido, el objetivo del análisis de idiolectos consiste en observar una gramática individual para comprobar si existen una «lógica» o unas «reglas» propias a un locutor o a un grupo de locutores. Al analizar las producciones de un locutor se podrá observar si tiene una preferencia por una variante en un contexto dado y una preferencia por otra variante en otro contexto. Todo esto es imposible de ver si trabajamos con un hipertexto, como lo demuestran algunas contradicciones en estudios sobre subida de clíticos.9 El método idiolectal como lo entienden Barra-Jover (2015) e Iglesias (2012) consiste en un análisis exhaustivo de las producciones de un locutor. Para el análisis de algunos fenómenos frecuentes (por ejemplo el leísmo), no es necesario analizar muchas páginas de un idiolecto escrito, puesto que mediante la observación exhaustiva de unas cien páginas ya se encontrará un número de casos suficientemente representativo para acceder a la gramática del locutor. Sin embargo, cuando se quiere analizar un fenómeno mucho menos frecuente, el análi-

6 Es el método utilizado en Iglesias (2012; 2015). 7 La palabra hipertexto para referirse a este tipo de corpus la utiliza Barra-Jover (2015) y la define de esta manera: «un corpus masivo (más o menos grande, informatizado o no) obtenido gracias a la adición de textos de autores diferentes». 8 Un evaluador anónimo explica que los grandes corpus permiten establecer regularidades estadísticas, las cuales se pueden analizar. Si bien comparto esta afirmación, mis precedentes trabajos sobre la posición del clítico en los CV en español me parecen mostrar que, efectivamente, los grandes corpus hipertexto revelan siempre una situación caótica que se traduce por ejemplo en análisis diferentes en algunas ocasiones dependiendo del corpus analizado como queda reflejado en la nota 2. Por consiguiente, la palabra caos ha de entenderse en este sentido. Quisiera, además, aprovechar esta observación para agradecerles a los dos revisores de este artículo sus observaciones y correcciones. 9 Véase de nuevo la nota 2.

«Se le quedó mirando»: la atracción de clíticos

427

sis exhaustivo es mucho más complicado (Iglesias 2015), puesto que se necesitarían muchísimas más páginas analizadas para obtener un número correcto de ejemplos. Por todo ello, en este trabajo se ha decidido elegir algunos CV representativos del fenómeno y realizar búsquedas automáticas mediante el programa libre de concordancias TextStat2 de la Universidad Libre de Berlín.10 Los complejos verbales finalmente elegidos son los siguientes: costar, dejar, hacer, parecer, permitir, atreverse a, decidirse a, limitarse a y ponerse a, todos ellos CV de infinitivo y quedarse + gerundio. Además, se ha decidido observar la posición de los clíticos en algunos de los CV más frecuentes en contextos «simples». Estos CV son los de infinitivo poder, deber y querer + infinitivo y los CV de gerundio estar e ir + gerundio. De esta manera, se tendrá una base con la que comparar los resultados. Finalmente, hay que precisar que se han excluido del análisis los contextos que presentaban dos clíticos que dependían de V2 por lo que la subida conjunta (y obligatoria) de ambos clíticos es extremadamente poco probable cuando ya hay un clítico junto a V1. En efecto, aunque no es imposible encontrar frases con tres clíticos en español (y más en registros no cuidados), son construcciones muy poco frecuentes y que hubieran complicado aún más las búsquedas con el programa TextStat2. De esta manera, el ejemplo en (3) ha quedado excluido del análisis.

(3)

Castelar: —¿Qué pensabas? —Pues apenas me atrevo a decíroslo. —Decidlo, pues.

En cuanto a los idiolectos elegidos, hay que señalar que todos son idiolectos escritos, y que se han analizado dos por siglo entre el siglo XIX y el siglo XXI. Para los siglos XIX y XX se han analizado las producciones de 4 escritores españoles y para el siglo XXI, las producciones de dos jóvenes blogueras españolas, como queda descrito en la tabla 1.

10 El programa está disponible en la página siguiente: http://neon.niederlandistik.fu-berlin.de/ en/textstat/. Permite la constitución de un corpus electrónico gracias a documentos en formato texto (o html) y realizar búsquedas más o menos complejas.

428

Olivier Iglesias

Tabla 1: idiolectos analizados con el programa de concordancias TextStat2

1.3 Hipótesis 1.3.1 La hipótesis diacrónica En la literatura existen varias hipótesis11 que intentan explicar el fenómeno de subida de clíticos. En este trabajo, no pretendo verificar cada una de ellas, sino tan solo dos de las hipótesis tradicionales más frecuentes. La primera, sin duda una de las más generalizadas, consiste en afirmar que la subida de clíticos es cada vez más frecuente a partir del siglo XX (de ahí que nos interesemos en este trabajo al período que va desde el siglo XIX hasta hoy). En realidad, los estudios diacrónicos sobre subida de clíticos (como los de Davies 1995 y 1998) concluyen que la subida es mucho más frecuente en la lengua hablada que en la escrita y Davies explica que el porcentaje de subida sigue bajando poco a poco en el español escrito durante el siglo XX, aunque una búsqueda en el CDE parece contradecir esta idea.12 El autor

11 Algunas de ellas se recogen en las notas 2, 3 y 4. 12 Davies (1995, 378): «The handful of previous corpus-based studies do confirm the very gradual decrease in clitic climbing in written Spanish even during the past 150 years». Sin embargo, esta afirmación contradice los resultados que se pueden obtener realizando una búsqueda en su CDE con el CV poder + infintifivo por ejemplo que revela que en los escritos del siglo XIX hay un 14,66 % (4.474/26.045) de subida de clíticos mientras que en el siglo XX este porcentaje sube al 30,72 % (5.394/12.167). De hecho, en Davies (1998, 258) se observa un ligero aumento del porcentaje de subida con querer + infinitivo (del 13 % al 15 %) lo cual parece demostrar efectivamente que aumentan los casos de subida durante el siglo XX.

«Se le quedó mirando»: la atracción de clíticos

429

también refleja que la situación se revierte de manera espectacular en el español hablado,13 registro en el que la subida es mucho más frecuente. Por todo ello, al analizar el corpus de idiolectos intentaremos verificar la hipótesis según la cual la subida de clíticos es un fenómeno cada vez más frecuente en español. Además, si consideramos las diferencias claras entre oral y escrito, cabe esperar que en los idiolectos del siglo XXI de nuestro corpus, la subida sea aún más importante, tanto por tratarse de producciones de locutores del siglo XXI como por el registro mucho menos cuidado en sus escritos que el de los escritores de siglos anteriores presentes en el corpus.

1.3.2 La hipótesis de la gramaticalización La segunda hipótesis más extendida en los trabajos sobre subida de clíticos considera que el grado de gramaticalización del CV influye directamente en la posición del clítico. Es decir que cuanto más gramaticalizado es un auxiliar (o sea V1), más probabilidades habrá de encontrar el clítico a la izquierda de la construcción. Esta hipótesis la defienden entre otros Davies (1998), Torres Cacoullos (1999) y también más recientemente Aijón Oliva/Borrego Nieto (2013): [. . .] la facilidad para la proclisis depende, en buena medida, del grado de gramaticalización o fusión que posea la construcción pluriverbal (cf. Davies 1998, Torres Cacoullos 1999), por lo que esta resulta más frecuente con las perífrasis propiamente dichas (en particular con las de tipo aspectual, seguidas a bastante distancia por las modales), y menos con los verbos regentes de cláusulas subordinadas (Aijón Oliva/Borrego Nieto 2013, 106).

Esto no deja de ser sorprendente si consideramos que para Lamiroy (1999, 35), la escala de gramaticalización sigue el proceso siguiente: Verbo léxico > aspecto > modales deónticos > modales epistémicos > tiempo > afijo.

Por lo tanto, cabría esperar que la subida fuera más frecuente con auxiliares modales que con auxiliares aspectuales al contrario de lo que aparece en el trabajo de Aijón Oliva y Borrego Nieto. De ahí que nos interroguemos acerca de la pertinencia de este criterio de gramaticalización a la hora de explicar la posición de los clíticos en los CV en español.

13 Ibid. «The corpus shows […] clitic climbing is more common in the spoken than in the written register».

430

Olivier Iglesias

1.3.3 La hipótesis idiolectal Finalmente, será interesante averiguar si se confirma en este trabajo la hipótesis idiolectal según la que cada idiolecto puede crearse un sistema totalmente coherente de «reglas» en cuanto a posición de los clíticos. Puesto que, como explica Iglesias (2015) en un trabajo sobre la posición de los clíticos en contextos de interposición (cuando una o varias palabras quedan interpuestas entre los dos componentes del CV): «[. . .] la colocación del pronombre en contexto de interposición depende de las preferencias individuales y cada locutor parece poder interiorizar un sistema lógico, coherente y más o menos estable (pero no es una obligación) en su gramática personal que puede ser compartido por otros idiolectos o no».14

2 La evolución de la posición del clítico en los CV en español Como acabamos de explicar, la variante con pronombre a la izquierda parece ser cada vez más utilizada en español y, sobre todo, a pesar de que en la lengua escrita se sigue privilegiando la variante con clítico a la derecha, en la lengua hablada la variante que domina claramente es la que sitúa el clítico a la izquierda. Para observar la evolución de la posición del clítico en español en nuestro corpus se han analizado tres contextos: la subida del clítico con los CV simples (es decir que presentan uno o dos clíticos regidos por el mismo verbo, el segundo de un CV, gráfica 1), con los CV que permiten la atracción del clítico (gráfica 2), y finalmente solo con el CV quedarse + gerundio, la construcción más representativa (por ser la más frecuente) en este aspecto (gráfica 3).

14 A raíz de una pregunta de Johannes Kabatek, al que agradezco por su interés en este asunto, me gustaría añadir que, si bien se ha intentado, para cada escritor, crear un corpus homogéneo (en cuanto a género, época de publicación, etc.), eso no ha sido posible en todos los casos, por lo que se puede dudar de la homogeneidad de los idiolectos a lo largo del tiempo. Es posible que el sistema de posición de los pronombres se vea modificado dentro de un idiolecto dependiendo del género o incluso de la época en la que fue escrita. Sin embargo, en Iglesias (2012), al analizar la posición del clítico en dos obras de Pérez Reverte de género muy diferente (El Capitán Alatriste y El Club Dumas) he podido comprobar que no existen diferencias y que el sistema de posición del clítico es uniforme y estable en estas dos obras. Por lo tanto, el género de una obra no parece influir en este caso, aunque, evidentemente, habría que verificarlo con cada idiolecto; esta tarea es imposible llevarla a cabo en este artículo. Además, también queda por verificar si a lo largo de los años, la posición de los clíticos se ve modificada o no.

«Se le quedó mirando»: la atracción de clíticos

431

Antes de entrar en el análisis de los resultados, es preciso admitir que se podría considerar como un límite importante de este estudio el analizar solo dos idiolectos por siglo. En efecto, es imposible reflejar la evolución de un fenómeno en la lengua española con una muestra tan limitada. Sin embargo, considero que se puede hacer esta misma crítica al análisis de cualquier corpus, incluso los más extensos, puesto que siempre habrá el problema del n+1 texto, problema expuesto por Barra-Jover (2007) y según el que la conclusión obtenida a partir de un conjunto de n textos no garantiza nunca predicciones sobre lo que puede pasar en un n+1 texto. Esto se traduce, por ejemplo, en algunas de las contradicciones que se pueden encontrar en diferentes trabajos que se basan en el estudio de diferentes corpus. Por consiguiente, considero que el método idiolectal, como veremos con el análisis de los resultados, permite, a pesar de analizar solo dos idiolectos por siglo, verificar si la hipótesis diacrónica es cierta o si puede ser falsa. Primero, si observamos la gráfica 1,15 lo que salta a la vista es la gran variación inter-idiolectal16 en cuanto a la posición del clítico en todos los contextos.

Gráfica 1: Subida del clítico en los CV simples

15 Entre paréntesis añadimos el número de casos de subida y el número total de ocurrencias encontradas en el corpus. 16 Un test de Pearson realizado mediante el programa de estadísticas JMP10, ofrece el resultado de p < 0,0001, lo cual significa que la diferencia entre los idiolectos es muy significativa. Esta gran variación inter-idiolectal ya fue evocada por otros autores a principios del siglo XX como Spaulding (1927, 346), Colburn (1928, 428) y, más recientemente, por Castillo Lluch (2002, 134–135).

432

Olivier Iglesias

También podemos observar dos grupos en el corpus: uno con los dos autores del siglo XIX y otro con los cuatro idiolectos restantes. Esta diferencia nos puede hacer pensar en una posible evolución diacrónica del fenómeno, ya que estos resultados parecen indicar que la variante con clítico a la izquierda es más usada a partir del siglo XX que en el siglo XIX. Esto es lo que observamos también en grandes corpus electrónicos, pero, evidentemente, esta no es una conclusión definitiva. El hecho de analizar solo dos idiolectos por siglo impide afirmar rotundamente que la hipótesis diacrónica queda verificada aquí. Además, cabría esperar que los dos idiolectos del siglo XXI utilizaran más la subida que los del siglo XX, lo cual no queda reflejado en la gráfica. Pero esto tampoco nos permite afirmar que la hipótesis diacrónica quede rechazada. Lo que nos permiten afirmar claramente estos resultados es que existe una gran variación inter-idiolectal. Y por eso mismo puede parecer inútil acumular cientos y cientos de idiolectos en un corpus. En efecto, si pudiéramos hacer una media de las producciones de todos los idiolectos actuales, es posible que la subida fuera más frecuente que en las producciones de todos los idiolectos de los años 50. Sin embargo, esto nunca se podrá verificar, y en todo caso, lo que permite ver el método idiolectal es que un locutor de los años 50 podía producir muchos más enunciados con subida de clíticos que un locutor joven de los años 2000. Esa es la diferencia que se observa entre Barea y Sara-g, si observamos la gráfica 1. Sin embargo, según algunos trabajos esperaríamos más subida en el idiolecto de Sara-g por ser joven, usar un registro menos cuidado e incluso por ser una mujer.17 ¿Estamos aquí frente a situaciones excepcionales o frente a argumentos que podrían llevarnos a pensar que estas hipótesis pueden no ser ciertas? Este no es realmente el objetivo de este trabajo, pero esta gráfica por lo menos permite matizar algunas afirmaciones quizás demasiado drásticas.

17 En cuanto a la posición de los clíticos, Arroyo Hernández (2014) afirma que «en relación a los factores sociales, cabe afirmar que la subida es más frecuente entre los jóvenes y entre las mujeres». La misma idea queda reflejada en el trabajo de Gudmestad (2006, 9): «CC was more frequent among females (82.6 % or 38/46 tokens) than among males (59.5 % or 22/37 tokens)».

«Se le quedó mirando»: la atracción de clíticos

433

Gráfica 2: Subida del clítico en los contextos de atracción

La gráfica 2 confirma lo que acabamos de decir: la variación inter-idiolectal es aún más fuerte cuando observamos los contextos que permiten la atracción del clítico. Es decir, parece que, en contextos menos frecuentes, las diferencias entre los idiolectos se incrementan, como si cada locutor pudiera interiorizar reglas propias, lo cual se intentará demostrar en el § 4. En estos contextos, la hipótesis diacrónica queda de nuevo muy matizada, puesto que una locutora del siglo XXI produce muchos menos casos de subida de clítico que un locutor del siglo XX como Barea e incluso menos que uno del siglo XIX como Navarro, como se puede comprobar en la gráfica 2 con los datos entre paréntesis. Finalmente, en la gráfica 3 salta a la vista que hay mucha más homogeneidad entre los idiolectos (al menos entre 4 de ellos), con porcentajes muy elevados de subida de clítico, cuando se observa únicamente la posición del clítico en el CV quedarse + gerundio. Evidentemente, estos porcentajes así como los valores absolutos recogidos entre paréntesis han de tomarse con mucha precaución, debido al número muy reducido de ejemplos en algunos casos. Castelar, por ejemplo, produce un único ejemplo (con clítico a la derecha) con este CV en un corpus de más de 400.000 palabras.

434

Olivier Iglesias

Gráfica 3: Subida del clítico con el CV quedarse + gerundio

Por otro lado, si nos centramos en estos resultados y consideramos que son representativos de la gramática de cada uno de estos locutores (aunque sea mínimamente), tenemos dos idiolectos que no parecen favorecer la subida en este CV: es el caso de Castelar y de Sara-g. Considero que la escasez de ocurrencias no impide hacer proyecciones en el caso de Castelar. En efecto, con otras construcciones que permiten la atracción tampoco se encuentra esta variante (la subida) y este idiolecto presenta también los porcentajes más bajos de subida en los CV simples.18 Ahora bien, evidentemente no afirmo que en el idiolecto de Castelar la subida del clítico con el CV quedarse + gerundio es imposible, solo afirmo que en su idiolecto se prefiere claramente la variante con clítico a la derecha. En el caso de Sara-g, esta tendencia también parece clara y, aunque no estamos ante una regla sistemática, la preferencia por una de las dos variantes es evidente, lo cual parece indicar que, en estos dos idiolectos, la subida es una variante claramente minoritaria que podríamos calificar de marcada para ellos, o de visible si utilizamos la terminología de Barra-Jover (2011) y que define de esta manera: Empecemos por la caracterización de una variante invisible: Variante invisible: un mismo locutor puede usar para A la variante a1 y la variante a2 sin tener consciencia de ello (sin controlar la alternancia), sin que ello dependa de la situación y sin que el interlocutor pueda ni percibir ni interpretar la existencia de una alternancia. […]

18 Véanse las gráficas 1 y 2.

«Se le quedó mirando»: la atracción de clíticos

435

Las variantes visibles serán, en consecuencia, aquellas que los locutores pueden percibir y pueden, al menos, querer controlar. La percepción puede ir en dos sentidos: una de las variantes puede ser estigmatizada o, al contrario, considerada como propia de un discurso elevado (Barra-Jover 2011, 82)

Además, se observan grandes diferencias entre nuestros resultados y los del CDE (que recogemos en la tabla 2).

Tabla 2: Subida del clítico en el CV quedarse + gerundio en el CDE de Davies

No se ofrece en absoluto la misma imagen del fenómeno, aunque en ambos casos hay homogeneidad en los porcentajes de subida entre el XIX y el XX. En nuestro corpus nos damos cuenta de que se trata de un fenómeno muy vivo en algunos idiolectos, que presentan porcentajes de subida que se acercan a los de los contextos simples, mientras que en otros idiolectos la subida es poco utilizada. Si miramos y analizamos los resultados en un gran corpus informatizado que mezcla idiolectos tenemos una percepción modificada de la realidad en el que la subida en este contexto parece ser un fenómeno relativamente limitado. Nos encontramos con una media, que tiene cierto interés, pero que no refleja la realidad de la frecuencia de la subida en algunos idiolectos en este contexto. En efecto, al observar la tabla 2, uno podría pensar que en español la subida del clítico con quedarse + gerundio es muy poco frecuente. ¿Cuál no sería la sorpresa del que piense esto al escuchar o leer a un locutor como Barea que prefiere claramente esta variante? En este apartado, se ha querido comprobar si la hipótesis diacrónica se verifica en un corpus de idiolectos. La respuesta no es fácil. Es cierto que parece haber un cambio importante entre el siglo XIX y XX, pero si observamos los idiolectos de las locutoras más jóvenes no encontramos diferencias significativas con los dos escritores del siglo XX del corpus. Además, cuando se analizan contextos menos tradicionales, menos frecuentes, las diferencias inter-idiolectales son aún más importantes y ya no parecen mostrar ninguna progresión de la variante con clítico a la izquierda (gráfica 2). Por consiguiente, la hipótesis según la que habría cada vez más subida de clíticos en español deber ser matizada ya que la bibliografía presenta resultados de los siglos XIX y XX y no tanto del XXI y porque también depende de muchos parámetros.

436

Olivier Iglesias

3 La gramaticalización de los CV Interesémonos ahora por la hipótesis según la cual cuanto más gramaticalizado esté el auxiliar de un CV, más frecuente es la subida. En el corpus se ha analizado la posición del clítico con tres CV de infinitivo: poder, deber y querer + infinitivo. Poder y deber son dos verbos auxiliares modales que pueden tener un valor tanto deóntico como epistémico. Por consiguiente, la posición del clítico con estos dos CV no debería diferir mucho.19 Al contrario, querer no es considerado como un auxiliar, Fernández de Castro (1999) no incluye el CV querer + infinitivo en la categoría de perífrasis verbales (o CV conjuntos). Cierto es que, como refleja el autor en un apéndice de su obra (Fernández de Castro 1999, 334), varios autores sí consideran querer como auxiliar y, por consiguiente, la construcción querer + infinitivo como una perífrasis verbal. Es de esperar pues que haya menos subida con este CV que con los dos anteriores o que, por lo menos, los porcentajes de subida no sean significativamente diferentes. En efecto, se podría considerar que un locutor no lingüista que no se interesa por la cuestión de gramaticalización puede considerar el CV querer + infinitivo como una perífrasis verbal puesto que muchos lingüistas también lo hacen. En todo caso, las gráficas 4, 5 y 6 parecen indicarnos que el grado de gramaticalización del auxiliar no parece decisivo a la hora de situar el clítico a la derecha o a la izquierda.20 En efecto, se observa que en 5 de los 6 idiolectos la subida es más frecuente con querer que con deber y además se observan diferencias importantes entre poder y los dos otros verbos. El que la hipótesis de la gramaticalización de V1 no parezca del todo confirmada con estos datos no significa que no desempeñe un papel esencial en la mayoría de los casos, pues es esperable que cuanto más clara sea la diferencia de gramaticalización entre dos verbos, por ejemplo poder frente a pensar, más frecuente será la subida en el primer caso.

19 Un evaluador anónimo sugiere que los porcentajes de subida sí podrían diferir entre estos dos CV por sus diferencias en cuanto a frecuencia y registro. Es cierto que parece haber una correlación entre frecuencia de uso de un CV y posición del clítico (a menor frecuencia menor subida) pero esta queda por demostrar en un estudio dedicado precisamente a esta hipótesis. En cuanto al registro, al observar producciones escritas de individuos, la homogeneidad en cuanto al registro es bastante fuerte y no debería influir aquí. 20 Se han separado los idiolectos por siglo para facilitar la lectura de las gráficas y de los valores absolutos entre paréntesis.

«Se le quedó mirando»: la atracción de clíticos

Gráfica 4: Subida del clítico en CV de infinitivo en los dos idiolectos del siglo XIX

Gráfica 5: Subida del clítico en CV de infinitivo en los dos idiolectos del siglo XX

437

438

Olivier Iglesias

Gráfica 6: Subida del clítico en CV de infinitivo en los dos idiolectos del siglo XXI

Esto queda claro en 5 de los 6 idiolectos puesto que no encontramos ningún caso de subida con pensar + infinitivo en Navarro (5 ocurrencias con clítico a la derecha), Castelar (0/8), Barea (0/6) y Sender (0/4) y tan solo encontramos un caso (4) sobre 10 ocurrencias del CV con clítico en el idiolecto de Sara-g. Sin embargo, en Alba —los ejemplos (5) y (6) son una muestra de las dos variantes— encontramos 3 ejemplos de subida sobre un total de 7 ocurrencias lo cual, de nuevo, y en un idiolecto, parece matizar la hipótesis de gramaticalización.21

(4) Sara-g: No le soporto, pero no le pienso pegar ahí mismo ni nada por el estilo (5) Alba: Y que le piensas decir? —Pues contarle todo. (6) Alba: en cambio te lo tomaste bien y le dijiste que tu pensabas decirle eso,

Así que la gramaticalización de V1 no parece ser del todo decisiva para definir la posición del clítico en los CV en español. Al contrario, el hecho de que V2 sea un infinitivo o un gerundio parece ser un factor mucho más determinante.

21 Un evaluador anónimo sugiere que, al encontrar pocos datos en términos absolutos, es difícil sacar conclusiones y, además, observa una coherencia en el idiolecto de Alba que tiende presentar tendencias elevadas de subida. Me parece que el hecho de encontrar pocos datos en este caso no es problemático ya que, al tratarse de un CV tan poco gramaticalizado, no se deberían encontrar tan fácilmente casos de subida. En cuanto a la coherencia del idiolecto de Alba, está clara y me parece mostrar que podría incluso ser más importante este factor de coherencia intra-idiolectal que el del grado de gramaticalización del CV.

«Se le quedó mirando»: la atracción de clíticos

439

En la tabla 3 podemos observar que, en los 6 idiolectos, hay una diferencia clara y estadísticamente muy significativa si observamos este factor.22

Tabla 3: Subida del clítico según la forma de V2, infinitivo o gerundio en contextos simples

Además, para 5 de los 6 idiolectos, se observa una regularidad muy fuerte con porcentajes de subida muy importantes cuando V2 es un gerundio. Esta cohesión aparentemente más fuerte de los CV de gerundio con respecto a los de infinitivo ha sido observada en Iglesias (2012: 253). La comparación de la posición del clítico en contextos de atracción según este mismo criterio (V2 infinitivo o gerundio) también parece confirmar esta tendencia, puesto que para 4 de los 6 idiolectos la probabilidad de que el clítico suba es mucho más fuerte cuando V2 es un gerundio (en quedarse + gerundio) que cuando es un infinitivo.

Tabla 4: Subida del clítico según la forma de V2, infinitivo o gerundio en contextos de atracción

22 El test exacto de Fischer revela que la probabilidad para que haya una subida es mucho más fuerte cuando V2 es un gerundio: el valor de p para los 6 idiolectos es p < 0,0001. Por consiguiente, a pesar de que en el idiolecto de Sender la subida no sea tan frecuente con el gerundio como en los otros idiolectos no impide que este factor sea significativo.

440

Olivier Iglesias

Este factor no es significativo para dos de los idiolectos, Castelar que no produce ningún caso de subida en este contexto y Sara-g (p = 0,5862 en un test exacto de Fischer), mientras que para los 4 idiolectos restantes, el resultado sí es claramente significativo (p < 0,0001). Por consiguiente, como ya se ha comentado, la hipótesis de la gramaticalización de V1 queda ligeramente en entredicho con los resultados de los análisis de este corpus de idiolectos, ya que, además, muestran una correlación muy importante entre la subida y la forma de V2 (infinitivo o gerundio).

4 «Atracción» de clíticos 4.1 Con los CV de infinitivo Con los CV de infinitivo la subida es excepcional, como hemos podido comprobar antes en la tabla 4. Parece haber una regla casi estricta en todos los idiolectos: en este contexto, el clítico no sube y se mantiene a la derecha. En todo el corpus, juntando los 6 idiolectos, se encuentran tan solo 5 excepciones a esta regla sobre un total de 151 ocurrencias, es decir, tan solo se observa un 3,1 % de subida. Estas son las excepciones: (7) (8) (9) (10) (11)

Navarro: Así me lo hizo jurar su madre, y así lo cumplo Sender: se las había hecho traer de Londres y de ellas decía años atrás Carvajal Sender: Mister Witt se lo hizo repetir fingiendo que no lo comprendía Barea: la señora Pascuala se la hizo fregar de arriba abajo Alba: Nos hicimos la foto y el chico de antes, el del bar se acerco. —me la dejas ver?

La mayor parte de ocurrencias presentan un clítico a la derecha: (12) (13) (14) (15) (16)

Castelar: —Angela, no me atrevo a creerlo. Navarro: Si tu delicadeza no te permite prohijarla, no reveles jamás el nombre Sender: La ilusión de la tierra que iban a poseer les hacía olvidarlo todo. Sara-g: Como una tonta me puse a bailarla Alba: que al menos te deje verle

La subida, por consiguiente, se produce casi exclusivamente con hacer + infinitivo, pero de todos modos de manera muy excepcional. Sin embargo, la subida con otros de los CV presentes en el corpus no es rara hoy en español. Una rápida búsqueda en Google23 de la expresión exacta «me lo puse a pensar» ofrece más o

23 Búsqueda realizada el 26/02/2015 a las 16h42.

«Se le quedó mirando»: la atracción de clíticos

441

menos 61.200 resultados como el ejemplo (17), mientras que la expresión «me puse a pensarlo» da 142.000 resultados, incluido el (18).24 (17) Google\yelresto: Me lo puse a pensar mientras hacía fuerza, también cuando me levanté al día siguiente, al otro de nuevo y ahora que escribo esto. (18) Google\carmex: primero dije que si, luego me puse a pensarlo bien y empece a dudarlo y se lo dije

Por consiguiente, con esta simple expresión, nos damos cuenta de que la subida por atracción de clíticos con el CV ponerse a + infinitivo, aunque no sea la variante dominante, sí queda ampliamente representada en la red.25 30 % de los casos totales en la red, lo cual no queda en absoluto reflejado en nuestro corpus, quizás demasiado literario, puesto que con este CV no obtenemos ningún caso de subida sobre 19 apariciones del CV. En general, nuestros datos indican que, a pesar de los pocos ejemplos encontrados en nuestro corpus, hay una tendencia clara a situar el clítico a la derecha en los 6 idiolectos cuando V2 es un infinitivo.

4.2 Con quedarse + gerundio 4.2.1 Castelar y Sara-g: Con este CV ya hemos podido observar los porcentajes de subida en la tabla 4. Hay que recordar que dos de los idiolectos no favorecen la subida con esta construcción: Castelar no produce ningún ejemplo de subida (con una única ocurrencia en el corpus de la expresión) y Sara-g produce 6 ejemplos, incluido el (19), sobre 67 (o sea, casi un 9 % de los casos). (19) Sara-g: Su hermana y su madre se me quedaron mirando muy sonrientes y tan solo saludé y sonreí. (20) Sara-g: Lolo se quedó mirándome sin saber que responder y se levantó de la arena

24 Aquí dejamos los enlaces en los que han sido observados estas ocurrencias (consultados el 26/02/2015) Para (17): http://yelresto.blogspot.fr/2009/02/478-preparo-apunto-y-fuego-3-especial.html Para (18): http://www.fobiasocial.net/mi-primer-beso-y-acostada-en-la-cama-71077/. 25 Un evaluador anónimo sugiere que no se deberían dar datos cuantitativos de este tipo de búsquedas en Google por presentar datos tan aleatorios (por los ejemplos repetidos o los números que no siempre coinciden con los resultados reales, etc.) Estoy totalmente de acuerdo con esta observación y los números que doy deben ser considerados únicamente como indicios de una posible tendencia y no pretendo sacar de ellos conclusiones fuertes.

442

Olivier Iglesias

Aunque en estos dos casos no podamos hablar de regla estricta, parece que la variante preferida en este contexto es la variante con clítico a la derecha.

4.2.2 Navarro En cuanto al idiolecto de Navarro, es el que presenta más variación: 10 casos de subida sobre 15. Podríamos entonces pensar que estamos ante dos variantes invisibles para Navarro con una preferencia por la subida. Sin embargo, si observamos los cinco casos con clítico a la derecha, con los ejemplos siguientes, nos damos cuenta de que todos presentan un esquema sintáctico similar que se podría resumir así: Quedarse+gerundio […] y […] [verbo] (21) (22) (23) (24) (25)

Navarro: me quedéi mirándole con asombro, y pro i leyendo en su rostro Navarro: Yo me quedéi mirándole y pro i con la mano metida en el bolsillo Navarro: la anciana se quedó mirándola, y prosiguió diciendo Navarro: Eudón se quedó mirándole […] y luego fijó los ojos Navarro: Ranimiro se quedó mirándole […], y después […], prosiguió

Comprobamos que cuando el CV quedarse + gerundio es seguido por una oración coordinada con la conjunción y, seguida por un verbo,26 el clítico siempre se sitúa en nuestro corpus a la derecha. Dado el escaso número de ejemplos es imposible afirmar con rotundidad que esta es una regla estricta y habría que aumentar la base de datos de este idiolecto para confirmarlo, pero el que todas las excepciones sigan el mismo esquema debe hacernos pensar que tal vez el escritor haya interiorizado una regla clara y fácilmente explicitable en términos lingüísticos. En realidad, el clítico no se sitúa sistemáticamente a la derecha de V2 en este contexto sintáctico, puesto que hay un contra ejemplo (26) en el que el clítico se sitúa junto a V1, pero en enclisis y no en proclisis, como si este contexto sintáctico provocara en su idiolecto la enclisis (con V2 o V1). (26) Navarro: quedósele mirando de hito en hito en medio de la oscuridad, y exclamó de pronto arrojándose loca de júbilo a sus brazos (…)

26 Este verbo puede ser explícito como en los ejemplos (23) a (25) o elidido como en los ejemplos (21) y (22) en el que hay una elipsis del verbo quedar.

«Se le quedó mirando»: la atracción de clíticos

443

4.2.3 Barea En el idiolecto de Barea, se contabilizan 36 casos de subida sobre un total de 45 ocurrencias de este CV, o sea un 80 % de subida. Aunque parece clara la preferencia por la variante con subida de clítico, las dos variantes son aparentemente libres (o invisibles) puesto que ambas aparecen en los mismos contextos, con los mismos clíticos, etc. Sin embargo, a pesar de que pueden aparecer en los mismos contextos, observamos con los ejemplos (27) y (28) que la secuencia se + me presenta una regularidad muy fuerte a favor de la subida (con 22/24 casos de subida o sea un 91,7 %). (27) Barea: el viejo se quedó mirándome (28) Barea: Mariano se me quedó mirando muy serio

Con la secuencia se + 3ª persona, la variación es mayor, con 9 casos de subida sobre 13 (solo representa el 69,2 % de los casos). (29) Barea: El albañil se le quedó mirando y le dijo: —No me da la gana. (30) Barea: El viejo se queda mirándole y después llama a su hijo.

Si nos fijamos en el pronombre de tercera persona (singular y plural) femenina con función de objeto directo, la(s), observamos cierta regularidad. Este clítico, aunque solo encontramos cuatro ocurrencias, nunca sube en nuestro corpus de este idiolecto. A pesar de que sean pocos ejemplos resulta sorprendente que estas cuatro ocurrencias con clíticos a la derecha representen la mitad del total de los casos con esta variante, por lo cual parece significativo. (31) Barea: Nos quedamos mirándolas: Madrid, hambriento, estaba muy cerca de allí. (32) Barea: Una vez, dejé el lápiz y me quedé mirándola, absorta en lo que leía. (33) Barea: El muchacho que estaba de turno como censor se quedó mirándola a través de sus gafas (34) Barea: El oficial inglés se quedó mirándola con los ojos azules dilatados.

Evidentemente es imposible sacar conclusiones definitivas, pero son tendencias que tienden a confirmar que cada idiolecto puede interiorizar reglas precisas y muy diferentes de un idiolecto a otro.

444

Olivier Iglesias

4.2.4 Sender En el caso de Sender, el problema es que nos encontramos con solo 5 casos de subida sobre 7, con un porcentaje sorprendentemente elevado, puesto que en su idiolecto la subida es una variante muy minoritaria. De nuevo aquí, el hecho de que sea una construcción con gerundio puede explicar el porcentaje tan elevado de subida como lo hemos visto en el §3. A pesar de este porcentaje relativamente alto de subida en el idiolecto de Sender (más del 70 %) y del escaso número de ejemplos, se pueden encontrar dos frases sintácticamente muy próximas que presentan las dos variantes posibles, lo cual nos invitaría a pensar que son variantes libres e incontroladas en su idiolecto. (35) Sender: Curro se me quedó mirando como fascinado. (36) Sender: Curro se quedó mirándome con los ojos muy abiertos

4.2.5 Alba Finalmente, el idiolecto de Alba es el que presenta más casos con esta construcción, con 59 casos de subida sobre 83 ocurrencias, lo que corresponde a un 71,1 % de los casos totales. El hecho de que haya muchos más ejemplos permite, con el método idiolectal, describir más precisamente la posición del clítico en este contexto y averiguar de manera más segura si existe una coherencia en este sistema. A primera vista, con un 71,1 % de casos de subida, la conclusión que podemos sacar es que hay una preferencia por la subida, pero al haber una variación bastante importante, podemos prever la presencia de variantes invisibles, como en (37) y (38), dos frases que presentan exactamente el mismo contexto sintáctico reforzando así la sensación de que estamos ante variantes totalmente incontroladas. (37) Alba: no puedo estar asi. —Dijo Carlos, yo me le quede mirando. (38) Alba: El se giro y me miro, yo me quede mirandole.

A pesar de todo, se observa una variación importante según el clítico utilizado. En efecto, el pronombre me sube casi sistemáticamente (32/35, o sea, el 91 % de los casos). El ejemplo (39) pues, es mucho más representativo del idiolecto de Alba que el (40). (39) Alba: tienes algo pintado y se me han quedado mirando (40) Alba: pero se quedo mirandome fijamente unos segundos

«Se le quedó mirando»: la atracción de clíticos

445

Lo realmente interesante en este corpus es la posición del clítico lo, que no sube nunca en 11 ocurrencias. Es significativo que sea el único pronombre con el que no se produce nunca la subida si comparamos este dato con el porcentaje elevado global (más del 70 %). Además, representa casi la mitad de los casos en los que no se producen la subida (11 sobre 24). Por todo ello, parece que en su idiolecto Alba ha podido interiorizar una regla que impide la subida de un clítico con referente inanimado o no humano en este contexto preciso. (41) (42) (43) (44)

Alba: Me levante la manga, y todos se quedaron mirandolo. —Es precioso.27 Alba: Yo mire hacia abajo y me quede pensándolo28 Alba: Estaba Harry potter en la tele y me quede viendolo. Alba: cogio un papel del suelo, lo abrió y se quedó mirandolo

Esta tendencia también aparece, aunque no de manera tan clara, con el CV poder + infinitivo ya que observamos un porcentaje bastante más bajo de subida con lo que en el porcentaje global (del 55,1 % de subida).29 Con lo, la subida se produce solo en un 34,8 % de los casos (15/43). Por consiguiente, el carácter animado o no del referente parece poder influir en la posición del clítico, algo que ya ha sido demostrado en otros estudios,30 pero esta tendencia es mucho más radical en este contexto preciso, donde no hay excepción alguna. El número relativamente bajo de ocurrencias debe conducir a una interpretación prudente, pero de nuevo, en este caso, el análisis de un idiolecto permite percibir lo que podría considerarse como una regla individual.

5 Conclusiones 5.1 Hipótesis «tradicionales» no verificadas Para concluir este trabajo, cabe repetir que el límite que supone el análisis de dos idiolectos por siglo impide llegar a conclusiones definitivas. De hecho, ese no era su objetivo primero. El interés del método idiolectal radica en que se puede considerar que analizando un número reducido de idiolectos de forma separada,

27 En este caso, el referente del pronombre lo es «un tatuaje» y encontramos dos ejemplos idénticos en el corpus, con el mismo referente. 28 La expresión me quedé pensándolo (con ausencia o presencia de los acentos) aparece 7 veces en el corpus. 29 Véase la gráfica 6. 30 Se da la referencia de estos estudios en la nota 2 al principio de este trabajo.

446

Olivier Iglesias

individual, es posible observar cosas que no revela un estudio basado en un hipertexto. En este caso, si bien los resultados obtenidos con el análisis de nuestro corpus no permiten refutar ni confirmar algunas hipótesis tradicionales, sí nos han llevado a matizarlas seriamente. En cuanto a la hipótesis diacrónica, los resultados de nuestro corpus parecen indicar, efectivamente, un cambio bastante importante y relevante entre el siglo XIX y el siglo XX, cambio que queda reflejado en las diferencias muy fuertes en los porcentajes de subida de los dos autores del XIX con respecto a los otros cuatro idiolectos. Sin embargo, estos mismos resultados no reflejan diferencias claras entre los idiolectos del siglo XX y XXI, período durante el cual, según Davies (1995), se producen cambios aún más fuertes. Seguramente las dificultades para confirmar o refutar esta hipótesis se deban al escaso número de idiolectos analizados. No obstante, basta con observar la posición del clítico con CV especiales (los que tienen un clítico dependiendo de V1) para observar que las diferencias inter-idiolectales, al ser todavía más fuertes, nos deben llevar a relativizar muy fuertemente la hipótesis diacrónica. De hecho, cabe recordar que la tabla 2 indica que no hay ninguna evolución en la posición del clítico con quedarse + gerundio entre el siglo XIX y XX en un gran corpus electrónico, por lo que podemos suponer que, aunque haya cada vez más subida de clítico en español, esto puede ser verdadero en los contextos más simples. En contextos más complejos, como, por ejemplo, los CV analizados en nuestro corpus, la hipótesis diacrónica debe ser rechazada o, al menos, fuertemente matizada. Lo mismo pasa con la hipótesis de gramaticalización, puesto que se ha podido comprobar que en casi todos los idiolectos del corpus la subida del clítico no depende realmente del grado de gramaticalización de V1. Recordemos que la subida es casi siempre más frecuente con querer que con deber y que querer no se debe considerar realmente como un auxiliar (según Fernández de Castro 1999). Una vez matizada esta hipótesis de la gramaticalización, habría que ver y verificar en trabajos futuros si la naturaleza de V2 (si es infinitivo o gerundio) no es un factor más significativo aún, como hemos podido comprobar en este trabajo.

5.2 Conclusiones sacadas gracias al método idiolectal Resulta claro que el análisis de estos 6 idiolectos difícilmente permitirá sacar conclusiones radicales. Lo que sí permitió es comprobar que, efectivamente, parece posible que un idiolecto se cree una gramática individual con reglas más o menos complejas para hacer más coherente el sistema de posición del clítico en los CV en español.

«Se le quedó mirando»: la atracción de clíticos

447

Estas reglas suelen aparecer con más claridad en los contextos menos frecuentes, puesto que, con los CV más frecuentes, la variación es mucho más importante. Es como si, con algunos CV y en algunos contextos, los menos frecuentes, las dos variantes (clítico a la derecha o a la izquierda) fueran controladas o visibles por el propio locutor mientras que, en otros contextos, los más frecuentes, estas fueran aparentemente incontroladas, libres o invisibles. Evidentemente, al tratarse aquí de seis idiolectos escritos podemos suponer que resulta más fácil para el locutor controlar sus propias producciones. Podemos poner como ejemplo la posible regla de Navarro descrita con los ejemplos (21) a (25), regla que parece impedir la subida en un contexto sintáctico muy preciso: presencia de una oración yuxtapuesta y con un verbo en esa oración. El hecho de que se trate de un escrito, con una posibilidad de llevar a cabo una mayor reflexión y correcciones, puede explicar la existencia de este tipo de reglas o este tipo de control. Sin embargo, en la lengua hablada, este control debe ser más limitado. El interés de este tipo de trabajo, basado en el análisis de idiolectos, no radica en la voluntad de explicar por qué se sitúa el clítico a la izquierda o a la derecha en español, ni en explicar por qué existe simplemente esa posibilidad. Tampoco pretende este tipo de trabajo rechazar las hipótesis tradicionales, por el mero hecho de que resulta difícil o incluso imposible rechazar una hipótesis verificada con datos reales sacados de un corpus más o menos extenso, a pesar de las dudas metodológicas que uno pueda tener respecto a este tipo de corpus. El método idiolectal, además de sus posibilidades y su interés en el estudio diacrónico de la lengua,31 puede aportar una nueva metodología que permita observar la gran variación inter-idiolectal (e incluso en un mismo idiolecto) y demostrar que se pueden encontrar algunas regularidades fuertes explicitables en términos lingüísticos y que, en el caso de la posición del clítico, no hay tanta libertad, tanto caos, como tradicionalmente se cree, sino sistemas bastante coherentes que un estudio de grandes corpus (hipertexto) no permite ver.

6 Bibliografía Aijón Oliva, Borrego Nieto, La variación gramatical como forma y significado: el uso de los clíticos verbales en el español peninsular, Lingüística 29:2 (2013), 93–126. Arroyo Hernández, Ignacio, Posición de los pronombres átonos en estructuras verbales complejas: enunciador, interacción y efectos contextuales, Actas del I Congreso A.I.Gr.E – Analisi e comparazione delle lingue dalla prospettiva dell’interazione, Roma (2012), 2015.

31 Barra-Jover (2015) ilustra perfectamente las posibilidades que ofrece este método idiolectal en diacronía.

448

Olivier Iglesias

Barra-Jover, Mario, S’il ne restait que l’induction: corpus, hypothèses diachroniques et la nature de la description grammaticale, Corpus et hypothèses diachroniques, Paris, RLV 36, 2007. Barra-Jover, Mario, Des variantes invisibles à la fragmentation des langues romanes, Pour une typologie diachronique et synchronique des langues romanes, Recherches Linguistiques de Vincennes 38 (2009), 105–137. Barra-Jover, Mario, Variantes invisibles, emergencia y cambio lingüístico, in: Castillo Lluch, Mónica/Pons Rodríguez, Lola (edd.), Así se van las lenguas variando. Nuevas tendencias en la investigación del cambio lingüístico en español, Bern, Peter Lang, 2011, 75–105. Barra-Jover, Mario, Método y teoría del cambio lingüístico: argumentos en favor de un «método idiolectal», in: García Martín, José María (dir.), Actas del IX Congreso Internacional de Historia de la Lengua Española (Cádiz 2012), Madrid, Iberoamericana/Vervuert, 2015, 263–292. Bermúdez, Fernando, La «subida de clíticos»: modalidad, prominencia y evidencialidad, in: Bermúdez, F., Evidencialidad: la codificación lingüística del punto de vista, Stockholm, Universidad de Estocolmo, 2005, 169–193. Castillo Lluch, Mónica, Double syntaxe du pronom atone en espagnol contemporain, in: Araújo Carreira, M.H. (dir.), Instabilités linguistiques dans les langues romanes, Saint-Denis, Université Paris 8, 2002, 129–141. Davies, Mark, Analyzing Syntactic Variation with Computer-Based Corpora: The Case of Modern Spanish Clitic Climbing, Hispania 78 (1995), 370–380. Davies Mark, The evolution of Spanish clitic climbing: A corpus-based approach, Studia Neophilologica 69:2 (1998), 251–263. Davies, Mark (2002–) Corpus del Español: 100 million words, 1200s–1900s. Disponible en línea en: http://www.corpusdelespanol.org. Fernández de Castro, Félix, Las perífrasis verbales en el español actual, Madrid, Gredos, 1999. Gudmestad, Aarnes, Clitic climbing in Caracas Spanish: A sociolinguistic study of «ir» and querer, Working Papers Online 6, Indiana University Linguistics Club (2006). Iglesias, Olivier, Le placement des clitiques dans les complexes verbaux en espagnol: une nouvelle approche de la question, Tesis doctoral, Universidad Paris 8, 2012. Disponible en línea en: http://1.static2.e-corpus.org/download/notice_file/2267104/IGLESIAS.pdf. Iglesias, Olivier, La interposición en los complejos verbales y la subida del clítico, in: García Martín, José María (dir.), Actas del IX Congreso Internacional de Historia de la Lengua Española, Cádiz (2012), Iberoamericana/Vervuert, 2015. Lamiroy, Béatrice, Auxiliaires, langues romanes et grammaticalisation, Langages 33:135 (1999), 33–45. Myhill, John, The Grammaticalization of Auxiliaries: Spanish Clitic Climbing, Proceedings of the Fourteenth Annual Meeting of Berkeley Linguistics Society, 1988, 352–363. Schwenter Scott/Torres Cacoullos Rena, Variation in Spanish clitic placement: constructional and pragmatic effects, 39th Linguistic Symposium on Romance Languages (LSRL), University of Arizona, 2009. Torres Cacoullos, Rena, Construction frequency and reductive change: Diachronic and register variation in Spanish clitic climbing, Language Variation and Change 11 (1999), 143–170. Troya Déniz, Magnolia, La posición de los pronombres personales átonos en combinación con las perífrasis verbales en América y España, in: Moreno, F., et al. (coord.), Lengua, variación y contexto. Estudios dedicados a Humberto López Morales, vol. 2, Madrid, Arco Libros, 2003, 875–894. Zabalegui, Nerea, La posición de los pronombres átonos en construcciones con verbos no conjugados en el español actual de Caracas, Akademos 10:2 (2008), 83–107.