Lingüística de Corpus: de la teoría a la empiria
 9783865278715

Table of contents :
ÍNDICE
INTRODUCCIÓN
1. ¿Qué es la Lingüística de Corpus? (Re)surgimiento, definiciones y antecedentes
2. ¿Cómo se puede trabajar desde la Lingüística del Corpus?: Procedimientos metodológicos
3. La interfaz El Grial como un sistema de anotación, interrogación y almacenamiento de corpus en español
4. Empiria e investigación de foco cuantitativo: Exploración de la variación multiregistros a través del Corpus del Español PUCV-2003
5. Empiria e investigación de foco cualitativo: Identificación de géneros académicos y géneros profesionales a través del Corpus del Español PUCV-2006
6. Compendio de bases de datos y recursos informáticos en línea
7. Reflexiones finales
REFERENCIAS BIBLIOGRÁFICAS

Citation preview

PARODI-01

29/1/10

11:06

Página 1

G i ova n n i Pa ro d i Lingüística de Corpus: de la teoría a la empiria

PARODI-01

29/1/10

11:06

Página 2

L I N G Ü Í S T I C A

I B E R OA M E R I C A N A Vo l . 4 0

DIRECTORES: MARIO BARRA JOVER, Université Paris VIII IGNACIO BOSQUE MUÑOZ, Universidad Complutense de Madrid ANTONIO BRIZ GÓMEZ, Universitat de València GUIOMAR CIAPUSCIO, Universidad de Buenos Aires CONCEPCIÓN COMPANY COMPANY, Universidad Nacional Autónoma de México STEVEN DWORKIN, University of Michigan ROLF EBERENZ, Université de Lausanne MARÍA TERESA FUENTES MORÁN, Universidad de Salamanca DANIEL JACOB, Universität Freiburg JOHANNES KABATEK, Eberhard-Karls-Universität Tübingen EMMA MARTINELL GIFRE, Universitat de Barcelona JOSÉ G. MORENO DE ALBA, Universidad Nacional Autónoma de México RALPH PENNY, University of London REINHOLD WERNER, Universität Augsburg

PARODI-01

29/1/10

11:06

Página 3

G i ova n n i Pa ro d i

Lingüística de Corpus: de la teoría a la empiria

I b e ro a m e r i c a n a



Ve r v u e r t



2010

PARODI-01

29/1/10

11:06

Página 4

Reservados todos los derechos © Iberoamericana, 2010 Amor de Dios, 1 – E-28014 Madrid Tel.: +34 91 429 35 22 Fax: +34 91 429 53 97 [email protected] www.ibero-americana.net © Vervuert, 2010 Elisabethenstr. 3-9 – D-60594 Frankfurt am Main Tel.: +49 69 597 46 17 Fax: +49 69 597 87 43 [email protected] www.ibero-americana.net ISBN 978-84-8489-501-5 (Iberoamericana) ISBN 978-3-86527-524-0 (Vervuert) Depósito Legal: Na-392/2010 Diseño de la cubierta: Carlos Zamora Impreso en España The paper on which this book is printed meets the requirements of ISO 9706

PARODI-01

29/1/10

11:06

Página 5

ÍNDICE

INTRODUCCIÓN...............................................................................................

9

1. ¿Qué es la Lingüística de Corpus? (Re)surgimiento, definiciones y antecedentes ............................................................................................

13

2. ¿Cómo se puede trabajar desde la Lingüística del Corpus?: Procedimientos metodológicos ..........................................................................

37

3. La interfaz El Grial como un sistema de anotación, interrogación y almacenamiento de corpus en español....................................................

53

4. Empiria e investigación de foco cuantitativo: Exploración de la variación multiregistros a través del Corpus del Español PUCV-2003 ..........

79

5. Empiria e investigación de foco cualitativo: Identificación de géneros académicos y géneros profesionales a través del Corpus del Español PUCV-2006 ............................................................................................

129

6. Compendio de bases de datos y recursos informáticos en línea ............

155

7. Reflexiones finales .................................................................................

165

REFERENCIAS BIBLIOGRÁFICAS ......................................................................

169

PARODI-01

29/1/10

11:06

Página 6

PARODI-01

29/1/10

11:06

Página 7

A Juani Ambel (Incansable revisora de mis textos y puntal imprescindible de mi vida)

PARODI-01

29/1/10

11:06

Página 8

PARODI-01

29/1/10

11:06

Página 9

INTRODUCCIÓN

Al iniciar las primeras líneas de la Introducción de este libro es lícito pensar que el lector que mire la portada del texto y lea su título estará plenamente autorizado a alguna de las siguientes preguntas, sino a todas: 1. ¿Por qué un libro acerca de lingüística de corpus? ¿Acaso los lingüistas no trabajan permanentemente con datos lingüísticos, vale decir, con corpus construidos a partir de enunciados lingüísticos? 2. ¿Por qué invertir tiempo, esfuerzo y –digámoslo– dinero en escribir una obra sobre algo que no parece de entrada nada novedoso? ¿No es verdad acaso que la lingüística y los corpus han estado siempre ligados de manera vital? 3. Y, ¿por qué un lector medianamente lego en la materia debería gastar tiempo y dedicación en la lectura de una obra que podría abordar cuestiones aparentemente obvias? O, ¿es que este libro es para no iniciados en lingüística y su audiencia esperada es una definitivamente no conocedora del ámbito de la lingüística? Ciertamente, apreciado lector, todas estas cavilaciones son prudentes y muy válidas. Y justamente en su misma génesis está el argumento que da origen al espacio para este libro. Contrariamente a lo que podría esperarse, el hecho de que existan estas preguntas es exactamente lo que valida la oportunidad de su escritura y de su nicho temático. Sí, en efecto, una parte de los supuestos que da fundamento a estas interrogantes es veraz y exacta. No obstante ello, otra parte es errónea, otra –tal vez– inexacta y otra muy posiblemente incompleta. Por todo ello, se merece la aclaración científica, la apertura de un flanco de discusión y el deleite de un sano debate. Es muy cierto que la recolección de datos lingüísticos de diversa naturaleza ha sido parte de las metodologías clásicas en las investigaciones lingüísticas desde antaño. Los corpus han desempeñado y siguen constituyendo una herramienta vital para las indagaciones de lenguas naturales y del lenguaje, y los lingüistas hemos hecho un empleo diverso de sus aplicaciones. En este libro propongo una nueva mirada al uso del corpus, entre otras, desde su formato digital, no como una moda pasajera restringida exclusivamente al modo de su almacenamiento sino que como un principio básico de investigación. Si bien los corpus pueden tener una naturaleza heterogénea según las motivaciones de los investi-

PARODI-01

10

29/1/10

11:06

Página 10

GIOVANNI PARODI

gadores, en los últimos tiempos con el desarrollo de la Lingüística de Corpus (LC), se ha impuesto una tendencia a recolectar textos naturales, completos y ecológicos, tratando también de alcanzar una relativa extensión y diversidad. Como bien se sabe, no existe una sola lingüística. Son actualmente muchas y muy variadas. Históricamente, la lingüística empírica y descriptivista en sentido clásico (inmanentista y antimentalista) se ha opuesto a la lingüística racionalista (innatista y mentalista). Estas dicotomías excluyentes y muy radicales no parecen sanas y se deben discutir estos quiebres en virtud de opciones más integradoras e interdisciplinarias. Sí parece existir un consenso en torno a estudios empíricamente asentados. Una de mis motivaciones para escribir este libro ha sido la de poner al alcance de los especialistas y también de los no iniciados algunas ideas que estimo constituyen una aproximación novedosa para indagar los hechos de las lenguas particulares y del lenguaje y que abren un terreno fecundo de exploración inter y transdisciplinario por medio de –al menos– la confluencia entre lingüística, informática y estadística. La hoy denominada Lingüística de Corpus es un área de la lingüística q ue ha adquirido un espacio independiente y se cultiva principalmente como metodología o enfoque lingüístico en investigaciones muy potentes. En este sentido, tal como trataré de mostrar en los capítulos siguientes, no creo que esta modalidad de hacer lingüística sea tan solo un renacimiento de los principios empiristas imperantes hace unos cincuenta años, exclusivamente con la incorporación de corpus digitalizados, con apoyo del computador y sofisticados programas informáticos. Es innegable que el concepto mismo de lenguaje ha evolucionado drásticamente y se ha enriquecido. La rica e interdisciplinaria mirada contemporánea acerca de las lenguas y del lenguaje, la cual hemos logrado construir al inicio del nuevo milenio, permite conceptualizar objetos mucho más complejos como nunca antes, pero –al mismo tiempo– extremadamente multifacéticos; ella nos impele a acentuar aproximaciones de análisis multidimensionales y, por supuesto, también altamente complejas. Muy posiblemente no cerraremos estas páginas con respuestas consensuadas de modo definitivo ni con certezas absolutas, pero vale la pena preguntarse si es eso lo que buscamos. Mi compromiso es aportar una reflexión científica no exenta de polémica dentro del escenario actual e intentar exponer mi propia versión de lo que comprendo hoy en día se define como Lingüística de Corpus. Obviamente este no es un campo clausurado y existen otras tantas versiones al respecto. Como queda claro, no todos los lingüistas de corpus coincidimos en una definición única y consensuada de lo que es o debe ser la LC, hecho por lo demás nada tiene de novedoso en ciencias. Tampoco parece haber consenso en lo que otros lingüistas no precisamente de corpus sostienen que debieran ser las preocu-

PARODI-01

29/1/10

11:06

Página 11

INTRODUCCIÓN

11

paciones o derroteros de la LC. Declarados estos hechos, resulta oportuno acotar que esta pléyade de opciones y amplia gama de posturas no hace nada más que enriquecer el desarrollo mismo de la LC y de generar un debate fecundo en torno a ella el cual sólo esperamos aumente su proyección y lleve a la LC a nuevos derroteros y mejores desarrollos. Desde esta mirada, es obvio que únicamente puedo ofrecer un conjunto de reflexiones que presentan mi comprensión sesgada de los hechos, a partir de revisiones bibliográficas que espero haber interpretado adecuadamente y a la luz de las cuales he construido un hilo conductor para estos pasos introductorios por los caminos de la LC. Ojalá este recorrido pueda iluminar a otros y los motive y llene de alegría, tal como yo he disfrutado el tiempo de construir este desafío. Por último, cabe hacer notar que una de las modalidades elegidas en la escritura de este libro ha sido la de recurrir a citas de autores clásicos en el ámbito de la LC y ofrecer tanto esta selección de aportes como nuestra traducción de ellas, dado que mayoritariamente están solo disponibles en lengua inglesa. Paso ahora a un muy breve comentario de la estructura del libro. Este se compone de seis capítulos y de las correspondientes referencias bibliográficas, tal vez algo más extensas de lo esperado (aunque estimo relevantes como dato obligado para quien se interese en profundizar cuestiones más adelante comentadas). En el Capítulo 1 se aborda la respuesta a la pregunta que ya se hacía al inicio de estas páginas, es decir, se busca respuesta a una definición de lo que se entiende por LC. También allí se explora el status que le cabría en el marco de los estudios lingüísticos y se contextualiza su (re)surgimiento. En el Capítulo 2 se pasa revista y se ejemplifica algunos procedimientos y herramientas típicas de las investigaciones en LC (entre otros, cálculo de frecuencia, concordancia, colocación); además, se describe los fundamentos y metodología de los análisis multirasgos, multiregistros y multidimensiones. Como un modo de vincular y aterrizar lo expuesto en los primeros dos capítulos, en el Capítulo 3 se presenta un recurso computacional que encarna los principios de la LC. Se trata de la descripción y ejemplificación del sitio web El Grial, herramienta de etiquetaje morfosintáctico, base de almacenamiento de corpus e interfaz de consulta de corpus electrónicos (www.elgrial.cl). En el Capítulo 4 se recoge una primera investigación realizada por miembros de la Escuela Lingüística de Valparaíso (www.linguistica.cl) de la Pontificia Universidad Católica de Valparaíso, Chile, en la cual se da cuenta del desarrollo e implementación de un análisis multidimensional a partir de un corpus especializado escrito técnico-profesional, contrastado con otros dos corpus: uno de tipo no-especializado escrito y otro general oral dialógico. La segunda investigación que se ofrece a modo de ejemplificación y pasos metodológicos prototípicos, incluida en el Capítulo 5, constituye una descripción de uno de los corpus académicos y profesionales más grande actualmente en ver-

PARODI-01

12

29/1/10

11:06

Página 12

GIOVANNI PARODI

sión en línea: Corpus PUCV-2006 del Español Académico y profesional. Este corpus, enfocado en la modalidad escrita de la lengua española, se encuentra segmentado por géneros y disciplinas científicas. En el siguiente capítulo (número 6), con un formato tipo base de datos, se ofrece una selección de sitios web con corpus disponibles en línea y habilitados con herramientas computacionales para el trabajo con corpus tanto para el español como para otras lenguas. Se cierra el libro con un último y muy breve capítulo en que expongo algunas reflexiones finales. Sin más, ¡Pongamos manos a la obra! GIOVANNI PARODI Viña del Mar, Chile, mayo, 2009

PARODI-01

29/1/10

11:06

Página 13

1. ¿QUÉ ES LA LINGÜÍSTICA DE CORPUS?: ( R E ) S U R G I M I E N T O, D E F I N I C I O N E S Y ANTECEDENTES

“La negación de lo obvio ha a menudo resultado fatal para el desarrollo del pensamiento científico. La falsa concepción del lenguaje como un medio de transfusión de ideas desde la cabeza del hablante hacia la del oyente ha viciado ampliamente, en mi opinión, el enfoque filosófico del lenguaje. La opción propuesta aquí no es exclusivamente académica: nos impele, como veremos, a correlacionar otras actividades, a interpretar el significado (texto); y esto quiere decir un nuevo escenario para el manejo de la evidencia lingüística. También nos empuja a definir el significado en términos de experiencia y situación” (Malinowski 1935: 9).

Introducción Las ideas de Malinowski, expresadas en la cita del epígrafe a propósito de un cambio de mirada que se consideraba por ese entonces necesario, motivan el inicio de este libro y dan marco a los cambios que propugnamos hoy. Así, sostengo que el avance en las ciencias del lenguaje y sus interdisciplinas debe beneficiarse del uso adecuado de las evidencias de todo tipo provenientes de los más diversos frentes (protocolos de verbalización, textos originales, elicitación de datos, técnicas estadísticas, mecanismos introspectivos, etc.). La información concurrente recolectada así fortalece y provee resultados robustos que justifican el desarrollo acumulativo del conocimiento científico. Desde esta perspectiva, es altamente relevante señalar que el empleo de los corpus como fuente de evidencias no es necesariamente incompatible con ningún tipo de teoría. Asuntos, todos estos, que elaboraremos más adelante, pero que resultan altamente significativos para un anclaje de arranque. Dicho esto, en este libro, a modo de una Introducción a la Lingüística de Corpus (de ahora en adelante LC), me ha parecido oportuno iniciar estableciendo en el punto de mira lo que se entiende por LC y las opciones que se ofrecen a quienes se inician en este ámbito. También he estimado prudente incluir mi propia definición junto a comentarios y discusiones al respecto. De modo más conciso, pretendo entregar una definición operacional de la LC, en el marco de una discusión abierta y en franco desarrollo. Así, busco aportar una reflexión en que se

PARODI-01

14

29/1/10

11:06

Página 14

GIOVANNI PARODI

explique, en parte, por qué durante un tiempo se produjo un menor impacto y difusión de la LC y cómo se ha gestado su (re)surgimiento e indiscutible potencial para los estudios lingüísticos contemporáneos. Cabe puntualizar que tanto en este como en los capítulos siguientes se abordan diversos asuntos relativos tanto a los fundamentos de la LC como a sus posibilidades metodológicas y el modo en que estos cambios han afectado el devenir de los estudios lingüísticos y sus interdisciplinas. Con esta perspectiva en mente, en este primer capítulo, reviso algunos temas centrales para la LC desde diversas escuelas de pensamiento. También se entregan definiciones operacionales de la LC y de los corpus, y se revisan sus características. Se perfilan aplicaciones prácticas y se enfrentan discusiones no necesariamente resueltas. Por último, se evalúan estos aportes en el marco de los desarrollos en curso. Una vez enunciado todo esto, abordemos sin más preámbulos lo que tenemos en el punto de mira.

1. ¿Qué es la lingüística de Corpus? El problema de definir a la lingüística de corpus y decidir si es una teoría o una metodología ha sido debatido desde diversas aproximaciones. Se ha argumentado en uno y otro flanco. Existe amplia bibliografía que aborda este asunto (e.g. Svartvik 1992; McEnery & Wilson 1996; Kennedy 1998; Stubbs 1996, 2001, 2007a; Tognini-Bonelli 2001). Su asociación con las tecnologías informáticas ha sido una fortaleza, pero también –para otros– una debilidad como argumento para una mirada más ambiciosa de corte teórico (De Kock 2001). Otros afirman que la LC va mucho más allá de un exclusivo rol metodológico (Tognini-Bonelli 2001). Sin importar el eje en que se cargue la balanza, un aporte fundamental es el decidido enfoque empírico que la LC trae consigo al focalizar datos observables a modo de evidencia científica y que se almacenan como corpus electrónicos. Ahora bien, de partida, afirmo que la LC en su versión actual constituye un enfoque metodológico para el estudio de las lenguas y que presenta oportunidades revolucionarias para la descripción, análisis, y enseñanza de discursos de todo tipo. También brinda una base empírica para el desarrollo de materiales educativos y metodológicos de diversa índole así como para la construcción de gramáticas, diccionarios y otros, tanto de discursos generales como especializados, orales y escritos. Desde esta óptica, sostengo que la LC constituye un conjunto o colección de principios metodológicos para estudiar cualquier dominio lingüístico y que se caracteriza por brindar sustento a la investigación de la lengua en uso a partir de corpus lingüísticos con sustrato en tecnología computacional y programas informáticos ad hoc.

PARODI-01

29/1/10

11:06

Página 15

¿QUÉ ES LA LINGÜÍSTICA DE CORPUS?

15

En este sentido, en mi opinión, la LC no se entiende como una rama o un área de la lingüística tal como son la fonología, la semántica, la sintaxis, sino que como un método de investigación que puede ser empleado en todas las ramas o áreas de la lingüística, en todos los niveles de la lengua y desde enfoques teóricos diferentes. Sus aplicaciones son múltiples y no limitan las posibilidades de indagación. Todo ello implica, por una parte, que la LC no opera como un enfoque metodológico extremadamente restrictivo, pues de ser así, se impediría cierta diversidad de opciones en el estudio de las lenguas particulares. Sin embargo, y como veremos en el desarrollo de este capítulo, adscribir a la LC también involucra un cierto modo de aproximación específica a los datos lingüísticos, ya que subyacen a este enfoque determinados principios fundamentales que lo tiñen de un grado de singularidad. Tal como propongo, la LC se define, strictu sensu, como una metodología para la investigación de las lenguas y del lenguaje, la cual permite llevar a cabo investigaciones empíricas en contextos auténticos y que se constituye en torno a ciertos principios reguladores poderosos. Desde este enfoque, se estudia información lingüística original y completa, compilada a través de corpus, dado que desde la LC no se apoya la indagación de datos fragmentados, inconexos o de textos incompletos, sino que de unidades de sentido y con propósitos comunicativos específicos. Como se dijo, desde esta opción metodológica, se puede explorar cualquier área o dominio de la lingüística y/o de los niveles del sistema de la lengua, pero desde una concepción particular de corpus (la cual abordaremos un poco más adelante). En este sentido, la LC aporta al estudio de corpus textuales digitales preferentemente de tamaño amplio y con soporte en tecnologías computacionales de variada índole, con énfasis en una aproximación empírica, basada en amplios conjuntos de datos reales y mayoritaria, pero no exclusivamente, con apoyo de técnicas estadísticas. De lo dicho hasta aquí, una cuestión se detecta como de alta relevancia. Aunque tengo claro que la LC no reúne requisitos fundamentales como para constituir plenamente una teoría del lenguaje en sí misma, cabe señalar que el concepto de lenguaje que detente cada investigador dará sustento epistemológico a la versión más específica de LC a la que se adhiera. Si bien es cierto que sostengo que la LC es un enfoque metodológico, lo es para el estudio de un objeto cuya naturaleza se vincula directamente con la metodología empleada. Por ello, mi propia visión de la LC la hace de suyo interdisciplinaria pues asumo una postura cognitiva, mentalista y socioconstructivista del lenguaje y, por ende, el estudio de una lengua particular (como el español) se enmarca en esta opción. Estimo que la visión que defiendo de la LC posee un carácter original, dado que se enfoca desde una concepción interdisciplinaria del lenguaje humano como

PARODI-01

16

29/1/10

11:06

Página 16

GIOVANNI PARODI

es la desarrollada por los miembros de la Escuela Lingüística de Valparaíso: www.linguistica.cl (Peronard & Gómez 1985; Peronard, Gómez, Parodi & Núñez 1998; Peronard 2007a; Parodi 2003, 2005a, 2007a). En parte, a través de esta opción, busco explícitamente deslindar la nuestra de otras visiones excesivamente descriptivistas e inmanentistas (en especial de aquellas con sesgos conductistas) y también de otras demasiado idealizadas del lenguaje humano. Todo ello con el fin de hacer sentir de modo certero el interés por los textos reales en uso y la variabilidad inherente a ellos y a las situaciones y contextos de su producción. Algunos de estos aspectos resultaron descuidados desde los estrechos límites del estructuralismo saussureano y del generativismo chomskiano, debido –en parte– a que el uso de la lengua (parole o actuación, según corresponda) era considerado demasiado cambiante e impredecible y, por consiguiente, inadecuado como objeto de ciencia. Desde la LC, con el despuntar del medio siglo XX, son muchos los lingüistas que anhelan indagar el uso lingüístico, tal como es producido, comunicado y comprendido entre hablantes/escribientes y oyentes/lectores reales y en situaciones concretas y particulares. Esta dimensión interdisciplinaria y vanguardista que propongo no será necesariamente compartida por todos los adherentes a la LC, ya que existen quienes propugnan una postura empiricista extremadamente radical en que los corpus solo deben ser objeto de análisis en sí mismos, desligados de sus productores y comprendedores, no permitiendo así el uso de categorías provenientes de otras esferas del conocimiento. A este tipo de LC es justamente a la que aludía en los párrafos precedentes. Tal es el caso de Teubert (2005: 5), defensor de una LC, en mi opinión, muy radical y antimentalista: Los conceptos y categorías derivadas del estudio introspectivo del lenguaje o de modelos provenientes de otras disciplinas (por ejemplo, computación) pueden no ser apropiados para la descripción de la información lingüística auténtica. Teubert (2005: 5)

En esta línea, el mismo Teubert (2005: 6), en relación al significado contenido en un texto, apunta que: El significado está en el discurso. Una vez que preguntamos por el significado de un segmento textual, sólo encontraremos la respuesta en el discurso, en los segmentos textuales anteriores que ayudan a interpretar este segmento, o en una nueva contribución que responda a nuestra pregunta. El significado no concierne al mundo fuera del discurso. No existe relación directa entre el discurso y el ‘mundo real’. Depende de cada individuo conectar el segmento textual a sus experiencias en primera persona […..] Cómo tal conexión funciona, está fuera del alcance del lingüista de corpus. Teubert (2005: 6; la cursiva es nuestra).

PARODI-01

29/1/10

11:06

Página 17

¿QUÉ ES LA LINGÜÍSTICA DE CORPUS?

17

Sin lugar a dudas, nuestra concepción de la LC no pretende tal nivel de radicalismo ni empirismo extremo. Tampoco coincidimos con la visión de texto/discurso que sostiene tal propuesta, pues nuestra opción es decididamente interdisciplinaria, cognitivista/mentalista (lo que no implica adherir a un innatismo radical) y desde una mirada psicosociolingüística del discurso (Parodi 2003, 2005a, b, 2007a; Peronard 2007a). Siguiendo las ideas de Teubert (2005), no parece posible –en mi opinión– aceptar que la LC pueda operar a partir de un objeto de estudio tan restringido y circunscrito como el que este lingüista describe y sobre una distinción entre oralidad y escritura con la que ciertamente no coincidimos: Para la lingüística de corpus, el significado de un texto o de un segmento textual es independiente de las intenciones de sus hablantes (su autor). La dislocación del hablante/autor de su texto distingue el lenguaje escrito (grabado) del lenguaje oral. En el lenguaje oral, el hablante está usualmente presente y si existe un fallo de comunicación, preguntamos: ‘¿Qué quieres decir?’ y no: ‘¿Qué significa esto?’ (Teubert 2005: 6).

Por su parte, para otros científicos como Leech (1992), la LC no es un campo ni un área de estudio, sino que un terreno determinado por el foco especial en los corpus con base en metodologías radicalmente diferentes, producto de la incorporación de los avances tecnológicos y de ciertas categorías prototípicas. Sinclair (1991) y Simpson y Swales (2001) argumentan que la LC es una técnica o una tecnología, cuyo fundamento es el corpus mismo y que sus consecuencias son potencialmente de consideración. La clave está en la construcción adecuada de un corpus representativo; de este modo, los resultados generados a partir de dicho corpus tendrán directa relación con la constitución de la base de datos. Así las cosas, aunque desde mi definición la LC no constituye una disciplina lingüística ni alcanza el estatus de un nuevo paradigma científico, ella sí cuenta con principios orientadores originales y con desarrollos informáticos específicos imprescindibles y muy sofisticados. También se debe puntualizar que la manera de entender un corpus ha evolucionado y que la explotación del mismo enfrenta desafíos y proyecciones jamás antes imaginados; sobre todo, en la posibilidad de dar pie para la construcción de nuevas teorías fundadas a partir de los datos de los corpus. Más adelante abordaremos la vertiente que propugna otro estatus para la LC: ella dice relación con la posibilidad de ser efectivamente una teoría y de constituir así un nuevo paradigma dentro de las ciencias del lenguaje y sus interdisciplinas. Otro aspecto relevante, que buscan los trabajos desde la LC, radica en el interés por el uso y la variabilidad lingüística. Por ello, existe una fuerte tendencia a las indagaciones multiregistros y/o multigéneros en los cuales es posible establecer comparaciones entre variedades de una lengua o incluso entre lenguas (ver Parodi 2005a, 2007b, c y d, 2008a y 2009).

PARODI-01

18

29/1/10

11:06

Página 18

GIOVANNI PARODI

Una cuestión central radica en qué diferencia a la LC de la década del cincuenta y sesenta del siglo pasado y el actual modo de hacer LC o de si existe o no tal diferencia y, de existir, de qué naturaleza sería. Allí reside la clave. En este contexto, es comprensible y se constata que algunos especialistas argumenten no estar de acuerdo en lo novedoso de este enfoque y ponen de relieve que los principios fundamentales de la hoy llamada LC ya han sido utilizados por la lingüística desde hace cincuenta o más años (Caravedo 1999). El núcleo de este argumento dice relación con que lo único novedoso de la versión actual de la LC sería el empleo de herramientas y soportes informáticos, y ello, en opinión de Caravedo (1999), sería asunto pasajero y podría responder a modas ilusorias. En palabras de esta investigadora, la lingüística no puede depender exclusivamente de un modo de almacenar la información para así llegar a defenderse que estamos en presencia de una nueva metodología y de alcances relevantes. Confío, en que en lo ya dicho y en lo que sigue del libro, brindo argumentos que revelan que esta opinión, desde mi mirada, no es correcta. Por último, vale la pena consignar que el uso que aquí defiendo del término LC es, en muchos sentidos, equivalente al de Lingüística de Corpus Computacional. No obstante ello, dado que partimos del supuesto de que tanto el soporte y proceso de digitalización de los corpus como el desarrollo y empleo de programas computacionales es parte inherente a la LC, no estimo pertinente utilizar tal adjetivo postmodificador (computacional). Otra cuestión muy diferente es la denominación de Lingüística Computacional de Corpus. Así, debe quedar claro que la adscripción a una “lingüística de corpus (computacional)” no reviste los mismos principios ni compromisos que a una “lingüística computacional (de corpus)”. Sin entrar en mayores profundidades, baste apuntar que la primera puede circunscribirse a un trabajo que preferentemente maneje textos digitales y se adhiera a un conjunto de principios metodológicos; mas, en la segunda opción, el centro de la mirada proviene desde la lingüística computacional propiamente dicha y puede que su material de trabajo sean corpus (obviamente digitales), pero su foco está en la construcción de modelos computacionales del lenguaje humano con el objetivo de crear gramáticas que luego puedan implementarse computacionalmente en sistemas automáticos de diversa índole (probablemente para la comprensión y producción del discurso). Por ello, en su versión más aplicada también es conocida como ingeniería lingüística o procesamiento del lenguaje natural.

2. La lingüística de la competencia y la lingüística del uso Tal como la preocupación por el estudio de la lengua en contexto y su correspondiente variación emana de manera simultánea a partir de múltiples vertientes,

PARODI-01

29/1/10

11:06

Página 19

¿QUÉ ES LA LINGÜÍSTICA DE CORPUS?

19

no resulta aconsejable limitar únicamente la discontinuidad de los estudios de corpus a la irrupción de un movimiento lingüístico como el chomskiano. Sin duda, existe más de una razón para justificar el des-énfasis en los estudios de corpus. No obstante ello, diversos investigadores coinciden en apuntar que la lingüística generativa constituyó una influencia decisiva y hegemónica en el devenir científico de las ciencias del lenguaje, diluyendo o debilitando el desarrollo de posturas que abordaban el estudio del lenguaje desde ópticas diversas; en particular, desde opciones que no coincidían en una definición idealizada del lenguaje ni de metodologías de índole hipotético deductivo (Francis 1979; Biber, Conrad, & Reppen 1998; Chafe 1992; Sinclair 1991; Leech 1991; Kennedy 1998; McEnery & Wilson 1996; Moreno 1998). Si bien es cierto que el generativismo aportó de manera crucial en materias nucleares acerca de la naturaleza del lenguaje humano, no es menos cierto que –entre otras– la visión idealizada del lenguaje (a saber, el estudio de la competencia lingüística) mantuvo un objeto de estudio casi único y se vieron difuminadas algunas investigaciones focalizadas en el estudio del lenguaje en uso (de la performance) y de la investigación de la variabilidad lingüística. Ello produjo una cierta discontinuidad o pérdida de impacto de ciertas líneas de investigaciones en lingüística. Sinclair (1991: 1) ilustra con claridad los efectos de lo limitado del enfoque generativista: Sedienta por falta de información adecuada, la lingüística languideció –de hecho– se volvió totalmente introvertida. Se hizo una moda mirar hacia adentro de la mente más que hacia la sociedad. La intuición se volvió la clave y se enfatizó la similitud de la estructura del lenguaje y varios modelos formales. El rol comunicativo del lenguaje fue escasamente mencionado. Sinclair (1991: 1)

Buscando una explicación a la falta de preocupación por el uso lingüístico, Chafe (1992) arguye que la naturaleza modular de la teoría impulsada por Chomsky, cuyo núcleo se fundamenta en que el sistema lingüístico opera de manera independiente del sistema cognitivo humano, se constituye en un impedimento al estudio del uso lingüístico. Chafe (1992: 81) afirma que: Una consecuencia de la visión modular del lenguaje humano es que sus adherentes no están interesados en la observación del uso del lenguaje cotidiano ya que consideran que lo más interesante acerca del lenguaje humano existe independientemente de su uso. Chafe (1992: 81)

Del mismo modo que la hegemonía generativista desestimó el estudio del lenguaje a través de corpus de textos naturales, también evadió un enfoque de dimensiones probabilísticas.

PARODI-01

20

29/1/10

11:06

Página 20

GIOVANNI PARODI

Enfatizando esta postura, Chomsky (1969: 38) opinaba que “se debe reconocer que la noción de «probabilidad de una oración» es completamente inútil, sea cual sea la interpretación de este término”. Este marco histórico diluyó de cierto modo el interés por los estudios basados en corpus. Al parecer, lograron únicamente mantenerse algunos enclaves lingüísticos en ciertas universidades que no seguían los postulados chomskianos pero que, para sobrevivir, vieron reducidos sus recursos económicos y el impacto de sus investigaciones (Kennedy 1998; McEnery & Wilson 1996). Ahora bien, la sucesión de estos cambios provocó una nueva manera de enfrentar la investigación científica, revitalizando el interés por los usos de las lenguas naturales y cotidianas y su inherente variabilidad. Esta renovada mirada alternativa nos enfrenta al renacimiento del empirismo, pero no necesariamente bajo la influencia de la lingüística estructural de corte behaviorista ni de la psicología conductista imperantes en los años cincuenta. Desde nuestra opción, propugnamos un empirismo moderado que se vincula con una perspectiva mentalista del lenguaje; hecho que, como ya se ha enfatizado, tampoco implica adherir a un innatismo extremo. Así, la oposición entre métodos basados en el conocimiento (Church & Mercer 1993) y métodos empiristas, tal como la oposición entre una llamada “lingüística del sillón” versus una “lingüística de corpus” (Fillmore 1992), son distinciones dicotómicas que ya no tienen cabida ante las visiones inter y transdisciplinarias, en donde se propende hacia integraciones y colaboraciones más eficientes entre los distintos ámbitos de las ciencias. Todo esto implica que la LC no está exclusivamente comprometida con una aproximación analítica cuantitativa, sino que una mirada cualitativa de los hechos lingüísticos es perfectamente posible y una integración entre ambos tipos de análisis resulta más que saludable y oportuna, siendo muy posiblemente el aporte en su conjunto lo que enriquezca el análisis; obviamente, dependiendo de las decisiones de cada investigador. Por supuesto, todo ello no impide la existencia de posturas extremadamente radicales, por un lado, en uno y otro polo de una opción deductivista o inductivista y, por otro, entre un análisis exclusivamente cuantitativo o cualitativo.

3. El concepto de corpus y algunos criterios metodológicos Definir lo que hoy en día se entiende por corpus en el ámbito de la LC no resulta una tarea simple. Existen complejidades de diversa índole, muchas veces entrecruzando planos, que resultan difíciles de soslayar. Algunas residen, por ejemplo, en el criterio de clasificación de los corpus; en si se enfoca un corpus electrónico, un corpus en papel, un corpus diacrónico, un corpus representativo, un

PARODI-01

29/1/10

11:06

Página 21

¿QUÉ ES LA LINGÜÍSTICA DE CORPUS?

21

corpus oral, un corpus ejemplar, un corpus estratificacional diversificado, un corpus de referencia, un corpus en paralelo, o un corpus incremental, etc. Una revisión bibliográfica somera permite comprobar la heterogeneidad de aproximaciones al concepto de corpus. Leech (1991, 1992), por su parte, sostiene que un corpus computacional se constituye en un fenómeno nada excitante, pues resuelta ser solo una gran cantidad de textos almacenados en un computador. En este sentido, de modo algo simplista, Leech enfatiza la idea de que este tipo de corpus podría ser solo una gran cantidad de textos con cierto formato. Según Leech (1992: 106) “…. un corpus computacional es un fenómeno nada excitante: un helluya enorme de textos, almacenados en un computador”. A pesar de ello, este mismo investigador reconoce que son las máquinas y este tipo de corpus digitales los que permiten realizar operaciones computacionales sobre cantidades masivas de textos, cosa impensable años atrás. En palabras de Leech (1991: 13): [...] la amplia disponibilidad de recursos de corpus computarizados ha permitido a los fenómenos sintácticos y léxicos de una lengua abrirse a la investigación empírica en una escala inimaginable. Leech (1991: 13)

Por su parte, Sinclair (1991: 171) sostiene que un corpus es: “[...] una colección de textos de ocurrencias de lenguaje natural, escogidos para caracterizar un estado o una variedad de lengua”. Esta anterior definición, se aprecia enriquecida en algunos aspectos en la propuesta de Crystal (1991: 32): Una colección de datos lingüísticos, ya sea de textos escritos o de transcripciones de habla grabada, los que pueden ser utilizados como punto de partida para descripciones lingüísticas o como un medio de verificación de hipótesis acerca de una lengua. Crystal (1991: 32)

En particular, las alusiones directas a la escritura y a la oralidad, en especial a esta última modalidad de la lengua, enfrentan complejos desafíos para alcanzar un nivel sofisticado de transcripción y etiquetaje enriquecido a través del cual se dé cuenta de aspectos vitales para las interacciones orales, por ejemplo, los suprasegmentales. Dentro de este panorama, una definición posiblemente más rica y afinada es la que aporta, en el marco de un proyecto de la Unión Europea, el Expert Advisory Group on Language Ingineering Standards (EAGLES). El grupo EAGLES realiza recomendaciones o propuestas de estandarización con el fin de coordinar los trabajos que se realizan en las diferentes lenguas de Europa. Para ello, evalúa métodos y sistemas existentes y a partir de estos análisis realiza sus propuestas. El proyecto a cargo del EAGLES busca la armonización de los

PARODI-01

22

29/1/10

11:06

Página 22

GIOVANNI PARODI

recursos lingüísticos en diferentes lenguas europeas. EAGLES no pretende, por lo tanto, producir un etiquetario morfosintáctico, sino más bien entregar directrices que ayuden en el desarrollo de uno. Se ha propuesto, por ejemplo, tres criterios orientadores: a) flexibilidad, b) apertura teórica, y c) búsqueda de consensos. En esta línea de acciones, para EAGLES, un corpus es: Una colección de partes de una lengua que son seleccionados y ordenados de acuerdo a explícitos criterios lingüísticos, con el fin de ser empleados como ejemplos de esa lengua [……] Un corpus el cual es codificado de un modo estandarizado y homogéneo para responder a tareas específicas de recuperación. (EAGLES 1996a)

Un breve análisis de esta propuesta permite detectar al menos, tres aspectos relevantes: 1) un corpus debe estar compuesto por textos producidos en situaciones reales, 2) la recolección de estas instancias de lengua en uso debe estar guiada por parámetros explícitos que permitan tener claridad de la constitución de las mismas, de modo que se apoyen tanto el análisis y se posibilite la replicabilidad en estudios posteriores, y 3) un corpus (aunque dicho de modo implícito) debe estar disponible en formato electrónico con el fin de ser analizado por medio de programas computacionales. Buscando apoyar la construcción de corpus, EAGLES (1996) propone algunas recomendaciones para que un corpus pueda considerarse como tal: 1. El corpus debe ser lo más extenso posible de acuerdo con las tecnologías disponibles en cada época 2. Debe incluir ejemplos de amplia gama de materiales en función de ser lo más representativo posible 3. Debe existir una clasificación intermedia en los géneros entre el corpus en total y las muestras individuales 4. Las muestras deben de ser tamaños similares 5. El corpus, como un todo, debe tener una procedencia clara Del mismo modo, Biber, Reppen, Clark y Walter (2001) proponen cuatro ventajas para adoptar una aproximación basada en corpus: 1. Adecuada representación del discurso en su forma de ocurrencia natural en muestras amplias y representativas a partir de textos originales 2. Procesamiento lingüístico (semi)automático de los textos mediante el uso de computadores. Ello permite análisis más amplios y profundos de los textos mediante conjuntos de rasgos lingüísticos caracterizadores 3. Mayor confiabilidad y certeza en los análisis cuantitativos de los rasgos lingüísticos en grandes muestras de textos

PARODI-01

29/1/10

11:06

Página 23

¿QUÉ ES LA LINGÜÍSTICA DE CORPUS?

23

4. Posibilidad de resultados acumulativos y replicables. Posteriores investigaciones pueden utilizar los mismos corpus u otros pueden ser analizados con las mismas herramientas computacionales Como se desprende, existe cierta coincidencia entre lo propuesto por EAGLES (1996a y b) y Biber y otros (2001). Aunque Biber y colaboradores (2001) también apuntan claramente hacia rasgos de la constitución de un corpus, se detecta que ellos buscan afianzar una perspectiva metodológica más particular, cual es la de los estudios multidimensionales y multiregistros (Biber & Tracy-Ventura 2007). Considerando lo hasta aquí discutido, es factible detectar tensiones en cuanto al concepto de corpus. Ya sea si este debe ser necesariamente uno de tipo digital o si aun es factible pensar en un conjunto de textos en papel. También se hace evidente que el asunto de la extensión cobra importancia. Seguramente se dirá que ello depende en gran medida de los objetivos de la investigación. Sin duda, ello es altamente relevante; no obstante, si se busca un proceso de investigación sinérgico con resultados de índole acumulativa y posibilidad de replicación, resulta indudable que se debe adherir a la mayoría de las indicaciones propuestas. En mi opinión, al menos, se pueden identificar ocho características relevantes, llegado el momento de construir y comprender los alcances de un corpus. Ellos se listan a continuación sin mediar ningún sesgo jerárquico. Como es obvio, este conjunto no está cerrado ni pretende estarlo: 1. 2. 3. 4. 5. 6. 7. 8.

Extensión Formato Representatividad Diversificación Marcado o etiquetado Procedencia Tamaño de las muestras Clasificación y adscripciones de tipos disciplinar, temático, etc.

No abordaremos puntualmente aquí cada uno de estos aspectos pues, estimo que ellos han sido o serán comentados a través de este libro. Solo los entrego a modo de resumen de los principios a tener en cuenta, en parte, como se dijo, dependiendo de los objetivos de cada investigador y de las posibilidades tecnológicas al alcance. No obstante ello, en lo revisado hasta aquí del concepto de corpus, una característica se hace recurrente y reviste ciertas complejidades: aquella denominada representatividad. Es bien sabido que incluso los grandes corpus no logran dar cuenta de la lengua como un todo ni tampoco se pretende que así sea.

PARODI-01

24

29/1/10

11:06

Página 24

GIOVANNI PARODI

La lengua en su dinamismo y heterogeneidad es mucho más rica de lo que se puede imaginar y no logra ser captada en un solo corpus, por gigantesco que sea su tamaño. Tal como apunta acertadamente Leech (2002), un corpus puede ofrecer información detallada acerca de una lengua particular, pero es imposible recolectar un corpus que abarque toda una lengua. Si ese fuera el caso, sería necesario recolectar todos los usos de dicha lengua. De este modo, se debe siempre tener presente que un corpus es sólo una colección finita de un universo infinito. Por ello, el desafío de contar con un corpus representativo de una variedad determinada de lengua –incluso de un único registro específico de tal o cual lengua– es una cuestión compleja debido a la enorme diversidad y variedad inherente a cada lengua particular. En cuanto a la llamada representatividad estadística, Biber (2005) entrega lineamientos y alternativas en la construcción de un corpus con atención a este asunto, pero –en mi opinión– solo aplicable desde ciertas perspectivas metodológicas. Muy posiblemente muchos de los investigadores en LC, y contrariamente a lo que sostiene Biber (2005), no buscan dotar a sus corpus de un carácter representativo, así entendido desde la metodología de la investigación científica y desde los principios estadísticos de representatividad (Hernández, Fernández & Baptista 2003; Hair, Anderson, Tatham & Black 1999). En este sentido, en lingüística, el universo de estudio (en el giro técnico) no es en muchas investigaciones fácilmente determinable ni calculable, por ende tampoco lo es la población o muestra estadísticamente representativa que de él se desprende. Por ejemplo, esto se aplica al trabajo con los corpus orales correspondientes, digamos, a una ciudad, cuyo universo no resulta del todo fácil de estimar. Es muy cierto que se podría determinar el tipo y cantidad de hablantes por estratos específicos, pero otra cosa es decidir el tamaño de cada entrevista, de cada grabación o de cada muestra textual. En otras palabras: ¿cuántas horas de entrevistas son necesarias para alcanzar la representatividad estadística del discurso oral en un registro específico de los hablantes de una ciudad cualquiera? Ciertamente es un asunto de complejidades. Algunos podrían decir que no existe límite. Otros pueden sostener que se deben hacer opciones y definir claramente los parámetros, variedades y estratos a abordar. Esto último es, sin duda, una salida posible. Al respecto, cabe señalar lo que sucede en el caso de la investigación de que se da cuenta en este libro. De cara al estudio del discurso especializado, se recolecta el total de textos escritos que circulan en una institución de educación durante un período formal de estudio sistemático. En otras palabras, el corpus está compuesto por el universo de los textos que reciben como lectura obligatoria y complementaria los alumnos de determinadas áreas técnico-profesionales como parte del currículo de formación. Este corpus constituye así el universo de indagación y en base a él, sí es factible determinar estadísticamente una muestra

PARODI-01

29/1/10

11:06

Página 25

¿QUÉ ES LA LINGÜÍSTICA DE CORPUS?

25

representativa. Por supuesto, que este no es siempre el caso en investigaciones lingüísticas. Otra opción es que, más bien, se busque una proporcionalidad adecuada del corpus y que ello conduzca a solo ciertas proyecciones. Por supuesto que no será posible realizar generalizaciones, como desde otros modelos estadísticos inferenciales. Así, queda claro que las indicaciones de Biber (2005) son prudentes, pero solo logran encontrar acogida en cierto tipo de investigaciones cuantitativas que logren, por ejemplo, determinar previamente en base al universo estudiado, su corpus de análisis.

3.1. MI DEFINICIÓN DE CORPUS Propongo, en términos iniciales, que un corpus es una colección o conjunto de textos que está formado por al menos dos o más textos (dicho de otro modo, corpus aquí sería algo así como corpus textuales). En este sentido, un corpus debe contener un número importante de textos que comparten ciertos rasgos definitorios, limitado solo por características inherentes a la naturaleza de los mismos. Partiendo de estas ideas, se puede afirmar que el objetivo de la LC sería el análisis y descripción de la lengua en uso, tal como se realiza a través de textos. De este modo, una premisa fundamental es que los textos son el medio primario de creación y transmisión de significado. Esta amplia y algo vaga definición preliminar permite, en mi opinión, que al menos, un par de textos constituya así un corpus (acogiendo todas posibilidades mono o multimodos o mono o multimedios). En este punto, es relevante señalar que un texto no es lo mismo que un corpus. Son diversas las comparaciones y contrastes que se puede ofrecer (TogniniBonelli 2001). De modo breve, baste decir que un texto se constituye en una pieza comunicativa única y que se define por su cierre semántico y su coherencia. Un corpus, por su parte, reúne un conjunto de unidades textuales y no es una única instancia comunicativa, tampoco cuenta con cierre de ningún tipo. En este sentido, un corpus busca entregar datos acerca de la lengua en una proyección mayor que la que busca un texto como instancia de habla. Así, unida a mi concepción de LC, mi definición de corpus corresponde a un conjunto amplio de textos digitales de naturaleza específica y que cuenta con una organización predeterminada en torno a categorías identificables para la descripción y análisis de una variedad de lengua. Este conjunto de textos debe mostrar, de preferencia, accesibilidad desde entornos computacionales y visibilidad de modo que se posibilite su uso en diversas investigaciones con el fin de asegurar acumulación de conocimientos e integración de la investigación de una lengua particular o en comparación con otra. También debe cumplir con aportar detalles

PARODI-01

26

29/1/10

11:06

Página 26

GIOVANNI PARODI

relevantes acerca de su recolección y procedencia. De modo más específico, se espera que se almacene en conjunto con otros corpus diversos con el fin que se permita su comparación e, idealmente, su contraste. Debe quedar claro que esta definición no se aplica a casos de corpus especializados, pues se comprende que muchas veces a estos solo existe acceso restringido o su naturaleza misma los hace escasos y, por ende, su tamaño puede ser muy reducido. En esta línea, entiendo que un corpus en la actualidad, de ser factible, debe cumplir algunas o todas estas características: 1. Recolección de textos en entornos naturales 2. Explicitud de los rasgos definitorios y compartidos por los textos constitutivos 3. Formato final de tipo digital plano (*.txt) para cada texto o documento 4. Tamaño, preferentemente, extenso 5. Respeto a principios ecológicos 6. Etiquetaje computacional semi-automático de naturaleza morfosintáctica u otra para cada texto 7. Disponibilidad a través de medios computacionales 8. Acceso a visualización completa de los textos que lo componen en formato plano 9. Búsqueda de principios de proporcionalidad o representatividad (posiblemente estadística) 10. Sustento o procedencia inicial especificada 11. Identificación de una organización en torno a temas, tipos de textos, registros, géneros, etc. 12. Registro de datos cuantitativos que permita la comparación y posible normalización de cifras Por su parte, respecto a los textos que componen un corpus, se espera que ellos preferentemente: 1. Sean unidades completas 2. Sean de modalidad oral, escrita o de diversas variedades multimodales las cuales deberán ser identificadas en detalle 3. Cuenten con registro del número de palabras y de oraciones que los componen 4. Cuenten con datos de proveniencia tales como fecha, contexto de recolección, recolector, etc. Enmarcado en estas ideas reguladoras, también estimo que un corpus debe mostrar más de alguna clasificación de la colección que recoge, ya sea de índole

PARODI-01

29/1/10

11:06

Página 27

¿QUÉ ES LA LINGÜÍSTICA DE CORPUS?

27

temática, de registro, de género o de disciplina. Idealmente un corpus debiera tender a una cierta representación, aceptando que esto encierra complejidades diversas. Adhiero a la idea de que debemos recolectar corpus muy amplios, tan extensos como sea factible, y que la cuestión de la “saturación” no resulta muy clara ni ventajosa en este tipo de investigaciones de corte más bien cuantitativo. En mi opinión, la constitución de un corpus debería, preferentemente, contar con la posibilidad de disponer de otros tipos de corpus de naturaleza diversa en alguna dimensión. Ello permite la comparación y, de este modo, el contraste hace emerger características distintivas y prototípicas que, de otro modo, sería imposible llegar a descubrir. En este sentido, la recolección de un solo y muy focalizado corpus, por amplio que sea, no brindará una gran riqueza en su descripción, salvo que ya se cuente con otros corpus disponibles previamente y, así, la comparación emerja con mayor facilidad. O, por el contrario, que se encuadre en objetivos de investigación muy acotados por sus recolectores e investigadores; o que busque constituirse en un sentido de pre-corpus. Desde esta óptica, la descripción de un corpus radica de modo importante en la búsqueda de una especificación de sus características prototípicas, las que –en mi opinión– resultan únicamente detectables de modo certero a través de la comparación y contraste con otros corpus diversos. Del mismo modo, este procedimiento también permite la determinación de similitudes y de rasgos idénticos y compartidos entre los corpus en estudio. Por ejemplo, en nuestras propias investigaciones esta cuestión emergió como un rasgo sorprendentemente clarificador, llegado el momento de caracterizar y describir un corpus de textos especializados escritos que circulaban en la educación técnica profesional chilena. Solo logramos identificar la prototipicidad del discurso de los textos escritos especializados de esta variedad de lengua cuando los comparamos con otros diversos, tales como un corpus de literatura latinoamericana escrita (CLL) y otro de entrevistas orales semi-estructuradas (CEO). Siguiendo esta última idea, y a pesar de lo dicho más arriba, estoy cierto que existen propósitos investigativos y realidades de estudio que no necesariamente deben cumplir con todas estas exigencias. Por ejemplo, se pueden efectuar estudios de pre-corpus con el fin de proponer hipótesis de trabajo o con el objetivo de explorar ciertas características o categorías para una posterior recolección más amplia y robusta. Dado un corpus altamente especializado, puede que sea imposible conseguir una amplia y variada cantidad de textos de esa naturaleza, pues el universo de textos puede ser muy restringido y escaso; el estudio de textos institucionalizados o profesionales impone restricciones de índole legal y ética que complejiza una recolección amplia y ecológica y, muchas veces, solo obliga a contar con muestras ejemplares o prototípicas (sus autores o usuarios deben respetar estrictas normas de confidencialidad con el fin de no difundir

PARODI-01

29/1/10

11:06

Página 28

28

GIOVANNI PARODI

información reservada que pueda dañar a terceros). No obstante ello, es muy cierto que la tendencia actual impone unas ciertas normas o principios que nos llevan a pensar que “más es mejor” y también que “mayor diversidad asegura mayor confiabilidad en la comparación”, en especial, de cara a una descripción profunda. Prueba de ello, son los corpus académicos y profesionales que constituyen el Corpus PUCV-2006, los cuales se constituyen en los corpus más grandes disponibles en línea en la lengua española, marcados y separados por géneros discursivos (al respecto ver, Parodi 2008a y 2009).

4. Nuevos orígenes de la LC El (re)florecimiento de los estudios basados en corpus se puede fijar a comienzos de la década del sesenta, marcado –en parte– por la fuerte irrupción de los computadores en el ámbito lingüístico y el desarrollo de grandes proyectos de investigación en Inglaterra y en los países escandinavos, a partir de la construcción de grandes corpus lingüísticos digitales para el inglés. Ellos constituyen el eje de avanzada de esta nueva reposición. Desde este escenario, es posible establecer, a lo menos, tres momentos relevantes. El primero surge, como se decía más arriba, a partir de la recolección de grandes corpus de textos auténticos, además de estar ahora debidamente digitalizados y operados a través de herramientas computacionales ad hoc. Estos corpus incluyen una diversidad de usos lingüísticos que permiten alcanzar observaciones generales acerca de la estructura y el uso de registros tanto orales como escritos por medio de una jerarquización y organización pertinente. Como es bien sabido, estos primeros avances se desarrollan básicamente para la lengua inglesa: el corpus Brown de inglés norteamericano escrito (constituido por reportes de prensa, documentos gubernamentales y narrativa de ficción) alcanzó un millón de palabras. Complementariamente, el corpus Lancaster-Oslo-Bergen (LOB), en su versión de inglés británico, compiló un millón de palabras. Como primer desarrollo que diera cuenta de la oralidad, el corpus London-Lund incluyó quinientas mil palabras de textos orales de inglés británico, incorporando una variedad importante de diversos géneros. Un dato importante de consignar es que, en su momento, estos corpus fueron considerados como construidos “a gran escala”, ya que superaban largamente el estudio de textos ejemplares o de corpus muy reducidos tradicionalmente almacenados en formato papel y organizados –muchas veces– a través de fichas. Desde esta óptica, los requerimientos de análisis semiautomáticos y exhaustivos de textos sobre la base de herramientas computacionales (tales como etiquetadores morfosintácticos) derivó en descripciones en términos probabilísticos y llevó al desarrollo de gramáticas independientes del contexto (context-free-

PARODI-01

29/1/10

11:06

Página 29

¿QUÉ ES LA LINGÜÍSTICA DE CORPUS?

29

grammars). Como se sabe, desde el enfoque probabilístico, la variación es tomada como parte integral del funcionamiento lingüístico en la formulación de los mecanismos de selección, ya que ellos emergen de distribuciones observables, frecuencias relativas y correlaciones estadísticas. La probabilidad de una secuencia de palabras se determina por la suma de las probabilidades individuales de todas las estructuras. En estos términos, una gramática probabilística es muy similar a algunas gramáticas convencionales, excepto que además de asignar un conjunto de estructuras para cada secuencia de palabras de una lengua, también entrega una probabilidad para cada una de ellas (Halliday 1992; Aarts 1991; Stubbs 1996, 2006, 2007b). Una característica importante de las gramáticas y de los etiquetadores probabilísticos es que se van construyendo a partir de la interacción entre unos resultados preliminares y la revisión de expertos que retroalimentan los posibles problemas del sistema, de modo que el etiquetador o la gramática en cuestión se vuelve cada vez más preciso y robusto. Un segundo giro o momento en la LC, en lo relativo a textos de orientación general, se detecta a partir de la década del ochenta. Este dice relación con la recolección de los megacorpus, los que según su nombre indica pasan a constituir dimensiones gigantescas. Ello nos lleva a mirar ahora a la denominada “primera generación de corpus digitales” y juzgarlos, desde la privilegiada mirada actual, como “de escala menor”. Algunos de los mega-corpus son el caso del corpus Bank of English que contiene 450 millones de palabras; el corpus Internacional de Cambridge con 100 millones de palabras; el corpus Longman del inglés oral y escrito, formado por 40 millones de palabras; y, el corpus Nacional Británico que alcanza 100 millones de palabras. Recientemente se encuentran en construcción algunos corpus de más de un billón de palabras, muchos de ellos compilados a partir de herramientas computacionales automáticas que utilizan la red de Internet como fuente de información. Un rasgo que vale la pena destacar y tener presente a partir de los corpus de lo que hemos denominado como segundo giro lo constituye el hecho de que la mayoría de estos megacorpus o de muchos de los corpus actualmente en construcción contienen, a diferencia de lo que sucedía con los primeros corpus digitales, textos completos más que secciones o trozos ejemplares de textos determinados (en algunos casos se extraían sólo 2.000 palabras por texto). Sin lugar a dudas, este hecho presenta implicancias considerables para cualquier análisis posterior, pues ya no se trabaja sobre textos mutilados o parcialmente representativos sino sobre unidades reales completas. Paralelamente, también se debe tener presente que estos nuevos grandes corpus se constituyen mucho más organizada y jerárquicamente, es decir, se establecen a partir de una conjugación de diversos tipos de variables diversificadas. Por ejemplo, acogen variedades orales y escritas, formales e informales, planificadas y espontáneas, monológicas y dialógicas

PARODI-01

30

29/1/10

11:06

Página 30

GIOVANNI PARODI

y, en el caso de la lengua inglesa, incorporan, al menos, variantes del inglés británico y del americano. Como se aprecia, sólo unas pocas décadas más tarde de su florecimiento, el perfil de la LC y de los corpus generales ha experimentado una tremenda transformación, ya no únicamente en cuanto a su tamaño sino también en términos de su composición interna, tornándose ésta cada vez más precisa, diversificada y de mayor impacto y envergadura. Estos desarrollos sólo han sido posibles gracias a un avance también vertiginoso que ha corrido en paralelo al de la LC como es el de la tecnología computacional, tanto en lo que dice relación con sistemas físicos (hardware) como de programas computacionales (software). Estos impresionantes avances tecnológicos, ejecutados en un periodo brevísimo de tiempo, han posibilitado la construcción y almacenamiento de estas bases de datos computarizadas así como el desarrollo de sistemas de interrogación y recuperación de la información contenida en dichos sistemas. El impacto de estos avances se refleja en la investigación focalizada en la lengua inglesa, en donde se ha explorado una amplia gama de rasgos lingüísticos a través de enormes cantidades de textos pertenecientes a variados tipos textuales (Biber 1988; Louwerse, McCarthy, McNamara & Graesser 2004). Todo ello ha dado origen a, entre otros, varias gramáticas y diccionarios, construidas desde los principios de la LC, las cuales reúnen y distinguen variantes regionales y usos de la lengua oral y la escrita (Quirk, Greenbaum, Leech & Svartvik 1985; Biber, Johansson, Leech, Conrad & Finegan 1999; Carter & McCarthy 2006). Estos avances para la lengua inglesa tienden a superar –de cierto modo– la clásica tendencia en la elaboración de gramáticas con una concentración preferente sino exclusiva en el modo escrito de la lengua, con base en un único registro y/o un único género y desde enfoques eminentemente normativos. Como se anunció, también es factible detectar un tercer giro. Este emerge debido al interés por estudiar los denominados discursos especializados. Esta variedad de discursos constituye normalmente, ya sea por su naturaleza o por otras razones, muestras relativamente pequeñas en comparación a los corpus de índole más general. Debido a que en algunas situaciones son textos escasos o a que se complica su disponibilidad por cuestiones de producción, acceso, ética o moral, su constitución suele ser reducida. Por ello, se identifica esta alternativa como un tercer giro en la cual nos movemos de los mega-corpus a corpus comparativamente más pequeños, pero altamente focalizados temática, estructural y/o funcionalmente. En todo caso, cabe puntualizar que este camino paralelo no necesariamente implica que todo corpus especializado deba ser de tamaño reducido, ya que es posible también contar con corpus de naturaleza no general y de tamaño considerable (Parodi 2005b, 2007b y c); incluso con corpus como el PUCV2006 que recoge géneros académicos y profesionales (Parodi 2008a y 2009).

PARODI-01

29/1/10

11:06

Página 31

¿QUÉ ES LA LINGÜÍSTICA DE CORPUS?

31

4.1. LA LC Y LA LENGUA ESPAÑOLA Desde la lengua española, la investigación reciente ha revelado la necesidad de enfatizar el uso de corpus digitales progresivamente más amplios y diversos con el fin de avanzar en descripciones lingüísticas más profundas y robustas, y también como un medio empírico eficaz de comprobar las hipótesis de los investigadores. Las distinciones entre, por ejemplo, un tipo de discurso especializado y uno de índole más general o de un tipo de registro escrito y otro oral solo últimamente han logrado ser descritas de manera más acuciosa, aunque aún de modo preliminar (al respecto, ver Parodi 2005b, 2007b y c). Desafortunadamente, ello todavía no logra materializarse en la forma de una gramática del español que dé cuenta de estructuras y usos diversos de esta lengua particular y que muestre la heterogeneidad de géneros, registros y modos actuales, incluso incorporando información, por ejemplo, fonológica, prosódica o de tipo “toma de turnos”, en el caso de textos orales (Leech 2000). Tampoco se ha impactado aún en el sistema educativo y en las metodologías de lenguas, aprovechando –por ejemplo– los hoy denominados “corpus de aprendientes o aprendices” (learner corpora). Ahora bien, debo aclarar que en este apartado no pretendo de modo alguno cubrir un relevamiento de las investigaciones en curso ni de los grupos que actualmente llevan a cabo trabajos dentro de los amplios marcos de los estudios de o con corpus. Comentamos sucintamente líneas iniciales y bosquejamos grosso modo la situación actual. La investigación pionera en torno a la lengua española registra tanto en Latinoamérica como en España proyectos señeros muy relevantes como el Proyecto de Estudio coordinado de la norma lingüística culta de la principales ciudades de España e Ibero América, más conocido como proyecto de la Norma Culta. Esta iniciativa, sin lugar a dudas, abrió y consolidó una oportunidad de trabajo mancomunado con investigaciones enmarcadas en principios de la LC, aunque sin los apoyos tecnológicos actuales (entre otros, Lope Blanch 1969, 1977, 1990, 1994; Rabanales & Contreras 1979; Oyanedel & Samaniego 1998; Matus 2002). También cabe destacar obras como la de Paul Garvin, Breve Introducción a la Computación Lingüística, inicialmente publicada en Perú por la Universidad Mayor de San Marcos en el año 1969. En este libro se entregan herramientas y fundamentos informáticos y de lo que hoy denominamos LC para realizar trabajos en lingüística descriptiva. La obra es un compendio realizado a partir de conferencias y seminarios organizados por el PILEI (Programa Interamericano de Lingüística y Enseñanza de Idiomas) y la ALFAL (Asociación de Lingüística y Filología de América Latina) y que Garvin dictó en Montevideo, Uruguay. El texto definitivo fue revisado y editado por tan destacados especialistas como J. P. Rona, W. Mesías y A. Escobar.

PARODI-01

32

29/1/10

11:06

Página 32

GIOVANNI PARODI

Dentro de esta panorámica, aunque comparativamente de modo tardío, los estudiosos del español se han venido incorporando al campo de la LC en los términos actuales y han empleado las técnicas de recolección y construcción en cuestión. Un ejemplo interesante de acceso en línea y de modo gratuito lo constituye el trabajo que, en esta perspectiva, la Real Academia Española de la Lengua ha venido desarrollando. Ello se ha materializado en un sitio web con una interfaz de consulta de concordancias con dos corpus disponibles en línea: el Corpus de Referencia del Español Actual (CREA), que alcanza cerca de 140 millones de formas y el Corpus Diacrónico del Español (CORDE), que consta de 180 millones de formas. También cabe destacar que la RAE a través de su Departamento de Lingüística Computacional se encuentra implementando herramientas de análisis lingüístico que se espera estén disponibles en línea en un futuro próximo. Otro ejemplo muy relevante y que busca continuar los trabajos del proyecto de la Norma Culta lo constituye el gran proyecto PRESEEA (Proyecto para el Estudio Sociolingüístico del Español de España y de América). Este proyecto tiene como objetivo la creación de un corpus del español hablado representativo del mundo hispánico en su variedad geográfica y social. El proyecto se organiza en torno a la investigación en paralelo y coordinada de investigadores comprometidos con una metodología común para reunir un banco de materiales coherente que posibilite su aplicación con fines educativos y tecnológicos. En este contexto, el proyecto PRESEEA agrupa a cerca de 40 equipos de investigación sociolingüística en diversas partes del mundo. Cabe destacar que el material es recopilado atendiendo a la variedad sociolingüística de las comunidades hablantes de español. Entre otros varios grupos, un eje de acciones es el desarrollado por el Grupo Val.Es.Co en España, particularmente en cuanto a la lengua oral y registro coloquial y variedad conversacional (Briz & Grupo Val.Es.Co. 2002; Pons & Ruiz 2005). También se debe destacar, entre otros, los trabajos del equipo de la Universidad de Santiago de Compostela con la Base de Datos Sintácticos del español actual (www.bds.usc.es) y del grupo del Instituto de Lingüística Aplicada de la Universidad Pompeu Fabra (http//:bwananet.iula.upf.edu). No obstante ello, existen ya una serie de bancos de datos y de recursos para el español disponibles gratuitamente en Internet, creados ya sea como iniciativas académicas institucionales y/o personales, algunos quedan registrados en la publicación del Instituto Cervantes (1996), otros en De Kock (2001) y en Parodi (2007b). Entre estos corpus en línea, es destacable el denominado Corpus del Español, creado por Mark Davis de la Universidad de Brigham Young en Estados Unidos de Norteamérica. Este corpus de más de cien millones de palabras ha sido patrocinado por el NEH durante los años 2001 y 2002 y el sistema computacional que lo sostiene cuenta con una diversidad de búsquedas, las cuales permite una gran cantidad de indagaciones a partir de un corpus de gran tamaño. Como parte de

PARODI-01

29/1/10

11:06

Página 33

¿QUÉ ES LA LINGÜÍSTICA DE CORPUS?

33

los accesos disponibles, se encuentra una sección diacrónica muy amplia. También está disponible una sección, elaborada por Davis junto a Douglas Biber, en que es posible efectuar búsquedas comparativas a través de diversos registros. Por supuesto que también destacamos nuestros propios avances en esta línea tanto en investigaciones empíricas señeras para el español (ver Parodi 2004, 2005a, 2007b y c) como en desarrollo de tecnologías ad hoc (ver Parodi & Venegas 2004, Parodi 2007d, Venegas & Silva 2007). En particular, resaltamos la mirada multigéneros, multiregistros y multimodos que nuestro equipo ha privilegiado desde sus comienzos, lo mismo que el impacto que ello ha tenido en tesis de pregrado, maestría y doctorado (Sabaj 2004; Venegas 2005; González 2005; King 2006; Silva 2006; Gutiérrez 2007; Ferrari 2007).

5. ¿Es la LC solo una metodología o una teoría? La pregunta que da origen a este apartado revela que, aunque pueda hasta aquí haber aportado a la discusión del debate acerca de la LC como una metodología lingüística, aún se sigue debatiendo acerca de si la LC puede alcanzar un grado de independencia tal que le permita constituirse en un nuevo paradigma. Así, si uno se posiciona exclusivamente desde el nivel de los principios metodológicos, innegablemente sus aportes son innovadores y brindan gran soporte para un número creciente de investigaciones cuyos resultados, entre otros, se capitalizan hacia la elaboración de gramáticas y materiales didácticos, la construcción de diccionarios, diversas aportaciones a la ingeniería lingüística, a las tecnologías del habla, a los sistemas de recuperación de información y también, por supuesto, para las investigaciones de interés lingüístico per se. Es oportuno hacer notar que la aceptación y adhesión a este enfoque metodológico, de enorme importancia, acarrea dificultades o (pseudo) problemas que conviene tener presentes pues su consideración hará más potente sus desarrollos (Rojo 2002). Desde una mirada más ambiciosa, si se busca posicionar a la lingüística de corpus como una teoría explicativa de –al menos– parte del funcionamiento de la mente, las exigencias son mayores. De hecho, si se concibe el lenguaje humano como una facultad probabilística (Charniak 1996; Manning & Schütze 1999; Bod 2003; Juraksky 2003) y se acepta el procesamiento estadístico del lenguaje natural como un modo de operar de la mente, nos encontramos frente a un paradigma emergente. Ello pues los argumentos buscan ir más allá que principios metodológicos, sino que tratan de sustentar bases epistemológicas de la forma de procesar información por el ser humano, de la naturaleza de los datos lingüísticos y de la facultad del lenguaje. Desde luego, se deberá decidir si su visión más radical, posiblemente anclada en concepciones conexionistas del cerebro, con la

PARODI-01

34

29/1/10

11:06

Página 34

GIOVANNI PARODI

consecuente negación de la mente con capacidad de representación simbólica del lenguaje es una alternativa plausible. En una versión extrema de esta naturaleza, es factible que la mente podría no existir y el procesamiento lingüístico quedaría restringido a una compleja red neuronal amparada en la metáfora de múltiples sistemas vectoriales interrelacionados. Posturas intermedias, llamadas híbridas (Kintsch 1998), parecen encontrar por ahora mayor acogida. Aunque el modo en que relacionan representaciones proposicionales simbólicas con modelos conexionistas (e incluso corpóreos) no está aún suficientemente explicitado (Parodi 2003, 2005b, 2007a; Ibáñez 2007a). Resulta entonces altamente necesario preguntarse por el concepto de lenguaje que subyace a esta postura. Desde este enfoque, la LC llevaría a comprender el lenguaje humano como un fenómeno estadístico de índole estocástico. Concordando con esta postura, Bod (2003) postula que existiría una facultad probabilística exclusiva al ser humano. Por su parte, Moreno (1998), coincidiendo en esta línea, postula que el lenguaje humano es un mecanismo computacional de carácter biológico propio al ser humano. Ahora bien, desde otros puntos de mira, Chafe (1992) parece ser, junto a Stubbs (1996, 2006) y Tognini-Bonelli (2001), alguno de los más entusiastas respecto a la LC en sus potencialidades como teoría; no obstante ello, Chafe aboga al igual que Fillmore (1992) por el trabajo mancomunado de técnicas de investigación diversas (tanto cuantitativas como cualitativas), argumentando que las cuantitativas por sí solas no logran revelar los aspectos más profundos del lenguaje y la mente. Esta propuesta de Chafe (1994) resulta muy posiblemente la más interesante y vanguardista en cuanto visualiza que la tarea del lingüista de corpus es tratar de estudiar el lenguaje y, a través de éste, llegar a la mente humana, es decir, indaga la naturaleza del lenguaje como una manifestación de la mente con especial atención a la conciencia humana. No obstante ello, es cauteloso en cuanto a las etiquetas para uno u otro tipo de lingüística y, en definitiva, se inclina por denominaciones más genéricas que no provoquen disputas clásicas: introspección/experimentación (Chafe 1992, 1994). Stubbs (1996, 2006), a pesar de ser uno de los fuertes defensores de la LC como teoría, también deja entrever algunas reservas. Este científico sostiene que el empleo de corpus digitales otorga una nueva manera de considerar la relación entre los datos y la teoría, revelando cómo la teoría puede fundarse a partir de corpus accesibles de lenguaje natural. Para este investigador, la teoría puede emerger inductivamente de los datos, dando así fuerza a una lingüística sustentada en corpus. En palabras de Stubbs (1996: 231): La lingüística de corpus presenta aún sólo lineamientos muy preliminares de una teoría que pueda relacionar textos individuales con corpus textuales, que pueda usar

PARODI-01

29/1/10

11:06

Página 35

¿QUÉ ES LA LINGÜÍSTICA DE CORPUS?

35

lo que es frecuente en los corpus para identificar lo que es típico del lenguaje, y que pueda usar los hallazgos acerca de los patrones frecuentemente recurrentes para construir una teoría que relacione el uso rutinario y creativo del uso lingüístico. Stubbs (1996: 231)

Comentario final En este capítulo he buscado entregar algunas reflexiones acerca de la LC y argumentar a favor de mi visión particular acerca de ella. Queda claro que no existe aún una posición homogénea. Tal vez nunca exista; los principios epistemológicos subyacentes son altamente diversos y, en algunos casos, irreconciliables. El recorrido ha pretendido ser abierto y con bibliografía que permita al interesado consultar otras fuentes y juzgar los aportes por sí mismo. Así las cosas, el desarrollo de la LC continúa en un marco extraordinariamente interesante y en ebullición. Las implicancias, que la perspectiva teórica (ya sea profunda o superficial. cf. Hunston & Thompson 2006) pueda traer consigo, anuncia –de algún modo– que estamos en medio de un proceso de cambios y ajustes, y avanzando hacia una mirada cada vez más compleja y enriquecida de los objetos de estudio. Miradas que ciertamente (tal como decíamos en la Introducción del libro) potencian la indagaciones empíricas del lenguaje y de las lenguas particulares, desde múltiples puntos de mira y haciendo confluir aproximaciones antes impensadas. En los capítulos posteriores, enfocaremos de modo específico herramientas tecnológicas y principios empíricos para el trabajo (principalmente) con corpus electrónicos. También exploramos una investigación en que ponemos en práctica varios de estos recursos.

PARODI-01

29/1/10

11:06

Página 36

PARODI-01

29/1/10

11:06

Página 37

2. ¿CÓMO SE PUEDE TRABAJAR DESDE LA LINGÜÍSTICA DE CORPUS?: PROCEDIMIENTOS METODOLÓGICOS

Introducción En este apartado centro la atención en ciertos procedimientos que se pueden seguir en una investigación en el marco de la LC. Se pasará revista a algunos principios metodológicos genéricos, ciertas herramientas fundamentales y, posteriormente, focalizaré los fundamentos de los análisis multirasgos (AMR), análisis multiregistros (AMR), y análisis multidimensiones (AMD), desarrollados inicialmente por Douglas Biber para la lengua inglesa. Ellos serán contextualizados, parte en este capítulo y parte en el capítulo siguiente, en el marco de investigaciones llevadas a cabo por el equipo que coordino en la Pontificia Universidad Católica de Valparaíso, Chile.

1. Principios generales de la LC Existen cuatro rasgos de la LC que se consideran típicamente característicos de un estudio desde este enfoque. Ellos son: 1. La LC es empírica, ya que se analizan patrones de uso lingüístico real en textos naturales 2. La LC utiliza una amplia y organizada colección de textos naturales como base del análisis, entendida como un corpus 3. La LC hace uso de los computadores para procesamientos y análisis, con base en técnicas automáticas e interactivas 4. La LC depende tanto de técnicas analíticas de tipo cuantitativo como cualitativo Estas cuatro características se vinculan directamente a los antecedentes comentados en el Capítulo 1 y son coherentes con lo que se entiende por LC. A estos se suman algunos otros principios relevantes y complementarios, que según Biber, Reppen, Clark y Walter (2001) aportan decididamente a un enfoque basado en la LC. Ellos dicen relación con:

PARODI-01

38

29/1/10

11:06

Página 38

GIOVANNI PARODI

• La adecuada representación del discurso en su forma de ocurrencia natural a través de muestras amplias y representativas compiladas a partir de textos originales • El procesamiento lingüístico (semi)automático de los textos mediante el uso de computadores, lo que permite un análisis mucho más amplio y profundo de los textos mediante un vasto conjunto de rasgos lingüísticos caracterizadores • Mayor confiabilidad y certeza en los análisis cuantitativos de los rasgos lingüísticos en grandes muestras de textos • La posibilidad de contar con resultados acumulativos y altamente fiables • Posteriores investigaciones pueden utilizar los mismos corpus u otros corpus pueden ser analizados con las mismas herramientas computacionales La congruencia con estos principios implica otra serie de requerimientos no siempre sencillos de ejecutar y tener al alcance: a. Diseñar y recolectar un corpus digitalizado que sea medianamente aceptado como representativo b. Contar con programas computacionales automáticos para etiquetar morfosintácticamente los textos c. Disponer de una interfaz computacional de consulta en línea d. Utilizar programas estadísticos para determinar las relaciones entre las variables en estudio Es muy cierto que –particularmente para el caso del español– la tecnologización de la investigación aún es escasa y que tanto el desarrollo de programas computacionales como de tecnologías requeridas aún no se encuentran accesibles de manera amplia y expedita. Sí contamos con algunas herramientas, en la mayoría de los casos disponibles en línea (al respecto, véase Capítulo 3), pero no con abundantes investigaciones que apoyen y se enmarquen en sentido estricto en esta nueva opción. Según nuestro punto de vista, la superación de esta barrera metodológica y tecnológica no puede ser postergada si buscamos, efectivamente, producir investigación científica competitiva y de primer orden. La superación de la brecha digital debe dejar de ser una utopía en nuestro medio, de modo que nuestras investigaciones alcancen rango comparativo internacional y, así, el acceso al conocimiento especializado esté disponible más democráticamente y nos permita alcanzar mayor impacto mundial desde lo que se indaga acerca de la lengua española.

PARODI-01

29/1/10

11:06

Página 39

¿CÓMO SE PUEDE TRABAJAR DESDE LA LINGÜÍSTICA DE CORPUS?

39

Dicho esto, respecto de la representatividad de los estudios lingüísticos basados en corpus, Biber (1994) defiende dos ideas que nos resultan extremadamente significativas: 1) todo corpus debe tener una amplitud importante, y 2) un corpus debe contener registros o categorías textuales diversificadas y balanceadas Ello conlleva mayor validez de las conclusiones y permite la comparación y la generalización. La primera de estas ideas ha sido destacada en la bibliografía acerca de lingüística de corpus en los últimos veinte años (Francis 1979; Leech 1991, 1992; Sinclair 1982, 1991; Johansson 1991; Stubbs 1996, 2006). La segunda resulta ser más original y constituye uno de sus importantes aportes en torno a la cual Biber ha desarrollado sus investigaciones en diversas lenguas: la variación lingüística a través de diferentes registros orales y escritos. Queda claro que estos principios no se limitan a un solo espectro de la lengua, sino que muy por el contrario sirven de marco para indagar cualquier aspecto o nivel deseado: léxico, sintáctico, semántico, fonológico, discursivo.

2. Marcaje estructural y anotación lingüística Un corpus puede consistir en un par de textos simples, sin información adicional acerca de sus orígenes, autor, año de publicación (si fuera el caso), estructura, idioma original, o contenidos. Sin embargo, disponer de esta información y hacerlo con un formato de marcaje computacional enriquece y hace mucho más útil el corpus, particularmente para los investigadores que no estuvieron involucrados en su compilación. Por ende, llegado el momento de constituir un corpus, es imprescindible contar con un sistema de registro de la mayor cantidad de datos posibles. El marcaje estructural dice relación con el uso de ciertos códigos que se insertan, ya sea al inicio del texto mismo o adjunto en otro documento, con el fin de identificar sus características estructurales. Este tipo de marcaje suele denominarse “cabecera” (Header). Existen otros tipo de marcajes que pueden incluirse dentro del texto y que, por ejemplo, en el caso de un texto oral dialógico contendrían información acerca de los turnos de los hablantes, identificación de los mismos participantes y rasgos paralingüísticos. Además de las cabeceras que brindan información acerca del texto y sus circunstancias de producción, recolección y otros, un corpus puede también estar codificado con cierto tipo de información lingüística muy específica. Existen diversos tipos de anotaciones o etiquetajes lingüísticos que se implementan para

PARODI-01

29/1/10

40

11:06

Página 40

GIOVANNI PARODI

hacer de un corpus un recurso sofisticado y poderoso. La más clásica anotación es la conocida como POS (del inglés, Parts-of-Speech). Esta anotación morfológica asigna una etiqueta con una categoría gramatical a cada palabra del corpus y su nivel de especificidad puede variar dependiendo de cuan poderosa sea la gramática que se ha implementado computacionalmente y de los recursos de la interfaz de consulta. Por ejemplo, un etiquetador morfológico (tagger) puede codificar del siguiente modo la oración “Los peces pueden comer algas”: 1. 2. 3. 4. 5.

los (Artículo definido masculino plural) peces (Sustantivo común masculino plural) pueden (Verbo modal) comer (Verbo principal) algas (Sustantivo común femenino plural)

Como se aprecia, los niveles de especificidad pueden variar grandemente desde una etiqueta superficial muy general y vaga (por ejemplo: Artículo) hasta una categorización más profunda y con subespecificaciones. Así, las codificaciones potenciales llegan a ser diversas, dependiendo del tipo de corpus, de los intereses del investigador y de las herramientas disponibles y el grado de desarrollo de las mismas. Otra anotación muy clásica, pero con mayor nivel de complejidad y que suele presentar un menor grado de fiabilidad, es el etiquetador o analizador sintáctico o morfosintáctico (parser). En el caso de la oración anterior, un analizador sintáctico podría codificarla como sigue: 1. los peces (Grupo Nominal - Sujeto) 2. pueden comer (Grupo Verbal - Verbo auxiliar modal - Verbo Principal Transitivo) 3. algas (Grupo Nominal - Complemento del Nombre) En este análisis se mezclan niveles diferentes y se agrupan formas lingüísticas desde una perspectiva más bien sintáctica. Más arriba se decía que estas etiquetas presentan un mayor nivel de complejidad para un analizador automático, ya que normalmente se alcanza un grado de error mayor que en un análisis exclusivamente morfológico. Otros tipos de anotaciones pueden considerar rasgos prosódicos o fonéticos, también marcas funcionales o de tipo caso gramatical. Como se comprende, no cabe duda que el desarrollo de anotadores automáticos constituye un área de gran potencial en el marco de la LC, los cuales aún requieren gran esfuerzo y son en la actualidad un polo de enorme desafío tecnológico. De hecho, la mayoría de

PARODI-01

29/1/10

11:06

Página 41

¿CÓMO SE PUEDE TRABAJAR DESDE LA LINGÜÍSTICA DE CORPUS?

41

las investigaciones que utilizan analizadores automáticos deben considerar una fase de revisión manual del corpus inicialmente anotado, antes de proceder a ejecutar conteos o sondeos investigativos de cualquier tipo; ello si no se quiere contar con un porcentaje de error (en muchos etiquetadores de este tipo –parser– se suele alcanzar cerca de un 7% a 15% error). Son diversos los tipos de problemas que un etiquetador (tipo parser o tagger) debe enfrentar; entre otros, cabe destacar el polifuncionalismo de muchas palabras. A modo de ejemplo, considérese la palabra poder: ella puede funcionar como un sustantivo o un verbo modal. Por ello, un etiquetador debe ser capaz de desambiguarla contextualmente. También es factible trabajar con corpus no marcados ni etiquetados a través de diversos programas computacionales o tan solo por medio de hojas de Excel o documentos en Word, dependiendo de los propósitos de la investigación. No obstante, desde algunas perspectivas, resulta imposible recuperar o analizar automáticamente determinada información sin un corpus que tenga anotaciones de mayor delicadeza y profundidad. Existen también programas que operan exclusivamente con textos no marcados. Muchos de ellos trabajan únicamente sobre las denominadas formas y no operan con anotaciones sobre categorías gramaticales ni de otro tipo. Dentro de estos últimos tipos comentados, existe un tipo de análisis estadístico computacional que se ha hecho muy popular en los últimos años. Este es conocido por su sigla en inglés: LSA (Latent Semantic Analysis). Este sistema de análisis semántico, que no presta atención a la morfología ni sintaxis, opera sobre grandes cantidades de textos planos no marcados y fue desarrollado inicialmente para el idioma inglés (Deerwester, Dumais, Furnas, Landauer & Harshman 1990; Dumais 1994). En la actualidad ya se cuenta con desarrollos para el español (Venegas 2003, 2007; Gutiérrez 2005; Pérez, Gliozzo, Alfonseca, Strapparava, Magnini & Rodríguez 2005). El Análisis Semántico Latente es una técnica matemático/estadística para extraer y representar la similitud de tipo léxico semántico colocacional del significado de palabras y partes de textos o textos completos por medio del análisis de grandes cantidades de textos no marcados, tematizados y/o por género discursivo. Utiliza para ello la descomposición de valores singulares, una forma general del análisis factorial, con el fin de condensar una matriz de proporciones de información de palabras-en-contexto en una representación dimensional mucho más pequeña.

3. ¿Qué nos puede decir un corpus?: Conteo de palabras y otros procesamientos básicos Sin lugar a dudas la información que un corpus puede contener es infinita y cada investigador debe explorar y buscar respuestas a diversos tipos de preguntas que

PARODI-01

42

29/1/10

11:06

Página 42

GIOVANNI PARODI

un determinado corpus puede estimular o para las cuales ha sido recolectado. Como es obvio, son múltiples los niveles y tipos de datos que pueden provenir de un corpus, dependiendo de si está etiquetado o no. Si lo está, la información variará según el tipo de etiquetas de que haya sido provisto, o sea, de la gramática que le subyace. Las posibilidades de consulta de un corpus varían desde una simple lista de palabras para catalogar estructuras gramaticales o para obtener un porcentaje de ocurrencia léxica que pueden revelar patrones de asociaciones lingüísticas y no lingüísticas hasta complejas búsquedas avanzadas a través de operadores booleanos y cadenas léxicas o gramaticales, entre otros. También cabe la incorporación de paquetes estadísticos que calculan paralelamente índices de correlación, etc. Existen análisis que permiten explorar rasgos lexicales individuales o agrupamientos de rasgos co-ocurrentes a lo largo de un texto o de un grupo de textos (al respecto, véase el apartado El Manchador de Textos en el Capítulo 3). Una de las herramientas más básicas y clásicas que extraen información de un corpus es la frecuencia de ocurrencia. A través de ella, lo que se obtiene es una lista de palabras, ya sea organizada alfabéticamente o por orden de frecuencia de ocurrencia (desde la más, hasta la menos frecuente). Estas listas pueden –entre otros– resultar de alta utilidad lexicográfica, dado que ellas son de ayuda para decidir la lista de voces que, por ejemplo, pueden incluirse en un diccionario, considerando por supuesto su frecuencia de uso. También pueden ofrecernos índices de frecuencia en los que se estime el ratio palabra/forma o tipo/caso (type/token); en otras palabras, el número total de palabras de un texto frente al número de palabras diferentes que aparecen en el mismo texto. En el Capítulo 6 de este libro, se entrega una lista con algunos de los programas computacionales disponibles gratuitamente en la red de Internet y que permiten calcular información acerca de frecuencia de palabras. En el Capítulo 3 se describe el programa y base de datos El Grial que, entre otros, permite en su función Búsqueda Simple realizar esta tarea que comentamos. Con el fin de ejemplificar esta herramienta, se ha realizado un conteo de frecuencia por medio del programa y base de datos El Grial de un texto perteneciente a un corpus de la misma base de datos. La Imagen 1 muestra el resultado de esta búsqueda. Como bien se sabe, preposiciones, artículos y conjunciones, o sea, palabras funcionales suelen ser las que mayor ocurrencia presentan en la mayoría de los textos. Así resulta ser el caso en este texto de muestra, en que sólo observamos las primeras quince mayorías, incluidos los signos de puntuación y los espacios en blanco, y ninguna es una palabra de contenido. Es relevante comentar que este ejercicio está realizado a partir de un artículo de investigación científica del área de ciencias biológicas de una revista indexada. Por ello, es posible verificar el alto número de oraciones (seguramente breves) que se revelan a partir del

PARODI-01

29/1/10

11:06

Página 43

¿CÓMO SE PUEDE TRABAJAR DESDE LA LINGÜÍSTICA DE CORPUS?

43

IMAGEN 1 Búsqueda Simple. Resultado de una consulta de frecuencia de ocurrencia.

número importante de puntos registrados y también el lugar relevante que el número “1” tiene en este listado con un total de 55 ocurrencias. Muy posiblemente también habrá una cantidad de información explicativa o aposicional, incrustada por medio de marcadores tales como los paréntesis redondos. Otra de las herramientas de manejo de corpus, de gran utilidad y versatilidad para el estudio lingüístico, lo constituyen las llamadas concordancias o también denominadas KWIC (del inglés, Key Word in Context). Este procedimiento puede obtenerse a través de programas computacionales que proporcionan automáticamente líneas de concordancia de una palabra objeto (en estudio) en su contexto lingüístico, en el que se consigna una colección de todas las apariciones de la palabra en búsqueda en un texto o conjunto de textos, junto con un número determinado (normalmente por el investigador) de palabras de cotexto anterior y posterior (la palabra en estudio o nodo normalmente se entrega en medio, resaltada en pantalla con un formato o color diferente del resto del cotexto). A través de este medio, se puede visualizar a la vez una gran cantidad de ejemplos de uso

PARODI-01

44

29/1/10

11:06

Página 44

GIOVANNI PARODI

IMAGEN 2 Búsqueda Simple. Resultado de una consulta de una consulta de KWIC.

de una palabra o un grupo de palabras. La mayoría de los programas computacionales para este procedimiento permiten obtener un número determinado de líneas (50 o 100, o todas aquellas que contenga el texto o el corpus en estudio) y ordenarlas posteriormente de formas diversas: por ejemplo, alfabéticamente, de acuerdo con la palabra inmediatamente anterior o posterior a la palabra núcleo. Del mismo modo que en el caso anterior, la Imagen 2, obtenida a través del programa El Grial, nos permite visualizar la búsqueda en contexto de la palabra puente en uno de los corpus del sitio del mismo nombre. Se ha definido esta búsqueda con un cotexto de 6 palabras a cada lado y se ha especificado buscar por forma y no por lema (opción también disponible en este programa). Una característica provechosa del programa El Grial es que no limita la cantidad de líneas entregadas en la búsqueda y las provee todas. Por razones de espacio, aquí solo se registran las primeras 11, pero es posible acceder a visualizar las 41 apariciones en este corpus, tal como se indica en la esquina superior izquierda de la pantalla. En este caso, la palabra en búsqueda es entregada en una columna central y destacada en negrita. La última herramienta de búsqueda que comentamos es la noción de colocación. Si bien ella ha sido abordada de modo diferente en la literatura, entende-

PARODI-01

29/1/10

11:06

Página 45

¿CÓMO SE PUEDE TRABAJAR DESDE LA LINGÜÍSTICA DE CORPUS?

45

IMAGEN 3 Búsqueda Compleja. Resultado de una consulta de colocación.

mos sucintamente por ella la co-aparición, es decir, aparición simultánea de dos o más palabras en un segmento de texto en el que la distancia entre los elementos de la colocación no sobrepasa las cuatro o cinco palabras. En estos contextos, estas unidades fraseológicas presentan un alto interés de estudio y su productividad como indagación de combinaciones lingüísticas es ilimitada en los beneficios para –entre otros– la construcción de diccionarios y gramáticas. Del mismo modo, su utilidad para el diseño de materiales educativos y para el proceso de enseñanza/aprendizaje de las lenguas maternas y segundas o extranjeras y la traducción son altamente relevantes. Cabe destacar que las posibilidades de indagación a través de esta herramienta son tan diversas y versátiles como el programa con que se cuente lo permita, hecho que por lo demás se aplica a las dos otros procesamientos comentados más arriba. Por ejemplo, el programa y base de datos El Grial a través de su denominada Búsqueda Compleja entrega una variada y rica gama de alternativas de estudio. Con el fin de mostrar una opción diversa, ejemplificaremos la búsqueda colocacional de una cadena de tres categorías gramaticales que suelen constituir un grupo o frase nominal: Sustantivo/Adjetivo/Adjetivo. La Imagen 3 entrega el resultado de una búsqueda compleja en un texto del corpus El Grial.

PARODI-01

29/1/10

46

11:06

Página 46

GIOVANNI PARODI

Como se aprecia en la esquina izquierda superior, se obtuvieron 14.114 combinaciones de este tipo triada en el texto objeto de análisis. La cadena de búsqueda brinda una columna central con las tres ocurrencias indagadas, destacadas en color rojo. La pantalla aquí copiada nos permite visualizar 10 de ellas. Los reproducimos nuevamente, dada la posible dificultad en su lectura: 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.

presión relativa próxima área metálica expuesta termocupla deslizante situada níquel metálico expuesto estructura porosa monomodal NIO puro reducido actividad catalítica constante diámetro cristalino medio actividad catalítica estable conversiones experimentales obtenidas

Evidentemente son múltiples las conjeturas que se pueden establecer a partir de estos datos. Baste apuntar que tres de los cuatro grupos actúan como sujetos gramaticales y que en tres de ellos se encuentran participios pasados en función adjetiva postmodificadora (sin duda una alta ocurrencia significativa en este tipo de texto: artículo de investigación científica del área de ciencias exactas).

4. Enfoques disponibles en la aproximación a la LC Una vez que hemos explorado algunos de los mecanismos de trabajo con un corpus, es oportuno reflexionar acerca de principios metodológicos más generales que enmarcan la investigación en LC. Al respecto, Tognini-Bonelli (2001) propone una distinción interesante entre lo que ella denomina un enfoque “basado en corpus” (corpus-based) y otro decididamente más comprometido y “guiado por el corpus” (corpus-driven). Según Tognini-Bonelli (2001), tal distinción compromete una aproximación en que las categorías de análisis están previamente determinadas y enmarcadas en una opción teórica y otra en que las categorías emergen del análisis y dan sustento a la construcción de una teoría guiada por los datos. En la primera opción, el corpus y las herramientas disponibles actúan como un método de investigación, indagación y corroboración de ideas preexistentes; en el segundo, el corpus es parte integral de la investigación y dará origen a un conocimiento totalmente nuevo no disponible previamente. Se hace evidente que lo

PARODI-01

29/1/10

11:06

Página 47

¿CÓMO SE PUEDE TRABAJAR DESDE LA LINGÜÍSTICA DE CORPUS?

47

que distingue a estos dos enfoques es una cuestión de objetivos y supuestos, en el sentido del rol que cumple el corpus desde una y otra mirada. De este modo, el corpus puede cumplir el objetivo de validar, de ejemplificar o de construir una teoría del lenguaje. En el primer caso, el objetivo es el manejo de un método (“basado en corpus”) que permita poner a prueba categorías y/o ejemplificar teorías y descripciones ya formuladas, pero que buscan sustento en grandes muestras de textos digitales hoy disponibles. En el segundo caso, el lingüista busca ir más allá de los ejemplos para dar sustento a sus argumentos; así, desde el enfoque “guiado por el corpus” de la LC, la teoría no existe de manera independiente de la evidencia: la observación conduce a las hipótesis, las que conducen a las generalizaciones, las que conducen a la unificación de una afirmación teórica. Esta distinción se operacionaliza, desde una opción, en investigaciones en que el investigador se enmarca en una determinada teoría y ésta le provee de categorías gramaticales y lingüísticas que indagar. La otra opción, según Tognini-Bonelli (2001), enfrenta mayores desafíos, pero resulta más rica y poderosa en la construcción de conocimiento original y de nuevas teorías. Por su parte, Sinclair (2001) establece una distinción entre lo que denomina “método de intervención humana temprana” (del inglés, EHI) y, en su lado opuesto, lo que nombra como “método de intervención humana tardía” (del inglés, DHI), este último está asociado al análisis de corpus de gran escala. Evidentemente, ambos no están reñidos de manera radical. Ellos apuntan más bien a la factibilidad de revisión manual por parte de especialistas en el etiquetaje automático de los textos a cargo de programas computacionales tipo etiquetador morfológico o sintáctico (tagger o parser).

4.1. ENFOQUE CONTRASTIVO BASADO EN CORPUS Biber (1988, 2003) y Biber, Conrad y Reppen (1998) han dado cuenta de interesantes variaciones sistemáticas de orden gramatical y léxico en diversos registros del inglés oral y escrito. Dos hallazgos entre muchos de los reportados parecen relevantes: por un lado, los rasgos lingüísticos individuales presentan una ocurrencia diversa en variados registros; por otro, los mismos o similares rasgos lingüísticos pueden tener funciones diferentes al entrar en combinaciones con otros rasgos y, al aparecer, en textos pertenecientes a registros diversos. En este sentido, una de las fortalezas de este enfoque metodológico se funda en un principio lingüístico comunicativo que resulta extremadamente sensato: la variación entre registros no se explica únicamente por un solo parámetro o dimensión, lo que equivale a sostener que existen múltiples distinciones situacionales entre regis-

PARODI-01

48

29/1/10

11:06

Página 48

GIOVANNI PARODI

tros. Dicho de otro modo, no es posible pensar que un rasgo lingüístico o, incluso, unos pocos de ellos puedan explicar exclusivamente una determinada variación entre registros (por ejemplo: oral/escrito, formal/informal). Las investigaciones en que se ha aplicado el análisis multivariado han revelado que diferentes dimensiones se construyen a partir de conjuntos diferentes de rasgos lingüísticos co-ocurrentes, reflejando así diversas interpretaciones funcionales subyacentes (por ejemplo: objetividad, abstracción de información, modalización). Del mismo modo, las tradicionales distinciones de índole más dicotómica (interactivo/no-interactivo), se ven desafiadas por los estudios con análisis multidimensional, ya que se ha llegado a demostrar que existe un continuum de variación lingüística a lo largo de los registros. Por supuesto, esto último es concordante con las investigaciones que adscriben a la idea de categorías de limites difusos (fuzzy categories) y que hoy en día tienen gran aceptación entre la comunidad científica. Un supuesto teórico fundamental del enfoque multivariado lo constituye el principio de que la co-ocurrencia de rasgos lingüísticos (determinada mediante procedimientos estadísticos) refleja funciones comunicativas compartidas, es decir, que estos patrones de co-ocurrencia de rasgos se interpretan en términos de funciones situacionales, sociales y cognitivas comunes. En otras palabras, los rasgos lingüísticos co-ocurren en determinados textos porque ellos muestran funciones compartidas específicas. Por ejemplo, las oraciones pasivas, las nominalizaciones y los verboides se relacionan todos con informatividad y focalización del objeto. Del mismo modo que los pronombres de primera y segunda persona singular, el tiempo presente, el modo imperativo y los adverbios de lugar y de tiempo están ligados a la interactividad. En este sentido, se asume que un grupo de rasgos co-ocurre frecuentemente en ciertos textos porque ellos son usados para expresar un conjunto determinado de funciones comunicativas; esto es, no pueden determinarse de manera a priori estas funciones. Por ello, resulta crucial –inicialmente– contar con un análisis individual de rasgos en términos funcionales, pues desde allí se establecen los fundamentos para determinar las interpretaciones funcionales subyacentes al conjunto de rasgos co-ocurrentes. El Análisis Multirasgos (AMR) y Análisis Multidimensiones (AMD) (inicialmente, Biber 1988) fue creado originalmente como un método analítico para el estudio detallado de las variaciones entre registros. Ello permite describir y comparar múltiples textos de diversos corpus en estudio. Este enfoque metodológico fue inicialmente desarrollado, según Biber (1988, 1994) para: 1) Determinar los patrones lingüísticos sobresalientes y en co-ocurrencia en una lengua, desde una perspectiva empírica cuantitativa, y

PARODI-01

29/1/10

11:06

Página 49

¿CÓMO SE PUEDE TRABAJAR DESDE LA LINGÜÍSTICA DE CORPUS?

49

2) Comparar registros orales y escritos en un espacio lingüístico definido por aquellos patrones en co-ocurrencia. Un aspecto clave para la descripción profunda de los textos de un corpus es el enfoque comparativo, es decir, construyendo una base de datos de corpus variados y a partir de registros diversificados. Diversos investigadores destacan que la investigación más reciente revela la importancia de emplear la comparación de corpus con registros de naturaleza diversificada para desvelar diferencias significativas sin importar necesariamente el tamaño de las muestras (Flowerdew 2004; Bowker & Pearson 2002; Sinclair 2001). Biber (1988) ha sido uno de los pioneros en mostrar la relevancia de la comparación de registros, ya que la descripción de un determinado corpus se enriquece y se hacen evidentes sus rasgos prototípicos por medio de la comparación y el contraste. La mera descripción de un objeto aislado es menos informativa y no logra revelar ciertas características intrínsecas del mismo. Muchas de ellas emergen y adquieren relevancia al ser puestas en contexto, por ejemplo, con otros registros. Al respecto, y como bien se sabe, el estudio comparativo entre los pares supuestamente dicotómicos de oralidad/escritura y de discurso especializado/noespecializado adquirió relevancia hacia finales de la década del ochenta. Una forma de abordar la investigación era a través del estudio de trozos parciales de textos o de oraciones fuera de contexto que se comparaban con el fin de encontrar diferencias lingüísticas. Investigadores, tales como Chafe y Danielewicz (1987) y Peronard (1989), argumentaban que la modalidad escrita de la lengua generalmente tendía a ser más estructuralmente compleja, explícita y/o de prosa informacionalmente densa. Como una forma de avanzar en esta mirada comparativa, pero desde un análisis de rasgos lingüísticos más específicos y poniendo énfasis en diversos aspectos funcionales de los rasgos identificados en textos completos, los estudios de Biber (1986, 1988, 1995, 2003) llevan la investigación empírica un paso hacia adelante, enfocando también una variedad de registros diversificados a lo largo del continuum oralidad/escritura y especialización/no-especialización. El avance que se detecta tanto en el tema oralidad/escritura como especialización/no-especialización está ligado innegablemente, por una parte, al desarrollo de técnicas informáticas que posibilitan el estudio de grandes corpus de textos. Pero también, y por otro lado, es claro que el foco ha dejado de ser una cuestión de descripción lingüística per se, sino que se ha movido hacia el rol funcional y comunicativo que cumplen determinados rasgos prototípicos de una u otra modalidad discursiva o de uno u otro registro, con fines muy variados en que destacan desde propósitos puramente teóricos hasta los más aplicados interesados en la alfabetización inicial o más especializada en niveles superiores y hasta profesionales.

PARODI-01

29/1/10

11:06

50

Página 50

GIOVANNI PARODI

4.2. ANÁLISIS MULTIRASGOS (AMR) Y MULTIDIMENSIONES (AMD): PASOS METODOLÓGICOS

La realización acuciosa del AMR y del AMD implica una serie de decisiones y etapas rigurosas y, en algunos casos, conlleva alta complejidad técnica computacional y dominio estadístico especializado. Biber (1988), Biber y otros (1998) y Conrad y Biber (2001) entregan una serie de pasos metodológicos para su aplicación. Ellos pueden ser resumidos en los siguientes doce puntos nucleares: 1. Diseño, recolección, organización y digitalización del corpus 2. Selección de un conjunto de rasgos lingüísticos sobre la base de bibliografía especializada de acuerdo a los registros involucrados que serán considerados en el análisis 3. Caracterización funcional de un conjunto de rasgos lingüísticos seleccionados 4. Disponibilidad de programas computacionales capaces de analizar automáticamente los textos en formato plano (ASCII o txt) 5. Marcaje estructural o etiquetado morfológico y/o sintáctico de los textos del corpus 6. Interrogación manual o (semi)automática de cada uno de los textos a partir de los rasgos en estudio para determinar su ocurrencia 7. Construcción de bases de datos normalizadas, dado el número de palabras divergente entre los textos 8. Aplicación, con asistencia de programas computacionales, del análisis factorial a las frecuencias de ocurrencia de los rasgos. Ello con el fin de reducir las variables involucradas y determinar patrones de co-ocurrencia entre los rasgos lingüísticos 9. Establecimiento de un conjunto de factores (cada factor queda conformado por un conjunto de rasgos lingüísticos) mediante el análisis factorial, con algún tipo de rotación (Varimax, Cuantrimax, Oblimin, etc.) 10. Interpretación funcional de los factores, producto del análisis factorial, a partir de la co-ocurrencia de rasgos, constituyendo así una dimensión subyacente de variación 11. Confirmación o refutación de la interpretación de los factores mediante el cálculo de los puntajes factoriales 12. Cálculo de los puntajes de dimensión para cada texto respecto de cada una de las dimensiones. En esta fase, se comparan los puntajes de cada registro en cada dimensión y se estudian similitudes y/o diferencias lingüísticas y funcionales

PARODI-01

29/1/10

11:06

Página 51

¿CÓMO SE PUEDE TRABAJAR DESDE LA LINGÜÍSTICA DE CORPUS?

51

Incluso las investigaciones llevadas a cabo por Biber han buscado superar las críticas que indicaban que estos estudios multidimensiones estaban concentrados exclusivamente en trabajos con lengua occidentales, más específicamente con el inglés. Biber (1995) sintetiza y pasa revista a una serie de indagaciones que se focalizan en lenguas no occidentales tales como el coreano, somalí y nukulaelae tuvaluan. En todas ellas se sigue al análisis multidimensional con el objetivo de explorar patrones interlingüísticos en la variación de registros. Se busca, al mismo tiempo, indagar la posibilidad de identificar universales que gobiernen los patrones de variación a lo largo de registros diversificados. Biber y TracyVentura (2007) llevan a cabo una aproximación al español y lo comparan con trabajos pioneros para esta lengua ejecutados de Parodi (2005a). Otros investigadores (Louwerse et al. 2004) han criticado el trabajo de Biber para la lengua inglesa por concentrarse, según ellos, exclusivamente en el nivel de la palabra y no incluir otras categorías que se proyecten hacia niveles textuales y discursivos. Louwerse y otros (2004) dan cuenta de una investigación que siguió los mismos pasos metodológicos y utilizó el mismo corpus que empleó Biber (1988); no obstante ello, Louwerse y colaboradores utilizaron un conjunto mucho más amplio de categorías e incluyó aspectos de cohesión textual en varios niveles. En esta nueva indagación para la lengua inglesa, se logra determinar una dimensión específica que distingue oralidad de escritura y que se apoya en un amplio grupo de variables que intentan capturar relaciones textuales mucho más allá del horizonte de la palabra. Como se ha descrito, un principio fundamental del AMR dice que uno o solo un par de rasgos lingüísticos por sí solos no son capaces de dar cuenta de las características de un determinado registro. Por ello, la indagación de rasgos gramaticales y estructuras lingüístico-discursivas que presentan claras implicancias de tipo funcional, comunicativo y cognitivo se vuelve una cuestión fundamental. Son estos rasgos y sus respectivos análisis en cuanto a su poder explicativo conjunto los que se constituirán en poderosas fuentes que permitan posteriormente la caracterización más acotada de ciertos registros altamente especializados, más divulgativos o generales. Así, desde una visión estadística y funcional y enfocada hacia el estudio de la variación lingüística a través de diversos registros, lo que se persigue –inicialmente– es la construcción de una matriz estadística a partir de las frecuencias de ocurrencia de aquellos rasgos seleccionados que co-ocurren sistemáticamente en cada corpus. Para ello, se opera por medio de técnicas estadísticas multivariadas (Hair et al. 1999). Los análisis estadísticos de agrupamientos selectivos reducen el total de rasgos en estudio a determinados grupos específicos que han revelado principios de co-ocurrencia particular (esto por medio de procedimientos de clustering). Cada agrupamiento de rasgos lingüísticos (factor), emerge en base a estos procedimientos

PARODI-01

29/1/10

11:06

52

Página 52

GIOVANNI PARODI

y luego se interpreta entonces funcionalmente por los investigadores. Esto es lo que Biber (1986, 1988) denomina «dimensión», de allí lo de AMD. Esto quiere decir que una dimensión se constituye mediante la interpretación funcional del conjunto de los rasgos co-ocurrentes sistemáticamente en textos de un corpus (factor), agrupados mediante análisis factorial (para un ejercicio detallado, véase el Capítulo 4).

Comentario final Con seguridad cualquier intento por describir los procedimientos metodológicos hoy disponibles resultará vano. El incremento progresivo y sostenido que, por una parte, los desarrollos tecnológicos muestran cada día y que, por otra, los recursos investigativos y las hipótesis se ofrecen a indagación y contraste es ciertamente abrumador. Desde este escenario, se debe ser cauto al revisar los principios y alternativas disponibles en este capítulo. Algunos constituyen recursos muy básicos y tal vez nada novedosos, pero de gran productividad científica. También existe problemáticas terminológicas y conceptuales que no terminan de encontrar respuestas definitivas; por ejemplo, el asunto de las variaciones de registro o de género y de tipo o de clase textual. La especial focalización en los estudios MR y MD es una muestra de un tipo de investigación que estimo relevante por su carácter contrastivo al mismo tiempo que buen ejemplo de la interconexión multidisciplinar. Así, esta lista abierta de alternativas busca motivar las potencialidades de investigación y que el lector se interese por indagar otras muchas posibilidades.

PARODI-01

29/1/10

11:06

Página 53

3. LA INTERFAZ EL GRIAL COMO UN SISTEMA D E A N OTAC I Ó N, I N T E R RO G AC I Ó N Y A L M AC E N A M I E N T O D E C O R P U S E N E S PA Ñ O L

Introducción Hoy en día se asume que la investigación basada en corpus hace uso de las llamadas nuevas tecnologías computacionales. De hecho, ya se habla frecuentemente de corpus digital y sistemas de anotación automáticos y de corpus disponibles en línea. Estos desarrollos de manera sinérgica han ido posicionando a la investigación en lingüística a enfrentar nuevos escenarios y a manejarse con cambios radicales, muchos acaecidos en los últimos diez a veinte años. En parte, es posible señalar que ello no ha sucedido necesariamente como producto de los cambios paradigmáticos o los nuevos desafíos teóricos, sino por la vertiginosa tecnologización que de manera decisiva ha venido a apoyar la labor científica. Es muy cierto que en Latinoamérica, en parte, por dificultades económicas, no hemos logrado implementar los recursos necesarios en términos comparativos con otros polos del mundo. Esto ha producido, por una parte, que la indagación del español se vea algo disminuida o que sus desarrollos, proyección y visibilidad se estén llevando a cabo, comparativamente, con cierta lentitud. No obstante ello, no se puede dejar de reconocer que esto también ha sido producto de cierta falta de decisión y vanguardia en los equipos de investigación en nuestro mundo iberoamericano y de la búsqueda de trabajo mancomunado. Afortunadamente, en años recientes, se han llevado a cabo una serie de avances tecnológicos e implementaciones computacionales para la lengua española, algunas desarrolladas en España y otros en Latinoamérica (Ruiz Miyares 2001; Rojo 2001, 2002; Parodi & Venegas 2004; Parodi 2005a; Castel & Miret 2004; Venegas 2006; Venegas & Silva 2007; Torner & Battaner 2006). En este escenario y como un modo de aportar al desarrollo y consolidación de líneas de investigación con recursos tecnológicos de punta, en la Pontificia Universidad Católica de Valparaíso, Chile, hemos diseñado e implementado una interfaz computacional denominada El Grial, disponible en un sitio web de acceso gratuito, que busca –entre otros– apoyar la investigación del español. En este capítulo nos proponemos reseñar los fundamentos para la construcción de esta plataforma en línea, explicar su funcionamiento y ejemplificar sus funciones básicas. También se

PARODI-01

29/1/10

11:06

Página 54

54

GIOVANNI PARODI

describen brevemente algunos de los corpus actualmente allí almacenados y disponibles para consulta en línea. En la parte final de este capítulo, se describe brevemente otra función computacional desarrollada innovadoramente por nuestro equipo a partir de investigaciones recientes (Parodi 2007c), denominada El Manchador de Textos (para mayores detalles, ver Venegas & Silva 2007). Cabe destacar que, progresivamente, y debido a los requerimientos de investigadores y alumnos, El Grial ha experimentado cambios acumulativos tanto en su formato visible como en sus recursos disponibles y potencialidades. Así, se ha ido agregando funcionalidades y se han especificado, mejorado y afinado ciertas operaciones de búsqueda. En este sentido, la publicación de Parodi (2006b) muestra un diseño y recursos en una versión inicial y que hoy denominamos como Versión 1.0. En este capítulo se describe lo que los adelantos nos ha hecho llamar: Versión 3.0. Ahora bien, básicamente, por razones de espacio y de foco temático del trabajo, no abordamos comparaciones entre las versiones en cuestión. Esperamos que estos cambios progresivos continúen y permitan contar con una herramienta cada vez más versátil y útil.

1. Objetivos del programa La herramienta informática El Grial (www.elgrial.cl) fue creada inicialmente con el objetivo de apoyar la investigación y la docencia en los Programas de Postgrado en Lingüística de la Pontificia Universidad Católica de Valparaíso, Chile. Paralelamente, se decidió otorgarle un carácter más versátil como un sitio web abierto que acogiera la herramienta de etiquetaje morfosintáctico y una base de almacenamiento de corpus así como una interfaz de consulta de corpus electrónicos. Este servicio de recursos y datos en línea se ofrece a investigadores en el ámbito de la lingüística e interdisciplinas tanto a nivel nacional como internacional en su versión última. Las motivaciones para la construcción del sitio El Grial han sido: a) Poner a disposición una interfaz de interacción amigable que apoye a los lingüistas e investigadores no necesariamente especialistas en informática. b) Ofrecer una herramienta computacional de uso gratuito y en línea a la comunidad de investigadores con textos etiquetados en lengua española. c) Aportar a la tecnologización de la investigación. d) Estimular el uso de corpus progresivamente crecientes para las investigaciones en lengua española. e) Impulsar líneas de investigación en torno a la Lingüística de Corpus.

PARODI-01

29/1/10

11:06

Página 55

LA INTERFAZ EL GRIAL COMO UN SISTEMA DE ANOTACIÓN

55

De este modo, El Grial es un sistema computacional que cumple cuatro funciones básicas: 1) Anotar morfosintácticamente textos en archivos digitales planos en lengua española 2) Recuperar esta información en forma de consultas de bases de datos 3) Organizar y administrar los corpus recopilados por los equipos de investigación de la Escuela Lingüística de Valparaíso –ELV– (www.linguistica.cl) de la Pontificia Universidad Católica de Valparaíso, Chile 4) Ofrecer la posibilidad de cargar y anotar corpus de modo temporal y consultarlos de modo gratuito, ya sea a través de una consulta en línea o con un permiso de carga temporal por un período de tiempo determinado El Grial cumple, al mismo tiempo, la utilidad de hacer visible una línea de investigación en desarrollo por parte de los académicos de la denominada Escuela Lingüística de Valparaíso. Muchas de estas investigaciones se realizan con fondos gubernamentales al servicio de propósitos exclusivamente científicos. Por ello, en el sitio también existe acceso a publicaciones en línea que se han logrado implementar gracias a las posibilidades que ofrece El Grial y en base a los corpus allí existentes. Todas ellas corresponden a investigadores de la ELV o a alumnos de los Programas de Postgrado en Lingüística de la PUCV. En este contexto, es relevante destacar que a través del sitio web www.elgrial.cl se buscan fines netamente académicos y no se contempla, de modo alguno, acciones comerciales o propósitos de lucro. Por ello, es un sitio patrocinado íntegramente por la Pontificia Universidad Católica de Valparaíso y no se considera la participación de auspiciadores. Vale la pena también señalar que hemos escogido el nombre de El Grial para identificar la interfaz de etiquetaje y consulta computacional de corpus textuales de manera muy intencionada para mostrar la relación existente entre la mítica leyenda de raíz céltico-cristiana y el espíritu que inspira al grupo de investigación en esta búsqueda de conocimiento y ojalá de sabiduría, esperando aportar a un proyecto académico internacional, no solo con información bruta sino impulsando nuevos desafíos académicos mancomunados.

2. Anotación multiniveles Las herramientas que constituyen el sistema computacional permiten etiquetar (clasificar gramaticalmente y marcar las palabras de un texto) y analizar los tipos de estructuras lingüísticas que aparecen en distintos tipos de textos. Las máqui-

PARODI-01

29/1/10

11:06

Página 56

56

GIOVANNI PARODI

nas computacionales que subyacen a El Grial y que posibilitan la anotación gramatical provienen de un programa llamado Connexor que cuenta para el español con dos desarrollos: un etiquetador morfológico (tagger) y un analizador sintáctico (parser). El etiquetador morfológico es un analizador rápido que enriquece las formas textuales y etiqueta los textos de acuerdo a las clásicas partes de la oración (POS, por su sigla en inglés), morfología y entidades de significado básico. Produce lo que se denominan etiquetas morfológicas superficiales. Por su parte, el analizador sintáctico (basado en una gramática funcional de dependencias: GFD) entrega, a la vez, información morfológica básica y también de la dependencia funcional que representan las relaciones de información al interior de la oración. Codifica, además, información acerca de objetos y hechos (nombres, organizaciones y lugares), acciones (quién hizo qué a quién) y circunstancias (dónde, cuándo, cómo, por qué). Su output contiene cinco campos: posición de la palabra, palabra, lema, dependencia funcional, etiqueta funcional (etiqueta sintáctica de superficie y etiquetas morfológicas). Dado que las máquinas computacionales del Connexor se encuentran disponibles únicamente para equipos con sistema Linux, decidimos construir una interfaz amigable y versátil en ambiente Windows que permitiera un trabajo más expedito para no expertos en computación. No obstante ello, es muy relevante señalar que El Grial supera largamente a un programa tradicional de marcaje morfosintáctico, pues su organización de almacenaje y consulta de corpus brinda potencialidades infinitas de investigación; al mismo tiempo, también es lícito señalar que todo ello ha supuesto una inversión de recursos y tiempo considerable que van mucho más allá de lo ya complejo que supone la construcción de la herramienta de anotación lingüística. En este sentido, vale la pena resaltar que la construcción del sitio web en ambiente Windows no solo buscaba el acceso más expedito y hacia un público más amplio. Los tremendos cambios que se han ido materializando allí, así como las diversas herramientas que han ido emergiendo tanto para apoyar propósitos investigativos como para dar cabida a los crecientes corpus han hecho de este sitio una especie de laboratorio de proyectos y lo han constituido en un centro de experimentación y recursos muy potentes. Veamos pues, a continuación, de qué se trata todo esto.

2.1. TRES TIPOS DE ETIQUETAS Los dos tipos de anotaciones más arriba comentados se operacionalizan en tres tipos de etiquetas, las cuales alcanzan un total de 41 tipos básicos, pero cuya productividad específica supera a 70. Estas etiquetas son:

PARODI-01

29/1/10

11:06

Página 57

LA INTERFAZ EL GRIAL COMO UN SISTEMA DE ANOTACIÓN

57

• 11 etiquetas morfológicas (de base) [POS] • 27 etiquetas de dependencia funcional [EDF] • 13 etiquetas sintácticas de superficie [ESS] Ahora bien, dado que se detectaron diversos tipos de problemas tanto con el nombre de algunas de las etiquetas provistas por Connexor (solo disponibles inicialmente en idioma inglés), como con el grado de precisión del análisis ejecutado (porcentaje de error cercano al 4% en el nivel morfológico y rondando el 13% en el nivel sintáctico), se procedió paralelamente en tres frentes de acción. Se buscaba, por una parte, incrementar el nivel de fiabilidad de las anotaciones y, por otra, producir etiquetas en español que fueran transparentes y acertadas en su nominación. Estos tres pasos son: 1. Como se dijo, debido a que se comprobó que ciertas etiquetas que la máquina morfosintáctica del Connexor anotaba resultaban en algunos casos ambiguas y no siempre acertadas, se optó por llevar a cabo una comprobación del grado de precisión de cada una de ellas, a partir de un corpus de prueba y contraste. Esta indagación empírica nos condujo a eliminar 3 etiquetas que no parecían discriminar en su anotación. Así, se llegó a las 41 etiquetas de base (sin sumar las subcategorías), agrupadas en tres tipos de anotaciones. 2. El procedimiento de indagación y comprobación del grado de fiabilidad de cada anotación también probó ser una estrategia muy útil para revisar y determinar el nombre correspondiente, según la gramática del español, para cada una de las etiquetas. Ello debido a que, por un lado, las etiquetas y las abreviaturas de estos nombres no resultaban siempre de alta transparencia para el investigador y, por otro, a que el programa original (aunque sigue una gramática del español) proporcionaba etiquetas y abreviaturas solo en lengua inglesa. De este modo, fue necesario llevar a cabo una exploración basada en corpus y realizar una interpretación gramatical de los ejemplos marcados bajo determinadas etiquetas, buscando nombres adecuados y simples (pero certeros) según la gramática del español. 3. En el tercer eje de acción, con el fin de alcanzar el mayor porcentaje de certeza en el etiquetaje, se diseñó y dotó a El Grial de una plataforma de revisión y corrección manual de las anotaciones automáticas iniciales. Esta herramienta tecnológica adicional brinda la posibilidad de contar con textos anotados con un alto porcentaje de fiabilidad a través del cual se pretende alcanzar un mínimo porcentaje de error. Esto quiere decir que una vez aplicado automáticamente el proceso de anotación, se revisa cada texto a través de una interfaz de manera manual y se corrigen las etiquetas

PARODI-01

29/1/10

11:06

Página 58

58

GIOVANNI PARODI

que pudieran estar asignadas erróneamente. Por supuesto que para ello se ha debido especializar a personal idóneo tanto en el manejo del sistema como en la competencia gramatical pertinente; además, se debe contemplar el tiempo requerido para esta fase de revisión que obviamente es lenta y compleja. No obstante ello, tanto la posibilidad de contar con la creación de una interfaz de corrección manual como la alternativa de llegar a disponer de un corpus etiquetado fiablemente (con un acierto cercano al 100%) son logros que robustecen indudablemente al sistema. A continuación, en la Tabla 1 se presentan las once etiquetas morfológicas de base o clásicamente conocidas bajo la sigla en inglés POS. Ellas se diferencian de los otros dos grupos de etiquetas porque poseen categorías y subcategorías. TABLA 1 Etiquetas morfológicas de El Grial Categoría gramatical

Subcategorías

Nombre

SUST Género

Número

Explicación

FEM

Femenino

MSC

Masculino

AMB

Común, no indicado

SG

Singular

PL

Plural

ABR

Abreviación

PROP

Nombre propio Adjetivo

ADJ COMP

Comparativo

SUP

Superlativo

Género y número si se aplica Numeral

Numeral CARD

Cardinal

ORD

Ordinal

Género y número si se aplica

PARODI-01

29/1/10

11:06

Página 59

LA INTERFAZ EL GRIAL COMO UN SISTEMA DE ANOTACIÓN

59

TABLA 1 (Cont.) Categoría gramatical

Subcategorías

Explicación

PRON

Pronombre

Caso

ACU

Acusativo

DAT

Dativo

MSC

Masculino

FEM

Femenino

AMB

Ambiguo

SG

Singular

SG1

Singular, primera persona

SG2

Singular, segunda persona

SG3

Singular, tercera persona

PL

Plural

PL1

Plural, primera persona

PL2

Plural, segunda persona

PL3

Plural, tercera persona

INT

Adverbio interrogativo o pronombre

PER

Pronombre personal

POS

Pronombre posesivo

DEM

Pronombre demostrativo

REFL

Pronombre reflexivo

REL

Pronombre relativo

Género

Número

Subtipos

PREP

Preposición Determinante

DET Género y número si se aplica ADV

Adverbio

PARODI-01

29/1/10

11:06

Página 60

60

GIOVANNI PARODI

TABLA 1 (Cont.) Categoría gramatical

Subcategorías

Explicación

V

Verbo

Modo

IND

Indicativo

SUB

Subjuntivo

IMP

Imperativo

PRES

Presente

IMPF

Imperfecto

PRET

Pretérito

CND

Condicional

FUT

Futuro

SG1

Singular, primera persona

SG2

Singular, segunda persona

SG3

Singular, tercera persona

PL1

Plural, primera persona

PL2

Plural, segunda persona

PL3

Plural, tercera persona

INF

Infinitivo

PART

Participio

Tiempo

Número

VBD

GER Gerundio CS

Conjunción subordinada

CC

Conjunción coordinante

INTERJ

Interjección

Tal como ya se adelantó, estas once etiquetas pueden alcanzar una alta productividad y cubrir más de setenta anotaciones efectivas. Por ejemplo, en el caso de la etiqueta Pronombre, esta se ha contabilizado como una sola pero ella cubre toda la gama de pronombres existentes en español y sus respectivas combinato-

PARODI-01

29/1/10

11:06

Página 61

61

LA INTERFAZ EL GRIAL COMO UN SISTEMA DE ANOTACIÓN

TABLA 2 Etiqueta de dependencia funcional de El Grial Etiqueta de Dependencia Funcional Nombre de la etiqueta

EDF Etiqueta abreviada

Sintagma verbal

SV

Auxiliar de verbo compuesto

AUX

Preposición

PREP

Pronombre enclítico

ENC

Complemento de régimen preposicional

CRPRE

Sujeto

SUJ

Objeto directo

OD

Atributo subjetivo

AS

Objeto indirecto

OI

Frase adverbial de participio

FRAP

Vocativo

VOC

Frase adverbial de tiempo

FRAT

Frase adverbial de duración

FRAD

Frase adverbial de frecuencia

FRAF

Frase adverbial de cantidad

FRAC

Frase adverbial modo

FRAM

Frase adverbial de lugar (CCL o adv. de lugar)

FRAL

Frase preposicional de dirección

FRPD

Frase preposicional de finalidad

FRPF

Cláusula de causa/efecto o finalidad

CLCE/F

Cláusula de condicionalidad

CLC

Adjetivos numerales cardinales

ADJNC

Determinantes

DET

Adverbio de negación

ADVN

Modificador prenominal

MPREN

Adjetivo postpuesto

ADJPOST

Modificador nominal (frases preposicionales y cláusulas relativas)

MN

PARODI-01

62

29/1/10

11:06

Página 62

GIOVANNI PARODI

rias de género y número. Así, existen anotaciones particulares para cada una de ellas y, por ende, en la práctica se cuenta con más de 30 posibilidades de anotación altamente subespecificada. Caso similar ocurre con la etiqueta de Sustantivo y Adjetivo. En ambos casos su riqueza también es mucho mayor de la que se cuenta en una sola anotación. La Tabla 2 muestra las etiquetas de dependencia funcional [EDF], cuyo número alcanza a 27. Cabe destacar que algunas de estas etiquetas se superponen con ciertas de las incluidas en la Tabla 1, pero en ningún caso esto genera dificultades de procesamiento. Es solo una cuestión de aproximación gramatical al texto y no afecta el análisis propiamente tal. Por último, en la Tabla 3 se ofrecen las denominadas etiquetas sintácticas de superficie [ESS]. Nuevamente cabe señalar que existe entrecruzamiento entre algunas etiquetas con las listadas en las tablas 1 y 2, pero esto no afecta el procesamiento de la información en el sistema. Estas son 13 etiquetas:

3. Descripción operativa de la interfaz El Grial Una vez descrito el sistema de etiquetas que conforma el sistema de anotaciones morfosintácticas de El Grial, procedemos a describir y ejemplificar el funcionamiento del programa tanto en su modo de consulta como de carga de corpus. Para ello mostraremos las principales pantallas de la interfaz gráfica computacional y las comentaremos. En la Imagen 1, se muestra la pantalla de inicio, luego de un flash de entrada. A través de ella se ofrecen tres alternativas: (1) Descripción de Corpus El Grial; a través de este link se accede al módulo de estadísticas acerca de consultas estándar de los corpus existentes así como a una descripción y caracterización de los corpus recolectados y aquí almacenados. (2) Consulta de Corpus El Grial; esta opción permite ir directamente a un tipo de búsqueda y la correspondiente selección del corpus de trabajo. (3) Carga y Consulta de Corpus Temporal; si se desea anotar un corpus nuevo y consultarlo, se accede a través de este link, previa autorización. También en esta, como en las pantallas siguientes, existe la posibilidad (a través de algunos links permanentes) de consultar información variada acerca del programa, del equipo de investigadores y de su actividad científica. Para explorar los corpus recolectados por el equipo de la PUCV, se ha incluido un acceso en que se entrega un detalle de los corpus con su nombre, sigla, conformación y tamaño (en término de número de textos y palabras). Estimamos que esta posibilidad de acceso a información pormenorizada de los corpus (Descripción de Corpus El Grial) constituye también un rasgo innovador que exhibe El Grial en comparación con otras herramientas semejantes en las cuales no es

PARODI-01

29/1/10

11:06

Página 63

63

LA INTERFAZ EL GRIAL COMO UN SISTEMA DE ANOTACIÓN

TABLA 3 Etiquetas sintácticas de superficie de El Grial Nombre de la etiqueta

Etiqueta abreviada

Frase verbal simple conjugada

FRVconj

Verboides

Vbd

Verbo auxiliar

Vaux

Adverbio de Frase adjetiva

ADVfradj

Adverbios

Adv

Núcleo de frase nominal

Nn

Modificador pronominal

Mpre

Adjetivo especificativo

ADJes

Artículos

Art

Adjetivos numerales cardinales

ADJnc

Conjunciones

Conj

Preposiciones

Prep

Interjecciones

Interj

IMAGEN 1 Pantalla de inicio El Grial

PARODI-01

64

29/1/10

11:06

Página 64

GIOVANNI PARODI

posible encontrar descripción de los textos que componen cada corpus ni del tamaño del corpus en cuestión. Sin lugar a dudas, la explotación para cualquier investigación a partir de los corpus de El Grial se ve apoyada y cuenta con sustento descriptivo valioso.

IMAGEN 2 Ingreso al proceso de documento temporal

Cabe destacar una fortaleza de El Grial que nos resulta relevante en términos comparativos con otros sistemas parecidos. Esta es la que se muestra en la Imagen 2 y dice relación con nuestra decisión de crear una opción de carga y anotación temporal así como de consulta para los investigadores que deseen trabajar con su propio corpus en el ambiente de El Grial. Como se dijo, se diseñó este acceso con el propósito específico de brindar a la comunidad científica una herramienta de trabajo en línea y sin costo, buscando apoyar las investigaciones desde el marco de la Lingüística de Corpus. Si se procede a través de esta opción (Carga y Consulta de Corpus Temporal), se deben seguir ciertos pasos de manera secuencial, tal como contar previamente con un texto plano, ser consciente que la carga estará disponible en el sistema por un tiempo limitado, y –entre otros– conocer los descriptores mínimos requeridos para este proceso de acceso limitado en el tiempo. Si no se trabaja con un corpus nuevo que se desee etiquetar, se procede a través de la consulta de los corpus existentes en la base de datos. En la siguiente Imagen, se muestra la pantalla de Consulta de Corpus El Grial. Una vez desplegada, se debe –inicialmente– seleccionar el tipo de consulta que se desea realizar.

PARODI-01

29/1/10

11:06

Página 65

LA INTERFAZ EL GRIAL COMO UN SISTEMA DE ANOTACIÓN

65

IMAGEN 3 Seleccionar tipo de consulta

Sea que se ha optado por consultar el corpus El Grial o incluso si ya se ha cargado un nuevo documento a través de la opción Carga Temporal, se llega a la pantalla de la Imagen 3. A través de esta pantalla, se pude seleccionar el tipo de consulta que se quiere realizar y tener acceso a información del denominado Output: (a) Búsqueda Simple, (b) Búsqueda Compleja, (c) El Manchador, y (d) Visualización del Output del Análisis (obtener el corpus seleccionado con las anotaciones realizadas por el programa). Ahora bien, la decisión acerca del tipo de consulta a realizar obliga a seleccionar un texto, un corpus o varios de ellos, según el propósito de la indagación. Dicho de otro modo, al optar por una consulta de tipo simple o compleja, el sistema lleva a otra pantalla (ver Imagen 4) en la que se ofrece el menú de acceso a la selección del corpus con una serie de posibles variables.

IMAGEN 4 Seleccionar Corpus El Grial

PARODI-01

29/1/10

11:06

66

Página 66

GIOVANNI PARODI

Tal como lo muestra la Imagen 4, algunas alternativas disponibles de seleccionar pueden estar focalizadas en un tipo de texto determinado o es factible estudiar un registro, un modo o un cierto tema. De modo más preciso, cabe señalar que en esta pantalla se entrega información acerca del Corpus El Grial a través de seis descriptores, que a su vez se constituyen en seis opciones de búsqueda e interrogación. Cada uno de ellos, de acuerdo a su naturaleza y decisión del equipo PUCV, cuenta con algunas subcategorizaciones o especificaciones, que hacen más rica y profunda la información disponible. A la vez, entregan mayores alternativas de indagación y comparación en las consultas, ya que es factible combinar más de un descriptor. Por ejemplo, si se seleccionó el modo escrito y, además, se selecciona el registro científico, solo se procesarán aquellos textos que cumplan con estas dos condiciones. Mayoritariamente, la presentación de estos seis niveles tiende a seguir un orden desde lo más general a lo más específico, particular e individual. Esto quiere decir que se parte con opciones tales como Modalidad de Lengua (oral o escrita), una categoría dicotómica y se llega a otra como Documento en que es posible seleccionar un solo texto de un subcorpus. Los seis descriptores en cuestión son: 1. 2. 3. 4. 5. 6.

Modo Registro Textos Corpus Temas Documentos

En cuanto al Modo, se cuenta con un acceso a textos escritos y otro a textos orales. Si al efectuar la selección solo se marca una de estas opciones, el sistema incluirá en la consulta todos los textos de El Grial que caben bajo esta clasificación, incluyendo textos y corpus de diversa índole. La etiqueta Registro dice relación con los tipos de corpus que componen El Grial. En la actualidad son nueve: Técnico Profesional, Científico, Periodístico, Literario, Dialógico, Escolar, Político y Escolar Técnico-profesional y Académico (con algunas subespecificaciones). Textos ha sido elegida para dar cuenta de las clases textuales que integran los ocho registros ya comentados. Ellas alcanzan en la actualidad una variedad que llega a veinte y siete, tales como, ley, reglamento, manual, entrevista oral, glosario, instructivo, etc. No obstante, estas y otras son cuestiones en constante cambio debido a la naturaleza creciente de los corpus en el sistema. Por su parte, la etiqueta Corpus, a través de una sigla, permite englobar todo un subcorpus de El Grial a la vez, el cual obviamente queda cruzado por muchas

PARODI-01

29/1/10

11:06

Página 67

LA INTERFAZ EL GRIAL COMO UN SISTEMA DE ANOTACIÓN

67

de las variables ya descritas. Esto quiere decir que si se selecciona uno de los corpus a través de esta opción se realiza, paralelamente, una opción por un conjunto de las otras categorías descritas. Por ejemplo, si se elige el subcorpus DICIPE, se opta por una modalidad escrita, periodística, monológica y que, a la vez, incluye una variedad de clases textuales (noticias, reportajes, editoriales, etc.). Temas es una categoría que se aplica a los Documentos. Cabe señalar que no todos los documentos están clasificados temáticamente, por ello algunos son etiquetados como “sin tema”. En todo caso, la mayoría sí lo está y con esto se intenta aportar mayores detalles de cada uno de los subcorpus. En Temas se indican los tópicos que se abordan en los diferentes textos o corpus (arqueología, ciencias médicas, ciencias de la vida, pedagogía, etc.). Por último, en Documentos se entrega un detalle de cada texto que compone cada subcorpus; así, encontramos información del subcorpus al que pertenece el documento, la numeración del texto dentro del corpus, su clase textual y el número de palabras que lo componen. A modo de ejemplo, si tomamos de la ventana Documentos el texto CTCCOM-ma1 (102.312), tenemos que se ha incorporado una gran cantidad de información descriptiva de alto poder en esta etiqueta. En primer lugar, cabe señalar que se ha llegado a ella una vez que se selecciona el Registro Técnico-Profesional. Ahora bien, un subcorpus de este registro es el denominado CTC (Corpus Técnico Científico) el que se compone de textos que leen obligatoriamente alumnos de liceos técnico-profesionales de educación secundaria diferenciada en tres especialidades: área comercial, marítima e industrial. Como se aprecia en la etiqueta del ejemplo, el texto en cuestión pertenece al CTC del área Comercial (COM) y en la clase textual Manual (ma). En la misma etiqueta también se consigna que es el primer texto de este subcorpus (1) y que cuenta con un total de 102.312 palabras. Toda esta información se encuentra también disponible con mayores detalles en el sistema, a través del menú derecho en el botón Descripción del Corpus El Grial. A través de esta opción (Documentos) se tiene acceso a la selección de un solo texto según preferencias específicas así como a un conjunto de los mismos. Ahora bien, una vez que se ha seleccionado un texto o un corpus a través de alguno o varios de los mecanismos más arriba descritos, se procede a ejecutar el tipo de consulta que previamente se había seleccionado: simple o compleja. Este botón nos llevará a otra pantalla en la que se desplegarán opciones más detalladas de la búsqueda misma. La Imagen 5 nos permite visualizar el caso de la Búsqueda Simple. La denominada Búsqueda Simple es la primera y más elemental función de interrogación con que cuenta El Grial. A través de ella se permite realizar consultas básicas acerca de un corpus previamente anotado, morfológica y sintácticamente. Esta búsqueda posibilita acceso a información de un corpus según dos

PARODI-01

68

29/1/10

11:06

Página 68

GIOVANNI PARODI

IMAGEN 5 Búsqueda Simple

modalidades: por frecuencia y en contexto. Estas dos opciones de despliegue de datos se aplican sobre tres categorías: formas, lemas y partes de la oración (POS), a las que se puede agregar información de género y número. La Búsqueda Simple permite consultar por una palabra específica dentro de un corpus o bien indagar un texto o corpus de modo general (para conocer, por ejemplo, las más altas frecuencias de ocurrencia por categoría gramatical o por forma o lema). Una opción disponible es escribir en la ventana de la página la palabra que se desea indagar, elegir el modo de consulta (por frecuencia o en contexto) y la categoría que queremos obtener como resultado (forma, lema o parte de la oración). Si, por el contrario, se busca visualizar toda la información del texto o corpus desplegada por frecuencia, solo debemos elegir el modo de consulta y las categorías que se quieren obtener como resultado sin necesidad de escribir nada en la pantalla. Si volvemos a observar la Imagen 4, se comprueba que, tal como ya se indicó, también es posible subespecificar una o varias subcategorías, tales como género y número en el caso de los sustantivos o adjetivos. Todo ello revela la riqueza y profundidad con que una interrogación puede ser explorada y de las infinitas alternativas de consulta disponibles en virtud de las preguntas de investigación o las hipótesis por contrastar. Cualquiera de las búsquedas de que dispone la interfaz El Grial ha sido diseñada para llevar a cabo diversos tipos de análisis cuantitativo de los textos y de los corpus allí registrados o de otros por ingresar; de esta manera, es factible conocer la frecuencia de una palabra objetivo en un texto dado o en todo un cor-

PARODI-01

29/1/10

11:06

Página 69

LA INTERFAZ EL GRIAL COMO UN SISTEMA DE ANOTACIÓN

69

pus. Además, junto con la frecuencia es posible conocer el cotexto oracional (concordancia), es decir, se pueden conocer las palabras a la derecha y a la izquierda que acompañan la palabra que está siendo buscada. Estas funciones se aplican tanto a la Búsqueda Simple como a las otras disponibles. A continuación, en la siguiente Imagen, se presenta un tipo de herramienta de mayor complejidad, que brinda alternativas más intrincadas de indagación y con potencialidades mucho mayores, ella es la Búsqueda Compleja.

IMAGEN 6 Búsqueda Compleja

Tal como se decía, El Grial también ha sido diseñado para posibilitar interrogaciones de mayor versatilidad en el análisis de un corpus. A través de la Búsqueda Compleja se llevan a cabo indagaciones avanzadas a partir de más de una categoría, esto es, una serie combinada de categorías. En este tipo de consultas se incorporan todas las funciones de la Búsqueda Simple, pero además se puede recuperar información sintáctica e información de dependencia gramatical. La principal diferencia entre este tipo de Búsqueda Compleja y la simple es la posibilidad de interrogar un corpus por cadenas sintácticas específicas combinando incluso formas, categorías y subcategorías. En efecto, por ejemplo, se puede

PARODI-01

29/1/10

11:06

Página 70

70

GIOVANNI PARODI

seleccionar una forma, seguido de una etiqueta sintáctica, tal como se muestra en la siguiente secuencia: [Forma = para; lema = ser; Etiqueta sintáctica = Participio] A partir de una consulta así, obtendremos secuencias como: 1. Para ser entregados 2. Para ser amados 3. Para ser investigados Ahora bien, debido a que el programa cuenta además con etiquetas de dependencia funcional es posible obtener una secuencia a partir de la selección de solamente una etiqueta. De este modo, si, por ejemplo, se selecciona la etiqueta Sujeto, se obtiene como resultado todas las secuencias de superficie que cumplen esa función gramatical. La interfaz El Grial también posibilita ver los resultados completos del análisis de anotación morfosintáctica y de dependencia funcional que realiza el programa. Estos se presentan en formato de tablas con seis columnas. En la primera columna se entrega la identificación del documento a través del número de clasificación en el subcorpus en que se incrusta. En la segunda, se presenta la numeración correlativa de los elementos de la oración en análisis (considerando la separación de punto a punto). La tercera columna consigna las formas textuales o superficiales, es decir, la palabra tal como aparece en el texto. Cada vez que comienza una nueva oración, la enumeración se inicia nuevamente. En la cuarta columna aparece la lematización de la forma textual de la tercera columna. Como se sabe, el lema corresponde a: a) el infinitivo para el caso de los verbos; b) el masculino y singular, cuando corresponda para el caso de los sustantivos, adjetivos y pronombres. En la quinta columna, se muestra la relación sintáctica asociada al número de la primera columna. De este modo, si en la tercera columna aparece det:>4 significa que esa palabra es el determinante de la palabra analizada con el número 4. En la última columna, se entrega información sintáctica y morfológica. La información sintáctica es la primera etiqueta que aparece y es antecedida por el símbolo &. La información morfológica se presenta desde la segunda parte de la etiqueta en adelante y corresponde a la categoría gramatical y las marcas de género y número.

PARODI-01

29/1/10

11:06

Página 71

71

LA INTERFAZ EL GRIAL COMO UN SISTEMA DE ANOTACIÓN

Un ejemplo de los resultados de este programa se presenta a continuación y se detalla posteriormente en la Tabla 4: Registro: Técnico-Profesional Modo: Escrito Corpus: CTC-Com-ma Clase textual: Manual Área: Marítimo Identificación Documento: 21 TABLA 4 Visualización del output: texto anotado id_docum

Posición

Forma

Lema

Dep Func

POS

21

1

CARACTERÍSTICAS Característica

Main:>0 |

&NH N FEM PL |

21

2

DE

De

pm:>4 |

&PM> PREP |

21

3

LA

La

det:>4 |

&DN> DET FEM SG |

21

4

CONTABILIDAD

Contabilidad

Mod:>1 |

&NH N FEM SG |

21

5

21

1

Las

Las

det:>2 |

&DN> DET FEM PL |

21

2

Características

Característica

null |

&NH N FEM PL |

21

3

De

De

pm:>5 |

&PM> PREP |

21

4

La

La

det:>5 |

&DN> DET FEM SG |

21

5

Información

Información

mod:>2 |

&NH N FEM SG |

21

6

Contable

Contable

ads:>5 |

&

21

7

Se

Se

obj:>9 |

&NH PRON |

21

8

Puede

Poder

null |

&+FM V IND PRES SG3 |

21

9

Resumir

Resumir

obj:>8 |

&-FM V INF |

21

10

En

En

null |

&PM> PREP |

21

11

:

PARODI-01

29/1/10

11:06

Página 72

72

GIOVANNI PARODI

3.1. EL MANCHADOR DE TEXTOS Tal como se anunció en la introducción de este capítulo, como parte de las funcionalidades de El Grial también se ha desarrollado e implementado una herramienta informática denominada El Manchador de Textos. Ella permite buscar determinados rasgos lingüísticos en corpus digitalizados y visualizar dicha búsqueda sin desmembrar el texto analizado, es decir, sin crear listas de palabras. Otra característica de esta búsqueda es que se puede indagar más de un rasgo a la vez y lograr la visualización de la interacción de dos o más rasgos lingüísticos en un corpus. Al proceso de búsqueda y detección de uno o más rasgos lingüísticos en un texto y la visualización de ellos en el corpus se le ha llamado “manchado” del texto. Así, cuando un texto que ha sido “manchado” se transforma en un texto sobre el que se ha realizado una búsqueda de un conjunto de rasgos lingüísticos y en el cual se visualiza (a través del proceso de manchado con colores diversos) la interacción que existe entre los rasgos en estudio. Por otra parte, luego del manchado del texto, esta herramienta computacional permite asignarle un valor matemático a los rasgos que han sido manchados, es decir, otorga un cociente a partir de la co-ocurrencia sistemática de un grupo de rasgos dividido por el total de palabras en cada párrafo de un texto y luego del texto en su totalidad. Entonces, son producto de El Manchador de Textos, por un lado, el manchado del texto con la consiguiente distribución co-ocurrente de los rasgos lingüísticos buscados y, por otro, la obtención de un índice que indica el grado variable de la co-ocurrencia con que se presentan los rasgos seleccionados. En la siguiente tabla se presenta, a modo de ejemplo, un extracto de un texto “manchado”: TABLA 6 Ejemplo de “manchado” del párrafo de un texto Considerando estos resultados, parece más aconsejable para próximos experimentos similares, que los animales partan a la misma hora del predio, aunque deban por tanto faenarse en horarios distintos. Esto último demuestra también que en este tipo de estudios es prácticamente imposible mantener las condiciones exactamente iguales para todos los animales, ya que las condiciones climáticas y otras del viaje pueden variar al pasar un mayor tiempo de transporte y al tener que llegar a diferentes horarios al matadero: aunque el tiempo de reposo sean igual, podrían cambiar las condiciones ambientales dentro de los tiempos de reposo en estudio, pudiendo igualmente influir (Warriss 1990; Knowles 1999).

PARODI-01

29/1/10

11:06

Página 73

LA INTERFAZ EL GRIAL COMO UN SISTEMA DE ANOTACIÓN

73

Como se observa, el párrafo ha sido coloreado según una instrucción de búsqueda, es decir, se han manchado en diferentes tonos los rasgos lingüísticos correspondientes a algunos tipos de nominalizaciones y a la estructura nominal compuesta por sustantivo + de + sustantivo. De este modo, a partir del “manchado”, el investigador puede visualizar en qué sectores del texto aparecen los rasgos lingüísticos que ha buscado. Además, este proceso permite detectar visualmente tanto las agrupaciones como la forma en que estos rasgos se interrelacionan al interior de los párrafos de un texto. Como ya se dijo, esta herramienta computacional también permite calcular y mostrar la frecuencia de aparición de cada secuencia de rasgos en estudio. Esta información es relevante para calcular la co-ocurrencia sistemática (aparición conjunta) de los rasgos lingüísticos seleccionados según el total de palabras de cada párrafo del texto y, del mismo modo, del texto completo. A este proceso cuantitativo lo hemos denominado Índice de Densidad Lingüística. Ahora bien, para realizar una consulta a través de El Manchador de Textos, en primer lugar se debe ingresar a la página www.elgrial.cl. Una vez en el sistema, se debe seleccionar la opción “Consulta de Corpus El Grial”, tal como lo presenta la Imagen 7.

IMAGEN 7 Pantalla de entrada a El Grial

PARODI-01

74

29/1/10

11:06

Página 74

GIOVANNI PARODI

Luego de realizada esta selección, se desplegará una pantalla con cinco opciones. El Manchador de Textos se encuentra bajo la opción [c]. Una vez seleccionada la opción en cuestión, se procede a la pantalla respectiva. Para iniciar una consulta, se procede a través del botón “Seleccionar Corpus”. Esta opción conduce a otra pantalla en la que se debe seleccionar el o los textos o un corpus con el o los que se va a trabajar.

IMAGEN 8 Selección de corpus y de un texto

A modo de ejemplo, se ha seleccionado el Corpus ARTICOS (Artículos de Investigación Científica Originales), recuperándose automáticamente en la sección Documentos todos los textos asociados a este corpus. Como se observa en la siguiente Imagen 8, los textos aparecen codificados, por ejemplo, el primer texto de la lista aparece con el código BIO_194. Esto significa que es el artículo de investigación número 194 correspondiente al área de Biología. Ahora bien, si no se desean consultar todos los textos del corpus en su conjunto, se puede elegir el o los textos de interés de interés. Para ello, se debe seleccionar el código o códigos correspondientes, es decir, haciendo uso de la función: control + clic, si son más de uno. Una vez seleccionado el texto BIO_194, en nuestro ejemplo, se selecciona el botón “Manchador”. Una vez realizado esto se despliega la pantalla para consultas (ver Imagen 12).

PARODI-01

29/1/10

11:06

Página 75

LA INTERFAZ EL GRIAL COMO UN SISTEMA DE ANOTACIÓN

75

IMAGEN 9 Página de consultas de El Manchador de Textos

Como se observa en la Imagen 9, la herramienta dispone de hasta 10 secuencias posibles de búsqueda, siendo posible organizar la secuencia hasta en 6 unidades (o tokens). Por secuencia se entiende aquí el rasgo lingüístico a ser buscado, por ejemplo: participios pasados. En tanto que por token se entiende la unidad que permite conformar (por sí misma o junto a otros tokens) el rasgo para la búsqueda en el Manchador. Ahora bien, tales unidades pueden corresponder a distintos niveles de abstracción en la búsqueda (desde unidades más simples o superficiales a unidades más complejas o profundas de la lengua). Los niveles más importantes de búsqueda en el Manchador de Textos son: Forma, Lema y POS. Es altamente comprensible que una herramienta como El Manchador de Textos no revele rápidamente todas sus potencialidades ni utilidades en el apoyo de la investigación. Menos aún a partir de una breve exposición como esta. Un modo de iniciar su empleo puede ser enmarcar este recurso en una indagación en curso. Con el fin de prefundir en explicaciones más detalladas al respecto con ejemplos de sus aplicaciones, recomiendo el artículo de Venegas y Silva (2007).

4. Corpus disponibles en línea La herramienta y base de datos El Grial cumple con el objetivo de administrar todos los corpus disponibles, recolectados a partir de diversos proyectos de investigación. A través del botón Descripción del Corpus El Grial se despliega una tabla de cuatro columnas que específica información pormenorizada de los corpus, sus características, el número de documentos que lo componen y el número de palabras de cada texto y de cada corpus. La siguiente Tabla 5 muestra estos datos:

PARODI-01

29/1/10

11:06

76

Página 76

GIOVANNI PARODI

TABLA 5 Descripción del Corpus El Grial Configuración de los corpus que componen El Grial Nº de documentos

Nº de palabras

Artículos de investigación científica en español, recolectados del indexador Cielo

642

2.471.389

Noticiarios centrales de cuatro canales de televisión abierta de Chile

270

84.809

27

40.449

Textos de divulgación de la ciencia y la tecnología en cinco periódicos chilenos de circulación nacional

411

204.598

Textos académicos obtenidos de los Programas de Estudio de cuatro carreras de la Pontificia Universidad Católica de Valparaíso (Psicología, Trabajo Social, Química Industrial e ingeniería en Construcción)

491

58.594.630

Pruebas e informes escritos por estudiantes universitarios de las carreras de Psicología e Historia de la Pontificia Universidad Católica de Valparaíso

502

791.230

Artículos sobre políticas públicas acerca de la pobreza

20

234.818

Corpus constituido por tres subcorpora, a) Textos especializados de la formación técnico-profesional. b) Textos de literatura hispanoamericana. c) Entrevistas orales semidirigidas a estudiantes de cuarto año de enseñanza media

20

234.818

2.453

64.120.885

Nombre

Características generales

ARTICOS NOTICENTV-2000 DETP-2004

DICIPE-2004

Corpus PUCV-2006

Corpus de Escritura Académica PUCV-2006 CPP-2000 PUCV-2003

Totales

Resúmenes obtenidos como parte de pruebas de comprensión aplicadas a alumnos de especialidades de la formación técnico-profesional diferenciada de enseñanza

Artículos sobre políticas públicas acerca de la pobreza

PARODI-01

29/1/10

11:06

Página 77

LA INTERFAZ EL GRIAL COMO UN SISTEMA DE ANOTACIÓN

77

Como se comprende, este es un conjunto de corpus creciente y en desarrollo. En la actualidad, se están incorporando dos nuevos corpus de tamaño relativamente grande. Ellos pertenecen al Corpus PUCV-2006 que esta siendo recolectado y que abarca, por un lado, los textos que se leen como lectura obligatoria y complementaria en 4 carreras universitarias de la Pontificia Universidad Católica de Valparaíso: Trabajo Social, Psicología, Química Industrial e Ingeniería en Construcción. Por otro, el Corpus PUCV-2006 también contempla la recolección de textos de lectura fundamental en los cuatro escenarios laborales en que estos profesionales se desempeñen. Así, este corpus constituye (por sus características peculiares) una colección de discursos escritos única en Chile tanto por su naturaleza como por su tamaño, ya que no se tiene registro de otro corpus académico y profesional en los mismos cuatro ámbitos de indagación que pretendan llegar a los 70 millones de palabras (Parodi 2007c).

Comentarios de cierre Con la ejemplificación de algunas de las herramientas de búsqueda disponibles en El Grial, cerramos este capítulo. Estamos ciertos que sería posible realizar una pormenorizada explicación y mayor ejemplificación de las múltiples funciones y posibilidades que brinda el sitio y sus herramientas. Comprendemos que algunas requieren ejercitación y conocimiento del sitio y sus posibilidades. En parte, no ahondamos en ello pues consideramos que estas son prácticamente infinitas y preferimos insinuar algunas de las más relevantes y esperamos motivar así la curiosidad del lector para que por sí mismo explore el sitio e indague alternativas. No obstante ello, en esta llamada Versión 3.0 se está incorporando un Demo o Visita Virtual que permitirá apoyar a los interesados en el manejo eficiente del sitio y los recursos en línea. Como se ha ya comentado, en el sitio El Grial se están implementando progresivamente nuevas alternativas de apoyo a la investigación. Una de las opciones que pronto brindará será la comparación de frecuencias normalizadas de todos los textos (y corpus) disponibles. Esta función estará disponible a partir de todas las etiquetas de base del programa. Así, no será necesario que cada investigador realice las búsquedas básicas reiterada e innecesariamente, ya que estas habrán sido ya efectuadas y almacenadas en bases de datos. A partir de ella, se podrán establecer comparaciones multiregistros y multigéneros según los intereses de cada investigador.

PARODI-01

29/1/10

11:06

Página 78

PARODI-01

29/1/10

11:06

Página 79

4. E M P I R I A E I N V E S T I G AC I Ó N D E F O C O C U A N T I TAT I VO : E X P L O R AC I Ó N D E L A VA R I AC I Ó N M U LT I R E G I S T R O S A T R AV É S D E L C O R P U S D E L E S P A Ñ O L P U C V- 2 0 0 3

Introducción Si el lector ha creído encontrar algunas ideas aportadoras en los primeros tres capítulos de este libro y ya ha alcanzado el presente, es posible que se pregunte: ¿y cómo se implementa una investigación en esta línea?, ¿cómo puedo construir un corpus?, o ¿cómo puedo explotar el uso de El Grial? Bueno, si este es su caso, esta es una cuestión que yo también me planteé en su momento y por ello he incorporado los capítulos 4 y 5. En cada uno de ellos abordo una investigación en la que se enfatiza un foco preferentemente cuantitativo en la primera y con más énfasis cualitativo en la segunda. En ninguna de ellas hay una mirada exclusiva, por cuanto sostengo que la complementariedad de estas dos miradas está siempre presente. En el presente capítulo, reseño una investigación cuyos pasos metodológicos espero permitan mostrar un modo de investigar, revelando así aspectos de la construcción de un corpus y algunas de sus posibilidades de indagación desde un foco preferentemente de corte cuantitativo. Para llegar a buen puerto, se ha explotado El Grial en todo su potencial y versatilidad, además de la necesaria aplicación de métodos estadísticos multivariados.

1. Objetivos de la investigación En este capítulo se indaga en la variabilidad lingüística y funcional existente al interior del corpus PUCV-2003, compuesto por 90 textos y tres registros diversificados. Con el objetivo general de describir de manera profunda un grupo de textos especializados y escritos de naturaleza técnico-científica (PUCV-CTC), se realiza un análisis multirasgos y multidimensiones con apoyo de técnicas estadísticas multivariadas (Análisis Factorial de Componentes Principales). Los objetivos más específicos que se persiguen en este apartado son: (a) determinar, desde una perspectiva empírica cuantitativa, estructuras y usos lingüísticos relevantes en el corpus PUCV-2003, (b) comparar sistemáticamente los tres corpus: uno especializado técnico-científico escrito, otro no especializado literario escri-

PARODI-01

29/1/10

11:06

80

Página 80

GIOVANNI PARODI

to y uno tercero oral no especializado de entrevistas; y (c) identificar similitudes y diferencias –en términos de dimensiones– entre los textos orales y los escritos y entre los especializados y los no especializados (o generales). Como se desprende, la cuestión de la especialidad/no-especialidad de los textos y de la oralidad/escritura son cuestiones centrales y relevantes en esta indagación. En cuanto a la metodología, seguimos –en líneas generales– la propuesta de Biber (1988) respecto del Análisis Multirasgos (AMR) y Análisis Multidimensiones (AMD). Ello, dado que tal enfoque fue creado originalmente como un método analítico para el estudio detallado de las variaciones entre registros; como se aprecia, en nuestro caso, nos resulta de utilidad para describir y comparar los textos de los tres corpus en estudio. En la primera parte del capítulo se entregan detalles más específicos acerca de procedimientos metodológicos, y se describe los corpus recolectados, los rasgos lingüísticos explorados y las técnicas estadísticas ejecutadas. Posteriormente, se presentan los resultados, entre los que destacan, los cinco factores de agrupamientos de rasgos, interpretados en cinco dimensiones relevantes. La dimensión denominada «Foco Informacional» resulta ser la que –estadísticamente– mejor describe el discurso especializado técnico-científico y de la modalidad escrita de la lengua. Por último, se adjunta un anexo que juzgo de alta relevancia ya que se entrega información descriptiva y explicativa acerca de las cinco dimensiones exploradas.

2. Metodología 2.1. LOS OBJETIVOS Y LOS CORPUS Como se indicó anteriormente, en esta investigación se busca determinar estadísticamente –mediante análisis factorial– los patrones lingüísticos sobresalientes y co-ocurrentes en el Corpus PUCV-2003 y realizar un estudio comparativo a partir de los tres diferentes grupos de textos recolectados, con base en las dimensiones a determinar e interpretar funcionalmente. De manera más específica, a través de este enfoque multidimensional, se compara las tres áreas técnicas del Corpus Técnico-Científico (CTC). El Corpus PUCV-2003 se compone de noventa documentos que alcanzan un total de 1.466.744 palabras, el cual se subdivide en tres registros o subcorpus (Corpus Técnico-Científico –CTC, Corpus de Literatura Latinoamericana –CLL, y Corpus de Entrevistas Orales –CEO). Cabe destacar que, en un primer momento, solo se construyó el CTC y, posteriormente, con el objetivo de desarrollar un enfoque contrastivo entre diversos registros de naturaleza especializada y no

PARODI-01

29/1/10

11:06

Página 81

EMPIRIA E INVESTIGACIÓN DE FOCO CUANTITATIVO

81

especializada y entre una modalidad oral y escrita, se procedió a recolectar otros dos corpus, a saber, el CLL y el CEO. La siguiente tabla muestra su distribución por número de textos y palabras. TABLA 1 Constitución del Corpus PUCV-2003 Tipo de Corpus

Número de archivos o textos

Total de Palabras

Corpus PUCV-CTC

74 (82%)

626.790 (42%)

Corpus PUCV-CLL

12 (13%)

459.860 (32%)

Corpus PUCV-CEO

04 (5%)

380.094 (26%)

90 (100%)

1.466.744 (100%)

Totales

2.2. CORPUS DE TEXTOS TÉCNICO-CIENTÍFICOS (CTC) Tal como se muestra en la siguiente Tabla 2, el Corpus Técnico-Científico (CTC) está compuesto por setenta y cuatro textos con un total de 626.790 palabras, recolectado en establecimientos secundarios técnico-profesionales de la ciudad de Valparaíso, Chile, en tres áreas de especialización. Estas tres diferentes áreas del conocimiento técnico especializado dicen relación con la formación de tres diferentes profesionales técnicos, a saber, sector marítimo (Especialidad Operación Portuaria), sector metalmecánico (Especialidad Mecánica Industrial), y sector de administración y comercio (Especialidad Contabilidad). Los textos recopilados corresponden a aquellos que se entregan a los alumnos como parte de lecturas obligatorias o complementarias en cada área técnica, esto es, son parte importante del acceso de estos estudiantes al conocimiento especializado. El desglose de esta información se entrega en la Tabla 2. Como se aprecia, no existe una relación directa entre número de textos por ámbito de especialidad y número de palabras. Así, en el ámbito marítimo de operación portuaria se registra la mayor cantidad de textos (49% del total), pero el menor corpus de palabras (25% del total). Por el contrario, y de manera interesante, en el área técnica de mecánica industrial se recolectó el grupo más reducido de textos (24%), pero ellos conforman la muestra más grande respecto al número de palabras (39%). Por su parte, el área de administración y comercio (Contabilidad) arroja cifras similares a la anteriormente descrita. En ella se obtuvo un total de 20 textos (27% del total) y un número elevado de palabras (36% del total). Estas cifras revelan una cierta heterogeneidad respecto a la configura-

PARODI-01

29/1/10

11:06

Página 82

82

GIOVANNI PARODI

TABLA 2 Constitución del CTC Área Técnica CTC

Número de textos

Número de palabras

Marítima (Operación Portuaria)

36 (49%)

155.160 (25%)

Industrial (Mecánica)

18 (24%)

246.374 (39%)

Administración y Comercio (Contabilidad)

20 (27%)

225.256 (36%)

Totales

74 (100%)

626.790 (100%)

TABLA 3 Constitución del CLL Obras literarias (CLL)

Número de palabras

CLL 1 (PUCV 75)

27.853 (6,5%)

CLL 2 ( PUCV 76)

1.414 (0,5%)

CLL 3 (PUCV 77)

30.797

CLL 4 (PUCV 78)

56.491 (12%)

CLL 5 (PUCV 79)

47.173 (10%)

CLL 6 (PUCV 80)

33.405

CLL 7 (PUCV 81)

94.779 (21%)

CLL 8 (PUCV 82)

50.704 (11%)

CLL 9 (PUCV 83)

12.974

(3%)

CLL 10 (PUCV 84)

24.467

(5%)

CLL 11 (PUCV 85)

4.628

(1%)

CLL 12 (PUCV 86) Totales

(7%)

(7%)

75.175 (16%) 459.860 (100%)

ción del corpus de acuerdo a cada ámbito de especialización y también muestran que no existe una relación directa entre área técnica y porcentaje de textos y palabras. En todo caso, el número de palabras por ámbito demuestra no ser relevante en términos estadísticos.

PARODI-01

29/1/10

11:06

Página 83

EMPIRIA E INVESTIGACIÓN DE FOCO CUANTITATIVO

83

Mediante un análisis multiniveles se detectó doce tipos textuales diferentes en el CTC, los cuales fueron rastreados cualitativamente a partir de los corpus (para un estudio detallado de esta determinación tipológica, ver Parodi y Gramajo, 2003).

2.3. CORPUS DE TEXTOS DE LITERATURA LATINOAMERICANA (CLL) La selección de los doce textos que componen el Corpus de Literatura Latinoamérica escrita se ejecutó basándose en entrevistas con los profesores de la asignatura de Lengua Castellana y Comunicación de los tres establecimientos técnico-profesionales. En ellas se les solicitó un listado de obras literarias que ellos dieran como lectura a sus alumnos de 4º año de Enseñanza Media en las tres áreas de especialización de las cuales se recogió el CTC. Luego de una comparación de los listados de textos obtenidos, se decidió –estrictamente en base a un criterio de homogeneidad– construir este corpus según las obras literarias que coincidían entre los tres establecimientos educacionales. Es decir, el corpus se conformó a partir de las obras a que todos los alumnos estaban expuestos. Ello derivó en este grupo de autores y las correspondientes obras. En la Tabla 3, se presentan los detalles descriptivos de cada texto junto al número parcial y total de palabras. La cantidad de palabras de este corpus presenta un número inferior en cerca de ciento setenta mil palabras al del CTC. Este hecho no constituye en sí un problema para comparaciones ya que las cifras se utilizan normalizadas en textos de 1.000 palabras. Además, a pesar de ser un número inferior al otro corpus, su cantidad es significativa para los estándares empleados actualmente en lingüística de corpus y permite sin dificultades la aplicación de programas computacionales estadísticos como los que se requieren para el análisis factorial.

2.4. CORPUS DE TEXTOS. ENTREVISTAS ORALES (CEO) Este tercer corpus está formado por dos entrevistas orales realizadas a un total de setenta y cinco alumnos de 4º año de Enseñanza Media de establecimientos técnicos y no técnico-profesionales de la ciudad de Valparaíso (educación diferenciada y no-diferenciada). La primera entrevista, de tipo entrevista en profundidad semi-dirigida, consistió en una conversación acerca de técnicas de estudio y estrategias de lectura y comprensión. La segunda entrevista, se estructuró según algunas de las temáticas abordadas en la primera conversación y tuvo un carácter más abierto y menos dirigido que la primera. Las entrevistas se realizaron por

PARODI-01

29/1/10

11:06

Página 84

84

GIOVANNI PARODI

alumnos y alumnas de último año de la carrera de Pedagogía en Castellano de la PUCV. Se recurrió, en parte, a este perfil de entrevistador con el objetivo de crear un ambiente de confianza y distensión en la conversación. Solo por razones de organización interna y mejor acceso de procesamiento técnico, se decidió dividir las ciento cincuenta entrevistas en cuatro archivos computacionales. Por ello, la distribución y cuantificación de este corpus oral dialógico se presenta del siguiente modo en la Tabla 4. TABLA 4 Constitución del CEO Entrevistas orales (CEO)

Número total de palabras

CEO 1 (PUCV 87)

86.616 (22%)

CEO 2 (PUCV 88)

89.199 (24%)

CEO 3 (PUCV 89)

102.092 (27%)

CEO 4 (PUCV 90)

102.187 (27%)

Totales

380.094 (100%)

2.5. RASGOS LINGÜÍSTICOS Respecto a los rasgos lingüísticos a indagar, se llevó a cabo un rastreo bibliográfico con el fin de identificar categorías gramaticales representativas de relevancia funcional en español. Con esta información disponible, se construyó una matriz con un total de sesenta y cinco rasgos lingüísticos. En la Tabla 5, se entrega el listado de estos sesenta y cinco rasgos, agrupados en torno a quince categorías más generales. En el apartado siguiente se entrega un análisis pormenorizado de estos sesenta y cinco rasgos.

2.5.1. Descripción de los 65 Rasgos lingüísticos del Corpus PUCV-2003 Con el fin de aportar una descripción, principalmente en términos funcionales, conjuntamente en su relación con ciertos registros y un detallado apoyo bibliográfico referencial, en lo que sigue entregamos una caracterización muy sintética de cada uno de los sesenta y cinco rasgos en cuestión. Cabe destacar que la inda-

PARODI-01

29/1/10

11:06

Página 85

EMPIRIA E INVESTIGACIÓN DE FOCO CUANTITATIVO

85

TABLA 5 Rasgos lingüísticos Proyecto Corpus PUCV-2003 A. Marcadores de tiempo verbal 1. Pretérito indefinido (indicativo) 2. Pretérito imperfecto (indicativo) 3. Pretérito perfecto (indicativo y subjuntivo) 4. Presente (indicativo y subjuntivo) 5. Futuro (indicativo y subjuntivo) 6. Futuro perifrástico B. Marcadores de modo verbal 7. Indicativo/imperativo 8. Subjuntivo/imperativo 9. Modo indicativo 10. Modo subjuntivo 11. Modo imperativo C. Desinencias verbales de persona 12. Primera singular 13. Segunda singular 14. Tercera singular 15. Primera plural 16. Segunda plural 17. Tercera plural D. Pronombres personales 18. Primera persona singular 19. Primera persona plural 20. Segunda persona singular 21. Segunda persona plural 22. Tercera persona singular 23. Tercera persona plural 24. Demostrativos E. Formas nominales 25. Nominalizaciones 26. Sustantivos (comunes y propios) F. Formas Pasivas 27. Pasivas con «se» 28. Pasivas con ser sin agente 29. Pasivas con ser con agente 30. Pasivas con estar G. Especificidad léxica 31. Relación type/token por forma 32. Relación type/token por lema H. Formas estativas activas 33. Ser 34. Estar

I. Tipos verbales 35. Públicos 36. Privados 37. Persuasivos 38. Perceptivos J. Verbos modales 39. Posibilidad 40. Necesidad 41. Obligación 42. Volición K. Marcadores de modalidad 43. Atenuadores 44. Enfáticos L. Adverbios 45. De lugar 46. De tiempo 47. De modo 48. De cantidad M. 49. 50. 51. 52. 53. 54. 55.

Marcadores de subordinación Subordinadas sustantivas con «que» Subordinadas adjetivas pron. relativo Subordinadas adverbiales de razón o c/e Subordinadas adverbiales de concesión Subordinadas adverbiales condicionales Subordinadas adverbiales de tiempo Frases infinitivo en función nominal

N. Frases preposicionales y adjetivos 56. Frases prep. (compl. del nombre) 57. Adjetivos atributivo s(calificativo) 58. Adjetivos predicativos 59. Adjetivos demostrativos 60. Participios función adjetiva Ñ. Marcadores de Coordinación 61. Conjunciones adversa., adit. y disyun. O. Marcadores de negación 62. Adverbio de negación 63. Adverbios de negación temporal 64. Conjunción de negación 65. Pronombres de negación

PARODI-01

86

29/1/10

11:06

Página 86

GIOVANNI PARODI

gación que dio origen a estas descripciones fue desarrollada por un equipo de investigadores de la Escuela Lingüística de Valparaíso en la Pontificia Universidad Católica de Valparaíso (PUCV).

A. MARCADORES DE TIEMPO VERBAL 1. Pretérito indefinido (indicativo) [PRET.IND] Expresa anterioridad del verbo al acto de la palabra. Es acción que ya no se puede volver a realizar (Contreras 1984). Funcionalmente, ha sido definido como tiempo representativo de la secuencia narrativa, porque es el tiempo en el que se explica la complicación que perturba el estado inicial (Bassols & Torrent 1997). Se le considera característico de la lengua escrita y de la prosa narrativa (De Kock & Gómez 2002). 2. Pretérito imperfecto (indicativo) [PRET.IMP] Presenta una acción durativa, o bien, reiterada o habitual, simultánea en todo o en parte con otra también pretérita, durativa o instantánea. Por esto se dice que es un tiempo relativo (Alvar 2000; Moliner 1986). Específicamente, señala simultaneidad respecto a un momento anterior al punto central (Alvar 2000). Ha sido considerado característico de la lengua escrita, en particular de la prosa narrativa (De Kock & Gómez 2002). Bassols y Torrent (1997) señalan que es un tiempo con el que se describen los estados iniciales en la secuencia narrativa, como también los incisos descriptivos insertos en el relato. También consignan su uso en construcciones argumentativas, tal vez porque como anota Moliner (1986), el pretérito imperfecto en los verbos modales (deber, poder, tener que) expresa opinión acerca de la conveniencia o procedencia de una cosa. 3. Pretérito perfecto (indicativo y subjuntivo) [PRET.PER] Manifiesta una acción pasada que tiene incidencia en el momento de la enunciación, que dura hasta el momento mismo en el que se habla (Moliner 1986). Gili Gaya (1980) constata que aunque el español moderno establece la diferencia entre el pretérito indefinido y el perfecto, extensas zonas de España e Hispanoamérica han preferido una forma por sobre la otra, debido a que en ambas predomina el aspecto perfectivo. 4. Presente (indicativo y subjuntivo) [PRES] Presenta las acciones que coexisten con el acto de la palabra (Gili Gaya 1980). Es usado para todo lo universal. Habitual en máximas y sentencias.

PARODI-01

29/1/10

11:06

Página 87

EMPIRIA E INVESTIGACIÓN DE FOCO CUANTITATIVO

87

Cuando la acción se refiere al momento del habla, se trata del presente actual. Pero además, con el presente se enuncian las verdades intemporales y las acciones habituales. Puede expresar acciones pasadas, en el llamado presente histórico (Moliner 1986). Asimismo, cuando la acción se siente de segura realización, puede tener valor de futuro (Moliner 1986). 5. Futuro (indicativo y subjuntivo) [FUT] Expresa acción venidera, independientemente de cualquier otra acción. Según Gili Gaya (1980) el empleo del futuro supone una cierta capacidad de abstracción por parte del hablante, debido a esto aparece tardíamente y es poco frecuente en el habla infantil. Es preferido en ciertas modalidades, como la lengua escrita; su uso en la lengua oral aumenta conforme el grado de formalidad del habla (Arroyo 2000). El futuro del subjuntivo aparece solo en ciertos casos: en oraciones con «si» y en las “oraciones de relativo pronominal o adverbial; y esto solamente en lenguaje anticuado y en algunas frases estereotipadas, propias, por ejemplo, del lenguaje judicial o de las leyes...” (Moliner 1986: 1476). 6. Futuro perifrástico [FUT.PERI] Tiempo que corresponde al mundo comentado, en oposición al imperfecto, tiempo de lo narrado (Weinrich 1974). Es más común en los registros coloquiales y descuidados (Arroyo 2000; Contreras 2000).

B. MARCADORES DE MODO VERBAL 7. Indicativo/imperativo [INDIC.IMP] Se da una coincidencia de forma entre la segunda persona singular del imperativo y la tercera persona singular del indicativo. 8. Subjuntivo/imperativo [SUBJ.IMP] Existe un sincretismo entre las formas del subjuntivo y del imperativo debido a que las únicas formas específicas del imperativo son las segundas personas del singular (tú) y el plural (vosotros). Las otras personas se toman del presente del subjuntivo. En las frases negativas, las segundas personas se sustituyen por las del subjuntivo. 9. Modo indicativo [MOD.IND] Expresa la modalidad declarativa experiencial (Cepeda 2002), como también estados o acciones consideradas reales (Gómez Macker & Peronard 1988). El

PARODI-01

88

29/1/10

11:06

Página 88

GIOVANNI PARODI

modo indicativo es propio del intercambio discursivo oral (Cepeda 2002). Este modo hace referencia a hechos reales localizados en un tiempo verdadero (Criado de Val 1962; Gómez Macker & Peronard 1988). Generalmente se refiere a un acontecimiento localizado a partir de un pretérito. Según Alcoba (1999), el modo indicativo se utiliza cuando hay aserción. En este modo predomina la función representativa y su modalidad distintiva es la lógica o declarativa. “Se define por la relación objetiva entre hablante y mensaje y la modalidad declarativa (...) y como la modalidad declarativa es la forma no marcada (…) el modo indicativo es siempre el más extenso” (Hernández 1996: 473). 10. Modo subjuntivo [MOD.SUBJ] Permite especular sobre hechos inciertos, sujetos a una apreciación subjetiva (Criado de Val 1962). En este modo se expresa la subjetividad del hablante o del sujeto de la comunicación ante el enunciado, es el modo de la hipótesis y de la virtualidad. En toda expresión con subjuntivo se percibe la presencia del hablante y del enunciado. El hablante puede aparecer, además, “como agente de la enunciación, como sujeto del enunciado, hecho que no podía darse en el llamado imperativo” (Hernández 1996: 375). Sin embargo, además de estas características, se debe tener presente que el subjuntivo aparece normalmente como oración subordinada, y que esta remite a textos de mayor complejidad sintáctica (Gili Gaya 1980), cuya función es enmarcar la información del discurso de diversas maneras. 11. Modo imperativo [MOD.IMP] Su misión propia es el mandato directo. Se limita casi exclusivamente al lenguaje hablado, locucional (Criado de Val 1962). Estas formas verbales se oponen a las demás formas personales porque están especializadas en las expresiones de la modalidad deóntica apelativa de mandato. Las formas de imperativo no transportan otro significado que el de mandato, en cambio, es posible formular mandato mediante otras formas lingüísticas como el futuro o el presente de indicativo, presente del subjuntivo, etc. (Gili Gaya 1980).

C. DESINENCIAS VERBALES DE PERSONA 12. Primera singular [DES.1S] Refleja el carácter egocéntrico de un texto, implica una necesidad de comunicación directa. Propio de un estilo directo, característico de la lengua

PARODI-01

29/1/10

11:06

Página 89

EMPIRIA E INVESTIGACIÓN DE FOCO CUANTITATIVO

89

escrita y de la prosa narrativa (De Kock & Gómez 2002). En el lenguaje científico y en el de divulgación de la ciencia se constata la tendencia común a evitar la referencia a la primera persona y a usar otros procedimientos de presentación de la persona del autor (Ciapuscio 1992). 13. Segunda singular [DES.2S] Se utiliza la segunda persona con el objeto de producir un efecto determinado: «generalizar la experiencia enunciada e incluir al interlocutor de una manera personal y afectiva» (Calsamiglia & Tusón 1999: 139). Se asocia al lenguaje coloquial. 14. Tercera singular [DES.3S] Aporta significación de tiempo, modalidad, persona y número del enunciado donde aparece la forma verbal (Alcoba 1999). Esta desinencia es característica en la lengua escrita, en particular, en el artículo científico (Kaiser 2002). 15. Primera plural [DES.1P] La identificación de la persona que habla con la primera persona del plural incorpora al locutor a un grupo (Calsamiglia & Tusón 1999). El llamado «nosotros de modestia» reemplaza al yo porque, en ocasiones, se considera inapropiado utilizarlo en público. Otra función de la primera persona plural es incluir al interlocutor, involucrándolo y suavizando así los mandatos o las peticiones. Ciapuscio (1992) ha constatado que este uso es frecuente en el discurso de divulgación dirigido al gran público. Asimismo la autora destaca en este tipo de textos y también en aquellos de divulgación destinado a un público más restringido, el uso de nosotros que incluye de modo aparente al interlocutor y cuya función es «ordenar la interacción y asegurarla» (Ciapuscio 1992: 198). 16. Segunda plural [DES.2P] Al igual que en los casos de primera y segunda persona singular, esta desinencia verbal manifiesta el carácter egocéntrico y la necesidad de comunicación directa. 17. Tercera plural [DES.3P] Esta desinencia es rasgo característico de la lengua escrita y del artículo científico (Kaiser 2002) debido a su uso para construir oraciones impersonales, en las que el sujeto se calla intencionalmente, carece de interés o es imposible de determinar (Gili Gaya 1980).

PARODI-01

90

29/1/10

11:06

Página 90

GIOVANNI PARODI

D. PRONOMBRES PERSONALES 18. Primera persona singular [PRON.1S] Debido a que en español los verbos conjugados llevan la marca de persona en la desinencia, el pronombre sujeto es innecesario casi siempre. En primera y segunda persona su aparición es enfática y «significa insistencia particular en hacer resaltar el sujeto» (Gili Gaya 1980: 172). Refiere directamente a los participantes, marcadores de la presencia del yo (Biber 1988). En la narración, distingue al testigo-participante o al protagonista (Bassols & Torrent 1997). Abundan cuando el contexto no aclara en forma suficiente la persona verbal. Es propio de las entrevistas orales (Castellano 2000). En general, los pronombres personales de la primera y segunda persona –denominados deícticos– remiten a los participantes en el acto de comunicación, función que les es propia. La propiedad semántica esencial de los pronombres personales es que no permiten asignar valores de verdad a los enunciados independientes del contexto (Fernández 1999). Otro aspecto importante es que los pronombres de primera y segunda persona son reversibles, en el sentido de que el yo de turno no puede menos que ceder su derecho a un tú, si quiere tener un interlocutor válido, aunque no son imprescindibles para expresar el concepto de persona gramatical (Fernández 1999). 19. Primera persona plural [PRON.1P] Con la forma nosotros se evita utilizar el pronombre yo, sin que ello implique, en principio, importantes diferencias semánticas. Este uso se considera más cortés y es por esta razón que está muy extendido en el género académico (Lledó 1995). Este pronombre puede tener varios tipos de referentes, en lo que se llama “plurales ficticios” (Alcina & Blecua 1975). 20. Segunda persona singular [PRON.2S] Las formas tú, usted son características de la lengua escrita, específicamente de la prosa narrativa y la poesía (De Kock & Gómez 2002). Requiere de un destinatario específico e indican un alto grado de interacción y acción (De Kock & Gómez 2002). En los textos narrativos, puede aparecer la narración en segunda persona singular, en caso de que los propios personajes adopten una perspectiva exterior que les dé mayor lucidez para el autoanálisis (Genette 1972). 21. Segunda persona plural [PRON.2P] Es válido para este pronombre cuanto se ha dicho para la segunda persona singular.

PARODI-01

29/1/10

11:06

Página 91

EMPIRIA E INVESTIGACIÓN DE FOCO CUANTITATIVO

91

22. Tercera persona singular [PRON.3S] Los pronombres él/ella aparecen cuando existe el riesgo de malinterpretar la referencia porque la información que aporta el contexto falla. Se asocia normalmente con entrevistas orales. (Castellano 2000). Él/ella tienen un uso deíctico que los asemeja a los demostrativos, pero también un uso referencial, esto es, tienen la capacidad de retomar los rasgos de un individuo presente en el contexto lingüístico (Fontanella 1999). En el caso de los textos narrativos, la tercera persona corresponde al narrador omnisciente (Bassols & Torrent 1997). A diferencia de los demás pronombres personales, la tercera persona singular es la “no persona”, es decir, está excluida de la instancia de comunicación y remite no al enunciado, sino a una situación “objetiva”. En este sentido se trata del término no marcado y de hecho no existe en todas las lenguas (Fernández 1999). 23. Tercera persona plural [PRON.3P] Al igual que para los pronombres de tercera persona singular, el pronombre sujeto aparece cuando puede haber ambigüedad, puesto que son muchas las posibles terceras personas. 24. Pronombre demostrativo [PRON.DEM] Al igual que otros elementos lingüísticos agrupados bajo la denominación de deícticos, los demostrativos señalan, seleccionándolos, algunos elementos del entorno contextual (Calsamiglia & Tusón 1999), adquiriendo su sentido pleno solo en el contexto en el que se emiten. Son usuales en el lenguaje oral.

E. FORMAS NOMINALES 25. Nominalizaciones [NOMINAL] Este término designa a los nombres derivados de bases verbales y adjetivales, así como al proceso de su formación. Los nombres derivados pueden tener como referente un evento o un proceso, un objeto, un estado, una propiedad o un producto resultante de un acontecimiento o proceso, recurso típico del lenguaje técnico (académico) para expresar significados complejos y abstractos (Picallo 1999). Permiten integrar información en pocas palabras (Chafe 1982, 1985) y reducir oraciones completas en series de frases nominales más compactas y eficientes (Janda 1985), además tienen la función de transportar información altamente abstracta (Biber 1988). Ciapuscio (1992) incluye la nominalización dentro de los procedimientos de desagentivación, característica de la comunicación científica.

PARODI-01

29/1/10

11:06

Página 92

92

GIOVANNI PARODI

26. Sustantivos (comunes y propios) [SUST] Según Biber (1988), los sustantivos son los principales portadores del significado referencial del texto. La ocurrencia de algunos tipos de sustantivos (los más largos y los derivacionales) se asocia con discursos cuyo foco es altamente informacional, caracterizados por una cuidadosa integración de la información. El nombre significa de manera independiente y autónoma; en su significado suele distinguirse un núcleo denotativo y una serie de connotaciones, que se incrementan en el contexto (Hernández 1996).

F. FORMAS PASIVAS 27. Pasivas con «se» [PAS.SE] Se especializan en acciones de carácter habitual, general, con objetos internos y sujetos implícitos poco delimitados, aunque pueden aparecer en todo tipo de contextos. Tiende a usarse cuando el sujeto de la frase es nombre de cosa. En general, es más frecuente que la pasiva con ser (Martín 1986). Aparece tanto en la lengua hablada como en la escrita. Se ha notado un incremento en el uso de esta construcción en el lenguaje divulgativo informativo (Mendikoetxea 1999a y b). Ciapuscio (1992) constata su frecuencia en textos de divulgación científica con lo que se acentúa el carácter impersonal del texto. Según la autora, esta tendencia a la omisión del agente es una característica del lenguaje de la ciencia que se mantiene en la divulgación. 28. Pasivas con «ser» sin agente [PAS.SER-a] Se especializan en acciones de carácter puntual, con objetos externos y un marcado carácter intencional que denota la existencia de un sujeto implícito delimitado. Son de mayor uso en la lengua escrita. La ausencia del agente se ha atribuido a la intención de callar u ocultar el sujeto nocional (Mendikoetxea 1999a y b). 29. Pasivas con «ser» con agente [PAS.SER+a] Con estas pasivas parece ser siempre gramaticalmente posible la expresión del sujeto nocional, independientemente de su papel semántico: agente, destinatario, experimentante o fuente. La expresión del agente se da fundamentalmente en textos escritos de carácter periodístico (Hernández 2000a). 30. Pasivas con «estar» [PAS.ESTAR] Los gramáticos no se han puesto de acuerdo acerca del carácter pasivo de estas construcciones. Los que las rechazan, argumentan que las pasivas con

PARODI-01

29/1/10

11:06

Página 93

EMPIRIA E INVESTIGACIÓN DE FOCO CUANTITATIVO

93

ser expresan una acción que recae en el sujeto paciente; en cambio, las construcciones con estar expresan el resultado de esa acción. Según Mendikoetxea (1999b) ambas construcciones tienen un significado pasivo. G. ESPECIFICIDAD LÉXICA 31. Relación clase/tipo (type/token) por forma [TYP.TOK.form] Es una relación porcentual que expresa el rango de variabilidad de unidades dentro un universo. En este caso se refiere a la especificidad léxica de las formas que aparecen en un texto. Una tasa alta se relaciona con el lenguaje escrito debido al carácter planeado de su producción. Por el contrario una tasa baja se asocia con el lenguaje oral por el carácter espontáneo de la oralidad (Horowitz & Samuels 1987). 32. Relación clase/tipo (type/token) por lema [TYP.TOK.lem] Se refiere a un tipo especial de relación que expresa la variabilidad o especificidad de los lemas de un texto, entendidos estos como las raíces léxicas de las formas que aparecen en un texto determinado. H. FORMAS ESTATIVAS ACTIVAS 33. Ser [ACT.SER] Los verbos conectores expresan básicamente relaciones de equivalencia, igualdad, similitud, dependencia o atribuyen cualidades o valores, como por ejemplo, ser, parecer, equivaler. Se considera que ser atribuye cualidades consideradas como permanentes. Este tipo de verbos, mayoritariamente copulativos o pseudocopulativos, aunque no se los identifique como unidades portadoras de conocimiento especializado, forman parte de la expresión de este conocimiento, es decir, no tienen valor especializado, pero forman parte de lo que se ha unidades de conocimiento especializado (Lorente 2002). Destacan por su frecuencia en la descripción (Bassols & Torrent 1997). Con «ser», se formulan juicios que no dependen de la experiencia inmediata (Gili Gaya 1980). Su empleo en las oraciones copulativas se reduce a servir de nexo entre el sujeto y el predicado y permiten la expresión temporal (Gili Gaya 1980). 34. Estar [ACT.ESTAR] En tanto verbo conector cumple las mismas funciones antes mencionadas para el verbo ser pero a diferencia de este, con el verbo estar las cualida-

PARODI-01

29/1/10

11:06

Página 94

94

GIOVANNI PARODI

des se consideran transitorias o accidentales y además se perciben como resultado de un cambio o transformación (Gili Gaya 1980). En tanto expresa estados, está léxicamente incapacitado para expresar un cambio o progreso durante el periodo de tiempo en que transcurre (De Miguel 1999).

I. TIPOS VERBALES 35. Públicos [V.PUBLIC] (Decir, explicar, admitir, estar de acuerdo, declarar, quejarse, remarcar, replicar, sugerir) Reportan acciones propias de la actividad científica (Harvey 2002). Son verbos que denotan acciones que pueden ser observadas públicamente; son actos de hablas primarios tales como decir y explicar y se usan comúnmente para introducir aserciones indirectas (Biber 1988). 36. Privados [V.PRIVAD] (Descubrir, creer, concluir, decidir, adivinar, encontrar, sentir, temer, determinar, demostrar, estimar, reconocer) Se refieren a actividades perceptibles solo por el propio hablante y se utilizan también como atenuadores (Palmer 1974; Weber & Bentivoglio 1991). Los verbos privados se destacan por expresar estados intelectuales o actos intelectuales no observables (Biber 1988). Corresponden a los procesos mentales de Halliday (1994) y a los verbos epistémicos léxicos de Hyland (1998). 37. Persuasivos [V.PERSUA] (Acordar, arreglar, preguntar, rogar, insistir, instruir, estipular, sugerir) Implican intenciones que suponen un cambio en el futuro (acordar, arreglar, preguntar, rogar, comandar, decidir, demandar, garantizar, insistir, instruir, ordenar, comprometer, pronunciar, proponer, recomendar, requerir, estipular, sugerir, urgir) (Biber 1988). Según Bosani (2000), aluden a acciones actitudinales que podemos realizar para sobre el contenido proposicional de lo dicho. 38. Perceptivos [V.PERCEP] (Sentir, ver, oír, oler). Expresan estados intelectuales cuando el objeto sobre el que recae la acción es un sustantivo abstracto. Tienen un significado más concreto cuando los objetos en los que recae la acción son sustantivos concretos. Corresponden a un subtipo de los procesos mentales de Halliday (1994). Revelan focalización interna en la narración (Arianzen 2001).

PARODI-01

29/1/10

11:06

Página 95

EMPIRIA E INVESTIGACIÓN DE FOCO CUANTITATIVO

J.

95

VERBOS MODALES

39. Posibilidad [V.MOD.POS] Expresan la opinión y la actitud del hablante/escritor respecto al contenido declarado, atenuando generalmente la fuerza de los enunciados que se emiten. Son frecuentes en los artículos de investigación científica (Hyland 1998) como una forma de adelantarse a las posibles objeciones y permite que el autor no aparezca tan taxativo. 40. Necesidad [V.MOD.NEC] Expresan compromiso del escritor con lo dicho en el artículo de investigación científica (Hyland 1998), aumentando la fuerza de lo aseverado. 41. Obligación [V.MOD.OBL] Expresan el punto de vista del escritor que juzga la verdad de lo dicho en términos de certeza (Hyland 1998). Además, la modalidad deóntica se ocupa de la necesidad o la posibilidad de los actos ejecutados por agentes moralmente responsables (Osorno 2000). 42. Volición [V.MOD.VOL] Para Langacker (1990) los modales de capacidad y de volición, o sea, los modales dinámicos, se anclan en la realidad, mientras que los otros modales disponen de un mecanismo de proyección y parece que se anclan en la predicación. Según Olbertz (1998), los modales dinámicos (de capacidad y volición) corresponden a la modalidad orientada al participante.

K.

MARCADORES DE MODALIDAD

43. Atenuadores [ATENUAD] Son marcadores informales y menos específicos de probabilidad e incertidumbre. Marcan el contenido de una proposición como incierto. Co-ocurren con marcadores de interactividad como los pronombres de segunda persona y los signos de interrogación. Aparecen en mayor medida en textos científicos de ciencias sociales (Markkanen & Schröder 2000). Son propios del discurso académico, pero varían notablemente su uso según el tipo de texto. Son escasos en los manuales o en los materiales de apoyo para un curso. En estos tipos de texto se transmite un saber decantado, sobre el que hay un consenso amplio: se enseña lo que la comunidad académica en cuestión tiene por seguro, y al enseñar, se simplifica ignorando las alternativas que

PARODI-01

29/1/10

11:06

96

Página 96

GIOVANNI PARODI

pueden hacer avanzar el conocimiento (Vásquez 2001). Son recursos que se ponen al servicio de la eficacia o eficiencia pragmática, es decir, se emplean para lograr efectos comunicativos que van más allá de la mera transmisión de información (Narbona 2000). 44. Enfáticos [ENFATIZ] Acentúan el valor de los verbos. Se usan para indicar en términos positivos la confiabilidad de las proposiciones. Pueden ser usados en funciones no proposicionales para señalar solidaridad con el interlocutor. Característico de la entrevista oral (Cepeda 2002). L. ADVERBIOS 45. De lugar [ADV.LUG] Sitúan la significación del verbo en coordenadas espaciales y añaden información que completa la estructura argumental del predicado (Bosque 1990). 46. De tiempo [ADV.TIEMP] Debido a su función deíctica establecen marcos de orden de la sucesión de hechos o pistas contextuales para la interpretación de lo dicho (Kovacci 1999). Son circunstanciales en posición posverbal. Actúan como circunstanciales si están en el ámbito de la interrogación y de la negación. 47. De modo [ADV.MOD] Según Bassols y Torrent (1997) son propios de la descripción. En principio denotan la manera en que se presentan los acontecimientos o se realizan las acciones (Bosque 1990). 48. De cantidad [ADV.CANT] Expresan cantidad o intensidad y afectan principalmente al verbo (PérezRioja 1971). Como permiten expresar cualidades o determinaciones, contribuyen a imprimir mayor expresividad a las descripciones o ampliar una explicación. M. MARCADORES DE SUBORDINACIÓN 49. Subordinadas sustantivas con «que» [SUB.SUST] Las oraciones subordinadas sustantivas introducidas por «que» desempeñan las funciones propias de los sustantivos, aunque no se corresponde en todos

PARODI-01

29/1/10

11:06

Página 97

EMPIRIA E INVESTIGACIÓN DE FOCO CUANTITATIVO

97

los casos con sintagmas nominales. Por su parte, el empleo del determinante está semánticamente establecido: permite designar eventos o procesos que no se contemplan en su realización sino en su resultado (Delbecque & Lamiroy 1999; Demonte 1997). 50. Subordinadas adjetivas de pronombre relativo [SUB.ADJ] El empleo de las subordinadas de relativo (adjetivas) “permite atribuir al substantivo cualidades muy complejas para las cuales no tiene el idioma adjetivos o participios léxicos” (Gili Gaya 1980: 301). 51. Subordinadas adverbiales de razón o causa/efecto. [SUB.ADV.c-e] Señalan la razón del hecho mencionado en la oración principal. Permiten expresar la causa o la consecuencia (Gili Gaya 1980). La causa o la consecuencia van normalmente introducidas por un conector causal, que indica que los enunciados que lo siguen explican o dan razón de los enunciados antecedentes; o consecutivo, que indican que los enunciados que lo siguen son efecto de los razonamientos antecedentes (Calsamiglia & Tusón 1999). 52. Subordinadas adverbiales de concesión [SUB.ADV.conc] Expresan una reserva que carece de eficacia para que se efectúe lo expuesto en la oración principal, cuya realización se cumple a pesar del obstáculo (Bassols & Torrent 1997). Contribuyen a la estructuración del discurso argumentativo. 53. Subordinadas adverbiales condicionales [SUB.ADV.cond] Indican la condición que debe cumplirse para que se realice lo expresado en la oración principal (Gili Gaya 1980). Contribuyen a hacer explícitos los razonamientos, por tanto, son propios de los discursos expositivos y argumentativos. 54. Subordinadas adverbiales de tiempo [SUB.ADV.tiem] Expresan el tiempo de la acción contenida en la oración principal, determinando una relación de anterioridad, simultaneidad o posterioridad (PérezRioja 1971). Su función es ubicar temporalmente la acción principal en relación con la subordinada. Con ayuda de estos adverbios es posible expresar los matices temporales para los que la sola presencia del verbo no es suficiente (Gili Gaya 1980). 55. Frases infinitivas en función nominal [FRA.INF.nom] Indican un intento por condensar información, omitiendo los participantes (Biber 1988; Chafe 1982, 1985). Tienen un carácter eventivo relacionado con la descripción de procesos o de actividades aléticas (Demonte & Varela

PARODI-01

98

29/1/10

11:06

Página 98

GIOVANNI PARODI

1997). Desde un punto de vista lógico, son oraciones abiertas, puesto que el sujeto del infinitivo es una variable que se extrae de los sintagmas nominales que aparecen en el mismo contexto lingüístico (Gómez 1999). Según Biber (1988), estas estructuras no cumplen funciones prototípicas ni fijas.

N. FRASES PREPOSICIONALES Y ADJETIVOS 56. Frases preposicionales (complemento del nombre) [FRA.PREP.cn] Sirven para integrar grandes cantidades de información en un texto (Biber 1988; Chafe 1982, 1985). Por otra parte, expresan distintos tipos de relación entre el nombre y el complemento (relaciones de pertenencia, de asociación, de origen, de materia, de medida, peso o edad) (Picallo 1999). 57. Adjetivos atributivos (calificativos) [ADJ.ATRIB] El adjetivo puede cumplir la función de predicado de una oración copulativa, caracterizadora o como complemento predicativo, bien obligatoriamente escogido por el verbo, bien opcional. La construcción modificadora o atributiva tiene una estrecha relación con la construcción del predicado nominal ya que casi todos los adjetivos que funcionan como predicados en oraciones copulativas caracterizadoras pueden ser también modificadores. Los adjetivos son palabras que se aplican a otras palabras que nombran objetos físicos o mentales; por medio de los adjetivos se adscribe a esos objetos una propiedad o un conjunto de propiedades. Más estrictamente, un adjetivo modificador adscribe propiedades cuya especificación sirve para definir o delinear con mayor precisión a la entidad mentada para caracterizarla e identificarla entre varias similares para clasificarla o establecer taxonomías culturales y científicas para indicar relaciones genéticas o metonímicas (relaciones parte-todo). La característica fundamental de los adjetivos (atributivos y predicativos), lo que lo diferencia de los nombres, es que son términos generales y por ello pueden aplicarse a múltiples objetos y son de carácter gradual (Picallo 1999). 58. Adjetivos predicativos [ADJ.PRED] Son adjetivos que expresan cualidades del sujeto por medio de las oraciones atributivas (Gili Gaya 1980), dicho de otro modo, su dependencia con el sustantivo se hace de forma indirecta a través de un índice verbal (Marcos Marín 1975). Hay adjetivos que se combinan con el verbo ser: pertenecen a este grupo los adjetivos de relación y procedencia. Otros adjetivos solo se utilizan con el verbo estar. En general, son todos aquellos que indican un resultado. Por eso, los participios –salvo en construcciones pasivas– se combinan siem-

PARODI-01

29/1/10

11:06

Página 99

EMPIRIA E INVESTIGACIÓN DE FOCO CUANTITATIVO

99

pre con el verbo estar. Debe tenerse en cuenta que hay ocasiones en que los participios se combinan con el verbo ser porque de esta combinación surge un significado diferente. Otros adjetivos que solo se combinan con el verbo estar son: contento, satisfecho. Lo mismo sucede con adjetivos que poseen significado de participios, indicando el resultado de algo. Otros adjetivos se combinan con el verbo ser y estar, el significado varía en cada caso. Con el verbo ser, el adjetivo designa: a) una cualidad inherente a lo designado por el sujeto, b) una característica más o menos permanente del sujeto, que pertenece a su descripción o que lo clasifica (lo introduce en una clase de entes). Con el verbo estar, designan cualidad adquirida, producto de un cambio real o pensado. 59. Adjetivos demostrativos [ADJ.DEM] Los adjetivos demostrativos actualizan al sustantivo. Pertenecen a la categoría pragmática de los deícticos, por lo tanto su interpretación está estrechamente ligada tanto al contexto textual como extra-textual. Los determinantes (los artículos, posesivos y demostrativos) y los cuantificadores (los numerales e indefinidos) constituyen clases cerradas con un número fijo de miembros desprovistos de significado léxico. A estos términos, a los que no es posible darle una definición de diccionario (no corresponden en verdad a ningún campo nocional), no les falta, sin embargo, significado gramatical o funcional: los artículos marcan género y número, sirven para introducir un nombre en el discurso o para establecer una relación anafórica, expresan unicidad o presuposición de existencia (Picallo 1999). 60. Participios en función adjetiva [PARTICI.adj] Se sitúa preferentemente en el discurso escrito más que en el oral y su interpretación usual es que se usa para la integración y las elaboraciones estructurales (Biber 1988). Janda (1985) establece que se utilizan en la toma de apuntes porque son más compactos e integrados y por ello sirven para la producción de un discurso altamente informacional cuando el tiempo es limitado. Ciapuscio (1992) destaca el uso de los verboides, entre ellos el participio, como recurso de desagentivación, procedimiento de ocultación del agente que permite condensar la información. La autora ha constatado su frecuencia en textos de divulgación científica y en textos científicos.

Ñ. MARCADORES DE COORDINACIÓN 61. Conjunciones adversativas, aditivas y disyuntivas [CONJ.dis.adv.ad] Son características de la lengua escrita y de la prosa narrativa (De Kock &

PARODI-01

29/1/10

100

11:06

Página 100

GIOVANNI PARODI

Gómez 2002). La coordinación es el procedimiento gramatical que se usa para asociar constituyentes sintácticos sin establecer una jerarquía gramatical entre ellos (Camacho 1999). El uso de estas conjunciones es frecuente como índice de simplicidad o sencillez de la lengua hablada. Según Ávila (2000), el habla utiliza con mayor frecuencia la coordinación antes que la subordinación, especialmente en las conversaciones cara a cara y a distancia.

O. MARCADORES DE NEGACIÓN 62. Adverbio de negación [ADV.NEG] Importan información más coloquial y fragmentada (Biber 1988). Son indicadores de la modalidad negativa en el sentido que hacen referencia a la actitud del emisor con respecto al receptor y al propio mensaje. 63. Adverbios de negación temporal [ADV.NEG.tiem] Los adverbios de negación temporales (nunca, jamás, tampoco) son capaces de expresar negación cuando preceden al verbo (Kovacci 1999). 64. Conjunción de negación [CONJ.ni] La conjunción no presenta una caracterización funcional particular, adquiriendo una orientación comunicativa determinada por el rol de los elementos adyacentes que pone en relación (Hernández 1996). Tal es el caso de la conjunción negativa «ni». 65. Pronombres de negación [PRON.NEG] Es de uso más coloquial (Tottie 1983). Son pronombres invariables indefinidos cuantificadores existenciales en el ámbito de la negación (Sánchez 1999). Puesto que funcionan como sustantivos, admiten la presencia de un adyacente adjetivo, que adopta invariablemente el significante propio de los morfemas de masculino y singular (Alarcos Llorach 1999).

2.6. ETIQUETAJE LINGÜÍSTICO AUTOMÁTICO El procedimiento, aplicado a la totalidad de los textos del Corpus PUCV-2003, consistió en: 1. Codificación SGML (Standard Generalized Mark Up Language) 2. Partidor o separador de oraciones (Spliter o chunker)

PARODI-01

29/1/10

11:06

Página 101

EMPIRIA E INVESTIGACIÓN DE FOCO CUANTITATIVO

101

3. Marcaje morfológico 4. Desambiguador lingüístico y estocástico La interfaz El Grial brinda un acceso directo y expedito a la totalidad de los textos recopilados y a una diversidad de alternativas de interrogación con resultados cuantificados y ejemplificados en cada caso, limitados parcialmente por el tipo de marcaje disponible. Una vez concluidos los procedimientos señalados, se procedió a la interrogación de los textos a través de la interfaz El Grial para obtener la ocurrencia de los sesenta y cinco rasgos en cada uno de los textos del corpus. Para procesar estadísticamente las frecuencias de cada rasgo lingüístico en cada uno de los 90 textos, los cómputos de frecuencias fueron sometidos a un proceso de normalización.

2.7. ANÁLISIS FACTORIAL Como se sabe, el análisis factorial es un procedimiento estadístico que permite identificar agrupamientos de rasgos lingüísticos que co-ocurren frecuentemente en los textos. Este análisis identifica correlaciones entre un número amplio de variables que se distribuyen de modo similar. Cada grupo de variables co-ocurrentes resulta ser un factor, el cual es posteriormente interpretado en términos de categorías funcionales como una dimensión de variación. Este procedimiento tiende –entre otros– a la reducción de las variables involucradas en virtud de su co-ocurrencia significativa (Oakes 1998; Hair et al. 1999). Una vez que se realizó el análisis factorial (Factores Principales), se determinó siete factores principales con una rotación tipo Oblimin (Oakes 1998; Hair et al. 1999). Estos factores fueron confirmados a través de los puntajes factoriales. Se obtuvo así siete posibles dimensiones de las cuales solo fue factible interpretar funcionalmente cinco de ellas; por tanto, dos factores no permiten esbozar una dimensión consistente, debido tanto al reducido número de rasgos constitutivos como a su naturaleza heterogénea. Dentro de cada factor, se presenta el listado de rasgos lingüísticos determinados y frente a ellos aparece –en cada caso– un número, normalmente, con decimales. Esta cifra es el peso factorial que indica una medida de fuerza de la relación entre el rasgo en cuestión y el factor como un todo. En otras palabras, este número muestra cuan representativo es el rasgo lingüístico del constructo funcional que subyace al factor. Como se sabe, las cargas o pesos factoriales fluctúan entre +1 y –1. Un valor más cercano a +1 refleja mayor representatividad del rasgo dentro del factor.

PARODI-01

29/1/10

11:06

Página 102

102

GIOVANNI PARODI

3. Resultados En lo que viene, entregamos tres tipos de resultados empíricos: (a) se determinan las dimensiones textuales y se analizan las funciones comunicativas compartidas por los conjuntos de rasgos en co-ocurrencia, (b) a través del enfoque multimensional, se comparan los registros orales y escritos, técnicos y no-técnicos, y (c) se analiza la distribución de los grupos de rasgos a través de los tres registros y de los tres ámbitos técnico-científicos del CTC (marítimo, industrial y comercial). Dicho de otro modo, se interpreta funcionalmente los parámetros estadísticos encontrados (dimensiones) y se estudia su incidencia en cada uno de los registros y áreas de especialización profesional.

3.1. CINCO DIMENSIONES Tal como ya se adelantó, la solución final al análisis factorial concluyó con cinco factores óptimos. En ellos no se incluyó aquellos rasgos que obtuvieron un valor absoluto menor a 0,40 dado que normalmente en este tipo de estudios se estiman sin importancia relativa de cara a la interpretación, incluso si fueran estadísticamente significativos. Otras investigaciones utilizan como valor de referencia la cifra de 0,35 (Biber 1988); no obstante ello, en este estudio se decidió usar un puntaje de corte superior. Una explicación pormenorizada de cada una de las cinco dimensiones así como del listado completo de rasgos y pesos estadísticos se encuentra en el Anexo 1, al final de este capítulo. Solo los rasgos destacados o importantes deberían ser interpretados como parte de cada factor. Una carga negativa o positiva no influencia la relevancia de un peso, sino más bien, releva grupos de rasgos que se encuentran distribuidos en los textos de un modo complementario. Así, en los cinco factores siguientes, ciertos rasgos con valor positivo co-ocurren con una alta frecuencia en los textos del corpus, mientras que otro grupo de características co-ocurrentes pero con pesos negativos generan fuertes lazos entre ellos. Ambos grupos de rasgos presentan una especial relación. Ellos se distribuyen en un patrón complementario de ocurrencia, es decir, algunos rasgos (con peso positivo) con alta frecuencia en un texto tienden a denotar la ausencia de ciertos rasgos (con peso negativo) en los mismos textos y viceversa (distribución complementaria). Una explicación pormenorizada de cada una de las cinco dimensiones se puede encontrar en Parodi (2005a). A continuación, se presenta cada factor compuesto por un listado de rasgos lingüísticos agrupados estadísticamente y, junto a cada uno de ellos, se entrega –en cada caso– una cifra numérica, normalmente, con decimales. Esta cifra

PARODI-01

29/1/10

11:06

Página 103

103

EMPIRIA E INVESTIGACIÓN DE FOCO CUANTITATIVO

entrega el peso factorial que indica una medida de fuerza de la relación entre el rasgo en cuestión y el factor como un todo. FACTOR 1 Dimensión 1: Foco Contextual e Interactivo Subordinadas adverbiales de causa efecto Adverbios de tiempo Adverbio de negación Pronombres segunda persona singular Pronombres primera persona singular Desinencias de segunda persona singular Pronombre de negación Adverbios de lugar Modo indicativo Desinencias primera persona singular Futuro perifrástico Enfatizadores Formas activas «ser» Verbos modales de volición Pronombres demostrativos Pronombres de segunda persona plural Subordinadas adverbiales condicionales Adverbios de negación temporal Subordinadas sustantivas Subordinadas adverbiales de tiempo Verbos privados Frases infinitivas en función nominal Presente Frases preposicionales complemento del nombre Nominalizaciones Sustantivos Participios en función adjetiva

0,945 0,934 0,928 0,911 0,823 0,813 0,731 0,723 0,693 0,668 0,662 0,652 0,637 0,630 0,592 0,531 0,523 0,503 0,497 0,487 0,474 0,466 0,424 –0,545 –0,479 –0,443 –0,437

Los rasgos que constituyen el Factor 1 son los más numerosos y ostentan los pesos estadísticos más altos. Los rasgos que se reúnen en este factor denotan una gran relación funcional entre la mayoría de ellos. Su interpretación no resulta compleja. Como se aprecia, los rasgos con peso negativo son un grupo menor e indican una clara interpretación. Ellos son clásicamente considerados portadores de la carga referencial del texto, permiten la integración de grandes cantidades de información y una alta frecuencia de ellos apunta a una fuerte densidad y con-

PARODI-01

29/1/10

104

11:06

Página 104

GIOVANNI PARODI

cisión de la información. Contrariamente, los rasgos con altos puntajes positivos apuntan hacia una referencia directa al contexto físico y temporal, determinan marcos de orden de la sucesión de hechos, establecen una vinculación con la acción y expresan motivos y consecuencias. También, a través de estos rasgos, se hace referencia a los participantes y existen suficientes evidencias de que la marca de lo situado está presente. Esta dimensión se concreta en la acción, en la sucesión de acontecimientos y en las relaciones interpersonales de tipo dialógico. Así, los rasgos lingüísticos involucrados, en su conjunto, permiten señalar que los textos caracterizados por esta dimensión no contienen información altamente abstracta; por el contrario, la alta frecuencia de ocurrencia de rasgos positivos se asocia con un foco en la explicitud y dependencia del contexto y en la FACTOR 2 Dimensión 2: Foco Narrativo Pronombres segunda persona plural Pronombres primera persona singular Futuro perifrástico Pretérito imperfecto Pronombre tercera persona plural Modo indicativo Desinencias primera persona plural Verbos modales de volición Pretérito indefinido Pronombre de negación Verbos privados Adverbios de lugar Pronombres segunda persona singular Verbos perceptivos Adverbio de negación Adverbios de negación temporal Formas activas «estar» Verbos públicos Pronombres primera persona plural Desinencias tercera persona singular Conjunciones adver., disy. y aditivas Frases infinitivas en función nominal Conjunción «ni» Nominalizaciones Frases preposicionales complemento del nombre Adjetivos atributivos

0,842 0,828 0,823 0,820 0,708 0,686 0,667 0,651 0,614 0,590 0,577 0,533 0,529 0,496 0,493 0,482 0,460 0,445 0,431 0,423 0,411 0,405 0,402 –0,581 –0,562 –0,442

PARODI-01

29/1/10

11:06

Página 105

105

EMPIRIA E INVESTIGACIÓN DE FOCO CUANTITATIVO

FACTOR 3 Dimensión 3: Foco Compromiso Pronombres segunda persona plural Verbos privados Pronombres primera persona singular Pretérito indefinido Verbos modales de volición Desinencias primera persona singular Modo indicativo Pretérito imperfecto Pronombre de negación Pronombres segunda persona singular Desinencias segunda persona plural Frases infinitivas en función nominal Subordinadas sustantivas Subordinadas adverbiales de concesión Formas activas estar Pronombres segunda persona plural Adverbio de negación temporal Pronombres primera persona plural Frases preposicionales complemento del nombre

0,842 0,824 0,789 0,705 0,655 0,640 0,630 0,604 0,569 0,563 0,562 0,518 0,467 0,452 0,435 0,427 0,411 0,402 –0,457

activa participación de los interlocutores, rasgos clásicos del discurso oral y dialógico. Esta Dimensión 1 representa un parámetro importante de variación, compuesto por un conjunto amplio de rasgos lingüísticos y definitorios de una clara distinción entre dos polos como son, por un lado, lo contextual e interactivo (oralidad: conversaciones) y, por otro, lo informacional, altamente planificado y cohesionado (escritura: exposición). Por ello, se la nombra como Dimensión 1 “Foco Contextual e interactivo”. Los rasgos positivos constitutivos del Factor 2 denotan un marcado acento en la identificación de las personas del discurso. También se aprecia la co-ocurrencia de los tiempos verbales del pasado: el pretérito imperfecto y el pretérito indefinido. Esta dimensión se asocia con una sucesión de acontecimientos, que implica la precisión de circunstancias de tiempo y lugar, como también la participación de las personas del discurso. Todo ello apunta hacia una determinada trama textual de tipo narrativo. Estas características co-ocurrentes llevaron a denominar este factor como Dimensión 2 “Foco Narrativo”. Esta dimensión permite identificar textos literarios orales o escritos de orden general, a diferencia de textos altamente especializados.

PARODI-01

29/1/10

106

11:06

Página 106

GIOVANNI PARODI

El tercer factor ha sido interpretado a partir de la alta ocurrencia de los llamados verbos privados (decidir, adivinar, sentir, determinar, demostrar, estimar, reconocer) y de volición (querer+infinitivo), de los pronombres personales y de las desinencias verbales de primera persona que constituyen marcas relevantes de la expresión del «yo». La clara identidad de quien escribe o habla queda manifiesta en el texto de manera explícita y quien participa se compromete e involucra con lo que dice y hace. Este compromiso con el discurso y su contenido revela los afectos y los propósitos del escritor/hablante. Este conjunto de rasgos co-ocurrentes sistemáticamente permite denominar al tercer factor como Dimensión 3 “Foco Compromiso”. Esta dimensión está asociada a textos en los que sobresale la intención y la actitud del emisor que revela su voluntad de involucrarse en el discurso de manera explícita y de asumir un rol preponderante. Dicho de otro modo, esta dimensión caracteriza a textos en los que aparecen participantes reales que expresan intenciones y actitudes proposicionales frente a lo dicho. FACTOR 4 Dimensión 4: Foco Modalizador Formas activas “ser” Atenuadores Verbos modales de posibilidad Adverbios de modo Adjetivos predicativos Desinencias tercera persona plural Subordinadas adjetivas Desinencias tercera persona singular Sustantivos

0,671 0,656 0,641 0,606 0,565 0,549 0,514 0,405 –0,494

Para construir la interpretación del cuarto factor, se atendió a la co-ocurrencia significativa de atenuadores (parecer que, creer, tal vez, a lo mejor, quizás, quizá), verbos modales de posibilidad (poder) y adverbios modales (probablemente, posiblemente). Ellos revelan un parámetro funcional muy preciso: la regulación y atenuación de la información entregada, es decir, la expresión de la probabilidad y la incertidumbre de los hechos o acontecimientos descritos o narrados. La conjunción sistemática de estas marcas lingüísticas tienden a darse en textos con énfasis en cómo (modus) se dicen las cosas, más que en lo dicho (dictum). Esta distribución de rasgos presenta el contenido de un discurso como incierto y abierto a la verificación; por el contrario, se aleja de la supuesta «objetividad» que otros grupos de rasgos típicamente tienden a representar; en estos

PARODI-01

29/1/10

11:06

Página 107

107

EMPIRIA E INVESTIGACIÓN DE FOCO CUANTITATIVO

últimos, las restricciones impuestas llevan a textos con escaso compromiso explícito del hablante/escritor, con alta precisión léxica y densidad informativa. De este modo, se constituye la Dimensión 4, llamada “Foco Modalizador”. Así, la Dimensión 4 agrupa rasgos característicos de textos orales y escritos, clásicamente ligados a la narración y descripción; no obstante ello, también puede marcar textos expositivos y argumentativos, más representativos de la alta especialización. FACTOR 5 Dimensión 5: Foco Informacional Verbos modales de obligación Modo subjuntivo Nominalizaciones Participios en función adjetiva Frases preposicionales complemento del nombre Desinencias tercera persona singular Pretérito indefinido Forma estativa activa «estar» Verbos privados Pronombre de negación Verbos modales de volición

0,496 0,494 0,456 0,413 0,413 –0,632 –0,630 –0,595 –0,575 –0,572 –0,503

Finalmente, el último y quinto factor se constituye a partir de once rasgos: cinco positivos y seis negativos. Los rasgos positivos en co-ocurrencia como verbos modales de obligación revelan la necesidad y certeza de los juicios expresados; el modo subjuntivo remite a organizaciones de mayor complejidad sintáctica. La presencia de nominalizaciones junto a participios en función de adjetivo, sustantivos (comunes y propios) y frases preposicionales como complemento del nombre son todos rasgos indicadores de integración y compactación de información altamente abstracta, típica del discurso especializado escrito. En resumen, los rasgos positivos agrupados en torno a esta última dimensión se encuentran básicamente orientados hacia la informatividad, entendida esta como la concentración de información en unidades y estructuras lingüísticas compactas, que presentan los datos lo más concisa y precisamente posible. Por otra parte, los seis rasgos negativos aquí presentes apuntan hacia una contextualización de eventos señalados en el discurso, tendencia atenuada en textos de alta informatividad. Esta caracterización del factor 5 derivó en su interpretación como Dimensión 5 “Foco Informacional”.

PARODI-01

29/1/10

11:06

Página 108

108

GIOVANNI PARODI

Variación al interior del Corpus PUCV-2003 Focalizamos, ahora, las similitudes y diferencias entre los registros y las tres áreas de especialización técnico-científicas con base en las cinco dimensiones más arriba comentadas. En un primer momento, nos interesa indagar el impacto de las dimensiones detectadas en la distinción entre oralidad y escritura. Como bien se sabe, esta distinción ha resultado polémica llegado el momento de determinar rasgos especificadores y, en algunos casos, los autores no alcanzan acuerdo (Halliday 1985; Chafe & Danielewicz 1987; Biber 1988; Louwerse et al. 2004). El Gráfico 1 muestra los resultados obtenidos en este punto: GRÁFICO 1 Comparación entre registro oral y escrito 19

14

9

4

–1

–6 D1

D2

D3 Escrito

D4

D5

Oral

Comparar un corpus de registro escrito (conformado por textos técnico-científicos de divulgación didáctica y textos de literatura latinoamericana) con otro oral (compuesto por entrevistas semidirigidas a estudiantes secundarios) revela diferencias interesantes. Cabe destacar, primeramente, que las dimensiones construidas a partir de los 65 rasgos lingüísticos permiten distinguir un impacto diferenciador entre oralidad y escritura, hecho que en sí mismo constituye un primer

PARODI-01

29/1/10

11:06

Página 109

EMPIRIA E INVESTIGACIÓN DE FOCO CUANTITATIVO

109

hallazgo. El registro oral aquí estudiado muestra un comportamiento muy variado a lo largo de las 5 dimensiones, pero relativamente fácil de interpretar. La alta variación que se observa entre la Dimensión 1 y la Dimensión 5, son prueba inequívoca que los rasgos constitutivos de una y otra se oponen en la identificación de textos prototípicamente orales de otros evidentemente escritos. En este sentido, la mayor ocurrencia del modo subjuntivo, verbos modales de obligación, nominalizaciones, participios en función adjetiva y frases preposicionales como complemento del nombre no aparecen como rasgos que tienden a co-ocurrir sistemáticamente en los textos orales aquí estudiados; ellos adquieren de este modo un carácter identificador de modalidades escritas de la lengua y se distancian prototípicamente de la oralidad. De modo muy claro se puede caracterizar la oralidad a partir de las 4 primeras dimensiones, pues todas ellas presentan índices positivos. Al mismo tiempo, se hace evidente que la interactividad y contextualización (Dimensión 1) son los rasgos identificadores más representativos de un discurso oral dialógico como el que constituye este corpus. Los rasgos de la narratividad y del compromiso aparecen también como caracterizadores del tipo de textos orales aquí descritos. No es una casualidad que la Dimensión 5 “Foco Informacional” sea la única que registra un peso negativo y una diferencia estadísticamente significativa con el resto de las otras dimensiones y, muy en particular, con la Dimensión 1. En cuanto al registro escrito, se detecta un comportamiento relativamente homogéneo de las cifras a lo largo de las 4 primeras dimensiones. Coincidentemente con lo dicho más arriba respecto de la oralidad, las cuatro primeras dimensiones presentan puntajes negativos y solo la Dimensión 5 alcanza un peso positivo, distanciándose de las primeras y constituyéndose en la principal caracterizadora de la escritura. Llama la atención, eso sí, la escasa variabilidad entre dimensiones en el registro escrito. Si bien es claramente explicable para las dimensiones 1, 2 y 3, habría sido esperable que la Dimensión 5 mostrara mayor diferencia con el resto y posicionara a la escritura de modo más distante de las otras. No obstante ello, la diferencia resulta estadísticamente significativa. Ahora bien, si para el idioma inglés Biber (1988) identificó un conjunto de rasgos y dimensiones que logran capturar la diferencia entre diversos tipos de registros a lo largo del continuum oralidad/escritura, Louwerse et al. (2004) sostienen que el estudio de Biber se concentra en el nivel de la palabra y que no alcanza un impacto que involucre al texto como una unidad mayor. Louwerse y otros (2004) dan cuenta de una investigación que siguió los mismos pasos metodológicos y se apoyó en el mismo corpus que Biber (1988), pero utilizó un conjunto mucho más amplio de categorías e incluyó aspectos de cohesión textual en varios niveles. En esta nueva indagación para la lengua inglesa, se logra determinar una dimensión específica que distingue oralidad de escritura y que se apoya

PARODI-01

29/1/10

110

11:06

Página 110

GIOVANNI PARODI

en un amplio grupo de variables que intentan capturar relaciones textuales mucho más allá del horizonte de la palabra. Hacemos referencia a estos estudios de la lengua inglesa con el fin de precisar el alcance de nuestros datos. Es bien sabido que para el español no contamos con antecedentes en esta línea de investigación; por lo tanto, no disponemos de otros estudios como el aquí presentado que nos permita comparar nuestros hallazgos. Si bien hemos seguido de modo general los pasos metodológicos propuestos por Biber (1988), nuestras categorías indagadas (aunque no ostentan la productividad de la empleadas por Louwerse et al. 2004) buscan de modo certero desde el plano de la palabra y la oración una proyección en la dimensión textual. Esto se explica a partir del principio metodológico de la construcción interpretativa de una dimensión, es decir, en la interpretación funcional y discursiva del conjunto de rasgos co-ocurrentes y en distribución complementaria. Desde esta mirada, los datos aportados en el Gráfico 1 constituyen un indicador importante para el español, aunque queda claro que la cantidad de textos y los tipos constitutivos en cada modalidad de lengua no son un conjunto suficientemente variado y amplio que permitan una mayor distinción intragrupal (investigaciones recientes, desarrolladas por este mismo equipo de investigación, trabajan sobre un corpus de proporciones cercano a los 57 millones de palabras. Al respecto, ver Parodi 2007c, 2008a y 2009; Venegas 2007). El siguiente gráfico entrega datos relativos al registro especializado (escrito) y a los registros no-especializados, tomados estos últimos en conjunto (orales y escritos). Para ello, se han calculado los puntajes promedio por dimensión (determinados por medio del puntaje factorial o factor score). Como se aprecia en el Gráfico 2, la comparación de los pesos factoriales entre las cinco dimensiones con base en los textos de especialidad y los considerados aquí como no especializados (orales y literarios) muestra una clara diferenciación. Los textos no especializados destacan por pesos positivos en las cuatro primeras dimensiones en donde la narratividad aparece como la dimensión más identificadora junto al Foco Compromiso. Son las marcas de persona singular y plural (pronombres y desinencias verbales), el pretérito imperfecto y el indefinido, el modo indicativo y los verbos modales de volición, entre otros, los que identifican los textos de literatura latinoamericana escrita y al corpus de textos orales, es decir, los que representan la ausencia de especialización temática. Junto a ellos, los rasgos característicos de la interactividad, contextualización temporal y espacial y modalización también se constituyen en prototípicos de los discursos no especializados. Contrariamente, la Dimensión 5 se destaca por un peso altamente negativo y estadísticamente significativo respecto de las otras cuatro dimensiones, hecho que indica que la compactación de información y alto grado de referencialidad no se evidencian como característica de estos textos no especializados.

PARODI-01

29/1/10

11:06

Página 111

111

EMPIRIA E INVESTIGACIÓN DE FOCO CUANTITATIVO

GRÁFICO 2 Comparación entre registros especializados y no-especializados 20 18 16 14 12 10 8 6 4 2 0 –2 –4 –6 D1

D2 Especializado

D3

D4

D5

No especializado

Por su parte, los textos del corpus técnico-científico (CTC), considerados como especializados, alcanzan pesos totalmente opuestos a los obtenidos por el corpus no especializado. En este caso, los datos estadísticos son muy similares a los del corpus escrito, entregados en el Gráfico 1. En las cuatro primeras dimensiones se registran pesos negativos y solo emerge la Dimensión 5 “Foco Informacional” como la distintiva para este grupo de textos. Estos datos son congruentes con la teoría de corte lingüístico y funcional que hemos venido sustentando para diferenciar e identificar a los textos prototípicos del discurso especializado, de modo que los hallazgos entregados se constituyen en una corroboración empírica relevante que pone de manifiesto las diferencias entre un determinado registro y otro. Estos valores permiten avalar empíricamente la postura a favor del denominado discurso de especialidad y muestran que las 65 categorías exploradas son un conjunto de rasgos valiosos como indicadores de variabilidad. Un hallazgo importante lo constituye, según las cifras entregadas en los dos primeros gráficos, el hecho de que la especialización se detecta como estrechamente vinculada a la modalidad escrita de la lengua. Tal como lo ha mostrado el puntaje factorial promedio respecto de la Dimensión 5 “Foco Informacional”, es esta dimensión y el conjunto de rasgos lingüísticos asociados a ella, lo que establece la distinción fundamental entre, por una parte, lo que está más cerca de la escritura que de la oralidad y, por otra, lo que resulta más prototípicamente espe-

PARODI-01

29/1/10

112

11:06

Página 112

GIOVANNI PARODI

cializado o no. La explicación que se desprende de estos datos apunta claramente a que las características típicas de un discurso especializado coinciden con los rasgos clásicos de la escritura en su versión más prototípica. De este modo, queda claro que la supuesta especialización a través de la modalidad oral de la lengua no encontraría apoyo en nuestros datos y cabría suponer, entonces, que cuando se habla de oralidad especializada, a lo que se tiende mayoritariamente, es a un tipo de discurso escrito que se dispone de manera oral (el ejemplo clásico es una conferencia académica que se dispone oralmente pero que se produce de modo escrito). También vale la pena llamar la atención sobre el comportamiento estadístico de la Dimensión 5. Tal como se observa en los valores hasta ahora disponibles, es la función informacional de la lengua, manifiesta a través de diversos mecanismos, la que se hace presente como rasgo distintivo entre las diversas aproximaciones exploradas. Es la Dimensión 5 la que obtiene puntaje negativo para el registro oral y la que puntúa positivamente para la escritura, mostrando una diferencia estadísticamente significativa entre ambos valores. Es, del mismo modo, la Dimensión 5 la que arroja puntajes factoriales positivos para el corpus especializado y la que muestra puntajes negativos elevados para el corpus no-especializado, siendo la diferencia entre ambos estadísticamente significativa. Todo ello implica, desde la perspectiva de esta investigación interesada en el discurso especializado escrito, que la Dimensión 5 “Foco Informacional” juega un rol central en la descripción de este tipo de discurso y que sus rasgos lingüísticos constituyen un conjunto de características nucleares en la definición del mismo. Así, entre otros, la monorreferencialidad, la precisión, la compactación, la carencia de emotividad, son rasgos relevantes que se desprenden como prototípicos del discurso focalizado en esta investigación. A continuación, en el Gráfico 3, se presentan los puntajes promedio por dimensión para cada uno de los tres registros del Corpus PUCV-2003 (técnicos, literarios y orales), con respecto a las cinco dimensiones en cuestión. Resulta interesante comprobar que los textos técnicos del CTC obtienen un puntaje factorial negativo muy similar a lo largo de las cuatro primeras dimensiones. Esta homogeneidad revela que, por un lado, los rasgos que identifican estas cuatro dimensiones deben presentar una ocurrencia similar en los textos de este corpus; según estos datos, la interactividad, contextualización, modalización y compromiso no serían rasgos característicos ni de alta ocurrencia sistemática en los textos del ámbito técnico y científico, comparado con los otros dos registros. Por otra parte, es esclarecedor que la Dimensión 5 “Foco Informacional” se presente con un puntaje promedio positivo (0,9), lo que permite identificar y distinguir significativamente el CTC del CLL y CEO. Al mismo tiempo, como se observa, los textos de literatura latinoamericana y los textos basados en entrevis-

PARODI-01

29/1/10

11:06

Página 113

113

EMPIRIA E INVESTIGACIÓN DE FOCO CUANTITATIVO

GRÁFICO 3 Cinco dimensiones y tres registros 19

14

9

4

–1

–6 D1

D2 Técnicos

D3 Literarios

D4

D5

Orales

tas orales poco planificadas, con un grado importante de espontaneidad, muestran puntajes negativos en la Dimensión 5 y, en cambio, obtienen los más altos puntajes promedio positivos en el resto de las otras cuatro dimensiones. Entre ellos, cabe destacar el elevado puntaje factorial que los textos orales alcanzan en la Dimensión 1 “Foco Contextual e Interactivo” (19); se hace evidente, entonces, que en las entrevistas orales cara a cara los rasgos como pronombres personales y desinencias verbales, adverbios de tiempo, lugar y modo, tiempo presente y pasado, pronombres y adjetivos demostrativos se constituyen en prototípicos. Este análisis comparativo arroja similitudes y diferencias muy elocuentes. Permite identificar las áreas de intersección entre la oralidad de las entrevistas y la narratividad de la literatura latinoamericana. También ayuda a separar distintivamente los textos de alta especialización en los que se detectan construcciones gramaticales más complejas y de mayor empaquetamiento y reducción de información de aquellos que involucran detalladamente a los participantes y sus relaciones interpersonales. En estos últimos textos (orales y escritos), se detecta y se expresa de modo más explícito el involucramiento del autor a través de marcas lingüísticas específicas (ciertos tipos de verbos, adverbios, pronombres, etc.), hecho que también puede caracterizar el discurso especializado escrito, pero que

PARODI-01

29/1/10

11:06

Página 114

114

GIOVANNI PARODI

muchas veces se implica a través de otros recursos. Como se aprecia, la variación entre estos registros enfrenta un continuum, identificado en este caso por medio de las dimensiones y los rasgos lingüísticos que ellas capturan y permite identificarlas y caracterizarlas prototípicamente. Las implicancias derivadas de ello son múltiples, en particular, en lo que respecta al discurso especializado de divulgación didáctica, foco de interés de esta investigación. El diseño de materiales didácticos que aborden el discurso especializado en español escrito y quienes se concentren en su enseñanza deben capitalizar estas descripciones. A continuación, en el siguiente gráfico, se entregan los puntajes factoriales por dimensión para cada una de las tres áreas de especialización del corpus PUCV-CTC-2003 (comercial, industrial y marítima). Es interesante observar que, también en el Gráfico 4, el área comercial muestra una clara diferenciación en cuanto a la Dimensión 5 “Foco Informacional” del resto de los otros dos registros (CLL y CEO); en este nuevo análisis, más pormenorizado, es justamente esta quinta dimensión la que parece revelar la mayor distinción entre las áreas técnico-científicas. Según se aprecia, el ámbito comercial presenta el mayor puntaje promedio positivo en esta dimensión (3,8), GRÁFICO 4 Dimensiones y ámbitos de especialización 19

14

9

4

–1

–6 D1

D2

D3

Comercial

Industrial

D4 Marítimo

D5

PARODI-01

29/1/10

11:06

Página 115

EMPIRIA E INVESTIGACIÓN DE FOCO CUANTITATIVO

115

hecho que muestra su mayor carga informacional a través de alta densidad léxica y complejidad sintáctica. Parodi (2004) ya había detectado, a través de un estudio descriptivo simple, cierta variabilidad interna en el comportamiento de los sesenta y cinco rasgos lingüísticos entre las tres áreas técnicas. Esta investigación preliminar mostraba un patrón distintivo entre el área marítima y las otras dos. El mismo dato encuentra apoyo certero en estos análisis dimensionales con técnicas tipo factor score. Según se comprueba, el mayor puntaje negativo en cuanto a la carga informacional lo obtiene el ámbito de especialización marítima (–0,1), el mismo que apareciera distante de los otros dos en el trabajo que comentamos. Considerando este resultado, la Dimensión 5 parece distinguir entre textos de un ámbito y otro. Será necesario un estudio cualitativo profundo para dar cuenta con mayor detalle de qué clases textuales del área comercial se alinean en torno a este patrón dimensional. Seguidamente en la jerarquía, la Dimensión 4 también aporta a la distinción entre especialidades. Es ahora el área industrial la que revela mayor puntaje promedio positivo en la Dimensión “Foco Modalizador” (2,5), mientras que el marítimo y el comercial obtienen puntajes negativos muy cercanos y sin significatividad estadística entre ellos. Estos datos permiten inferir que los textos del ámbito industrial contienen mayor regularidad en los patrones sistemáticos de ocurrencia en torno a los rasgos distintivos de la atenuación e incertidumbre. En el resto de las dimensiones (1, 2 y 3), las tres áreas del CTC presentan cifras negativas y relativamente similares, hechos que indican que estas dimensiones no aportarían gran explicación diferenciadora en la descripción del discurso técnico-científico de divulgación didáctico escrito. También se puede sugerir que los textos de estos ámbitos especializados no destacan por la ocurrencia de estos rasgos que denotan interacción, relaciones interpersonales e involucramiento de los participantes en el discurso. Todo ello es congruente con otros antecedentes disponibles acerca de este tipo de textos. Por último, en el Gráfico 5, se entregan los puntajes factoriales por dimensión para cada uno de los doce tipos de textos del corpus PUCV-CTC-2003. Como se aprecia en esta gráfica, la distribución de los tipos de textos a lo largo de las cinco dimensiones es impresionantemente regular. Los puntajes negativos para todos los textos en las primeras tres dimensiones revelan la ausencia de marcas de interactividad, situacionalidad, narratividad y compromiso al interior del Corpus técnico profesional. Estos resultados muestran que las dimensiones logran establecer distinciones relevantes y que permiten identificar rasgos significativos en los tipos de textos, los cuales los agrupan con cierto grado de precisión. Ello confirma la tipologización presentada por Parodi y Gramajo (2003) al mismo tiempo que indica tendencias en cuanto a los textos del

PARODI-01

29/1/10

11:06

Página 116

116

GIOVANNI PARODI

GRÁFICO 5 Dimensiones y doce tipos de textos 19 14 9 4 –1 –6 D1

D2

D3

D4

Mannual

Guía Didáctico

Formulario

Instructivo

Ley

Descripción Técnica

Glosario

Reglamento

D5

Glosa Legal

ámbito especializado. Interesantemente, la Dimensión 4 “Foco Modalizador” destaca positivamente en el Manual y la Glosa Legal, ambos tipos de textos más divulgativos y de marcada postura didáctica. Para el resto de los diez textos, los puntajes negativos indican ausencia de las marcas prototípicas de la modalización. Al respecto, Parodi (2008a y 2009) ha corroborado estos mismos rasgos para el Manual, pero ahora en un amplio corpus de manuales universitarios en cuatro disciplinas académicas (Psicología, Trabajo Social, Ingeniería en Construcción y Química Industrial). Tal como se muestra en el mismo gráfico, la única dimensión en que se obtienen puntajes positivos es el “Foco Informacional”. La mayoría de los textos del corpus técnico profesional es descrita por la presencia co-ocurrente de rasgos caracterizadores de una prosa densa informativamente. Solo un par de textos, Guía Didáctica y Descripción Técnica, alcanzan puntajes negativos y se presentan como no prototípicos de estar marcados por la informatividad. Así, la Dimensión 5 se revela como la más caracterizadora de los textos del corpus especializa-

PARODI-01

29/1/10

11:06

Página 117

EMPIRIA E INVESTIGACIÓN DE FOCO CUANTITATIVO

117

do, lo cual se consigna como congruente con los datos aportados en los otros resultados aquí entregados.

Comentarios finales En este capítulo se exploró la distribución de un grupo de rasgos gramaticales relevantes funcionalmente en la descripción de tres corpus de lenguaje natural a través de registros diversificados. También, de modo más específico, se buscaba llevar a cabo una descripción inicial del corpus especializado de corte técnicocientífico (CTC) desde la perspectiva del AMD. Para ello se combinó la utilidad de los recursos de la lingüística de corpus y de los avances en el desarrollo de programas tecnológicos de vanguardia para el español en la construcción e interrogación de una base de datos digital con anotación lingüística automática. Se buscaba de este modo, entre otros, incorporar las tecnologías emergentes a la investigación lingüística acerca de la lengua española. En términos generales, cabe destacar que el AMR y AMD ha probado ser una metodología poderosa desde el marco de la LC. Los beneficios del AMR y del AMD implican más que una mera descripción de los rasgos superficiales de los textos, sino que aportan a la determinación de regularidades sistemáticas que develan funciones comunicativas y aproximaciones hacia una descripción profunda de las estructuras y usos lingüísticos en contextos determinados. Al mismo tiempo, la fortaleza que radica en la muestra relativamente grande de textos especializados (comparado con análisis de textos ejemplares y con muestras de textos generales) permite alcanzar conclusiones robustas y con mayores proyecciones. Estos aspectos llevan a la lingüística –en esta línea– no solo a contar con una alternativa metodológica de investigación, sino a delinear un paradigma que brinda renovados bríos a las indagaciones venideras para el español. De modo más específico, la determinación de las cinco dimensiones mostró ser un recurso de extraordinario potencial descriptivo; por ejemplo, entrega una distinción fundamental entre los textos estudiados de la modalidad oral y los de la escrita: los primeros aparecen anclados en la interactividad, contextualización y las relaciones interpersonales, esto es, fuertemente descritos por la Dimensión 1 “Foco Contextual e Interactivo”. Del mismo modo, la oralidad aquí descrita (entrevistas) no se relaciona directamente con una prosa informacionalmente densa, tanto desde el punto de vista léxico o sintáctico. Si bien es cierto que el registro literario escrito coincide con el oral en las Dimensiones Foco Narrativo, Foco Compromiso y Foco Modalizador, la distinción manifiesta en la Dimensión 1 es suficiente como para establecer una diferencia importante. Evidentemente, esto no permite hablar de una fuerte polarización entre oralidad y escritura den-

PARODI-01

29/1/10

118

11:06

Página 118

GIOVANNI PARODI

tro del corpus general, lo que reafirma la adscripción a la idea de un desplazamiento continuo entre los registros, a modo de categorías prototípicas y también difusas. Un aspecto particularmente relevante lo constituye la relación que se devela entre el grado de especialización de un texto y su vinculación con la modalidad escrita de la lengua. Así, los rasgos lingüísticos y funcionales asociados a la Dimensión 5 “Foco Informacional” destacan como los caracterizadores de una escritura técnica especializada, a la vez, que permiten identificar algunos de los rasgos más prototípicos del lenguaje escrito. Es justamente esta dimensión la que resulta central para la descripción del corpus CTC y su distinción de los otros corpora tales como el CLL y el CEO. Otro aspecto interesante es la continuación que aquí se realiza de la descripción del CTC, ya iniciada desde otra mirada por Parodi (2004, 2005b). Sin lugar a dudas, se hace necesario abordar un análisis más pormenorizado de las distinciones entre las tres áreas de especialización del CTC (comercial, marítimo e industrial), posiblemente desde estudios de índole más cualitativo. También queda pendiente el cálculo de los puntajes factoriales entre las diversas clases textuales que componen este corpus con el fin de indagar el aporte del AMD a la diferenciación y descripción de las mismas. Los antecedentes empíricos hasta ahora aportados dan cuenta de una interesante homogeneidad a lo largo de las Dimensiones 1, 2 y 3 entre las tres áreas técnico-científicas: estos textos no parecen tener una fuerte marca de narratividad, de involucramiento de los participantes ni de interactividad. Por el contrario, los textos del área industrial y marítima sí presentan diferencias significativas en las Dimensiones “Foco Modalizador” y “Foco Informacional”. El dominio industrial muestra una tendencia hacia la modalización y el dominio marítimo se distingue de los textos de las otras dos áreas por un grado positivo mayor de densidad informativa. Por último, los resultados aportados muestran la relevancia del estudio del uso lingüístico en entornos de formación técnico-profesional y confirman la necesidad de crear materiales especializados de instrucción sobre la base de descripciones empíricas de los registros en estudio. De acuerdo a los hallazgos, los estudiantes de las áreas especializadas requieren desarrollar la habilidad para manejar una variedad del español técnico escrito muy particular: prosa densa académicamente en términos léxicos, morfológicos y sintácticos, pero también textos con marcas de modalización. Esta evidencia también sugiere que existen razones significativas para atender diferencialmente al análisis, comprensión y producción del registro técnico-científico que circula y se genera tanto en el ámbito educativo como en el ambiente laboral. Todo estudiante debería practicar con una amplia variedad de registros ya que en su vida profesional no solo encontrará los altamente técnicos y especializados. Tampoco parece recomenda-

PARODI-01

29/1/10

11:06

Página 119

EMPIRIA E INVESTIGACIÓN DE FOCO CUANTITATIVO

119

ble que alumnos de estos liceos técnico-profesionales secundarios deban enfrentar de manera casi automática la inmersión en estos géneros textuales (Parodi 2005b). Una alternativa didáctica, podría ser que el material especializado debería contener una organización progresiva desde lo más divulgativo didáctico hasta aquellos textos más típicos del ámbito profesional y laboral.

PARODI-01

29/1/10

120

11:06

Página 120

GIOVANNI PARODI

ANEXOS

Anexo 1: Descripción de las cinco dimensiones DIMENSIÓN 1: FOCO CONTEXTUAL E INTERACTIVO Para interpretar el factor 1 y lograr determinar la dimensión subyacente, se deben evaluar las funciones compartidas por la mayoría de los rasgos que co-ocurren. De los 23 rasgos iniciales con peso estadístico sobre 0,40, se destacan quince rasgos con pesos superiores a 0,60. Los rasgos que se reúnen en este factor denotan una gran relación funcional entre la mayoría de ellos. Su interpretación no resulta compleja y la bibliografía pertinente entrega apoyo suficiente. De este modo, en principio, se puede sostener que altas frecuencias de co-ocurrencia de adverbios de tiempo y de lugar, subordinadas adverbiales de causa/efecto y de tiempo y de pronombres demostrativos revelan una referencia directa al contexto físico y temporal, determinan marcos de orden de la sucesión de hechos, establecen una vinculación con la acción y expresan motivos y consecuencias (lo que explica la sucesión de los acontecimientos). También ellos implican un compromiso del autor del texto y contendrían la marca de lo situado (RAE 1973; PérezRioja 1971; Di Tullio 1997; Kovacci 1999). Junto a estos rasgos de situacionalidad y contexto, el modo indicativo y el tiempo presente apuntan a una modalidad declarativa experiencial (Hernández 1996; Bassols & Torrent 1997; Ávila 2000; Criado de Val 1962; Gómez Macker & Peronard 1988), característica de la entrevista oral (Cepeda 2002). Los pronombres de primera y segunda persona singular y las desinencias verbales de primera y segunda persona singular refieren directamente a los participantes. También son clásicamente considerados como marcadores de la presencia del sujeto en el texto e indican un foco interpersonal y un estilo más comprometido. Estos últimos rasgos normalmente involucran a un destinatario específico e indican un alto grado de acción, ya que aluden a una comunicación directa, un estilo directo (De Kock & Gómez 2002); por ende, son representativos de la interacción dialógica. Por su parte, los rasgos con pesos estadísticos negativos tales como las nominalizaciones y los sustantivos son clásicamente considerados portadores de la carga referencial del texto y una alta frecuencia de ellos señala una fuerte densidad informacional (Picallo 1999; Di Tullio 1997; Ciapuscio 1992; Chafe 1982, 1985; Chafe & Danielewicz 1987; Halliday 1993; Biber & Finnegan 1986; Biber 1988). Del mismo modo, las estructuras adjetivas (frases de participio en función adjetiva y frases preposicionales) actúan como expansiones en el proceso de textualización, es decir, ellas permiten la integración y precisión de grandes cantida-

PARODI-01

29/1/10

11:06

Página 121

EMPIRIA E INVESTIGACIÓN DE FOCO CUANTITATIVO

121

des de información en un texto (Ciapuscio 1992; Harvey 2002). Como se comprende, los textos caracterizados por estos tipos de rasgos suelen ser altamente abstractos, condensar cantidades de información importante y expresar significados complejos; por lo tanto, constituyen un recurso típico del lenguaje técnico y científico (Hernanz 1999; Biber 1988; Burdach 2000; Zarzalejos 2001; Moyano 2000). En resumen, la dimensión que se infiere a partir de este factor se concreta en la acción, en la sucesión de los acontecimientos y en las relaciones interpersonales de tipo dialógico; lo que también se destaca a través de la deixis temporal, espacial y demostrativa. Todos los rasgos lingüísticos involucrados, en su conjunto, permiten suponer que los textos caracterizados por esta dimensión no contienen información altamente abstracta como tampoco evidencian una integración concisa y precisa de la información, sino por el contrario, la alta frecuencia de ocurrencia de estos rasgos tipificadores y estadísticamente positivos se asocian con un foco en la explicitud y dependencia del contexto y en la activa participación de los interlocutores, rasgos clásicos del discurso oral y dialógico. Esta dimensión emergente caracteriza los discursos en que se explicita las marcas espacio-temporal y donde existe colaboración mutua entre los participantes, lo que los torna más auténticos y menos planificados; la espontaneidad e interactividad son típicas de estos discursos. En ellos pueden co-existir múltiples organizaciones discursivas, tales como: narración, exposición, argumentación y descripción. Por todo ello, como un modo de reflejar las funciones primordiales detectadas en conjunto, hemos nombrado esta dimensión con la etiqueta “Foco contextual e interactivo”.

Puntajes factoriales y relaciones entre los corpora (literario, oral y técnico) Dado que nos interesa mostrar las relaciones entre los tres registros (técnicocientífico, CTC; literatura latinoamericana, CLL; y entrevistas orales semiestructuradas, CEO) y –más específicamente– aislar variables identificatorias del discurso técnico-científico en contextos didácticos, se comparan estos tres registros a través de cada una de las dimensiones interpretadas. Para ello se realiza un estudio estadístico a partir de los puntajes factoriales que resumen la frecuencia de cada uno de los rasgos en cada factor para cada uno de los textos. Los puntajes factoriales para cada texto se promedian con los puntajes de todos los textos de un corpus específico (CTC, CLL y CEO) y, de este modo, se obtiene un promedio del puntaje factorial para cada dimensión. Estos puntajes promedio por corpus o registro se comparan con el fin de determinar los tipos de relaciones (similitud o diferencia) existentes (Hair et al. 1999).

PARODI-01

29/1/10

11:06

Página 122

122

GIOVANNI PARODI

De la aplicación de estos procedimientos estadísticos se deduce que, en la dimensión 1 Foco Contextual e Interactivo, las entrevistas orales (CEO) evidencian el mayor peso (26,16). Los textos del corpus literario (CLL), por su parte, ostentan un peso mucho menor (7,12) y, en tercer lugar, se ubican los textos del corpus técnico-científico (CTC) con un peso negativo (–2,14). Estos datos estadísticos permiten confirmar que la Dimensión 1 aparece fuertemente ligada, en primer lugar, a los textos orales en su modalidad dialógica tipo entrevista, seguida por los textos literarios escritos; por tanto, se hace evidente que la dimensión Foco Contextual e Interactivo no es prototípica de los textos técnicos.

DIMENSIÓN 2: FOCO NARRATIVO El factor 2 también presenta 23 rasgos co-ocurrentes que se distribuyen entre los puntajes 0,84 y 0,40. La presencia significativa de los pronombres personales, especialmente los de tercera persona singular y primera persona plural, sujetos humanos, protagonistas de historias (Longacre 1983), al igual que las respectivas desinencias, muestra un marcado acento en la identificación de las personas del discurso, las presentes en el momento de la enunciación y las ausentes en relación a aquellas (Calsamiglia & Tusón 1999). Congruente con lo anterior, surgen en coocurrencia los rasgos asociados a los tiempos verbales del pasado, el pretérito imperfecto, que describe situaciones y circunstancias y, su contraparte, el pretérito indefinido, que señala los sucesos, y, por tanto, el dinamismo de las acciones (Kovacci 1993), denotando así una referencia directa al mundo narrado (Weinrich 1974; Arroyo 2000; De Kock & Gómez 2002). No menos importante es la coaparición del futuro perifrástico, demostrándose que si bien los hechos narrados se sitúan generalmente en el pasado, otros transcurren también en la actualidad de los personajes (Contreras 2000). A estos tiempos verbales se asocia el uso del modo indicativo, que permite a los protagonistas expresar estados o acciones como reales (Gómez Macker & Peronard 1988). Todo esto se complementa con el uso de los verbos modales de volición, verbos privados, verbos perceptivos y verbos públicos que se orientan a dar cuenta de las actitudes subjetivas del sujeto hablante (Arianzen 2001). De hecho, lo notable de los verbos de actividad mental –empleados sobre todo en primera persona singular– no es solo su uso según lo que Palmer (1974) denomina verbos privados y que se refieren a actividades perceptibles solo por el propio hablante, sino que conjuntamente ellos pueden cumplir también una función atenuadora (Weber & Bentivoglio 1991). Ahora bien, la trama personal y temporal hasta aquí conformada encuentra su anclaje en los adverbios de lugar y de tiempo que sitúan la significación del verbo en unas coordenadas espaciales o temporales (Bosque 1990). Asimismo, el

PARODI-01

29/1/10

11:06

Página 123

EMPIRIA E INVESTIGACIÓN DE FOCO CUANTITATIVO

123

adverbio de negación, la conjunción «ni» y las conjunciones aditivas, adversativas o disyuntivas sirven de apoyo a la sucesión de hechos en el pasado (Biber 1988; De Kock & Gómez 2002; RAE 1973; Pérez-Rioja 1971). Por último, el verbo estar estativo activo destaca por su frecuencia en secuencias descriptivas (Bassols & Torrent 1997; Lorente 2002) y las frases infinitivas en función nominal se explican por su incidencia en construcciones en que aparecen los verbos modales de volición y los privados, los que remiten a los participantes en un evento comunicativo real o ficcional (Hernanz 1999). Los rasgos con peso negativo, tales como las nominalizaciones, las frases preposicionales y los adjetivos atributivos se complementan en la integración y densidad de la información (Chafe 1982, 1985, 1994; Janda 1985; Ciapuscio 1992; Halliday & Martin 1993; Hernanz 1999; Burdach 2000; Moyano 2000; Zarzalejos 2001). La dimensión que se perfila a partir del factor 2 se identifica con una sucesión cronológica de eventos principalmente en el pasado y descripción de todo lo que rodea a dichos eventos. Esto último se complementa con los indicadores de tiempo y lugar. Además, la fuerte incidencia de la deixis personal permite expresar la presencia de los protagonistas, ya sea por medio de la presencia de puntos de vista internos mediatizados por la conciencia del hablante o a través de puntos de vista externos, situados fuera de esta conciencia. Al primer punto de vista, corresponden estados internos, perceptivos, privados y, al segundo, aquellos más públicos. En síntesis, este factor se asocia preferentemente con una sucesión de acontecimientos, que implica circunstancias de tiempo y lugar, como también la participación de las personas del discurso. Por tanto, el factor 2 permite conformar una dimensión funcional que hemos denominado Foco Narrativo. La aplicación de los correspondientes procedimientos estadísticos entre registros revela que la Dimensión 2 Foco Narrativo presenta el mayor puntaje factorial (29,32) en el registro literario (CLL), a este le siguen los textos del corpus de entrevistas orales (CEO) con un peso positivo de 21,22 y, por último, se ubican los textos del corpus técnico-científico (CTC) con –comparativamente– el menor peso positivo: 1,12. El resultado obtenido por el registro literario (CLL) es congruente con los rasgos co-ocurrentes y que tipifican a dicho discurso, esto es, la estructura narrativa y el mundo ficticio que instaura. La primera consiste en el ordenamiento de los eventos relatados en el pasado. Lo segundo, en cambio, en la serie de objetos, personajes, lugares, tiempos, eventos y leyes que rigen las relaciones entre ellos.

DIMENSIÓN 3: FOCO COMPROMISO Para interpretar el factor 3 se han considerado diecisiete rasgos que co-ocurren con valores superiores a 0,40. Los verbos privados (Biber 1988; Weber & Benti-

PARODI-01

29/1/10

124

11:06

Página 124

GIOVANNI PARODI

voglio 1991), los verbos de volición (Gómez 1999) y los pronombres de primera y segunda persona singular remiten a los participantes de un acto de comunicación (Fernández 1999), específicamente, a personas que manifiestan sus intenciones y actitudes. De igual modo, los pronombres de primera persona plural y las desinencias de primera persona singular y de segunda persona plural confirman como característica esencial de este factor la manifestación explícita del emisor del discurso (Calsamiglia & Tusón 1999; Crismore 1989). La presencia de marcas de pretérito indefinido sugiere que los verbos descritos anteriormente se refieren a acciones pasadas con un final temporal determinado, es decir, a construcciones que marcan el resultado de la acción que el verbo expresa. El modo indicativo, por su parte, hace referencia a hechos reales localizados en un tiempo verdadero (Criado de Val 1962; Contreras 1984) y expresa la modalidad declarativa experiencial característica del intercambio discursivo oral (Cepeda 2002). En relación a lo anterior, se postula también que el modo indicativo es un rasgo a través del cual se expresan estados o acciones como reales (Gómez Macker & Peronard 1988), es decir, este rasgo caracteriza intercambios lingüísticos cuyos referentes son hechos concretos en un aquí y un ahora determinados. En las oraciones sustantivas subordinadas, el empleo de la subjunción que está semánticamente condicionada: permite designar eventos o procesos que no se contemplan en su realización sino en su resultado, o sea, como hechos ya establecidos, que se conciben como algo previo a la enunciación (Delbecque & Lamiroy, 1999). La presencia de este rasgo sugiere que los interlocutores en el discurso, destacados anteriormente, se manifiestan directamente sobre hechos específicos con un final temporal determinado. La aparición de frases infinitivas puede ser explicada a partir de su recurrencia en construcciones con los tipos de verbos que hemos presentado anteriormente, a saber, verbos privados y de volición. Aunque la función característica de estas construcciones es condensar información (Halliday 1994; Burdach 2000), en este caso esta función está subordinada a otros rasgos que aparecen con más peso tales como verbos privados y de volición, además de las desinencias y los pronombres personales en general. Por último, las frases preposicionales (Hernanz 1999; Zarzalejos 2001; Harvey 2002), único rasgo que aparece con un valor negativo (–0,457) se asocian con una alta carga informativa ya que expanden construcciones de mayor abstracción. La interpretación de los rasgos de alta ocurrencia tales como verbos privados, verbos de volición y pronombres y desinencias verbales de primera persona en este factor constituyen la Dimensión 3 Foco Compromiso. Esta dimensión está asociada a textos en los que la intención y la actitud del emisor tienen mayor relevancia que el mensaje mismo; dicho de otra forma, esta dimensión caracteriza a textos en los que aparecen participantes reales que expresan intenciones y actitu-

PARODI-01

29/1/10

11:06

Página 125

EMPIRIA E INVESTIGACIÓN DE FOCO CUANTITATIVO

125

des proposicionales frente a lo dicho. La clara presencia del “yo” a través de los pronombres y desinencias de primera persona es una evidencia clara de la voluntad de involucrarse en el discurso de manera explícita y asumir un rol preponderante. Por último, podemos observar que el comportamiento de esta dimensión presenta su valor más alto en el CLL (9,52). En segundo lugar, se ubica el registro CEO con un valor de 7,7. A diferencia de estos puntajes, en cambio, aparece con un valor negativo (–1,99) el registro CTC. Todo ello permite señalar que la Dimensión 3 Foco Compromiso caracteriza más a los registros en los que aparecen participantes reales que expresan intenciones y actitudes frente al mensaje, a saber, el CEO y el CLL. El valor negativo del CTC en esta dimensión se explica por la naturaleza del discurso técnico científico, el cual se focaliza en el contenido informativo del mensaje lo que no exige la identificación de los interlocutores en el discurso, razón por la cual, los rasgos que expresan compromiso comparativamente con los otros registros, son menos frecuentes.

DIMENSIÓN 4: FOCO MODALIZADOR Para el factor 4 se han considerado 8 rasgos co-ocurrentes con peso positivo y 1 rasgo con peso negativo. La co-ocurrencia de adjetivos predicativos, cuya función calificativa-atributiva se realiza de modo indirecto o no adjunto (González 2000), unido a formas activas con ser sugieren una relación con una función descriptiva (Gili Gaya 1980; Bosque 1990, 1999; Bassols & Torrent 1997). La co-ocurrencia de los rasgos anteriores se vuelve relevante al aparecer junto a subordinadas adjetivas que permiten atribuir al sustantivo cualidades muy complejas para las cuales no tiene el idioma adjetivos o participios léxicos (Gili Gaya 1980) y a adverbios de modo que denotan la manera en que se presentan los acontecimientos o se realizan las acciones (Bosque 1990). Se puede decir que ambos rasgos (subordinadas adjetivas y adverbios de modo) remiten a procesos de “incidencia de un segmento lingüístico sobre otro para configurar una unidad superior” (Hernández 2000b: 391); del mismo modo, su presencia permite la articulación de una sintaxis más expandida y de menor concisión. Por su parte, los atenuadores –marcadores informales y menos específicos de probabilidad e incertidumbre– presentan el contenido de una proposición como incierto (Markkanen & Schröder 2000). Su co-ocurrencia junto a adverbios de modo y verbos modales de posibilidad caracterizan textos más modalizados, en los que se marca la expresión de la actitud del hablante/escritor respecto al contenido declarado, en otras palabras, se destaca la visión particular del locutor respecto al contenido de los enunciados que emite (Calsamiglia & Tusón 1999; Hyland

PARODI-01

29/1/10

126

11:06

Página 126

GIOVANNI PARODI

1998). En síntesis: la conjunción sistemática de estos rasgos apunta a discursos con énfasis en cómo (modus) se dicen las cosas en relación al contenido mismo, a lo dicho (dictum). El sustantivo ha sido clásicamente asociado a la función referencial. El peso negativo de este rasgo (–0,494) y los pesos positivos de los rasgos ya mencionados sugieren fuertemente la relación del factor 4 con una función más descriptiva que informativa, más expresiva que referencial. Por todo lo dicho anteriormente, como un modo de reflejar las funciones principales que aparecen conjuntamente, hemos llamado a esta dimensión como Foco Modalizador, asociada principalmente a discursos con marcas actitudinales explícitas. De la aplicación de los procedimientos estadísticos en base a los puntajes factoriales, se desprende que los textos del corpus con más alto puntaje en esta dimensión corresponden al registro entrevistas orales (CEO), con 4,17. Los textos del corpus literario (CLL) presentan un puntaje bajo, de 1,31 en la dimensión Foco Modalizador (algunos de ellos tienen puntaje negativo). En cuanto al corpus técnico científico (CTC), la mayoría de los textos muestra un puntaje negativo promedio de –0,49. Los puntajes obtenidos por CEO en la Dimensión 4, Foco Modalizador, son congruentes con algunas de las características comúnmente aceptadas de la oralidad. Entre estas, Narbona (2000) destaca el propósito socializador de la interacción cara a cara, que privilegia el uso de estrategias como la atenuación o la intensificación; así, los hablantes tratan de hacerse comprender y, al mismo tiempo, buscan influir sobre el oyente.

DIMENSIÓN 5: FOCO INFORMACIONAL El factor 5 está conformado por la correlación significativa entre once rasgos. La presencia de los rasgos positivos co-ocurrentes como verbos modales de obligación y modo subjuntivo da cuenta de la necesidad y certeza de los juicios expresados, correspondiendo fundamentalmente a una modalidad deóntica (Hyland 1998; Osorno 2000). Además, en el caso del subjuntivo, este remite a organizaciones de mayor complejidad sintáctica (Gili Gaya 1980) y a subordinación, cuya función es enmarcar la información del discurso (Delbeque & Lamiroy 1999; Galán 1999). Por otra parte, este mismo rasgo es usado para la expresión de la especulación subjetiva y el mandato (Criado de Val 1962; Gómez Macker & Peronard 1988). La co-ocurrencia de nominalizaciones junto a participios en función de adjetivo y frases preposicionales se presenta como indicador de integración y compactación de información altamente abstracta, propia de un discurso académico nominal (Burdach 2000; Picallo 1999; Chafe 1982, 1985; Janda 1985).

PARODI-01

29/1/10

11:06

Página 127

EMPIRIA E INVESTIGACIÓN DE FOCO CUANTITATIVO

127

Los rasgos negativos que presentan un mayor peso en este factor son: las desinencias de tercera persona singular, las cuales se utilizan cuando existe el riesgo de malinterpretar la referencia porque la información que aporta el contexto falla (Castellano 2000). El pretérito indefinido, el cual sitúa la acción de un suceso o evento en un espacio temporal acabado, es decir, es acción que ya no se puede volver a realizar (Contreras 1984). El verbo estar estativo activo, aunque no tiene valor especializado (Lorente 2002), forma parte de las llamadas unidades de conocimiento. Los verbos privados, que se destacan por expresar estados intelectuales o actos intelectuales no observables (Weber & Bentivoglio 1991). Los pronombres de negación, cuyo uso es preferentemente coloquial (Sánchez 1999; Tottie 1983). Y, por último, los verbos modales de volición, que dan cuenta de una modalidad dinámica anclada en la realidad (Langacker 1990) o de una modalidad orientada al participante, es decir, una modalidad que perfila el estatus del sujeto (Olbertz 1998). Cabe destacar que todos los rasgos positivos constituyentes de este factor se presentan preferentemente en discursos escritos y, en particular, en el artículo de investigación científica (Hyland 1998; Cornillie 2003; Criado de Val 1962; Harvey 2002; Burdach 2000). En síntesis, los rasgos positivos agrupados en este factor están fundamentalmente orientados hacia la informatividad, entendida esta como la concentración de información en unidades y estructuras lingüísticas más pequeñas, que presentan los datos lo más concisa y precisamente posible (Biber 1988; Halliday & Martin 1993; Burdach 2000). Observamos así un conjunto de rasgos que dan cuenta de una alta carga informativa, asociada a una entrega regulada y compactada de la información, fundamentalmente referencial. Como se aprecia, los discursos caracterizados por estos tipos de rasgos suelen ser altamente abstractos, condensar cantidades relevantes de datos y expresar significados complejos. Por otra parte, los rasgos negativos de este factor se orientan hacia una contextualización de los estados o actos intelectuales no observados de un sujeto, en un momento determinado (Ciapuscio 1992). La presencia de los rasgos antes mencionados permite distinguir claramente entre discursos con alta cantidad de información y, por ende, un mayor grado de abstracción de los que presentan menor cantidad de información, por ello es posible denominar a este factor 5 como dimensión Foco Informativo. En relación al estudio estadístico comparativo, observamos que esta dimensión nos permite diferenciar significativamente el registro CTC (0,90) del CEO (–3,58) y del CLL (–4,28). De esta manera observamos que la configuración de los datos apoya la idea de que el registro CTC está conformado por textos cuyos rasgos lingüísticos dan cuenta de una alta cantidad de información, en tanto que los registros CLL y CEO presentan rasgos lingüísticos escasamente relacionados con la compactación y abstracción de la información.

PARODI-01

29/1/10

11:06

Página 128

PARODI-01

29/1/10

11:06

Página 129

5. E M P I R I A E I N V E S T I G AC I Ó N D E F O C O C U A L I TAT I VO : I D E N T I F I C AC I Ó N D E G É N E RO S AC A D É M I C O S Y G É N E R O S P R O F E S I O N A L E S A T R AV É S D E L C O R P U S D E L E S P A Ñ O L P U C V- 2 0 0 6

Introducción Tal como se anunció al inicio del capítulo anterior, mostramos dos investigaciones que pretenden ilustrar modos de realizar indagación desde principios de la lingüística de corpus. El foco del presente capítulo es llamar la atención hacia la identificación de géneros académicos y profesionales en contextos disciplinares diversos, con un énfasis en análisis de corte más cualitativo que los procedimientos empleados en el capítulo anterior. Como se sabe, hoy en día existe importante evidencia acerca de los problemas de comprensión que lectores en ámbitos de especialidad revelan al enfrentar textos que pertenecen a géneros tanto académicos como profesionales (Parodi 2005b, 2007c y d, 2009; Arnoux, Nogueira & Silvestri 2006; Peronard 2007a; Ibáñez 2007b). Situación similar ocurre en el ámbito de la escritura académica y profesional (Parodi 2003; Marinkovich 2001-2002; Carlino 2005; Fernández & Carlino 2007). Estos géneros especializados encierran una serie de características no suficientemente descritas, desde ámbitos disciplinares particulares, de modo que no resulta fácil apoyar a que los lectores que los alcancen una comprensión profunda. Un número importante de estas investigaciones se ha focalizado preferentemente en disciplinas como la medicina, las leyes, los negocios, la historia y en el terreno de las organizaciones gubernamentales (Trosborg 1997, 2000; Gallardo 2005; Alcaraz Varó Mateo & Yus 2007; Ciapuscio 2007; Facchinetti 2007; Mahlberg & Teubert 2007; Candlin 2002; Devitt 2004; Oteíza 2006), no existiendo estudios empíricos robustos en otras áreas del saber, salvo escasas excepciones (entre otras, Bruce 2008; Biber, Connor & Upton 2007; Wignell 2007; Connor & Upton 2004; Curado, Edwards & Rico 2007; Flowerdew 2002; Swales 2004; Vine 2004). No se cuenta con antecedentes de tipo contrastivo entre un grupo de carreras universitarias y su correspondiente ámbito profesional laboral; o sea, desde la perspectiva amplia de la retórica contrastiva. De modo más específico, los trabajos que existen en español sobre estas temáticas son de reciente

PARODI-01

29/1/10

130

11:06

Página 130

GIOVANNI PARODI

data y centrados en el discurso especializado o en el discurso académico (entre otros, Cubo de Severino 2005; Castel, Aruani & Severino 2004; Harvey 2005; Ciapuscio 2003; Torner & Battaner 2005; Castelló 2007; Parodi 2004, 2005a, 2007c y d; Montolío 2002; Núñez, Muñoz & Mihovilovic 2006). Es un tanto diferente la situación en Norteamérica y en Europa, ya que en algunos países de esos polos geográficos se han desarrollado programas de lectura y escritura especializada en diferentes áreas del conocimiento y con intensos sistemas de apoyo lingüístico (entre otros, Bazerman 2008; Björk & Räisänen 2003; Russell 2002; Herrington & Moran 2005; Montolío 2002; Montolío & López Samaniego 2008). A partir de este marco, la investigación de que damos cuenta se encuadra dentro de los estudios basados en grandes corpus de textos. Pretendemos avanzar hacia una descripción más ecológica y representativa de la variación a través de las disciplinas y a través de los géneros. De este modo, en este capítulo, aporto algunos antecedentes acerca de un proyecto en desarrollo centrado en la recolección, construcción y descripción de un corpus de discurso escrito en el ámbito académico y en el profesional en cuatro áreas disciplinares: Química Industrial, Ingeniería en Construcción, Trabajo Social y Psicología. Cabe señalar que las bases conceptuales de este estudio se encuentran en Parodi (2008b). Allí se aborda el concepto de género del discurso y, más específicamente, de géneros académicos y profesionales. Por ello, en este capítulo nos abocamos al corpus y su análisis. De este modo, en lo que sigue, se analizan detalladamente los hallazgos empíricos y se dimensionan las características de los géneros identificados. Concluyo este capítulo con algunas conclusiones y proyecciones.

1. La investigación: procedimientos, pasos metodológicos y corpus 1.1. PROCEDIMIENTOS Y PASOS METODOLÓGICOS En esta investigación buscamos recolectar cerca del 100% del material escrito que se entrega a los alumnos para ser leído durante el total de años del currículo de cada una de estas cuatro carreras universitarias: Psicología, Trabajo Social, Ingeniería en Construcción y Química Industrial. Paralelamente, también recogeremos los textos que circulan y leen los profesionales egresados de estas carreras y que se desempeñan en ámbitos propios a los de su formación de origen. Cabe destacar que en esta investigación se persiguen principios metodológicos de carácter ecológico y de muestra no intencionada en un sentido estricto. Ello quiere decir que pretendemos acercarnos al universo de textos que circulan

PARODI-01

29/1/10

11:06

Página 131

EMPIRIA E INVESTIGACIÓN DE FOCO CUALITATIVO

131

en las cuatro áreas disciplinares universitarias; de este modo, el corpus académico no contempla textos ejemplares, muestras aleatorias o materiales mutilados. Así, la investigación adquiere un importante carácter naturalístico, dado que no hemos intervenido ni introducido variables de ningún tipo en la recolección del material mismo (salvo, como se dijo, las de ámbito y especialidad). No obstante lo anterior, por supuesto, que sí existe un foco en ciertas áreas en la recolección del corpus, a saber, la de las Ciencias Sociales y Humanas (CS&H) y de las Ciencias Básicas e Ingeniería (CB&I). Ahora bien, la metodología más específica de esta investigación se divide en diferentes etapas según el estadio y foco de la misma. A continuación, se revisa brevemente los pasos seguidos para uno y otro corpus.

1.2. RECOLECCIÓN DEL CORPUS ACADÉMICO Con el fin de conformar el corpus del nivel académico y construir dicha base de datos electrónica se procedió a través de una serie de pasos. En la Tabla 1 se resumen los nueve pasos ejecutados.

1.3. RECOLECCIÓN DEL CORPUS PROFESIONAL Con el fin de recopilar el corpus del ámbito profesional en las empresas y/o instituciones, procedimos a contactar a todos los ex-alumnos de las cuatro carreras seleccionadas en el ámbito académico, considerando un periodo de cinco años (2000 al 2006). En este primer contacto, buscábamos comprobar si los sujetos correspondían al perfil del egresado determinado por la carrera. Esto quiere decir que identificamos a aquellos sujetos que se desempeñan laboralmente dentro de los dominios que cada una de las cuatro carreras proyecta para su profesional egresado. Vale la pena señalar que no buscamos identificar ni estudiar el soporte o medio en que se almacena o transmite el material del corpus profesional (papel, medio electrónico, Internet, etc.). Nuestro interés se focaliza en construir un panorama de los principales géneros que circulan en cada ámbito de especialidad en el medio laboral; por ello, esta parte del estudio no persigue un propósito cuantificador de cada género identificado, tal como sí era el propósito en el Corpus Académico. De este modo, el objetivo último de esta recolección es conocer las prácticas de comunicación escrita en cada ambiente laboral y recolectar la mayor cantidad posible de material escrito prototípico a que estos sujetos se exponen en el desempeño de sus funciones. Como se aprecia, el corpus profesio-

PARODI-01

29/1/10

132

11:06

Página 132

GIOVANNI PARODI

TABLA 1 Formato empleado para la recolección y procesamiento Corpus Académico Nueve pasos seguidos para recolectar el Corpus Académico PUCV-2006 Paso 1: Construcción de una base de datos con la información completa de los currículos de las cuatro carreras universitarias (incluyendo los programas de cada asignatura). Paso 2: Construcción de una base de datos con todas las referencias bibliográfícas obligatorias y de consultas, incluidas en los programas de estudio. Paso 3: Preparación de una encuesta para todos los profesores de cada una de los cuatro programas, la cual incluyó una solicitud de materiales complementarios no incluidos en los programas de asignaturas. Paso 4: Recolección de material complementario a cada asignatura, que los profesores entregan a través de guías, archivos digitales, y material fotocopiado. Paso 5: Búsqueda en Internet con el fin de encontrar aquellos títulos disponibles en formato digital, minimizando así el tiempo de digitalización. Paso 6: Recolección de los textos de las bibliotecas correspondientes y de las oficinas de los profesores. Paso 7: Proceso de fotocopiado de cada texto con el fin de construir una base de datos en papel, para consultas posteriores. Paso 8: Entrenamiento de un equipo de asistentes para escanear y compilar todos los textos. Paso 9: Procesamiento de todos los textos del corpus en formato plano (*txt) a través del etiquetador morfosintáctico El Grial y correspondiente carga en la plataforma en línea www.elgrial.cl

nal se diferencia del corpus académico en cuestiones de universalidad y representatividad. En la Tabla 2 se sintetizan las acciones realizadas para la construcción del corpus profesional. Ellas se resumen en once pasos.

1.4. EL CORPUS DEL ESPAÑOL PUCV-2006: LAS DISCIPLINAS Tal como se ha adelantado, el Corpus Académico PUCV-2006 fue recolectado a través de cuatro disciplinas (dos de las CB&I y dos de las CS&H). Estas discipli-

PARODI-01

29/1/10

11:06

Página 133

EMPIRIA E INVESTIGACIÓN DE FOCO CUALITATIVO

133

TABLA 2 Formato empleado para la recolección y procesamiento Corpus Profesional Once pasos seguidos para recolectar el Corpus Profesional PUCV-2006 Paso 1: Construcción de una primera base de datos de los profesionales egresados de las cuatro carreras en estudio en un periodo de cinco años Paso 2: Determinación de un número de profesionales en ejercicio que cumplan con el requisito de desempeñarse en el ámbito de su título profesional con el fin de solicitarles materiales escritos Paso 3: Contacto telefónico con los sujetos de la muestra de egresados y programación de entrevista Paso 4: Realización de entrevistas in situ con el apoyo de un protocolo ad hoc, con el objetivo de solicitar textos escritos ejemplares de uso cotidiano en el medio laboral Paso 5: Contacto posterior por correo electrónico con los profesionales de la muestra con el fin de que proporcionen otros materiales en formato electrónico, comprometidos en la entrevista Paso 6: Búsqueda en bibliotecas, empresas o en Internet de ciertos materiales mencionados, pero no entregados por los profesionales encuestados Paso 7: Construcción de una segunda base de datos a partir de los alumnos en práctica profesional terminal de las cuatro carreras en estudio Paso 8: Determinación de un número accesible de entrevistados por disciplina o área de especialización con el fin de contactarlos y solicitarles materiales de uso laboral Paso 9: Contacto a través de teléfono, correo electrónico o de los profesores supervisores de prácticas profesionales para fijar entrevista en la universidad con el objetivo de solicitar textos escritos de uso cotidiano en el medio laboral Paso 10: Proceso de fotocopiado de todos los textos recolectados del primer y segundo grupo con el fin de construir una base de datos en papel Paso 11: Entrenamiento de un equipo de asistentes para escanear y compilar todos los textos

nas serán indagadas tanto desde los entornos académicos universitarios como desde los contextos profesionales. En la Tabla 3 se detalla el desglose por área del conocimiento y por disciplina. La elección de estas cuatro disciplinas científicas se basó en tres criterios:

PARODI-01

29/1/10

11:06

Página 134

134

GIOVANNI PARODI

a) Necesidad de explorar disciplinas diferentes a las clásicamente indagadas en idioma inglés y en la mayoría de las investigaciones en español, tales como leyes, medicina, economía, historia y negocios. b) Búsqueda de comparación y contrastación, desde diversas ópticas, de los géneros y las características prototípicas de los textos del medio de formación académica universitaria. c) Búsqueda de comparación y contraste, en diversos puntos, entre disciplinas de CB&I y de las CS&H. TABLA 3 Áreas académicas y profesionales Ámbito de las Ciencias Básicas y de la Ingeniería (CB&I)

Ingeniería en Construcción (IC)

Ámbito de las Ciencias Sociales y Humanas (CS&H)

Trabajo Social (TS)

Química Industrial (QUI)

Psicología (PSI)

2. Resultados En la primera parte de esta sección entregamos una descripción cuantitativa del corpus recolectado. Dada la naturaleza diferente del tipo de recolección entre el corpus académico y el profesional, revisaremos estas cifras separadamente y con grado diverso de profundidad.

2.1. CORPUS ACADÉMICO Para mejor visualización de la distribución del corpus por área del conocimiento y disciplina, en la Tabla 4 se presentan las cifras en números brutos y en porcentajes. Un primer análisis, basado en los datos de la Tabla 4, nos conduce a pensar que, dada la cantidad de textos recolectados, existe un mayor número de textos de lectura para los alumnos de las CS&H, a diferencia de lo que ocurre en las CB&I. En otras palabras, los alumnos de CS&H se exponen a una cantidad mucho mayor de material escrito en comparación con los alumnos de las carreras de CB&I. De acuerdo a estas cifras, se puede suponer, por ejemplo, que los alumnos de PSI leerían cuatro veces más que los alumnos de QUI.

PARODI-01

29/1/10

11:06

Página 135

135

EMPIRIA E INVESTIGACIÓN DE FOCO CUALITATIVO

TABLA 4 Constitución corpus Académico PUCV-2006 en formato digital Nº Textos

%

Nº Palabras

%

Psicología (PSI)

227

46

21.933.860

37

Trabajo Social (TS)

142

29

18.641.309

32

Ingeniería en Construcción (IC)

69

14

8.734.086

15

Química Industrial (QUI)

53

11

9.285.375

16

491

100

58.594.630

100

Totales

Un análisis más profundo, basado ahora en el número de palabras por disciplina y los respectivos porcentajes confirma lo anteriormente dicho en cuanto a la distinción en cantidad de textos y extensión de ellos entre las CS&H y las CB&I. Esta distribución irregular revela una interesante concentración de mayor cantidad de material escrito disponible al acceso de los alumnos en formación en las disciplinas de las CS&H, entre las que PSI destaca por el mayor porcentaje de ocurrencia de textos (227: 46% del total) y el mayor número de palabras (21.933.860). En esta misma tabla, se aprecia que, comparativamente, QUI ostenta el número más bajo de textos recolectados (53: 11 % del total del corpus). Los datos de la Tabla 4 resultan muy reveladores. En efecto, es evidente la tendencia hacia una mayor cantidad de textos y también de palabras en el ámbito de las CS&H, hecho que puede implicar una mayor cantidad de lectura en términos de tiempo de dedicación y de extensión del material a ser procesado. Si bien en términos de número de palabras, la diferencia entre CS&H y CB&I es importante, su distribución resulta abrumadora e indica una carga de lectura muy divergente. Sí se comprueba que la extensión de texto a ser procesado por los alumnos alcanza el doble en las dos carreras de CS&H (32% y 37%) que en las dos carreras de CB&I (15% y 16%), ello indica una clara tendencia hacia un incremento progresivo a partir del número de textos y del número de palabras, la carrera y la adscripción disciplinar de la misma. Estos datos preliminares construyen un primer panorama muy singular, pues no se cuenta con antecedentes similares producto de investigaciones de esta naturaleza en lengua española ni en otras lenguas. Las investigaciones disponibles suelen abordar un corpus intencionado de tamaño reducido o seleccionado aleatoriamente de uno o varios géneros académicos; en otros casos, se trabaja más bien a modo de ejemplificaciones. Tampoco contamos con otros trabajos de corte

PARODI-01

29/1/10

136

11:06

Página 136

GIOVANNI PARODI

naturalístico, en los cuales se recolecte el universo de materiales académicos en disciplinas en estas u otras áreas del conocimiento. En el ámbito cuantitativo, las cifras presentadas en la Tabla 4, constituyen un verdadero hito. No tenemos antecedentes de un corpus académico escrito de estas características que alcance tal dimensión con un grado tan alto de representatividad y circunscripción temática. O sea, un corpus en el que exista una subdivisón por disciplinas y los textos estén agrupados en géneros discursivos; además de que estén disponibles en línea para acceso gratuito a consultas (www.elgrial.cl). Así, un corpus con cerca de 60 millones de palabras en formato digital, tematizado y tipologizado se constituye en una herramienta fundamental para el desarrollo de investigaciones de vanguardia desde los enfoques de la lingüística de corpus en lengua española. Con ello, el Corpus Académico PUCV-2006 se suma a los ya existentes en el sitio El Grial, de modo que el material digital disponible sobrepasa –en total– los 120 millones de palabras, posibilitándose consultas del tipo descrito por Parodi (2006b) y Venegas y Silva (2007). Justamente con el objetivo de profundizar en el análisis del material escrito recolectado, procedimos a su estudio y clasificación en tipos de géneros. Para ello, empleamos cinco criterios: a) macropropósitos comunicativos, b) modos de organización del discurso, c) relación entre los participantes, d) contextos ideal de circulación y e) modalidad. A continuación, en la Tabla 5, se nombran los nueve géneros identificados y se consignan las cifras brutas de ocurrencia a partir del total de textos del Corpus Académico PUCV-2006. Definiciones precisas de cada género se encuentran en Parodi, Ibáñez y Venegas (2009). La organización de la información en la Tabla 5 ha seguido el principio del orden alfabético por los nombres otorgados a los géneros. Decidimos buscar nombres simples, cotidianos y de fácil acceso y transparencia en su uso. Como se aprecia, a partir de esta tabla, emerge un panorama muy heterogéneo pero con claras concentraciones. En principio, se puede decir que son dos los géneros más recurrentes: Texto Disciplinar (TD) y Manual (MA). Ello entrega un panorama global inicial en que se conjuga, por una parte, el saber disciplinar propiamente tal a través del TD que aborda conocimiento especializado, a veces, de alto grado de complejidad; por otra, encontramos el MA que, aunque está fuertemente orientado por el conocimiento disciplinar, cuenta con un carácter didáctico variable en que se busca, en la mayoría de los casos, difundir saberes con apoyo de diversos recursos educativos (gráficos, tablas, diagramas, etc.) y llevar a los lectores al desarrollo de ejercicios y aplicación de conocimientos. No deja de llamar la atención que un corpus de estas características presente, comparativamente, escasa ocurrencia de, por ejemplo, la Guía Didáctica (GD). Aunque ellas ocupan el tercer lugar en jerarquía numérica, estimamos que su cantidad es limitada,

PARODI-01

29/1/10

11:06

Página 137

137

EMPIRIA E INVESTIGACIÓN DE FOCO CUALITATIVO

TABLA 5 Distribución del Corpus Académico por géneros Géneros Artículo Investigación Científica (AIC)

Número de textos 22 (*)

Conferencia (CONF)

1 (*)

Diccionario (DIC)

2 (*)

Guía Didáctica (GD)

41 (*)

Informe (INF)

11 (*)

Manual (MA)

126 (*)

Norma (NM)

15 (*)

Test (TEST)

3 (*)

Texto Disciplinar (TD)

270 (*)

TOTAL

491 (*)

dado que se ha recolectado el material de cuatro carreras universitarias y a partir de currículos académicos con cuatro a cinco años de duración. También resulta interesante constatar la escasa aparición del Artículo de Investigación Científica (AIC). Podría pensarse que este medio de transmisión de conocimiento especializado ocuparía un lugar y espacio más relevante, al menos, dentro de las carreras de CB&I. La ocurrencia de solo 22 AIC en el total del corpus resulta limitada, si se piensa que este es un medio vigente de información actualizada y de vanguardia. A continuación, se presenta la Figura 1 que de modo gráfico da cuenta de la distribución de los géneros académicos a través de las disciplinas. No sorprende comprobar empíricamente que el Manual (MA) es el género académico por excelencia y el único que circula en las cuatro disciplinas en indagación. El MA, independientemente del área disciplinar, cumple un claro propósito pedagógico en el ámbito universitario. Su estructura retórica prototípica, articulada en presentación de conceptos, planteamiento de problemas y ejercicios, resolución de los mismos, ampliación de ejercitación e inclusión de glosarios terminológicos (al respecto, ver Parodi 2008c y d), revela la entrega de núcleos de conocimiento codificados de manera sucinta y que, al mismo tiempo, despliega recursos instruccionales precisos para andamiar el acceso a la

PARODI-01

29/1/10

11:06

Página 138

138

GIOVANNI PARODI

FIGURA 1 Distribución de géneros académicos por disciplina

Presencia en Áreas

4

3 TS PSI IC

2

QUI

1

0 MA

GD

NM

TD

DC

AIC

INF

TEST

CONF

información nueva y ponerla a prueba a través de problemas y preguntas directivas. Asuntos todos resueltos paso a paso a través de los cuales se demuestra el modo de operar y actuar en el marco disciplinar. Esta articulación gradual de acercamiento a los núcleos temáticos, apoyados permanentemente con ejercitación y resolución pautada, implica una planificada interacción entre escritor y lector, en donde el rol del aprendiz queda clara y definitivamente especificado. Así, el autor-escritor actúa como el especialista disciplinar que guía al estudiante no iniciado en su aproximación a un nuevo conocimiento especializado por medio de pasos organizados jerárquica y progresivamente. Esta interacción escritor-lector resulta definitivamente transparente en el mecanismo de diseminación de información. Se opera así desde un eje altamente especializado (el escritor-autor) hacia una audiencia lega o semi-lega en un contexto educativo particular. La distribución de estos nueve géneros a través de las cuatro disciplinas indica una interesante transversalidad de los géneros académicos y una menor tendencia a la exclusividad de recursos discursivos particulares. El 78% de estos nueve géneros está presente en, al menos, dos de las cuatro disciplinas en estudio. Así, solo el 22% restante de estos géneros aparece marcado con exclusividad disciplinar y son todos ellos de Psicología (TEST y CONF).

PARODI-01

29/1/10

11:06

Página 139

139

EMPIRIA E INVESTIGACIÓN DE FOCO CUALITATIVO

2.2. CORPUS PROFESIONAL A continuación, entregamos una breve descripción cuantitativa del corpus profesional. Vale la pena recordar que no se perseguía una búsqueda exhaustiva de todos los textos en circulación, sino más bien construir un panorama de la diversidad de géneros. Esto quiere decir que el acento estuvo en recolectar la mayor cantidad posible de muestras de géneros, aunque también se cuantificó el material obtenido durante el tiempo de búsqueda. TABLA 6 Constitución del Corpus Profesional Área

Nº Textos

%

Psicología

220

50

Trabajo Social

101

23

Ingeniería Construcción

62

14

Química Industrial

59

13

442

100

Total

Interesantemente, los datos de la Tabla 6 revelan cierta similitud con la proporcionalidad de las cifras del corpus académico, entregadas en el Gráfico 1. Así, aunque no exactamente bajo los mismos procedimientos de recolección, la mayor existencia de material disponible se reitera en las áreas de CS&H, siendo PSI el área que lidera el grupo. No deja de llamar la atención la decreciente distribución porcentual, ocurrida en los mismos términos que en el Corpus Académico: PSI, TS, IC y QUI. Sin lugar a dudas, esto no es producto del azar; debe indicar una tendencia reveladora respecto a la cantidad de textos escritos que circula en la universidad y en el medio laboral en ámbitos disciplinares diversos. Ciertamente también representa implicancias acerca de las posibles prácticas divergentes de lectura y escritura entre disciplinas de las CS&H y de las CB&I. Siguiendo los mismos procedimientos de clasificación empleados para el Corpus Académico, todos los textos de Corpus Profesional fueron analizados por el equipo de investigación. Se llegó así a determinar la existencia de veinte y ocho (28) géneros discursivos en las cuatro áreas disciplinares en indagación. Tal como se apuntó en el caso del corpus académico, definiciones precisas de cada género profesional se encuentran en Parodi, Ibáñez y Venegas (2009). En la

PARODI-01

29/1/10

140

11:06

Página 140

GIOVANNI PARODI

Tabla 7, se consigna en orden alfabético el listado de géneros y de su correspondiente abreviatura. TABLA 7 Los 28 géneros del Corpus Profesional 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14.

Artículo de Investigación Científica (AIC) Base Licitación (BL) Catálogo Comercial (CC) Certificado (CERT) Conferencia (CONF) Convocatoria (CONV) Cotización (COTZ) Declaración (DEC) Diccionario (DC) Ficha Médica (FM) Folleto (FOLL) Informe (INF) Ley (LEY) Manual (MA)

15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28.

Manual de Operación (MAOP) Memorando (ME) Memoria de Cálculo (MEM.CAL) Noticia (NOT) Norma (NM) Orden Médica (OM) Pauta de observación (PO) Plan de Desarrollo (PD) Plano (PLA) Proyecto de Investigación (PI) Registro (REG) Tesis (TES) Test (TEST) Texto Disciplinar (TD)

La diversidad de géneros que emergen desde el campo laboral se revela mucho más rica y heterogénea que la que se detecta en el ámbito universitario. En términos numéricos, es exactamente tres veces más grande. Se observa gran especialización y restricción disciplinar en algunos de ellos (Manual de Operaciones, Memoria de Cálculo, Plan de Desarrollo, Proyecto de Investigación), así como un posible mayor grado de uso general y amplia circulación en otros (Conferencia, Orden Médica, Diccionario, Plano, Noticia). A primera vista, se nota que algunos géneros son los mismos identificados en el Corpus Académico (Artículo de Investigación Científica, Norma, Manual, etc.). Volveremos sobre este punto en detalle más adelante. Con el fin de mostrar la ocurrencia de cada género a través de las cuatro disciplinas, estos se organizaron gráficamente en la Figura 2. En primer lugar, se debe consignar que solo tres géneros (Artículo de Investigación Científica (IC), Folleto (FOLL) e Informe (INF)) circulan transversalmente en las cuatro disciplinas. Este hallazgo resulta muy revelador pues prueba empíricamente lo sostenido teóricamente más arriba en cuanto a la transversalidad disciplinar de ciertos géneros. No resulta altamente extraño que el AIC aparezca en las cuatro disciplinas, ya que constituye una fuente actualizada de información, así como instrumento vital de adquisición de conocimiento de punta.

PARODI-01

29/1/10

11:06

Página 141

EMPIRIA E INVESTIGACIÓN DE FOCO CUALITATIVO

141

FIGURA 2 Distribución de géneros profesionales por disciplina 4

Área disciplinar

3 TS PSI IC

2

QUI

1

A FO IC LL IN CO F N F M MA A O P N M RE CE G RT M E CO TD N V D EC LE V PD P TE I N S O T FM O M P TE O S M EM C T .C C A L PL A COBL TZ D C

0

Ello implica que los cuatro profesionales utilizan este medio escrito para acceder a información de su disciplina dentro de sus actividades laborales cotidianas. El Folleto y el Informe son también instrumentos importantes en los procesos de entrega y recepción de información. El Folleto aporta datos relevantes y los hace circular entre audiencias diversas (Por ejemplo, un folleto médico acerca de enfermedades contagiosas). Por su parte, el Informe deja constancia, entre otros, de una situación, procedimiento o análisis de un caso. En segundo lugar, los datos de la Figura 2 muestran que existen solo tres géneros (Conferencia, Manual y Manual de Operaciones) ligados a tres disciplinas (TS, PSI y QUI), mientras que la Norma es exclusiva de PSI, IC y QUI. Por su parte, el Reglamento es prototípico de TS, PSI e IC. En tercer lugar, tres géneros se encuentran en solo dos disciplinas: el Certificado en PSI e IC, el Memorando en IC y QUI y, por último, el Texto Disciplinar en TS y PSI. Es interesante comprobar que algunos géneros como el Certificado circulan en disciplinas tanto de CS&H como en CB&I, mientras que los otros dos restantes se registran muy ligados al ámbito de especialidad. El MA ocurre en las llamadas ciencias duras y el Texto Disciplinar vuelve a mostrar, al igual que en el Corpus Académico, su importancia en el ámbito de las Ciencias Socia-

PARODI-01

29/1/10

142

11:06

Página 142

GIOVANNI PARODI

les y Humanas. Esta distinción se revela con cierta consistencia y tiende a apuntar a un modo divergente de transmisión y construcción de conocimientos disciplinares. Por último, se registra que de los veinte y ocho géneros, solo once transitan a través de cuatro, tres o dos disciplinas. Los restantes dieciséis son exclusivos de una sola de las cuatro disciplinas en estudio. Ello quiere decir que el 61% de los géneros son prototípicos de un solo dominio de especialidad, mostrando la especificidad de la comunicación disciplinar y los requerimientos de construcción de instrumentos discursivos particulares para servir a propósitos determinados. En esta línea de análisis porcentual, cabe destacar que el restante 39% de los géneros indica algún grado variable de distribución a través de las disciplinas y que solo el 10% de ellos aparece en las cuatro.

2.3. GÉNEROS ACADÉMICOS Y PROFESIONALES: PUNTOS DE ENCUENTRO En la parte final de este capítulo enfocamos uno de los núcleos del mismo, ya consignado en su título, cual es la comparación entre los hallazgos en ambos corpus: académico y profesional. La Figura 3 da cuenta de la interesante situación que se produce al determinar áreas de independencia y áreas compartidas, independientemente de la disciplina de la que provengan. Solo un género emerge como exclusivo en el Corpus Académico, la Guía Didáctica (GD), mientras que veinte de ellos resultan exclusivos del Corpus ProFIGURA 3 Especificidades y encuentros de géneros entre el CA y el CP (independientemente de las disciplinas)

PARODI-01

29/1/10

11:06

Página 143

EMPIRIA E INVESTIGACIÓN DE FOCO CUALITATIVO

143

fesional. Ocho géneros se revelan como compartidos y, por ende, transitan paralelamente por los ámbitos académicos y profesionales. Estos hallazgos son altamente reveladores de una situación no previamente identificada en la literatura especializada. Al menos en las cuatro disciplinas indagadas a partir de una institución de educación superior (PUCV), son escasos los géneros que se pueden declarar como prototípicamente académicos, pues un alto porcentaje de ellos circula también y/o exclusivamente en el ámbito profesional. Como se ha dicho, la GD es el único género con exclusividad de la educación superior en estas cuatro carreras universitarias, su carácter pedagógico y decididamente didáctico educativo justifica tal aparición. Los ocho géneros compartidos con el mundo laboral constituyen un puente entre la academia y la vida profesional. De hecho, entre otros, el Manual (MA), el Artículo de Investigación Científica (AIC) y el Texto Disciplinar (TD) son parte de estos géneros que aportan un propósito y un contenido especializado en la formación universitaria y que se consideran como repositorios de conocimientos disciplinares. Interesantemente, como se aprecia, estos tres géneros cumplen muy posiblemente funciones muy similares en el mundo profesional, aunque los propósitos de su utilización pueden variar grandemente. Es posible pensar que el diseño emergente a partir de la Figura 3 constituya un adecuado continuum en la gradación del acceso e incorporación a la comunidad discursiva, aunque de hecho difícilmente responda a una cuidadosa planificación consciente. Esto quiere decir que se procede –desde un punto de inicio– situado en la academia, a partir de un género muy didáctico y divulgativo (GD), junto a otros ocho que tienen un carácter más especializado y que también serán encontrados por el sujeto aprehendiente, con posterioridad, en su vida profesional. El punto extremo del continuum, según lo muestra la Figura 3, será el de mayor heterogeneidad y amplitud de géneros y se revelará al sujeto profesional ya en su medio laboral. Por otra parte, también es factible argumentar desde el lado contrario. La reducida variedad de géneros encontrados en el medio académico (solo 9) en contraste con la mayor amplitud y diversidad del medio profesional podría ser un escollo en el adecuado transitar desde la academia al medio laboral, pues los accesos al saber y al hacer (es decir los géneros discursivos, en este caso escritos), serían muy diferentes a los conocidos y manejados durante los cinco años de formación universitaria. En este sentido, los hechos descritos podrían ciertamente constituirse en una lentificación del proceso de integración y que afectaría al desempeño inicial del sujeto ya graduado de la universidad. Esta diversificación de géneros entre la academia y el mundo profesional impone nuevos mecanismos discursivos de acceso al conocimiento y a la práctica de la actividad profesional, mucha de ella ejecutada a través de medios lingüísticos escritos. En

PARODI-01

29/1/10

144

11:06

Página 144

GIOVANNI PARODI

este punto cabe preguntarse: ¿debe la academia hacerse cargo de la formación universitaria de los géneros que son exclusivos del medio profesional?, ¿debe la academia tomar conocimiento y conciencia y, por ende, acciones educativas respecto de estos géneros profesionales?, o ¿deben quedar los profesionales enfrentados sin mediar procesos de alfabetización especializada de ningún tipo a los nuevos mecanismos discursivos que su vida laboral les impone? Sin lugar a dudas, estas preguntas trascienden los límites de este capítulo y corresponden a interrogantes que deberán ser estudiadas en conjunto con las unidades educativas especializadas. Solo diremos que la alfabetización especializada de los discursos disciplinares no es una cuestión que solo deba acontecer (como de hecho se hace) en las universidades, también es responsabilidad de las empresas e instituciones tomar conocimiento de estos hechos y decidir rumbos de acciones. Ahora bien, en este último apartado de los resultados, abordamos una comparación más restringida entre los géneros identificados en el Corpus Académico (CA) y en el Corpus Profesional (CP). Este análisis es más limitado que el establecido a partir de los datos de la Figura 3. Ahora se estudian los géneros que circulan tanto en los ámbitos académicos como profesionales, pero solo aquellos que aparecen también a través de las mismas disciplinas. Entonces, la Figura 4 captura solo aquellos géneros que co-existen en ambos corpus y en la misma disciplina; esto quiere decir que solo se registran aquí los géneros que aparecen tanto en el CA como en el CP y que, al mismo tiempo, se detectan en la misma disciplina. Así, es muy importante tener en cuenta que si un determinado género es registrado en el ámbito académico de la QUI, pero no se detecta en el ámbito profesional de dicha disciplina, no aparecerá en esta figura. Llama la atención la escasa intersección de géneros escritos entre el mundo académico y el profesional a través de cada una de las cuatro disciplinas. Lo segundo que llama poderosamente la atención es que los datos empíricos recabados muestran que no existe ni un solo género que se comparta entre el CA y el CP y que, además, co-exista en las cuatro disciplinas. Ello quiere decir que no es posible pensar que existe un género que podría constituirse en pasaje discursivo escrito a través de estas cuatro disciplinas y que transite del discurso académico al profesional. En efecto, cada una de ellas tiende a mostrar ciertas peculiaridades características que las revelan como muy idiosincráticas. Como se observa el Figura 4, solo se detectan seis géneros con diversos grados de comunalidad entre las cuatro disciplinas indagadas: MA, TD, AIC, INF, CONF y NM. La disciplinariedad emerge, entonces como una variable fundamental en el tipo de géneros que construyen y transmiten conocimientos especializados, tanto para el saber como para el hacer. Solo se registran dos géneros compartidos entre el CA y el CP en el ámbito de la CB&I: MA y NM. Ello refuerza lo dicho en apartados anteriores en cuanto a la escasa variedad de géneros en los dominios de QUI y de

PARODI-01

29/1/10

11:06

Página 145

EMPIRIA E INVESTIGACIÓN DE FOCO CUALITATIVO

145

FIGURA 4 Solapamiento de géneros académicos y profesionales a través de las cuatro disciplinas

IC. Es interesante comprobar que uno de estos géneros es uno que aporta a la diseminación de conocimientos, apoyado con diversos recursos didácticos, es decir, el MA. Por otro lado, este género se conjuga con uno más especializado como es la NM, que regula procedimientos o comportamientos. De mayor a menor grado de solapamiento, cabe mencionar, en primer lugar, que el MA es compartido por tres disciplinas: QUI, TS y PSI. Desde otro formato, esto equivale a decir que MA = (CA/CP)+(QUI, TS & PSI). En segundo lugar, el AIC, el TD y el INF son compartidos por las dos disciplinas de las CS&H. El último género compartido por dos disciplinas, tanto en el corpus académico como en el profesional, es la NM. Ella ocurre en IC y PSI. Por último, tres géneros aparecen en ambos tipos de corpus pero con exclusividad en una sola disciplina. La CONF se detecta exclusivamente en PSI y ocurre tanto en el corpus académico como en el profesional. Ahora bien, si se considera que existen nueve géneros académicos y veinte y ocho profesionales, el hallazgo de seis géneros compartidos en algunas disciplinas constituye un dato empírico relevante. Detectamos así un punto de encuentro

PARODI-01

29/1/10

11:06

Página 146

146

GIOVANNI PARODI

entre el mundo universitario y el laboral. No obstante ello, tal como se demostró más arriba, cabe reiterar que estos puntos de encuentro no transitan a lo largo de las cuatro disciplinas. Un dato importante que la comparación entre ambos corpus hace emerger lo constituye el hecho de que la Guía Didáctica (GD) es el único género prototípico del Corpus Académico. Este hallazgo podría no sorprender, pero su constatación empírica muestra así que la academia universitaria emplea escasos recursos discursivos prototípicos para la realización de ejercitación de los contenidos en enseñanza. También se hace evidente que por este medio se abren espacios discursivos que permiten poner en práctica núcleos teóricos o aplicados de modo muy pedagógico. El panorama de conjunto que hemos venido construyendo permite efectuar un dimensionamiento del corpus en estudio, así como –por ejemplo– de vinculaciones entre las disciplinas y la variedad de géneros identificados. A partir de ello, se detecta una clara tendencia hacia una reducción o incremento progresivo en términos cuantitativos a partir de la carrera, del número de textos, del número de palabras totales, de la adscripción disciplinar y de la variedad existente de géneros tanto académicos como profesionales. La Figura 5, por medio de un diseño de pirámide invertida, deja en evidencia estas regularidades. Tal como se constata, existe un cierto patrón regular emergente a partir de las variables del corpus. Esta progresiva distribución cuantitativa asociada a disciplinas, áreas del conocimiento y géneros ofrece un hallazgo que deberá ser profundizado y cuya tendencia deberá ser corroborada desde otros corpus y en otras instituciones de educación superior. También desde estos datos se podría, eventualmente, establecer proyecciones hacia nuevas investigaciones y generar nuevas hipótesis. Entre otras cuestiones, los datos revisados hasta aquí permiten señalar que la alfabetización académica y profesional se vuelve un requisito necesario para el desarrollo de lectores y escritores eficientes, dado que se registra un alto número de géneros emergentes en los contextos profesionales, diferentes a los empleados en la vida académica universitaria. En este contexto, las competencias discursivas escritas deben ser debidamente andamiadas para que el uso efectivo de los géneros y el cumplimiento de las funciones para las cuales han sido creados logren aportar a una comunicación de calidad.

A modo de conclusiones Con el propósito de abordar secuencialmente los hallazgos más relevantes y aportar algunas conclusiones, procedemos en virtud de tres focos: Corpus Aca-

PARODI-01

29/1/10

11:06

Página 147

147

EMPIRIA E INVESTIGACIÓN DE FOCO CUALITATIVO

FIGURA 5 Dimensionamiento de ciertas variables del corpus Número de Textos

Carrera

PSI

Número de Palabras

Académico

Profesional

Académico

227

220

21.993.860

TS

142

101

18.3641.309

IC

69

62

8.734.086

QUI

53

59

Ámbito dela Ciencia

Variedad de Género

Académico Profesional

CS & H

14

29

CB & I

7

21

9.285.375

démico, Corpus Profesional y puntos de acercamiento o distanciamiento entre ambos. En cuanto al Corpus Académico: 1) En cifras numéricas, se registran diferencias importantes tanto en número de textos como en número de palabras entre las CS&H y las CB&I, lo que dicen relación tanto con la cantidad diferencial de material escrito al que estarían expuestos los alumnos en formación disciplinar en una y otra área, como a la mayor variedad de géneros que circulan en unas y otras carreras universitarias. Las implicancias para la construcción de conocimiento disciplinar, la variedad de géneros discursivos y el desarrollo de habilidades de comprensión de textos escritos son múltiples y se ofrecen como caminos que indagar. 2) Dos géneros son los de mayor ocurrencia en este corpus: el Texto Disciplinar (270 textos) y el Manual (126 textos). Este hecho pone de manifiesto, por un lado, el carácter altamente disciplinar de la instrucción universitaria con textos especializados con escasa o nula atención a la audiencia lega o semi-lega y, por otro, muestra la preocupación por andamiar los aprendizajes a través de tex-

PARODI-01

29/1/10

11:06

Página 148

148

GIOVANNI PARODI

tos que aportan recursos didácticos y pedagógicos para entregar paulatina y metodológicamente los contenidos. 3) Existe mayor variedad de géneros en Ciencias Sociales y Humanas (5 en TS y 9 en PSI) que en Ciencias Básicas y de la Ingeniería (2 en QUI y 5 en IC). Dentro de ellos, queda claro que es PSI, el área que revela la mayor heterogeneidad de géneros académicos, pues cuenta con presencia de todos los identificados en este corpus. Posteriores investigaciones deben enfocarse en el estudio detallado y contrastivo de estos géneros en uno y otros ámbitos disciplinares con el fin de detectar similitudes y diferencias relevantes. Parte de nuestro equipo de investigadores ya se ha adentrado en estos asuntos (al respecto de los géneros MA y TD, véase Parodi 2008c y d; Ibáñez 2008). 4) La identificación y distribución de estos nueve géneros a través de las cuatro disciplinas indica una interesante transversalidad de ciertos géneros académicos así como una menor tendencia a la exclusividad de recursos discursivos para una sola disciplina. El 78% de estos nueve géneros está presente en al menos dos de las cuatro disciplinas en estudio (IC y TS), las cuales corresponden una a cada área del conocimiento. Así, solo el 22% restante de estos géneros aparece marcado con exclusividad disciplinar y son todos ellos de PSI (TEST y CONF). En cuanto al Corpus Profesional: 1) Existe una mayor diversidad de géneros que los detectados en el Corpus Académico. Los veinte y ocho géneros identificados revelan interesantes medios de comunicación escrita muy prototípicos de las áreas disciplinares. Algunos de ellos con gran especialización en contextos y funciones específicas (entre otros: Memoria de Cálculo, Base de Licitación, Ficha Médica, Pauta de Observación). 2) De estos veinte y ocho géneros, solo once se comparten entre algunas o todas las áreas disciplinares. De modo que el 61% del total corresponden a una sola disciplina. Ello revela que la especialización en géneros más arriba indicada dice directa relación con un área particular del conocimiento. 3) La no ocurrencia de la mayoría de estos géneros en el corpus académico implica que los profesionales deben conocerlos y aprenderlos directamente en el ambiente laboral, sin mediar instrucción específica ni conocimientos previos de las organizaciones del género. 4) Se hace imperativo explorar en detalle estos géneros y realizar análisis más detallados que brinden mayores pistas acerca de sus rasgos prototípicos, de su modo de organización discursiva, de su estructura retórica, etc. En cuanto a ambos corpus:

PARODI-01

29/1/10

11:06

Página 149

EMPIRIA E INVESTIGACIÓN DE FOCO CUALITATIVO

149

1) En total, restados los coincidentes, se detectan veinte y nueve géneros diversos entre el Corpus Académico y el Corpus Profesional en las cuatro áreas disciplinares. 2) No existe ningún género discursivo que co-exista tanto en el corpus Académico como en el Corpus Profesional con presencia en las cuatro disciplinas. Ello pone de manifiesto la especificidad genérica de las disciplinas en el ámbito universitario y en el laboral. Esto quiere decir que no se dispone de un medio que atraviese desde el medio académico al medio profesional en las cuatro disciplinas en estudio a modo de pasaje discursivo prototípico. Cada área revela características genéricas idiosincráticas. 3) Solo la Guía Didáctica emerge como el único género que distingue al corpus académico del profesional a través de las cuatro disciplinas. Interesantemente, la GD es un género caracterizado por especial énfasis en recursos didácticos y tareas instruccionales, hechos prototípicos del ámbito educativo. 4) Son escasos los puntos de intersección entre ambos corpus a partir de géneros que coincidan en las cuatro disciplinas. Solo siete géneros se entrecruzan. 5) De estos siete géneros, un total de cuatro de ellos, vale decir, el 57% se presenta exclusivamente en el ámbito académico y profesional en el área de las Ciencias Sociales y Humanas. 6) Los hallazgos aportados permiten señalar que existen diferencias importantes que emergen entre el Corpus Académico y el Corpus Profesional en lo que respecta a los géneros discursivos. Comparativamente hablando, los datos provenientes del Corpus Profesional marcan las diferencias con el Corpus Académico: mayor heterogeneidad de géneros (28 y 9 respectivamente) y mayor especialización y foco a través del empleo de géneros prototípicos asociados a disciplinas (61% de géneros profesionales en un solo dominio disciplinar versus 22% en el caso de los géneros académicos). Por último, vale la pena seguir preguntándose: ¿se comunica la ciencia del mismo modo en disciplinas diversas?, ¿existen pasajes discursivos desde el ámbito universitario al profesional?, ¿es posible pensar en una jerarquización de los géneros académicos como caminos orientadores en la formación universitaria? Algunas respuestas se han avanzado en esta investigación, aunque es evidente que todas estas preguntas deben ser revisitadas desde nuevas áreas disciplinares y con corpus más amplios y diversos. Sin lugar a dudas, el concepto de género merece continuar en el punto de mira para hacerlo cada vez más preciso y operacionalizable.

PARODI-01

29/1/10

150

11:06

Página 150

GIOVANNI PARODI

ANEXOS

Anexo 1: Definiciones de los 29 géneros 1. Artículo de investigación científica: Género discursivo cuyo macropropósito comunicativo es persuadir respecto de un determinado punto de vista, asumido en una revisión teórica o respecto de los resultados obtenidos en un estudio empírico. Idealmente, su contexto de circulación es el ámbito científico y la relación entre los participantes es entre escritor experto y lector experto. Preferentemente, se hace uso de un modo de organización discursiva, predominantemente, argumentativo y con apoyo de recursos multimodales. 2. Base de Licitación: Género discursivo que tiene como macropropósito invitar. La invitación emana de un ente público o institucional y se dirige a organizaciones y/o empresas para que formulen propuestas de ejecución de un servicio determinado. En este sentido, la relación entre los participantes es entre escritor experto y lector experto y el contexto ideal de circulación es el ámbito laboral. Generalmente, se trata de un género monomodal cuyo modo de organización discursiva predominante es el descriptivo. 3. Catálogo Comercial: Género discursivo cuyo macropropósito es ofrecer productos y/o servicios. La relación entre los participantes es entre escritor experto y lector experto y el ámbito ideal de circulación de este género es el laboral. Generalmente, presenta recursos multimodales y predomina un modo de organización discursiva descriptivo. 4. Certificado: Género discursivo que tiene como macropropósito constatar un determinado hecho administrativo. Se produce normalmente a instancias de quien lo solicita, y por una persona con autoridad suficiente dentro de una institución o empresa para establecer que se ha cumplido con lo afirmado en el documento. La relación entre los participantes es entre escritor experto y lector lego y el ámbito de circulación ideal es el universal. El certificado presenta un modo de organización discursiva predominantemente descriptivo y se privilegia la monomodalidad. 5. Convocatoria: Género discursivo cuyo macropropósito es invitar públicamente a una o varias personas o instituciones a realizar una actividad determinada bajo criterios preestablecidos. Los participantes configuran una relación entre escritor experto y lector experto. El ámbito de circulación es generalmente laboral. El modo de organización discursiva que predomina en este género es descriptivo y su presentación privilegia el uso de recursos monomodales. 6. Conferencia: Género discursivo que tiene como macropropósito persuadir en el marco de una relación que puede configurarse entre escritor experto y

PARODI-01

29/1/10

11:06

Página 151

EMPIRIA E INVESTIGACIÓN DE FOCO CUALITATIVO

151

lector experto o semilego en un ámbito científico. Preferentemente, se hace uso de un modo de organización discursiva argumentativo y de recursos multimodales. 7. Cotización: Género discursivo cuyo macropropósito es constatar el valor de un bien o servicio. Idealmente, circula en el ámbito laboral. La relación entre los participantes puede ser entre escritor experto y lector experto o semilego. Preferentemente, se hace uso de un modo de organización discursiva descriptivo y de recursos multimodales. 8. Declaración: Género discursivo cuyo macropropósito es consignar una decisión, intención o acuerdo acerca del estado, condición o naturaleza de algo. Normalmente, circula dentro de un ámbito universal y la relación entre los participantes es entre escritor experto y lector experto. Se utiliza la descripción como modo de organización discursiva predominante y es monomodal. 9. Diccionario: Género discursivo cuyo macropropósito es consignar la definición de conceptos o procedimientos de una disciplina o materia determinada. Su contexto de circulación ideal es el ámbito pedagógico y la relación entre los participantes puede ser entre escritor experto y lector experto o semilego. Preferentemente, se hace uso de un modo de organización discursiva que es descriptivo y de recursos multimodales. 10. Ficha Médica: Género discursivo cuyo macropropósito es consignar el estado de salud de un paciente y de los procedimientos empleados para su tratamiento. Es utilizado entre escritores expertos y lectores expertos dentro del ámbito laboral. Es monomodal y presenta un modo de organización discursiva predominantemente descriptivo. 11. Folleto: Género discursivo cuyo macropropósito es ofrecer productos, servicios y/o informaciones. Circula, preferentemente, en un ámbito universal y la relación entre los participantes es entre escritor experto y lector semilego o lego. El modo de organización discursiva predominante es descriptivo y se suele apoyar en recursos multimodales. 12. Guía Didáctica: Género discursivo cuyo macropropósito comunicativo es instruir acerca de una materia disciplinar específica y/o procedimientos. Su contexto de circulación ideal es el ámbito pedagógico y la relación entre los participantes es entre escritor experto y lector semilego o lego. Preferentemente, se hace uso de un modo de organización discursiva que es argumentativo y, en ocasiones, de recursos multimodales. 13. Informe: Género discursivo cuyo macropropósito es consignar situaciones, procedimientos y/o problemas. Idealmente, su contexto de circulación es el ámbito laboral y la relación entre los participantes es entre escritor experto y lector experto. Suele ser monomodal y presentar un modo de organización discursiva que es descriptivo.

PARODI-01

29/1/10

152

11:06

Página 152

GIOVANNI PARODI

14. Ley: Género discursivo cuyo macropropósito es regular la conducta de los individuos y la ejecución de procedimientos y procesos diversos. Circula, idealmente, en el ámbito universal y la relación entre los participantes es entre escritor experto y lector experto o semilego. Es monomodal y presenta el modo de organización discursiva predominantemente descriptivo. 15. Manual: Género discursivo cuyo macropropósito comunicativo es instruir acerca de conceptos y/o procedimientos en una temática especializada. Su contexto de circulación ideal es el ámbito pedagógico y la relación entre los participantes es entre escritor experto y lector semilego o lego. Preferentemente, se hace uso de un modo de organización discursiva descriptivo y de recursos multimodales. 16. Manual de Operaciones: Género discursivo cuyo macropropósito es regular conductas y/o procedimientos. Idealmente, circula en el ámbito laboral y entre escritor experto y lector experto. Normalmente, se hace uso de recursos multimodales y el modo predominante de organización discursiva es el descriptivo. 17. Memorando: Género discursivo cuyo macropropósito comunicativo es constatar la entrega de información solicitada. Idealmente, circula en el ámbito laboral y la relación entre los sujetos participantes es entre escritor experto y lector experto. El modo de organización discursiva predominante es descriptivo y se hace uso de recursos monomodales. 18. Memoria de Cálculo: Género discursivo cuyo macropropósito comunicativo es consignar procedimientos utilizados en alguna de las fases de una construcción. Circula en un ámbito laboral y la relación entre los participantes es entre escritor experto y lector experto. El modo de organización discursiva predominante es descriptivo y se hace uso de recursos multimodales. 19. Norma: Género discursivo cuyo macropropósito comunicativo es regular conductas y/o procedimientos. Circula en el ámbito universal y la relación entre los participantes es entre escritor experto y lector experto o semilego. Suele ser monomodal y presentar un modo de organización discursiva que es, predominantemente, descriptivo. 20. Noticia: Género discursivo cuyo macropropósito es constatar hechos de diversa naturaleza. Idealmente, circula en el ámbito universal y la relación entre los participantes es entre escritor experto y lector experto, semilego o lego. El modo de organización discursiva predominante es narrativo. Se suele hacer uso de recursos multimodales. 21. Orden Médica: Género discursivo cuyo macropropósito comunicativo es guiar la ejecución de algún procedimiento médico. Circula en el ámbito laboral y la relación entre los participantes es entre escritor experto y lector experto. Es monomodal y su modo de organización discursiva es, predominantemente, descriptivo.

PARODI-01

29/1/10

11:06

Página 153

EMPIRIA E INVESTIGACIÓN DE FOCO CUALITATIVO

153

22. Pauta de Observación: Género discursivo cuyo macropropósito comunicativo es regular la observación de alguna cosa o evento. Circula entre escritor experto y lector experto e, idealmente, en el ámbito laboral. Es, generalmente, monomodal y su modo de organización discursivo es descriptivo. 23. Plan de Desarrollo: Género discursivo cuyo macropropósito comunicativo es guiar acciones para encauzar el logro de uno o más objetivos. Circula entre escritor experto y lector experto y en el ámbito laboral. Se hace uso de recursos multi-modales y su modo de organización discursiva predominante es descriptivo. 24. Plano: Género discursivo cuyo macropropósito es guiar la organización y distribución de una obra arquitectónica, una población o una máquina. La relación entre los participantes es entre escritor experto y lector experto. Idealmente, circula en el ámbito laboral y se caracteriza por contar con una predominancia de recursos multimodales, así como con un modo de organización discursiva que es descriptivo. 25. Proyecto de Investigación: Género discursivo cuyo macropropósito comunicativo es ofrecer una propuesta de investigación científica. Idealmente, circula en el ámbito científico y entre escritor experto y lector experto. Se utiliza recursos monomodales y se caracteriza por presentar un modo de organización discursiva que es argumentativo. 26. Registro: Género discursivo cuyo macropropósito es consignar el estado de un procedimiento o producto. Circula en el ámbito laboral y la relación entre los participantes es entre escritor experto y lector experto. El modo de organización discursiva característico de este género es el descriptivo. Se suele utilizar recursos monomodales. 27. Tesis: Género discursivo que tiene como macropropósito persuadir acerca de un planteamiento teórico o ideológico. Idealmente, circula en el ámbito científico y la relación entre los participantes es entre escritor experto y lector experto. El modo de organización discursiva predominante es argumentativo. Se suele emplear recursos multimodales. 28. Test: Género discursivo cuyo macro-propósito comunicativo es consignar características psicológicas de un sujeto. Circula en el ámbito laboral y la relación entre los participantes es entre escritor experto y lector lego. Puede ser multimodal y su modo de organización discursiva preferente es el descriptivo. 29. Texto Disciplinar: Género discursivo cuyo macropropósito comunicativo es persuadir respecto del tratamiento de uno o varios temas de una disciplina particular. Idealmente, su contexto de circulación es el ámbito científico y la relación de los participantes es entre escritor experto y lector experto. Preferentemente, se hace uso de un modo de organización discursiva que es argumentativo. También se emplea recursos multimodales.

PARODI-01

29/1/10

11:06

Página 154

PARODI-01

29/1/10

11:06

Página 155

6. COMPENDIO DE BASES DE DATOS Y RECURSOS INFORMÁTICOS EN LÍNEA

En este capítulo he incluido una lista de referencias a sitios en Internet y a algunos programas computacionales referidos tanto al español como a otras lenguas. No cabe duda que de que esta es una lista reducida y aleatoria, ya que en la actualidad este espacio crece exponencialmente. Los sitios seleccionados de Internet ofrecen variados contenidos: entre otros, artículos, bibliografías, corpus en línea, bases de datos y herramientas computacionales. He intentado separar aquellos que se circunscriben al español de aquellos destinados a otras lenguas, asunto no siempre fácil en ciertos puntos. En la mayoría de los casos, entrego una breve descripción y, en algunos otros, un comentario. Un esfuerzo especial se ha puesto en asegurar que la información compilada y aquí entregada sea actualizada y fidedigna, aunque bien se sabe que es extremadamente complejo mantener una pista al día de la rápida y vertiginosamente cambiante información en Internet.

1. Bases de datos y herramientas computacionales para el español Nombre de la Página 1

Descripción o comentario

El Grial

Sitio desarrollado por el Grupo de Investigación en Lingüística de Corpus de la Escuela Lingüística de Valparaíso (www. linguistica.cl), de la Pontificia Universidad Católica de Valparaíso, Chile. En él se tiene acceso en línea a los corpus crecientes recolectados con un número cercano a los cien millones de palabras. Cada corpus es descrito pormenorizadamente. Es factible realizar consultas en línea de una diversidad de corpus escritos, orales, especializados, generales, etc. También se encuentra disponible la herramienta El Grial que permite la anotación morfosintáctica de textos digitales.

Dirección Web:

http://www.elgrial.cl

PARODI-01

29/1/10

11:06

156

GIOVANNI PARODI

Nombre de la Página 2

3

4

5

Página 156

Descripción o comentario

Escuela Lingüística de Valparaíso

En este sitio se encuentra la página de la Escuela de Lingüística de Valparaíso (Chile). En ella se accede a videos, libros y artículos en línea generados por integrantes. También se dispone de un link a textos que explican sus inicios y la denominada “Historia Fundante”. Los videos incluyen tres entrevistas a la maestra Marianne Peronard, su principal fundadora. Existe un acceso a recursos para trabajos en el marco de la lingüística de corpus.

Dirección Web:

http://www.linguistica.cl - www.elv.cl

RAE: CREA y CORDE

Este sitio de la Real Academia Española de la Lengua contiene una interfaz de consulta de concordancias con dos corpus disponibles en línea: el Corpus de referencia del español actual (CREA), que alcanza a unos 140 millones de formas, y el Corpus diacrónico del español (CORDE), que consta de 180 millones de formas.

Dirección Web:

http://www.rae.es/rae/gestores/gespub000019.nsf/voTodos porId/D55F5BFB05D63980C1257164003F02E5?OpenDo cument&i=2

La lingüística computacional

Página que presenta una multiplicidad de herramientas de lingüística computacional. En ella se accede a vínculos con diversos sitios acerca del uso de herramientas computacionales para el análisis de corpus.

Dirección Web:

http://paginaspersonales.deusto.es/abaitua/konzeptu/cl2.htm

Grupo de Estructuras de Datos y Lingüística Computacional

El Grupo de Estructuras de Datos y Lingüística Computacional del Departamento de Informática y Sistemas de la Universidad de Las Palmas de Gran Canaria, España, ha estado trabajando desde 1986 en el análisis de estructuras de datos aplicadas a la recuperación asociativa de información. A partir de 1990 ha ampliado sus áreas de interés al procesamiento del lenguaje natural y la lingüística computacional, desarrollando trabajos en morfología computacional, sintaxis automatizada, análisis de textos y lexicografía.

Dirección Web:

http://www.gedlc.ulpgc.es

PARODI-01

29/1/10

11:06

Página 157

COMPENDIO DE BASES DE DATOS

Nombre de la Página 6

7

8

9

157

Descripción o comentario

Bwananet

Sitio desarrollado por miembros del Instituto Universitario de Lingüística Aplicada (IULA) de la Universidad Pompeu Fabra de Barcelona, España. Contiene información acerca de proyectos de investigación y equipos de trabajo, así como la herramienta computacional Bwananet de anotación de textos e interfaz de consulta; además de los corpus recolectados por los miembros del IULA y otros investigadores.

Dirección Web:

http://bwananet.iula.upf.edu

PrADo

El proyecto PrADo "Preparacion Automatizada de Documentos" es un trabajo conjunto de un grupo de investigadores de la Universidad Autónoma de Barcelona y de la Universidad Pompeu Fabra. Está financiado por el Ministerio de Ciencia y Tecnología de España. El sitio cuenta con programas computacionales en línea y con un corpus creciente en desarrollo.

Dirección Web:

http://www.glicom.upf.edu/projects/prado?set_language=en

Base de datos sintácticos del español actual (BDS)

La Base de Datos Sintácticos del español actual (BDS) contiene el resultado de analizar manualmente las aproximadamente 160.000 cláusulas de que consta la parte contemporánea del Archivo de Textos Hispánicos de la Universidad de Santiago (ARTHUS). Cada registro del fichero central consta de 63 campos organizados en cuatro grandes bloques (más algunos campos dedicados a procesos internos y útiles para búsquedas).

Dirección Web:

http://www.bds.usc.es

Laboratorio de lingüística informática

En este sitio se encuentra el denominado Corpus de referencia de la lengua española contemporánea, recolectado por miembros del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid, España. En este sitio se cuenta con acceso a un corpus de un millón cien mil palabras, compuesto por textos orales y con registros sonoros de los mismos.

Dirección Web:

http://www.lllf.uam.es/corpus/corpus_oral.html

PARODI-01

29/1/10

11:06

158

GIOVANNI PARODI

Nombre de la Página 10

11

12

13

Página 158

Descripción o comentario

Grupo de Ingeniería Lingüística

Página del Grupo de Ingeniería Lingüística (GIL) de la Universidad Autónoma de México (UAM). En ella se dispone de información acerca de principios fundamentales para la construcción y análisis de un corpus, de proyectos de investigación del GIL y de sus resultados, de eventos y congresos, de cursos de lingüística de corpus y de un amplio repertorio de información relacionada.

Dirección Web:

http://inglin.galeon.com/

Fundación Biblioteca Virtual Miguel de Cervantes

En la sección de Herramientas Lingüísticas del sitio de la Fundación Biblioteca Virtual Miguel de Cervantes, se ofrece tanto un Buscador Avanzado de textos, mayoritariamente literarios, como un servicio de Concordancias automáticas. Ambas opciones han sido creadas para el análisis y exploración de corpus digitalizados los cuales se encuentran disponibles para textos en diversos idiomas.

Dirección Web:

http://www.cervantesvirtual.com/herramientas

Corpus del Español

Este corpus de más de cien millones de palabras del español ha sido patrocinado por el NEH durante los años 2001 y 2002 y ha sido creado por Mark Davis de la Universidad de Brigham Young en E.E.U.U. Además de contar con un acceso ágil, el motor de búsquedas permite una gran cantidad de indagaciones a partir de un corpus de gran tamaño. Como parte de los corpus cuenta con una sección diacrónica muy amplia. También está disponible una sección, elaborada junto a Douglas Biber, en que es posible efectuar búsquedas comparativas de diversos registros.

Dirección Web:

http://www.corpusdelespanol.org

Estudios de Lingüística Española (ELiEs)

En este sitio se encuentra un artículo escrito por Chantal Pérez Hernández de la Universidad de Málaga, “Explotación de los córpora textuales informatizados para la creación de bases de datos terminológicas basadas en el conocimiento”, y publicado en la Revista electrónica Estudios de Lingüística Española (ELiEs).

Dirección Web:

http://elies.rediris.es/elies18/index.html

PARODI-01

29/1/10

11:06

Página 159

COMPENDIO DE BASES DE DATOS

Nombre de la Página 14

159

Descripción o comentario

PRESEEA

En este sitio se encuentra el proyecto homónimo, cuyo propósito es crear un corpus del español hablado representativo del mundo hispánico en su variedad geográfica y social. El material es recopilado atendiendo a la variedad sociolingüística de las comunidades hispanoparlantes.

Dirección Web:

http://www.linguas.net/Default.aspx?alias=www.linguas.net/ portalpreseea

2. Bases de datos y herramientas computacionales para otros idiomas (en algunos casos incluye al español) Nombre de la Página 1

2

Descripción o comentario

EAGLES

El Expert Advisory Group on Language Engineering Standards (EAGLES) constituye una iniciativa de la Comisión Europea, dentro del Programa de Investigación Lingüística e Ingeniería de la Unión Europea. Esta iniciativa busca acelerar la provisión de estándares para: recursos lingüísticos a gran escala (tales como corpus textuales, lexicones computacionales), medios para la manipulación de tal conocimiento a través de formalismos lingüísticos, lenguajes de marcación y recursos computacionales diversos. En este sitio se encuentra una abundante información acerca de todos los temas aquí mencionados desde los principios que guían esta iniciativa, los miembros que lo componen y los desarrollos alcanzados.

Dirección Web:

http://www.ilc.cnr.it/EAGLES96/home.html

SIL Internacional (Summer Institute of Linguistics)

El sitio web del tradicional Instituto Lingüístico de Verano, ahora conocido como SIL Internacional, brinda una amplia lista de documentos, programas y herramientas computacionales organizadas por temas. La mayoría de ellos están disponibles para asistir al investigador en la recolección, análisis y publicación de sus resultados.

Dirección Web:

http://www.sil.org/linguistics/computing.html

PARODI-01

29/1/10

11:06

160

GIOVANNI PARODI

Nombre de la Página 3

4

5

6

Página 160

Descripción o comentario

Texts & Corpora de Linguistlist

En este apartado de Textos & Córpora del sitio de Linguistlist se encuentra una listado de aproximadamente unos 40 corpus en línea con sus respectivos links. También existe acceso en línea a unas 26 bases de datos con textos electrónicos y otros tantos links de interés.

Dirección Web:

http://www.linguistlist.org/sp/Texts.html

Corpus Linguistics and Written Language Resources Bibliography

Este sitio, creado por Joaquim Llisterri de la Universidad Autónoma de Barcelona, España, ofrece una amplia y variada gama de información en temas de Lingüística de Corpus como en corpus digitales en línea y bibliografía en diversos idiomas (en algunos casos en línea). También existen accesos en línea a bases de datos con textos electrónicos y otros tantos links de interés.

Dirección Web:

http://liceu.uab.es/~joaquim/language_resources/lang_res/ biblio_corpus.html

CECL: Centre for English Corpus Linguistics

Sitio desarrollado por el Centro de Lingüística de Corpus del Inglés (CECL: Centre for English Corpus Linguistics) de la Universidad Católica de Lovaina, Bélgica. Existe acceso a una amplia bibliografía, ordenada alfabéticamente, y a diversos proyectos en desarrollo.

Dirección Web:

http://cecl.fltr.ucl.ac.be/

MICASE

Sitio desarrollado por Instituto de Lengua Inglesa de la Universidad de Michigan, E.E.U.U., en el que se presenta el proyecto MICASE (Michigan Corpus of Academic Spoken English). En este sitio se tiene acceso a documentación acerca del proyecto y se llega a la interfaz que permite el estudio y comparación de textos de diversos registros en diversas situaciones académicas orales, los que constituyen el amplio corpus del MICASE.

Dirección Web:

ttp://www.lsa.umich.edu/eli/micase/micase.htm

PARODI-01

29/1/10

11:06

Página 161

COMPENDIO DE BASES DE DATOS

Nombre de la Página 7

8

9

161

Descripción o comentario

MICHIGAN CORPUS LINGUISTICS HOME

Sitio oficial del Michigan Corpus Linguistics Team, equipo compuesto por investigadores y estudiantes del English Language Institute de la Universidad de Michigan, quienes recopilan corpora orales y escritos de ingles académico y llevan a cabo investigación en base a dichos corpora. El sitio posee información acerca de los proyectos de investigación, así como de los corpora recopilados por el equipo y puestos a disposición de la comunidad científica.

Dirección Web:

http://www.elicorpora.info

MBT: Memory based Tagger

En este sitio se tiene acceso tanto a documentación como al Demo del Etiquetador Basado en la Memoria (MBT: Memory based Tagger). Este programa anota o marca “partes de la oración” (POS) en textos en lenguas tales como español, holandés, inglés y sueco.

Dirección Web:

http://ilk.uvt.nl/mbt/

LSA

En este sitio se aloja una versión prototipo para la lengua inglesa del Análisis Semántico Latente (identificado con la sigla LSA, por su nombre en inglés). La página esta organizada en tres áreas de contenido: Información, Aplicaciones y Demostraciones. Detalles relevantes para el usuario no iniciado acerca de cómo usar del mejor modo la página están disponibles a través de un vínculo destacado. El Análisis Semántico Latente es una técnica matemático/estadística para extraer y representar la similitud de tipo léxico semántico colocacional del significado de palabras y partes de textos o textos completos por medio del análisis de grandes cantidades de textos tematizados y/o por género discursivo. Utiliza para ello la descomposición de valores singulares, una forma general del análisis factorial, con el fin de condensar una matriz de proporciones de información de palabras-en-contexto en una representación dimensional mucho más pequeña.

Dirección Web:

http://lsa.colorado.edu/

PARODI-01

29/1/10

11:06

162

GIOVANNI PARODI

Nombre de la Página 10

11

12

13

Página 162

Descripción o comentario

Centro de Lingüística de la Universidad de Lisboa

Este sitio está dotado de una abundante base de datos bibliográficos y de corpus anotados en línea para el portugués de Portugal. También tiene cursos acerca de temas relevantes para la LC y cuenta con herramientas tecnológicas de diversa índole (por ejemplo, lematizadores, anotadores morfosintácticos).

Dirección Web:

http://www.ul.pt/portal/page?_pageid=173,173254&_dad= portal&_schema=PORTAL

Corpus Encoding Standard (CES)

Este sitio contiene la documentación del Corpus Encoding Standard (CES), cuya Coordinadora es Nancy Ide. El CES ha sido diseñado para crear estándares de codificación ampliamente aceptados con el fin de optimizar la investigación y desarrollo de aplicaciones en el trabajo basado en corpus con procesamiento del lenguaje natural.

Dirección Web:

http://www.lpl.univ-aix.fr/projects/multext/CES/CES1.html

Recursos en línea para el lenguaje

Este sitio cuenta con una amplia gama de recursos en línea y documentación para el análisis de corpus; al mismo tiempo, ofrece conexión a otros sitios relacionados. En este sitio existen herramientas para varias lenguas y programas computacionales para anotación y procesamiento de lenguaje natural tales como cálculos estadísticos y matemáticos, emparejamiento de cadenas o patrones (String/Pattern Matching), detector de limites oracionales (Sentence Boundary Detector).

Dirección Web:

http://www-a2k.is.tokushima-u.ac.jp/member/kita/NLP/nlp_ tools.html

Procesamiento estadístico del lenguaje natural y lingüística computacional basada en corpus: lista de recursos

En esta página, desarrollada por miembros de la Universidad de Stanford, E.E.U.U., se dispone de un conjunto de herramientas y recursos diversos para el procesamiento de lenguaje natural (NLP) y para la lingüística computacional basada en corpus. También se accede a múltiples otras conexiones y se cuenta con acceso a programas para etiquetaje y análisis.

Dirección Web:

http://www.gedlc.ulpgc.es

PARODI-01

29/1/10

11:06

Página 163

COMPENDIO DE BASES DE DATOS

Nombre de la Página 14

15

16

17

18

19

20

163

Descripción o comentario

Sitio elaborado por David Lee

Este sitio, elaborado por David Lee, esta organizado como un interminable catálogo de vínculos comentados a páginas para lingüistas y profesores que trabajan con corpus. Se accede tanto a bases de datos como a herramientas en línea para múltiples idiomas. Promete ser una URL permanente y que no cambiara de dirección.

Dirección Web:

http://devoted.to/corpora

TUSTEP

Sitio con programas para procesamiento de textos del alemán.

Dirección Web:

http://www.uni-tuebingen.de/zdv/tustep/tustep_eng.html

Corpus del inglés

Collins Sampler of the Bank of English.

Dirección Web:

http://www.collins.co.uk/Corpus/CorpusSearch.aspx

British National Corpus (BNC)

Sitio del British National Corpus (BNC).

Dirección Web:

http://www.natcorp.ox.ac.uk/

American National Corpus

Sitio en que se aloja el American National Corpus.

Dirección Web:

http://americannationalcorpus.org

ICAME

Colección de corpus del inglés.

Dirección Web:

http://helmer.aksis.uib.no/icame/newcd.htm

International Corpus of English (ICE)

Sitio del International Corpus of English (ICE).

Dirección Web:

http://www.ucl.ac.uk/english-usage/ice/avail.htm

PARODI-01

29/1/10

11:06

Página 164

164

GIOVANNI PARODI

Nombre de la Página 21

Descripción o comentario

WebKB

En este sitio se encuentra la herramienta WebKB. Ella constituye un nuevo tipo de mecanismo de anotación basada en conocimiento compartido/privado en línea a través de servidores en red. Se opone a los más tradicionales sistemas de indexación de documentos y de sistemas de base de datos. WebKB es un indexador de información que permite la búsqueda de cualquier tipo de información y su recuperación por medio de consultas basadas en conocimiento de una manera precisa.

Dirección Web:

http://meganesia.int.gu.edu.au/~phmartin/WebKB/

3. Algunos programas computacionales para el análisis de textos Nombre del programa

Dirección Web:

1

WordStat

http://www.simstat.com/wordstat.htm

2

WordSmith Tools

http://www.lexically.net/wordsmith/

3

Corpus Wizard

http://www2d.biglobe.ne.jp/~htakashi/software/cw2e.htm

4

MonoConc y ParaConc

http://www.athel.com/mono.html

5

AntConc

http://morphix-nlp.berlios.de/manual/node39.html

PARODI-01

29/1/10

11:06

Página 165

7. REFLEXIONES FINALES

Al llegar al apartado final de este recorrido, espero haber cumplido (al menos) parte de mis propósitos y brindar así una visión de conjunto de la LC: una definición operacional, su ámbito de estudio, una aproximación a ciertas herramientas y recursos disponibles en línea y algunas pistas de cómo proceder dentro de una de las muchas alternativas de investigación. Si la LC (como la he definido) constituye una colección de principios metodológicos, que por una parte en sí mismos implican una cierta idea de cómo entender una lengua particular, no cabe duda que se hace necesario complementarla o más bien sustentarla con una concepción integral del lenguaje pero de manera muy explícita. Me refiero a una teoría del lenguaje, e incluso más aún, a una visión del ser humano como tal y el rol que el lenguaje desempeña en la vida humana (Parodi 2007d; Peronard 2007b). Así, aunque adoptemos o adhiramos a la opción de una LC “basada en corpus” (corpus based) o “liviana” (light), es imprescindible, desde mi entendimiento, una decisión teórica y metodológica acerca de qué es el lenguaje y qué tipo de gramática o principios gramaticales inspiran o iluminan la investigación. Podría parecer esta una cuestión obvia, mas estoy cierto que no lo es. Ya en la Introducción de este libro se planteó esta cuestión, tal vez de manera poco decidida, pero la preocupación se hizo explícita. No creo que sea un asunto menor y no atenderla oportuna y certeramente podría debilitar a la misma LC, por ello lo juzgo altamente relevante. Algunos justamente sintiendo esta necesidad es que estiman que la LC si es una opción teórica, y que podría alcanzar un sustento teórico profundo (thick) o, en su defecto, constituir una postura teórica de corte liviano (light), asunto no tan claro y que está por definirse en el futuro (Hunston & Thompson 2006). Existe abundante literatura especializada en este ámbito que no asume o no explicita estos asuntos centrales. O, por el contrario, se debe inferir (como de hecho ocurre en ciertos casos) que el eclecticismo es tal que no se dispone u ofrece un andamiaje sólido o, por el contrario, se parte del supuesto de que no se requiere definir una opción de lenguaje o de principios gramaticales mínimos. También es factible, que desde ciertas opciones de la LC, el radicalismo empiricista esté anclado en una visión del lenguaje muy simplista, claramente antimentalista y de naturaleza extremadamente colocacional. Es claro que no comparto estas visiones acerca del lenguaje, pero allí no radica el problema, sino en su comprensión, reconocimiento y —por supuesto— aceptación de la diversidad.

PARODI-01

29/1/10

166

11:06

Página 166

GIOVANNI PARODI

En mi opinión, habrá que estar atento a ello y saber descubrir las claves (si no son explícitas) para descifrar el tipo de estudio que se nos ofrece. Todo ello, con el fin de capitalizar los datos y las implicancias oportunamente. No quisiera llegar a las ultimas líneas de este libro con palabras poco claras, ni tornándolas crípticas o nebulosas. Muy por el contrario, busco una estimulante reflexión de cierre que sea esperanzadora ante los beneficios esbozados en las paginas precedentes y también ante los desafíos que nos ofrece la LC; no obstante ello, también intento visualizar un escenario crítico que alerte sobre las debilidades patentes o más implícitas y de algunas aristas que estimo requieren ser recorridas con cautela. En esta línea, estimo que a pesar de que los corpus han sido parte intrínseca de la investigación lingüística en lengua española (entre otros, Lope Blanch 1977; Rabanales & Contreras 1986; Moreno de Alba 1988; Bentivoglio 1992; Barrientos, Cifuentes, Lagos, Muñoz & Tassara 1996; López Morales 1998; Wagner 1998, 1999; Cepeda 1998; Oyanedel & Samaniego 1998; Lagos, Cifuentes, Tassara, Fuentes, Reyes, & Venegas 1999; Bernales 2002; Matus 2002; Valencia 2002), en estricto rigor, el enfoque actual de la LC no es una metodología ampliamente conocida y en boga para la indagación del español ni se detecta esta perspectiva en las publicaciones tanto en libros como revistas del ámbito. Sí es muy cierto que en el mundo hispanoamericano se encuentran hoy interesantes investigaciones con grandes corpus de textos auténticos (una prueba de ello son los sitios de Internet comentados en el capítulo anterior), lo mismo acontece con polos de desarrollo tecnológico, en ciertos casos con equipos multidisciplinarios (Santana, Pérez, Carreras, Duque, Hernández & Rodríguez 1997; Rojo 2001; Villaseñor, Montes, Pérez & Vaufreydaz 2002; Ferreira, Campos & Ruggeri 1998; FerreiraCabrera & Atkinson-Abutridy 2002; Lorente 2002; Echeverría 2002; Véliz 2002; Parodi 2007a y b, 2008a y 2009; Parodi & Gramajo 2003; Parodi & Venegas 2004; Castel, Aruani & Severino 2004). No obstante lo anterior, es muy cierto que aún la construcción de corpus digitales y la tecnologización de medios que los hagan accesibles son escasas y que tanto el desarrollo de programas computacionales como de las tecnologías requeridas aún no se encuentran disponibles de manera expedita. Se detectan esfuerzos y se vislumbra un cambio y crecimiento sustantivo. En mi opinión, la superación de esta barrera metodológica y tecnológica no puede esperar si queremos, efectivamente, producir investigación competitiva y de primer orden, acompañada de publicaciones indexadas de amplia difusión en nuestra lengua. La docencia de pregrado y de postgrado exige que así sea para que —entre otros— la superación de la brecha digital deje de ser una utopía y el acceso al conocimiento especializado esté disponible democráticamente. Sin lugar a dudas, hace unos cuarenta años atrás, la LC era una enfoque algo oscuro para muchos y cultivado de manera especializada solo por unos pocos.

PARODI-01

29/1/10

11:06

Página 167

REFLEXIONES FINALES

167

Transcurrido este tiempo, se ha producido (particularmente durante los últimos diez años) un crecimiento expansivo que paulatinamente ha ido aportando a prácticamente todos los ámbitos del estudio del lenguaje. En este sentido, uno no puede más que estar de acuerdo con la siguiente cita de un texto de Hoey (1998): La lingüística de corpus no es una rama de la lingüística, sino que es la ruta hacia la lingüística.

Ciertamente, en el contexto de lo expuesto en este libro, parecen tiempos en que ser un lingüista de corpus es una aventura adecuada. En el marco de lo dicho hasta aquí, cabe preguntarnos: ¿qué beneficios nos brinda a los investigadores del texto y del discurso la utilización de métodos en el marco de la LC? Opino que la respuesta a esta pregunta tiene múltiples alternativas. Algunas de ellas son: • Disponibilidad de grandes muestras de textos auténticos que permiten la indagación empírica con sustento en lenguas naturales y con acceso a variedades y modos lingüísticos heterogéneos • Accesibilidad a un análisis sistemático de grandes cantidades de textos de manera rápida y con alta confiabilidad, es decir, se fortalece la tecnologización de la investigación • Contrastación de hipótesis a través de evidencia empírica a gran escala, superando —en parte— los estudios de textos ejemplares • Validación de hallazgos preliminares (pequeñas muestras de textos) en corpus extensos • Acceso a tecnología que ahorra y acorta los tiempos de recolección, organización, marcación y análisis de las categorías a explorar• Aplicación de tecnología computacional a todos los niveles de la lengua: fonética, morfología, sintaxis, lexicología, pragmática, semántica y discurso • Posibilidades infinitas de exploración en textos etiquetados y no etiquetados • Indagación de variabilidad lingüística desde múltiples registros disponibles en línea A modo de resumen, quiero apuntar que no cabe duda de que el desarrollo de una lingüística que se enmarque en lineamientos dirigidos por un corpus demanda colecciones crecientes de textos y de tamaños extremadamente grandes, dada la necesidad de contar con múltiples ocurrencias de todos los ítemes que se indaguen. Debemos estar preparados para recolectar y organizar amplios corpus para así lograr acceder a información más rica y precisa acerca de una o varias len-

PARODI-01

29/1/10

168

11:06

Página 168

GIOVANNI PARODI

guas y a modo de un camino hacia la mejor comprensión del lenguaje. Así, entre otros, el tratamiento y etiquetado automático con altos grados de eficacia debe ser una aspiración posible y la revisión manual debe ser superada. Muchas de las ideas presentadas en este libro abren caminos de investigación que pueden aportar a todas las disciplinas implicadas en la indagación acerca del lenguaje y desde enfoques diversos, las restricciones parecen escasas. Queda claro que buscar algunos de estos logros implica un trabajo multidisciplinar, tal como una definición amplia y rica del lenguaje humano hoy en día enfatiza. Ahora bien, al cerrar este libro, opino que el futuro de la LC es auspicioso y lleno de esperanzas. Ciertamente habrá que esperar algún tiempo para ver mayores resultados y visualizar los caminos por los que transitará. Dejemos las palabras finales a uno de los fundadores de la LC, quien en un artículo en homenaje a Jan Svartik, concluía sabiamente así: A pesar de los grandes cambios acaecidos en menos de tres décadas desde el primer corpus digital, existe un modo a través del cual el rol del corpus en la investigación lingüística no ha cambiado. El corpus se mantiene como una de las herramientas del lingüista, para ser utilizado junto a la introspección y las técnicas de elicitación. Los sabios lingüistas, al igual que los artesanos con experiencia, dan forma a sus herramientas y reconocen sus usos apropiados. No es una coincidencia que Jan Svartvik haya realizado un distinguido trabajo en muchas áreas. Vale la pena tener en mente su ejemplo, cualquiera que sean los cambios que se produzcan en el futuro (Johansson 1991: 313).

PARODI-01

29/1/10

11:06

Página 169

REFERENCIAS BIBLIOGRÁFICAS

AARTS, Jan (1991): “Intuition-based and observation-based grammars”, en: Aijmer, Karin/Altenberg, Bengt (eds.): English Corpus Linguistics. Studies in honor of Jan Svartvik. London: Longman, 44-62. ALARCOS LLORACH, Emilio (1999): Gramática de la Lengua Española. Madrid: Espasa Calpe. ALCARAZ VARÓ, Enrique/MATEO, José/YUS, Francisco (eds.) (2007): Las lenguas profesionales y académicas. Barcelona: Ariel. ALCINA, Juan/BLECUA, José (1975): Gramática Española. Barcelona: Ariel. ALCOBA, Santiago (1999): “La flexión verbal”, en: Bosque, Ignacio/Demonte, Violeta (coords.): Gramática Descriptiva de la Lengua Española. Madrid: Espasa Calpe, 4915-4992. ALVAR, Manuel (2000): Introducción a la Lingüística Española. Barcelona: Ariel. ARIANZEN, Catalina (2001): “Las estrategias discursivas en el relato de Julio Ramón Ribeyro”. ARNOUX, Elvira/NOGUEIRA, Sylvia/SILVESTRI, Adriana (2006): “Comprensión macroestructural y reformulación resuntiva de textos teóricos en estudiantes de institutos de formación de docentes primarios”, en: Revista Signos 39, 60, 9-30. ARROYO, José (2000): “La presencia de lo oral en la literatura: sobre la variable futuro verbal en una muestra del teatro español contemporáneo”, en: Muñoz, María Dolores/Fernández, Gerard/Rodríguez, Ana/Benítez, Victoria (eds.): IV Congreso de Lingüística General. Cádiz: Universidad de Cádiz, 267-282. ÁVILA, Antonio. (2000): “Hacia una caracterización gramatical del corpus de lengua hablada”, en: Muñoz, María Dolores/Fernández, Gerard/Rodríguez, Ana/Benítez, Victoria (eds.): IV Congreso de Lingüística General. Cádiz: Universidad de Cádiz, 151-158. BARRIENTOS, Ramón/CIFUENTES, Hugo/LAGOS, Daniel/MUÑOZ, Siegfried/TASSARA, Gilda (1996): “Proyecto de Atlas Lingüístico y Etnográfico del Centro de Chile (ALECECH)”, en: Nueva Revista del Pacífico 39-40, 93-110. BASSOLS, Margarida/TORRENT, Ana María (1997): Modelos textuales. Teoría y práctica. Barcelona: Octaedro. BAZERMAN, Charles (ed.) (2008): Handbook of research on writing. History, society, school, individual, text. New York: Erlbaum. BENTIVOGLIO, Paola (1992): “La estructura argumental preferida en el español moderno”, en: Vaquero, María/Morales, Amparo (eds.): Homenaje a Humberto López Morales. Madrid: Arco/libros, 107-120. BERNALES, Mario (2002): “En torno al léxico general del sur de Chile”, en: Parodi, Giovanni (ed.): Lingüística e interdisciplinariedad: desafíos del nuevo milenio. Ensayos en honor a Marianne Peronard. Valparaíso: Ediciones Universitarias de Valparaíso, 457-467.

PARODI-01

29/1/10

170

11:06

Página 170

GIOVANNI PARODI

BIBER, Douglas (1986): “Spoken and written textual dimensions in English: Resolving the contradictory findings”, en: Language 62, 384-414. — (1988): Variation across speech and writing. Cambridge: Cambridge University Press. — (1994): “Using register-diversified corpora for general language studies”, en: Armstrong, Susan (ed.): Using large corpora. Cambridge: The MIT Press, 180-201. — (1995) Dimensions of register variation: A cross-linguistic comparison. Cambridge: Cambridge University Press. — (2003): “Variation among university spoken and written registers: A new multidimensional analysis”, en: Leistyna, Pepi/Meyer, Charles F. (eds.): Corpus analysis. Language structure and language use. Amsterdam: Rodopi, 47-70. — (2005): “Representativeness in corpus design”, en: Geoffrey, Sampson/McCarthy, Diana (eds.): Corpus linguistics: Reading in a Widening Discipline. London: Continuum, 174-197. BIBER, Douglas/CONNOR, Ulla/UPTON, Thomas (2007): Discourse on the move. Using corpus analysis to describe discourse structure. Amsterdam: Benjamins. BIBER, Douglas/CONRAD, Susan/REPPEN, Randi (1998): Corpus linguistics. Investigating language structure and use. Cambridge: Cambridge University Press. BIBER, Douglas/FINNEGAN, Edward (1986): “An initial typology of English text types”, en: Aarts, Jan/Meijs, Willen (eds.): Computer linguistics. Recent developments in the use computer corpora in English language research. Amsterdam: Rodopi, 19-46. BIBER, Douglas/JOHANSSON, Stig/CONRAD, Susan/FINNEGAN, Edward (1999): Longman Grammar of Spoken and Written English. Harlow, UK: Longman. BIBER, Douglas/REPPEN, Randi/CLARK, Victoria/WALTER, Jena (2001): “Representing spoken language in university settings: The design and construction of the spoken component of the T2K-SWAL Corpus”, en: Simpson, Rita/Swales, John (eds.): Corpus Linguistics in North America. Ann Arbor: University Michigan Press, 48-57. BIBER, Douglas/TRACY-VENTURA, Nicole (2007): “Dimensions of register variation in Spanish”, en: Parodi, Giovanni (ed.): Working with Spanish corpora. London: Continuum, 54-89. BJÖRK, Lennart/RÄISÄNEN, Christine (2003): Academic writing: A university writing course. Lund: Studentlitteratur. BOD, Rens (2003): “Introduction to elementary probability theory and formal stochastic language theory”, en: Bod, Rens/Hay, Jennifer/Jannedy, Stefanie (eds.): Probabilistic Linguistics. London: MIT Press, 11-37. BOSANI, Alicia (2000): “Verbos de comunicación y discurso”, en: Bustos, José/Charaudeau, Patrick/Girón, José/Iglesias, Silvia/López, Covadonga (eds.): Lengua, discurso, texto: I simposio internacional de análisis del discurso V. I. Madrid: Visor, 253-262. BOSQUE, Ignacio (1990): Las categorías gramaticales. Madrid: Síntesis. — (1999): “El nombre común”, en: Bosque, Ignacio/Demonte, Violeta (coords.): Gramática Descriptiva de la Lengua Española. Madrid: Espasa Calpe, 3-76. BOWKER, Lynne/PEARSON, Jennifer (2002): Working with Specialized Language: A practical guide to using corpora. London: Routledge.

PARODI-01

29/1/10

11:06

Página 171

REFERENCIAS BIBLIOGRÁFICAS

171

BRIZ, Antonio/GRUPO VAL.ES.CO. (2002): Corpus de conversaciones coloquiales. Madrid: Arco. BRUCE, Ian (2008): Academic writing and genre. A systematic analysis. London: Continuum. BURDACH, Ana María (2000): “El léxico científico y técnico: Un recurso publicitario persuasivo”, en: Onomazein 5, 189-208. CALSAMIGLIA, Helena/TUSÓN, Amparo (1999): Las Cosas del Decir. Manual de Análisis del Discurso. Barcelona: Ariel. CAMACHO, José (1999): “La Coordinación”, en: Bosque, Ignacio/Demonte, Violeta (coords.): Gramática Descriptiva de la Lengua Española. Madrid: Espasa Calpe, 2635-2694. CANDLIN, Christopher (ed.) (2002): Research and practice in professional discourse. Hong Kong: City University of Hong Kong Press. CARAVEDO, Rocío (1999): Gramática española: enseñanza e investigación. Apuntes metodológicos: Lingüística del corpus. Salamanca: Ediciones Universidad de Salamanca. CARLINO, Paula (2005): “Representaciones sobre la escritura y formas de enseñarla en universidades de América del Norte”, en: Revista de Educación 336, enero-abril, 143-168. CARTER, Ronald/MCCARTHY, Michael (2006): Cambridge grammar of English. Cambridge: Cambridge University Press. CASTEL, Víctor/ARUANI, Susana/CEVERINO, Viviana (eds.) (2004): Investigaciones en ciencias humanas y sociales: Del ABC disciplinar a la reflexión metodológica. Mendoza: Editorial de la Facultad de Filosofía y Letras de la Universidad Nacional de Cuyo. CASTEL, Víctor/MIRET, Ana María (2004): “Generación de textos escritos en un marco sistémico funcional formal”, en: Castel, Víctor/Aruani, Susana/Ceverino, Viviana (eds.): Investigaciones en ciencias humanas y sociales: del ABC disciplinar a la reflexión metodológica. Mendoza: Editorial de la Facultad de Filosofía y Letras de la Universidad Nacional de Cuyo, 175-224. CASTELLANO, Ángela (2000): “Ambigüedad y variación del pronombre personal sujeto”, en: Muñoz, María Dolores/Fernández, Gerard/Rodríguez, Ana/Benítez, Victoria (eds.): IV Congreso de Lingüística General. Cádiz: Universidad de Cádiz, 521-131. CASTELLÓ, Monserrat (coord.) (2007): Escribir y comunicarse en contextos científicos y académicos: Conocimientos y estrategias. Barcelona: GRAÓ. CEPEDA, Gladys (1998): “El movimiento anticadencial en el español de Valdivia: ejemplos”, en: Revista Estudios Filológicos 33, 23-40. — (2002): “Entonación, actitud y modalidad”, en: Revista Estudios Filológicos 37, 7-28. CHAFE, Wallace (1982): “Integration and involvement in speaking, writing and oral literature”, en: Tannen, Deborah (ed.); Spoken and written language: Exploring orality and literacy. Norwood, NJ: Ablex, 35-53. — (1985): “Linguistic differences produced by differences between speaking and writing”, en: Olson, D./Torrence, N./Hidyard, A. (eds.): Literature, language and learn-

PARODI-01

29/1/10

172

11:06

Página 172

GIOVANNI PARODI

ing: The nature and consequences of reading and writing. Cambridge: Cambridge University Press, 105-123. — (1992): “The importance of corpus linguistics to understand the nature of language”, en: Svartvik, Jan (ed.): Directions in Corpus Linguistics. Berlin/New York: Mouton de Gruyter, 79–97. — (1994): Discourse, consciousness and time. Chicago: The University of Chicago Press. CHAFE, Wallace/DANIELEWICS Jane (1987): “Properties of spoken and written language”, en: Horowitz, Rosalind/Samuels, Jay (eds.): Comprehending oral and written language. New York: Academic Press, 83-115. CHARNIAK, Eugene (1996): Statistical language learning. Cambridge: MIT Press. CHOMSKY, Noam (1969): “Quine’s empirical assumptions”, en: Davidson, Donald/Hintikka, Jaakko (eds.): Words and objections. Essay on the Work of W.V. Quine. Dordrecht: Reidel. 53-68. CHURCH, Kenneth/MERCER, Robert (1993): “Introduction to the special issue on computational linguistics. Using large corpora”, en: Computational Linguistics 9, 1, 1-24. CIAPUSCIO, Gioumar (1992): “Impersonalidad y desagentivación en la divulgación científica”, en: Revista Lingüística Española Actual 2, 183-205. — (2003): Textos especializados y terminología. Barcelona: IULA. — (2007): “Epistemic modality and academic orality: Pilot study for COTECA (Corpus Textual del Español Científico de la Argentina)”, en: Parodi, Giovanni (ed.): Working with Spanish corpora. London: Continuum, 90-105. CONNOR, Ulla/UPTON, Thomas (eds.) (2004): Discourse in the professions: Perspectives from corpus linguistics. Amsterdam: Benjamins. CONRAD, Susan/BIBER, Douglas (2001): “Multi-dimensional methodology and the dimensions of register variation in English”, en: Conrad, Susan/Biber, Douglas (eds.): Variation in English. Multidimensional Studies. Cambridge: Cambridge University Press, 13-42. CONTRERAS, Constantino (2000): “Unidad temática y variedad textual: Un tópico social en tres relatos orales”, en: Revista Estudios Filológicos 35, 25-39. — (1984): Nuevo texto gramatical práctico, reestructurado, ampliado y actualizado conforme a las recientes normas actualmente en vigencia de la Real Academia Española. Santiago: Instituto Geográfico Militar. CORNILLIE, Bert (2003): “Subjetivización, predicaciones de anclaje y modales del español”, en: Foro Hispánico 23, 21-34. CRIADO DE VAL, Manuel (1962): Fisonomía del idioma español. Madrid: Aguilar. CRISMORE, Avon (1989): Talking with readers. Metadiscourse as Rethorical Act. New York: Peter Lang. CRYSTAL, David (1991), A Dictionary of linguistics and phonetics. London: Blackwell. CUBO DE SEVERINO, Liliana (coord.) (2005): Los textos de la ciencia. Principales clases del discurso académico-científico. Córdoba: Comunicarte. CURADO, Alejandro/EDWARDS, Patricia/RICO, Mercedes (2007): Approaches to specialised discourse in higher education and professional contexts. UK: Cambridge Scholars Publishing.

PARODI-01

29/1/10

11:06

Página 173

REFERENCIAS BIBLIOGRÁFICAS

173

DE KOCK, Josse (ed.) (2001): Lingüística con corpus: catorce aplicaciones sobre el español. Serie Gramática Española, 1. Apuntes Metodológicos, 7. Salamanca: Universidad de Salamanca. DE KOCK, Josse/GÓMEZ, Carmen (2002): Gramática Española. Enseñanza e Investigación. Apuntes metodológicos. Salamanca: Ediciones Universidad Salamanca. DE MIGUEL, Elena (1999): “El aspecto léxico”, en: Bosque, Ignacio/Demonte, Violeta (coords.): Gramática Descriptiva de la Lengua Española. Madrid: Espasa Calpe, 2977-3060. DEERWESTER, Scott/DUMAIS, Susan/FURNAS, George/LANDAUER, Thomas/HARSHMAN, Richard (1990): Indexing by latent semantic analysis. DELBECQUE, Nicole/LAMIROY, Béatrice (1999): “La subordinación sustantiva: las subordinadas enunciativas en los complementos verbales”, en: Bosque, Ignacio/Demonte, Violeta (coords.): Gramática Descriptiva de la Lengua Española. Madrid: Espasa Calpe, 1965-2082. DEMONTE, Violeta (1997): La subordinación sustantiva. Madrid: Cátedra. DEMONTE, Violeta/VARELA, Soledad (1997): “Los infinitivos nominales eventivos del español”, en: Revista Signo y Seña 7, 123-156. DEVITT, Amy (2004): Writing genres. Carbondale: Southern Illinois University Press. DI TULLIO, Angela (1997): Manual de Gramática del español. Desarrollos teóricos. Ejercicios. Soluciones. Buenos Aires: Edicial. DUMAIS, Susan (1994): Latent semantic indexing (LSI) and TREC-2 EAGLES (1996a): Synopsis and comparison of morphosyntactic phenomena encoded inlexicons and corpora. A common proposal and applications to European languages. Pisa: ILC-CNR. — (1996b): Preliminary recommendations on subcategorization. ECHEVERRÍA, Max (2002): “Programas computacionales para el español como lengua materna”, en: Revista Signos 35, 51-52, 163-193. FACCHINETTI, Roberta (ed.) (2007): Corpus linguistics 25 years on. Amsterdam: Rodopi. FERNÁNDEZ, Gerard/CARLINO, Paula (2007): “Leer y escribir en los primeros años de la universidad: Un estudio proyectado en ciencias veterinarias y humanas de la UNCPBA”, en: Cuadernos de Educación 5, 277-289. FERNÁNDEZ, Olga (1999): “El pronombre personal. Formas y distribuciones. Pronombres átonos y tónicos”, en: Bosque, Ignacio/Demonte, Violeta (coords.): Gramática Descriptiva de la Lengua Española. Madrid: Espasa Calpe, 1209-1274. FERRARI, Silvana (2007): La variación de los rasgos de la informatividad y de los tipos de nominalizaciones en los manuales de dos áreas de formación académica. Tesis de Magíster, Pontificia Universidad Católica de Valparaíso, Chile. FERREIRA, Anita/CAMPOS, Daniel/RUGGERI, Enrique (1998): “VERBUM: Una aplicación multimedial para la enseñanza del Latín”, en: Estudios Clásicos 114, 121-134.

PARODI-01

29/1/10

174

11:06

Página 174

GIOVANNI PARODI

FERREIRA-CABRERA, Anita/ATKINSON-ABUDITRY, John (2002): “A model for generating explanatory web-based natural-language dialogue interactions for document filtering”, en: Journal of Research and Practice in Information Technology 43, 1, 2-19. FILLMORE, Charles (1992): “Corpus linguistics or computer-aided armchair linguistics”, en: Svartvik, Jan (ed.): Directions in Corpus Linguistics. Berlin/New York: Mouton de Gruyter, 35-60. FLOWERDEW, John (ed.) (2002): Academic discourse. London: Longman. FLOWERDEW, Lynne (2004): “The Argument for using English specialized corpora to understand academic and professional language”, en: Connor, Ulla/Upton Thomas (eds.): Discourse in the professions. Perspectives from Corpus Linguistics. Amsterdam: Benjamins, 11-33. FONTANELLA, María Beatriz (1999): “Sistemas pronominales de tratamiento usados en el mundo hispánico”, en: Bosque, Ignacio/Demonte, Violeta (coords.): Gramática Descriptiva de la Lengua Española. Madrid: Espasa Calpe, 1399-1426. FRANCIS, Nelson (1979): “A tagged corpus: problems and prospects”, en: Greenbaum, Sidney/ Leech, Geoffrey/Svartvik, Jan (eds.): Studies in English linguistics for Randolph Quirk. London: Longman, 192-209. GALÁN, María Carmen (1999): “La subordinación causal y final”, en: Bosque, Ignacio/ Demonte, Violeta (coords.): Gramática Descriptiva de la Lengua Española. Madrid: Espasa Calpe, 3597-3642. GALLARDO, Susana (2005): Los médicos recomiendan: Un estudio de las notas periodísticas sobre salud. Buenos Aires: Eudeba. GARVIN, Paul (1969): Breve introducción a la Computación Lingüística. Lima: Universidad Nacional Mayor de San Marcos. GENETTE, Gérard (1972): Figures III. Paris: Le Seuil (Points). GILI GAYA, Samuel (1980): Curso Superior de Sintaxis Española. Barcelona: Vox. GÓMEZ MACKER, Luis. (1999): “Los verbos auxiliares. Las perífrasis verbales de infinitivo”, en: Bosque, Ignacio/Demonte, Violeta (coords.): Gramática Descriptiva de la Lengua Española. Madrid: Espasa Calpe, 3323-3390. GÓMEZ MACKER, Luis/PERONARD, Marianne (1988): El lenguaje humano. Léxico fundamental para la iniciación lingüística. Valparaíso: Ediciones Universitarias de Valparaíso. GONZÁLEZ, Cristián (2005): La construcción del destinatario discursivo en los editoriales de prensa. Tesis doctoral, Pontificia Universidad Católica de Valparaíso, Chile

GONZÁLEZ, José (2000): “Morfología Nominal”, en: Alvar, Manuel (dir.): Introducción a la Lingüística Española. Barcelona: Ariel, 177-190. GUTIÉRREZ, Rosa María (2005): “Análisis Semántico Latente: ¿Teoría psicológica del significado?”, en: Revista Signos 38, 59, 303-323. — (2007): Realización lexicogramatical del sistema semántico de la modulación: Una aproximación a la descripción sistémico funcional del español. Tesis doctoral, Pontificia Universidad Católica de Valparaíso, Chile.

PARODI-01

29/1/10

11:06

Página 175

REFERENCIAS BIBLIOGRÁFICAS

175

HAIR, Joseph/ANDERSON, Rolph/TATHAM, Ronald/BLACK, William (1999): Análisis multivariante. Madrid: Prentice Hall. HALLIDAY, Michael (1985): An introduction to functional grammar. London: Arnold. — (1992): “Languaje as a system and languaje as a instance: the corpus as a theoretical construct”, en: Svartvik, Jan (ed.): Directions in Corpus Linguistics. Berlin/New York: Mouton de Gruyter, 61-77. — (1993): “On language and physical science”, en: Halliday, Michael/Martin, James, Writing science. Literacy and discursive power. Pittsburgh: University of Pittsburgh Press, 54-68. — (1994): An Introduction to Functional Grammar. London: Arnold. HALLIDAY, Michael/MARTIN, James (1993): Writing science. Literacy and discursive power. Pittsburgh: University of Pittsburgh Press. HARVEY, Ana María (2002): “Representación e imagen del quehacer científico en los Medios de Comunicación”, en: Parodi, Giovanni (ed.): Lingüística e Interdisciplinariedad. Ensayos en honor a Marianne Peronard. Valparaíso: Ediciones Universitarias de Valparaíso, 335-353. — (comp.) (2005): En torno al discurso: Contribuciones de América Latina. Santiago de Chile: Ediciones Universidad Católica de Chile. HERNÁNDEZ, César (1996): Gramática Funcional del Español. Madrid: Gredos. — (2000a): “Morfología del Verbo. La auxiliaridad”, en: Alvar, Manuel (dir.): Introducción a la Lingüística Española. Barcelona: Ariel, 195-213. — (2000b): “Sintaxis: La subordinación”, en: Alvar, Manuel (dir.): Introducción a la Lingüística Española. Barcelona: Ariel, 391-407. HERNÁNDEZ, Roberto/FERNÁNDEZ, Carlos/BAPTISTA, Pilar (2003): Metodología de la investigación. México D.F.: McGraw-Hill. HERNANZ, María Luisa (1999): “El infinitivo”, en: Bosque, Ignacio/Demonte, Violeta (coords.): Gramática descriptiva de la lengua española. Madrid: Espasa Calpe, 21972356. HERRINGTON, Anne/MORAN, Charles (eds.) (2005): Genre across the curriculum. Utah: Utah State University Press. HOEY, Michael (1998) Corpus Linguistics. HOROWITZ, Rosalind/SAMUELS, Jay (1987): “Comprehending oral and written language: Critical contrasts for literacy and schooling”, en: Horowitz, Rosalind/Samuels, Jay (eds.): Comprehending oral and written language. San Diego: Academic Press, 1-52. HUNSTON, Susan/Thompson, Geoff (eds.) (2006): System and corpus: Exploring connections. London: Equinox. HYLAND, Ken (1998): Hedging in scientific research articles. Amsterdam/Philadelphia: Benjamins. IBÁÑEZ, Romualdo (2007a): “El trabajo investigativo de Rolf Zwaan”, en: Parodi, Giovanni (ed.): Lingüística de corpus y discursos especializados: Puntos de mira. Valparaíso: Ediciones Universitarias de Valparaíso, 207-222. — (2007b): “Cognición y comprensión. Una aproximación histórica y crítica al trabajo investigativo de Rolf Zwaan”, en: Revista Signos 40, 63, 81-100.

PARODI-01

29/1/10

176

11:06

Página 176

GIOVANNI PARODI

— (2008): “El texto disciplinar y el acceso al conocimiento desde el análisis del género: ¿Regulación del conocimiento o persuasión?”, en: Parodi, Giovanni (ed.): Géneros académicos y Géneros profesionales: Accesos discursivos para saber y hacer. Valparaíso: EUVSA, 219-246. INSTITUTO CERVANTES (1996): Informe sobre recursos lingüísticos para el español. Corpus escritos y orales disponibles y en desarrollo en España. (Vol. I y II): Alcalá de Henares: Instituto Cervantes. JANDA, Richard (1985): “Note-taking as simplified register”, en: Discourse Processes 8, 4, 437- 454. JOHANSSON, Stig (1991): “Times change, and so do corpora”, en: Aijmer, Karin/Altenberg, Bengt (eds.): English Corpus Linguistics. Studies in honor of Jan Svartvik. London: Longman, 305-314. JURAFSKY, Daniel (2003): “Probabilistic modelling in psycholinguistics: Linguistics comprehension and production”, en: Bod, Rens/Hay, Jennifer/Jannedy, Stefanie (eds.): Probabilistic Linguistics. London: MIT Press, 38-95. KAISER, Dorothee (2002): “La presencia del autor en los textos académicos: un estudio contrastivo de trabajos de estudiantes de Venezuela y Alemania”, en: Boletín de Lingüística 17, 53-68. KENNEDY, Graeme (1998): An introduction to corpus linguistics. New York: Longman. KING, Paola (2006): Estudio multidimensional de la oralidad a partir de los textos escolares para la enseñanza del inglés como lengua extranjera. Tesis de Magíster. Pontificia Universidad Católica de Valparaíso, Chile. KINTSCH, Walter (1998): Comprehension. A paradigm for cognition. Cambridge: Cambridge University Press. KOVACCI, Ofelia (1993): “La didáctica de la lengua materna. Experiencias en la Argentina”. Actas del I Congreso Internacional sobre la Enseñanza del Español. Madrid: CEMIP. — (1999): “El Adverbio”, en: Bosque, Ignacio/Demonte, Violeta (coords.): Gramática Descriptiva de la Lengua Española. Madrid: Espasa Calpe, 705-786. LAGOS, Daniel/CIFUENTES, Hugo/TASSARA, Gilda/FUENTES, Ivonne/REYES, Juan Pablo/ VENEGAS, René (1999): “Atlas Lingüístico Etnográfico del Centro de Chile (ALECECH)”, en: Centro Meridional, Informe de Proyectos Universidad de Playa Ancha, 18. LANGACKER, Ronald (1990): “Subjectification”, en: Cognitive Linguistics, 1, 1, 5-38. LEECH, Geoffrey (1991): “The state of the art in corpus linguistics”, en: Aijmer, Karin/ Altenberg, Bengt (eds.): English Corpus Linguistics. Studies in honor of Jan Svartvik. London: Longman, 8-29. — (1992): “Corpora theories of linguistic performance”, en: Svartvik, Jan (ed.): Directions in Corpus Linguistics. Berlin/New York: Mouton de Gruyter, 105-122. — (2000): “Grammars of Spoken English: New Outcomes of Corpus-Oriented Research”, en: Language Learning 50, 4, 275-724. — (2002): “Sobre la importancia de los corpus de referencia”, en: Donosit 24-25, 1-3. LLEDÓ, Emilio (1995): “Usos lingüísticos y género”, en: Textos de didáctica de la lengua y la literatura 6, 29-34.

PARODI-01

29/1/10

11:06

Página 177

REFERENCIAS BIBLIOGRÁFICAS

177

LONGACRE, Robert (1983): The Grammar of discourse. New York: Plenum Press. LOPE BLANCH, Juan (1969): Proyecto de estudio coordinado de la norma lingüística culta de las principales ciudades de Iberoamérica. Actas del Simposio de México, 1969. México: PILEI. — (1977): Estudios sobre el español hablado en las principales ciudades de América. México: UNAM. — (1990): Atlas lingüístico. México: Colegio de México. — (1994): Estudios de historia lingüística hispánica. Madrid: Arco/Libros. LÓPEZ MORALES, Humberto (1998): La aventura del español en América. Madrid: Espasa Calpe. LORENTE, Mercé (2002): Verbos y discurso especializado. LOUWERSE, Max/MCCARTHY, Phillip/MCNAMARA, Danielle/GRAESSER, Aarthur (2004): Variation in language and cohesion across written and spoken registers

MAHLBERG, Michaela/TEUBERT, Wolfgang (eds.): (2007): Text, discourse and corpora. Theory and analysis. London: Continuum. MALINOWSKI, Bronislaw (1935): “El problema del significado en las lenguas primitivas”, en: Ogden, Charles Kay/Richards, Ivor Amstrong (eds.): El significado del significado. Barcelona: Paidós, 310-352. MANNING, Chris/SCHÜTZE, Hinrich (eds.) (1999): Foundations of statistical natural language processing. Cambridge: MIT Press. MARCOS MARÍN, Francisco (1975): Aproximación a la gramática española. Madrid: Cincel. MARINKOVICH, Juana (2001-2002): “La competencia textual narrativa en adolescentes chilenos y españoles”, en: Lenguas Modernas, 28-29, 145-164. MARKKANEN, Raija/SCHRÖDER, Hartmut (2000): “Hedging: A Challenge for Pragmatics and Discourse Analysis”, en: Lauren, Christer/Nordman, Marianne (eds.): Special Languages: From Humans Thinking to Thinking Machines. Clevedon/Philadelphia: Multilingual Matters, 3-21. MARTÍN, Gonzalo (1986): Curso de redacción. Madrid: Paraninfo. MATUS, Alfredo (2002): “Corrección académica: ideal panhispánico y norma culta”, en: Parodi, Giovanni (ed.): Lingüística e interdisciplinariedad: desafíos del nuevo milenio. Ensayos en honor a Marianne Peronard. Valparaíso: Ediciones Universitarias de Valparaíso, 389-401. MCENERY, Tony/WILSON, Andrew (1996): Corpus linguistics. Edinburgh: Edinburgh University Press. MENDIKOETXEA, Amaya (1999a): “Construcciones inacusativas y pasivas”, en: Bosque, Ignacio/Demonte, Violeta (coords.): Gramática Descriptiva de la Lengua Española. Madrid: Espasa Calpe, 1575-1630. — (1999b): “Construcciones con se: Medias, pasivas e impersonales”, en: Bosque, Ignacio/Demonte, Violeta (coords.): Gramática Descriptiva de la Lengua Española. Madrid: Espasa Calpe, 1631-1722.

PARODI-01

29/1/10

178

11:06

Página 178

GIOVANNI PARODI

MOLINER, María (1986): Diccionario de uso del español. Madrid: Gredos. MONTOLÍO, Estrella (coord.) (2002): Manual práctico de escritura académica (3 vols.). Barcelona: Ariel. MONTOLÍO, Estrella/LÓPEZ SAMANIEGO, Anna (2008): “La escritura en el quehacer judicial: Estado de la cuestión y presentación de la propuesta aplicada en la Escuela Judicial de España”, en: Revista Signos 41, 66, 33-64. MORENO, Antonio (1998): Lingüística computacional: Introducción a los modelos simbólicos, estadísticos y biológicos. Madrid: Síntesis. MORENO DE ALBA, José (1988): El español en América. México: Fondo de Cultura Económica. MOYANO, Estela (2000): Comunicar ciencia. El artículo científico y las comunicaciones a congreso. Buenos Aires: Universidad Nacional de Lomas de Zamora. NARBONA, Antonio (2000): “Sintaxis Coloquial”, en: Alvar, Manuel (dir.): Introducción a la Lingüística Española. Barcelona: Ariel, 463-476. NÚÑEZ, Paulina/MUÑOZ, Astrid/MIHOVILOVIC, Estenka (2006): “Las funciones de los marcadores de reformulación en el discurso académico en formación”, en: Revista Signos 39, 62, 471-492. OAKES, Michael (1998): Statistics for corpus linguistics. Edinburgh: Edinburgh University Press. OLBERTZ, Hella (1998): Verbal Periphrases in a Functional Grammar of Spanish. Berlin/NewYork: Mouton de Gruyter. OSORNO, Martha (2000): Categorías gramaticales de modalidad y aspecto en la lengua de señas colombiana. . OTEÍZA, Teresa (2006): El discurso pedagógico de la historia: Un análisis lingüístico sobre la construcción ideológica de la historia de Chile (1970-2001): Santiago de Chile: Frasis. OYANEDEL, Marcela/SAMANIEGO, José Luis (1998): “Notas para un nuevo perfil lingüístico de Santiago de Chile”, en: Boletín de Filología de la Universidad de Chile 37, 899-913. PALMER, Frank (1974): The English verb. London: Longman. PARODI, Giovanni (2003): Relaciones entre lectura y escritura: una perspectiva cognitiva discursiva. Valparaíso: Ediciones Universitarias de Valparaíso. — (2004): “Textos de especialidad y comunidades discursivas técnico-profesionales: Una aproximación basada en corpus computarizado”, en: Revista Estudios Filológicos 39, 7-36. — (ed.) (2005a): Discurso especializado e instituciones formadoras. Valparaíso: EUV. — (2005b): Comprensión de textos escritos. Buenos Aires: EUDEBA. — (2006a): “Discurso especializado y lengua escrita: Foco y variación”, en: Revista Estudios Filológicos 41, 165-204. — (2006b): “El Grial: Interfaz computacional para anotación e interrogación de corpus en español”, en: Revista de Lingüística Teórica y Aplicada 44, 91-115. — (2007a): “Comprensión y aprendizaje a partir del discurso especializado escrito: Teoría y empiria”, en: Parodi, Giovanni (ed.): Lingüística de corpus y discursos

PARODI-01

29/1/10

11:06

Página 179

REFERENCIAS BIBLIOGRÁFICAS

179

especializados: Puntos de mira. Valparaíso: Ediciones Universitarias de Valparaíso, 225-255. — (ed.) (2007b): Working with Spanish corpora. London: Continuum. — (2007c): “El discurso especializado escrito en el ámbito universitario y profesional: Constitución de un corpus de estudio”, en: Revista Signos 40, 63, 147-178. — (ed.) (2007d): Lingüística de corpus y discursos especializados: Puntos de mira. Valparaíso: Ediciones Universitarias de Valparaíso. — (2008a): “Academic and professional written genres in disciplinary communication: Theoretical and empirical challenges”, en: Renkema, Jan (ed.): Discourse of course. Amsterdam: Benjamins, 93-112. — (2008b): “Géneros del discurso escrito: Hacia una concepción integral desde una perspectiva sociocognitiva”, en: Parodi, Giovanni (ed.): Géneros académicos y Géneros profesionales: Accesos discursivos para saber y hacer. Valparaíso: EUVSA, 17-38. — (2008c): “La organización retórica del género Manual: ¿Una ‘colonia encadenada’?”, en: Parodi, Giovanni (ed.): Géneros académicos y Géneros profesionales: Accesos discursivos para saber y hacer. Valparaíso: EUVSA, 169-198. — (2008d): “El género manual y su organización retórica en cuatro disciplinas científicas: Entre la abstracción y la concreción”, en: Parodi, Giovanni (ed.): Géneros académicos y Géneros profesionales: Accesos discursivos para saber y hacer. Valparaíso: EUVSA, 199-218. — (2009): “Written genres in university studies: Evidence from a Spanish corpus in four disciplines”, en: Bazerman, Charles/Bonini, Adair/Figueiredo, Débora (eds.): Genre in a Changing World. Writing Across the Curriculum. New York: Clearinghouse & Parlor Press, 483-502. PARODI, Giovanni/GRAMAJO, Aída (2003): “Los tipos textuales del corpus PUCV-2003: Una aproximación multiniveles”, en: Revista Signos 36, 54, 207-223. PARODI, Giovanni/IBÁÑEZ, Romualdo/VENEGAS, René (2009): “Géneros del discurso en el Corpus PUCV-2006: Criterios, definiciones y ejemplos”, en: Revista Literatura y Lingüística (en prensa). PARODI, Giovanni/VENEGAS, René (2004): “BUCÓLICO: Aplicación computacional para el análisis de textos. Hacia un análisis de rasgos de la informatividad”, en: Revista Lingüística y Literatura 15, 223-251. PÉREZ, Diana/GLIOZZO, Alfio/ALFONSECA, Enrique/STRAPPARAVA, Carlo/MAGNINI, Bernardo/RODRÍGUEZ, Pilar (2005): “Sobre los efectos de combinar Análisis Semántico Latente con otras técnicas de procesamiento de lenguaje natural para la evaluación de preguntas abiertas”, en: Revista Signos 38, 59, 325-343. PÉREZ-RIOJA, José (1971): Gramática de la Lengua Española. Madrid: Tecnos. PERONARD, Marianne (1989): “Estrategias de comprensión lectora y estrato social”, en: Lenguas Modernas 16, 69-78. — (2007a): “La Escuela de Lingüística de Valparaíso: Algunos principios fundantes”, en: Revista Signos 40, 65, 489-494. — (2007b): “Lectura en papel y en pantalla de computador”, en: Revista Signos 40, 63, 179-195.

PARODI-01

29/1/10

180

11:06

Página 180

GIOVANNI PARODI

PERONARD, Marianne/GÓMEZ MACKER, Luis (1985): “Reflexiones acerca de la comprensión lingüística: Hacia un modelo”, en: Revista de Lingüística Teórica y Aplicada 23, 19-32. PERONARD, Marianne/GÓMEZ, Luis/PARODI, Giovanni/NÚÑEZ, Paulina (1998): Comprensión de textos escritos: De la teoría a la sala de clases. Santiago de Chile: Editorial Andrés Bello. PICALLO, María Carme (1999): “La estructura del sintagma nominal: La nominalización y otros sustantivos con complementos argumentales”, en: Bosque, Ignacio/Demonte, Violeta (coords.): Gramática Descriptiva de la Lengua Española. Madrid: Espasa Calpe, 363-394. PONS, Salvador/RUIZ, Leonor (2005): “Corpus para el estudio de la conversación coloquial. El corpus Val.Es.Co (Valencia. Español Coloquial)”, en: Oralia 8, 243-263. QUIRK, Randolph/GREENBAUM, Sidney/LEECH, Geoffrey/SVARTVIK, Jan (1985): A grammar of contemporary English. London: Longman. RAE (1973): Esbozo de una Nueva Gramática de la Lengua Española. Madrid: Espasa Calpe. RABANALES, Ambrosio/CONTRERAS, Lidia (1979): “El habla culta de Santiago de Chile. Materiales para su estudio”, en: Boletín de Filología 1, Anexo 2, 123-179. — (1986): “El habla culta de Santiago de Chile. Materiales para su estudio”, en: Boletín de Filología 1, Anexo 2, 46-57. ROJO, Guillermo (2001): “La explotación de la base de datos sintácticos del español actual (BDS)”, en: De Kock, Josse (ed.): Lingüística con corpus. Catorce aplicaciones sobre el español. Salamanca: Universidad de Salamanca, 255-286. — (2002): “Sobre la lingüística basada en el análisis de corpus. Hizkunza-corpusak”, en: Oraria eta geroa, 1-17. RUIZ MIYARES, Leonel (2001): Desarrollo de un modelo computacional para el procesamiento de corpus textuales basado en la etiquetación automática. Tesis doctoral. Universidad de Oriente, Santiago de Cuba. RUSSELL, David (2002): Writing in the academic disciplines: A curricular history. Carbondale: Southern Illinois University Press. SABAJ, Omar (2004): Comportamiento de los verbos abstractos en el corpus PUCV2003. Tesis doctoral, Pontificia Universidad Católica de Valparaíso, Chile. SÁNCHEZ, Cristina (1999): “La Negación”, en: Bosque, Ignacio/Demonte, Violeta (coords.): Gramática Descriptiva de la Lengua Española. Madrid: Espasa Calpe, 2561-2634. SANTANA, Octavio/PÉREZ, José/CARRERAS, Francisco/HERNÁNDEZ, Zenón/RODRÍGUEZ, Gustavo (1997): “FLAVER: flexionador y lematizador automático de formas verbales”, en: Revista Lingüística Española Actual 19, 2, 229-282. SILVA, Julio (2006): Hacia una propuesta de índice de lecturabilidad: “El Manchador de Textos”. Tesis para optar al grado de Licenciado en Lingüística y Literatura Hispanoamericanas y al título de profesor de Castellano y Comunicación, Pontificia Universidad Católica de Valparaíso, Chile. SIMPSON, Rita/SWALES, John (2001): “Introduction to North American perspective on corpus linguistics at the millennium”, en: Simpson, Rita/Swales, John (eds.): Corpus lin-

PARODI-01

29/1/10

11:06

Página 181

REFERENCIAS BIBLIOGRÁFICAS

181

guistics in North America. Selections from the 1999 Symposium. Ann Arbor: The University of Michigan Press, 1-14. SINCLAIR, John (1982): “Reflections on computer corpora in English language research”, en: Johansson, Stig (ed.): Computer corpora in English language research. Bergen: Norwegian Computing Centre for the Humanities, 1-6. — (1991): Corpus, concordance, collocation. Oxford: Oxford University Press. — (2001) “Preface to small corpus studies and ELT”, en: Ghadessy, Mohsen/Henry, Alex/Roseberry, Robert (eds.): Small Corpus Studies and ELT. Amsterdam: Benjamins, 7-15. STUBBS, Michael (1996): Text and corpus analysis. Computer-assisted studies of language and culture. Massachusetts: Blackwell. — (2001): Words and phrases. Oxford: Blackwell. — (2006): “Corpus analysis: the state of the art and three types of unanswered question”, en: Hunston, Susan/Thompson, Geoff (eds.): System and corpus: Exploring connections. London: Equinox, 15-36. — (2007a): “On text, corpora and models of language”, en: Hoey, Michael/Mahlberg, Michaela/Stubbs, Michael/Teubert, Wolfgang: Text, Discourse and Corpora. London: Continuum, 127-162. — (2007b): “Quantitative data in multi-word sequences in English: the case of the word world”, en: Hoey, Michael/Mahlberg, Michaela/Stubbs, Michael/Teubert, Wolfgang: Text, Discourse and Corpora. London: Continuum, 163-190. SVARTVIK, Jan (1992): Directions in corpus linguistics: Proceeding of Nobel symposium. Berlin/New York: Mouton de Gruyter. SWALES, John (2004): Research Genres: Exploration and aplications. Cambridge: Cambridge University Press. TEUBERT, Wolfgang (2005): “My version of corpus linguistics”, en: International Journal of Corpus Linguistics 10, 1, 1-13. TOGNINI-BONELLI, Elena (2001): Corpus linguistics at work. Amsterdam: Benjamins. TORNER, Sergi/BATTANER, Paz (3ds.) (2006): El Corpus PAAU 1996. Estudios descriptivos, textos y vocabulario. Barcelona: Instituto Universitario de Lingüística Aplicada. TOTTIE, Gunnel (1983): Much about “not” and “nothing”: A study of the variation between analityc and synthetic negation in contemporary American English. Lund: CWK Gleerup. TROSBORG, Anna (2000): Analysing professional genres. Amsterdam: Benjamins. — (ed.) (1997): Text typology and translation. Amsterdam: Benjamins. VALENCIA, Alba (2002): “Aspectos del habla femenina de Santiago de Chile”, en: Parodi, Giovanni (ed.): Lingüística e interdisciplinariedad: desafíos del nuevo milenio. Ensayos en honor a Marianne Peronard. Valparaíso: Ediciones Universitarias de Valparaíso, 439-456. VÁSQUEZ, Graciela (2001): Guía didáctica del discurso académico escrito. ¿Cómo se escribe una monografía? Madrid: Edinumen. VÉLIZ, Mónica (2002): “Desarrollo de estrategias de lectura por medio del computador: evaluación de una experiencia”, en: Parodi, Giovanni (ed.): Lingüística e interdisci-

PARODI-01

29/1/10

182

11:06

Página 182

GIOVANNI PARODI

plinariedad: Desafíos del nuevo milenio. Ensayos en honor a Marianne Peronard. Valparaíso: Ediciones Universitarias de Valparaíso, 161-178. VENEGAS, René (2003): “Análisis semántico latente: Una panorámica de su desarrollo”, en: Revista Signos 53, 36, 121-138. — (2005): Las relaciones léxico-semánticas en artículos de investigación científica: Una aproximación desde el análisis semántico latente. Tesis doctoral, Pontificia Universidad Católica de Valparaíso, Chile — (2006): “La similitud léxico-semántica en artículos de investigación científica en español: Una aproximación desde el Análisis Semántico Latente”, en: Revista Signos 39, 60, 75-106. — (2007): “Clasificación de textos disciplinares en función de su contenido léxicosemántico”, en: Revista Signos 40, 63, 239-231. VENEGAS, René/SILVA, Julio (2007): “El Manchador de Textos: Una herramienta computacional para el análisis de textos”, en: Parodi, Giovanni (ed.): Lingüística de Corpus y Discursos Especializados: Puntos de Mira. Valparaíso: Ediciones Universitarias de Valparaíso, 53-76. VILLASEÑOR, Luis/MONTES, Manuel/PÉREZ, Manuel/VAUFREYDAZ, Dominique (2002): “Comparación léxica de corpus para generación de modelos de lenguaje. Proceeding IBERAMIA”, en: Workshop on Multilingual Information Access and Natural Language Processing (Noviembre): Sevilla: España. VINE, Bernardette (2004): Getting things done at work. Amsterdam: Benjamins. WAGNER, Claudio (1998): “El Atlas lingüístico y etnográfico de Chile por regiones (ALECh)”, en: Estudios Filológicos 33, 119-129. — (1999): “Llevar a cuestas, Atlas lingüístico y etnográfico de Chile (ALECh)”, en: Estudios Filológicos 34, 193-200. WEBER, Elizabeth/Bentivoglio, Paola (1991): “Verbs of cognition in spoken Spanish: A discourse profile”, en: Fleischman, Suzzanne/Waugh, Linda (eds.): Discourse Pragmatics and the Verb: The Evidence from Romance. London: Routledge. 194-213. WEINRICH, Harald (1974): Estructura y función de los tiempos en el lenguaje. Madrid: Gredos. WIGNELL, Peter (2007): On the discourse of social science. Darwin, N.T.: Charles Darwin University Press. ZARZALEJOS, José (2001): En el titular está el periódico. .

PARODI-01

29/1/10

11:06

Página 183

PARODI-01

29/1/10

11:06

Página 184