Corpora no Ensino de Línguas Estrangeiras [1 ed.]
 9788563623669

Table of contents :
APRENDIZAGEM DIRECIONADA POR DADOS:
7
uma homenagem a tim johns (1936-2009)
Mike Scott (Aston University / Lexical Analysis Software Ltd.)
12 PREFÁCIO
Vera Lúcia Menezes de Oliveira e Paiva ( ufmg / cnp q / fapemig)
17 INTRODUÇÃO
22 conceitos, técnicas & análises
LINGUÍSTICA DE CORPUS:
Vander Viana (Queen’s University Belfast)
WORKING CLOSELY WITH CORPUS:
93
análise de colocações
adverbiais em inglês para negócios
Andréa Geroldo dos Santos ( usp )
CORPORA NO ENSINO DO INGLÊS ACADÊMICO:
133
padrões léxico-gramaticais em
abstracts de pós-graduandos brasileiros
Carmen Dayrell ( usp )
FILMES COMERCIAIS:
168
uma perspectiva da aplicação de
pesquisa em corpus na sala de aula
Marcia Veirano Pinto ( puc-sp )
Renata Condi de Souza ( puc-sp )
CORPORA E ENSINO DE TRADUÇÃO:
183
o papel do auto-monitoramento e da
conscientização cognitivo-discursiva no
processo de aprendizagem de tradutores novatos
Fabio Alves ( ufmg )
Stella e . o . Tagnin ( usp )ARTIGOS DE CARDIOLOGIA EM PORTUGUÊS E ALEMÃO:
contribuições da pesquisa em corpus
para o ensino de leitura instrumenta L
198
Maria José Bocorny Finatto ( ufrgs )
Leonardo Zilio ( ufrgs )
Elisandro José Migotto ( ufrgs )
APLICAÇÃO DO CONCEITO
DE TRANSCATEGORIALIDADE
AO ENSINO DE FRANCÊS COMO LÍNGUA ESTRANGEIRA:
o caso da marca ‘mas’
228
Adriana Zavaglia ( usp )
Marion Celli ( usp )
GRAMATICALIZAÇÃO DA DOR
EM PORTUGUÊS E ESPANHOL:
uma abordagem comparada com
subsídios da linguística de corpus e da
linguística sistêmico-funcional
261
Adriana Silvina Pagano ( ufmg )
Giacomo Patrocínio Figueredo ( ufmg )
COMO USAR A LINGUÍSTICA DE CORPUS NO
ENSINO DE LÍNGUA ESTRANGEIRA POR UMA
LINGUÍSTICA DE CORPUS EDUCACIONAL BRASILEIRA
Tony Berber Sardinha ( puc-sp )
293
GLOSSÁRIO DE LINGUÍSTICA DE CORPUS
Stella e . o . Tagnin ( usp ) 349
CORPORA ON-LINE
Stella e . o . Tagnin ( usp ) 354
SOBRE OS AUTORES 362

Citation preview

CORPORA NO ENSINO DE LÍNGUAS ESTRANGEIRAS

Corpora no Ensino de Línguas Estrangeiras © HUB Editorial 2010 HUB EDITORIAL Rua das Palmeiras, 214 01226-010 São Paulo SP Brasil Tel.: 55 - 11 - 3661 - 1150 E-mail: [email protected] Website: www.hubeditorial.com.br Todos os direitos reservados. Nenhuma parte deste manual pode ser reproduzida ou usada sob qualquer forma ou meio, sem consentimento por escrito por parte dos Editores.

Coordenação Editorial Susanna Florissi Assistente Editorial Bruna Soares Cababe Projeto Gráfico/Editoração Cia. de Desenho

ISBN xxx-xx-xxxxx-xx-x

CORPORA NO ENSINO DE LÍNGUAS ESTRANGEIRAS

APRENDIZAGEM DIRECIONADA POR DADOS: 7

uma homenagem a tim johns (1936-2009) Mike Scott (Aston University / Lexical Analysis Software Ltd.)

12

PREFÁCIO Vera Lúcia Menezes de Oliveira e Paiva (ufmg / cnpq / fapemig)

17

INTRODUÇÃO

22

conceitos, técnicas & análises

LINGUÍSTICA DE CORPUS: Vander Viana (Queen’s University Belfast) WORKING CLOSELY WITH CORPUS: 93

análise de colocações adverbiais em inglês para negócios Andréa Geroldo dos Santos (usp) CORPORA NO ENSINO DO INGLÊS ACADÊMICO:

133

padrões léxico-gramaticais em abstracts de pós-graduandos brasileiros Carmen Dayrell (usp) FILMES COMERCIAIS:

168

uma perspectiva da aplicação de pesquisa em corpus na sala de aula Marcia Veirano Pinto (puc-sp) Renata Condi de Souza (puc-sp) CORPORA E ENSINO DE TRADUÇÃO:

183

o papel do auto-monitoramento e da conscientização cognitivo-discursiva no processo de aprendizagem de tradutores novatos Fabio Alves (ufmg) Stella e. o. Tagnin (usp)

ARTIGOS DE CARDIOLOGIA EM PORTUGUÊS E ALEMÃO:

contribuições da pesquisa em corpus para o ensino de leitura instrumentaL

198

Maria José Bocorny Finatto (ufrgs) Leonardo Zilio (ufrgs) Elisandro José Migotto (ufrgs) APLICAÇÃO DO CONCEITO DE TRANSCATEGORIALIDADE AO ENSINO DE FRANCÊS COMO LÍNGUA ESTRANGEIRA:

o caso da marca ‘mas’

228

Adriana Zavaglia (usp) Marion Celli (usp) GRAMATICALIZAÇÃO DA DOR EM PORTUGUÊS E ESPANHOL:

uma abordagem comparada com subsídios da linguística de corpus e da linguística sistêmico-funcional

261

Adriana Silvina Pagano (ufmg) Giacomo Patrocínio Figueredo (ufmg) COMO USAR A LINGUÍSTICA DE CORPUS NO ENSINO DE LÍNGUA ESTRANGEIRA POR UMA LINGUÍSTICA DE CORPUS EDUCACIONAL BRASILEIRA Tony Berber Sardinha (puc-sp)

293

GLOSSÁRIO DE LINGUÍSTICA DE CORPUS Stella e. o. Tagnin (usp)

349

CORPORA ON-LINE Stella e. o. Tagnin (usp)

354

SOBRE OS AUTORES

362

Corpora no Ensino de Línguas Estrangeiras | 7

APRENDIZAGEM DIRECIONADA POR DADOS:

uma homenagem a tim johns (1936-2009)1 Mike Scott (Aston University / Lexical Analysis Software Ltd.)

Já nos anos 80 do século passado, o educador Tim Johns da Universidade de Birmingham usava corpora com os seus alunos, na maioria pós-graduandos, matriculados em cursos de aperfeiçoamento de inglês com propósitos acadêmicos. Foi nessa época que ele criou a expressao data-driven learning (aprendizagem direcionada por dados, em português). Em 1986, Johns, de forma autodidata, já tinha vários anos de programação de microcomputadores e havia experimentado o poder da nova tecnologia. Assim, escreveu sobre o perigo de desenvolver programas tão sofisticados que roubariam do aluno a oportunidade de resolver seus próprios problemas: “o perigo pedagógico de que, ao tornar o programa mais potente, se possa passar à máquina tarefas que deveriam ser deixadas para o aprendiz”2 (johns, 1986, p. 156). Além disso, já estava consciente, como educador de longa data, da importância do processo de inferência. De nada adianta simplesmente informar, pois para que haja aprendizagem o aluno tem de se esforçar. Esse esforço consiste em perceber, raciocinar, inferir e associar. Ele precisa se empenhar para perceber a regra, ou seja, enxergar o padrão. De posse de uma nova ferramenta da qual ele mesmo foi um dos primeiros autores, o concordancer (concordanciador) para uso em computador,

1 2

Esse texto é uma versão revisada e traduzida para o português de Scott (2009).

No original: “the pedagogic danger that one may, by making the program more powerful, be giving the machine tasks to do that should be left to the learner”.

8 | Corpora no Ensino de Línguas Estrangeiras

Johns percebeu que os dados poderiam induzir o aprendiz a “gerar suas próprias questões, e testá-las face às evidências”3 (johns, 1986, p. 160), um processo que já chamava de “ver o aprendizado de língua como um tipo de atividade de pesquisa”4 (johns, 1986, p. 159-160). Poucos anos mais tarde, Tim Johns publica um artigo seminal (johns, 1991), e lança um novo termo que desde então é associado a seu nome. Já no título dessa publicação figura a expressão data-driven learning (aprendizagem direcionada por dados), que passaria a ser conhecida pela abreviação ddl. Na ddl, o aluno observa alguns ou muitos exemplos das formas linguísticas (dados) que precisa aprender, e chega às conclusões que consegue (aprendizado). São os dados que, junto com o esforço e o raciocínio do aluno, determinam a aprendizagem, não as regras dadas pelo professor. No artigo, Johns (1991) chega a três conclusões a respeito da aprendizagem direcionada por dados. Primeiro, com o uso do concordanciador, o professor nem sempre saberá de antemão exatamente a quais conclusões chegará a classe. Segundo, essa falta de previsibilidade da aula pode alterar a processo de ensino-aprendizagem, podendo chegar até a preocupar o professor. Terceiro, o processo de raciocínio cria uma espécie de conscientização gramatical (johns, 1991, p. 3) muitas vezes inovadora e sutil. Tim Johns foi muito importante para mim, como guia, alguém que se entusiasmava sempre e enxergava o mundo com humor. Bom garfo – me lembro de acompanhá-lo a um restaurante em São Paulo, onde serviam lulas na própria tinta, e tive a felicidade de estar com ele novamente em Barcelona, alguns anos mais tarde, quando comemos arroz negro, um prato semelhante. Devo tê-lo conhecido por volta do outono de 1975. Alguém do Conselho Britânico havia sugerido que eu fosse a Birmingham falar com o Tim, já famoso por suas ideias de ensino de inglês acadêmico. Alguns anos mais tarde, o reencontrei quando Tim foi convidado como palestrante para um seminário do Projeto de Inglês Instrumental em Natal, Rio Grande do Norte. Lembro-me ainda da explicação que ele deu sobre o matrix text. Trata-se de um texto que apresenta informações que poderiam ser resumidas numa tabela. O

3

No original: “generate his or her own questions, and to test them out against the evidence”. 4

No original: “the view of language learning as a species of research activity”.

Corpora no Ensino de Línguas Estrangeiras | 9

exemplo mostrado por ele falava de sistemas de governo. Tim havia conversado com o próprio autor do texto – de renome mundial – e juntos haviam percebido que embora a estrutura intelectual do argumento se prestava ao formato matrix (três colunas e três linhas), o texto não estava redigido de modo que isso fosse fácil de perceber. No sábado, fomos à praia, a ufrn mantinha uma casa para seu pessoal descansar e ali, no meio do sol ardente, comemos feijoada. Tim foi o único que conseguiu terminar sua porção individual e ainda ajudou outros a terminar a deles. Na época, talvez na mesma refeição, pedi-lhe seu conselho sobre computadores pessoais. Estavam começando a ser comercializados a preços acessíveis. Tim logo explicou que entre as várias marcas, a melhor na época era uma tal de New Brain, com tantas vantagens que seria bobagem comprar outro modelo. Consegui um em outubro de 1982. Só que logo percebi que, sem software (quase não existiam programas para esse modelo; e, em Florianópolis, então, onde eu residia na ocasião, não havia mesmo software algum para o New Brain), o computador, por melhor que fosse, valia menos que um lápis. O jeito era ou guardar no armário, ou aprender a criar o software. Assim comecei um hobby que implicava bastante luta. Felizmente, o New Brain tinha um bom manual, pois a Internet ainda não existia, e eu não tinha livros nem conhecia outro meio de aprender a programar. Mesmo assim, precisava com frequência adivinhar o sentido das partes técnicas, experimentar, tropeçar e às vezes me machucar. Data-driven learning! Logo depois, em julho de 1983, Tim foi a São Paulo participar de um Instituto de Verão (acho que se chamava assim, embora fosse em julho...) na

puc-sp. Durante duas semanas, ficamos alojados num apartamento formando um grupo muito alegre, eu e Nelia Scott, Malcolm Coulthard e Carmen Rosa Caldas Coulthard, Tim, e ainda Mike Potter, que na época era o English Language Officer do Conselho Britânico no Rio de Janeiro. Tim havia ido à China e convenceu-nos a preparar comida chinesa – ele era o mestre que dirigia as obras com sabedoria culinária e conhecimento do autêntico. Em 1988, Tim passou de novo por São Paulo. Havia ficado algumas semanas no sul, creio que na ufrgs, mas em São Paulo queria deixar com algumas universidades cópias do novo programa para fazer concordâncias. Chamava-se Micro-concord e já estava na lista de publicações da Oxford University Press. Tim ficou hospedado em meu apartamento. Mostrou-me o programa e deixou cópias comigo para passar adiante; pediu que eu

10 | Corpora no Ensino de Línguas Estrangeiras

proporcionasse ajuda aos usuários. Na época, nem ele nem eu sabíamos como era complicado oferecer manutenção e ajudar o usuário, e acho que eu tirei nota baixa nesse quesito. Eu só conseguia fazer funcionar algumas das funções do programa. Mas ao menos entendi o propósito. Já que havia passado algumas semanas no sul, Tim estava acostumado a assistir à novela das sete, Que rei sou eu?. Sabia português o suficiente para entender os elementos principais. Data-driven learning de novo. Em nosso apartamento, não poderia dar outra: Tim fazia questão de ver e nós também pegamos gosto pela sátira política na novela. Pouco depois dessa visita (apesar de viciado em novela), passei a brincar com a possibilidade de programar algo semelhante ao Micro-concord. Só pondo a mão na massa achei que poderia entender o mistério de algumas das funções do programa. Mandei cópia para o Tim, já de volta a Birmingham. E assim nasceu a ideia de nossa colaboração no que veio a ser o MicroConcord (scott & johns, 1993), publicado também pela Oxford University Press. Desde então, Tim e eu nos encontramos em alguns congressos, na universidade dele ou na minha. Tim não queria se aposentar quando chegou a 65 anos de idade, e a política de apostentadoria não permitia outra coisa. Solteiro, vivia para as aulas, o jazz, o xadrez (era mestre), as viagens e a boa comida. Na aposentadoria, viajava e continuava a participar de congressos. Escrevia sobre o escritor Arthur Ransome. Junto com amigos de infância, passaram um trote na escola onde haviam estudado em 1950 (parece que inventaram um ex-aluno chamado Lionel Trumble, mandaram para a escola uma carta da ‘viúva’ do dito cujo, e receberam de volta uma carta lembrando do ex-aluno e elogiando seu caráter). Tim participava da vida de forma plena. A saúde, porém, não lhe permitiu uma vida longa. Na foto, de 2003, ele parece tão saudável, tão interessado em discutir ideias, mas já sofria de problemas nas coronárias e andava com dificuldade. Enfim, Tim Johns foi um homem brilhante. Interessava-se por muitos aspectos da vida, mas sobretudo pelo entendimento entre as pessoas. Com seu senso de humor, explicava e discutia sempre com o intuito de entender melhor. Sabia que não sabia de tudo – sinal de que sabia bem mais do que Tim Johns, em foto de 2003 a maioria.

Corpora no Ensino de Línguas Estrangeiras | 11

A formação dele poderia tê-lo levado a altos postos como, por exemplo, na carreira diplomática. Porém, felizmente se deu conta, ainda aos 25 anos de idade, que o ensino era o que se adequava melhor ao seu temperamento e a sua inteligência. Data-driven learning. É o que Tim Johns praticava, e é o que nos deu. Os melhores exemplos ainda estão no site, os Kibbitzers que criou.5 Para ele, um Kibbitzer essencialmente oferece um problema surgido em aula, que ele investiga com o aluno, e em que chegam a enxergar como funciona o item que deu origem ao problema. Pela leitura desses Kibbitzers ou do texto de 1986 ou 1991, fica óbvio que Tim não era adepto de uma única interpretação, era antidogmático. Via mais fundo do que qualquer um.

Referências bibliográficas

johns, t. Micro-concord: a language-learner’s research tool. System, v. 14, n. 2, p. 151-162, 1986. johns, t. Should you be persuaded: two samples of data-driven learning materials. elr Journal, v. 4, p. 1-16, 1991. scott, m.; johns, t. MicroConcord. Oxford: Oxford University Press, 1993.

scott, m. In memory of Tim Johns. International Journal of Corpus Linguistics, v. 14, n. 3, p. 271-273, 2009.

5

Infelizmente, o site está atualmente fora do ar. Há, contudo, uma tentativa de recriá-lo por pesquisadores da Universidade de Aston.

12 | Corpora no Ensino de Línguas Estrangeiras

PREFÁCIO Vera Lúcia Menezes de Oliveira e Paiva (ufmg / cnpq / fapemig)

Os trabalhos reunidos no livro Línguas estrangeiras & corpora: ensino e pesquisa evidenciam um enorme avanço nas investigações sobre o emprego de dados gerados pelos estudos de corpora no ensino de línguas/tradução e, de forma mais geral, nos estudos da linguagem. Uma nova dimensão é dada a esse tipo de pesquisa ao se utilizarem informações multilíngues e diversidade metodológica. Os recursos computacionais conferiram aos estudos da Linguística de Corpus um espaço legitimado dentro dos estudos linguísticos. Iniciativas como a deste livro demonstram a importância de se manter esse espaço de pesquisa em ebulição. As estruturas linguísticas e o léxico sempre ocuparam lugar central ao longo da história do ensino de línguas, mas, só depois do advento de tecnologias computadorizadas, foi possível manipular dados da língua em uso, em gêneros diversos, e para propósitos comunicativos diferentes. Os dados gerados pelas novas ferramentas permitem agora ir além dos estudos lexicais e gramaticais e incluir questões textuais e pragmáticas, como demonstram alguns dos capítulos deste livro. A história do ensino de línguas registra que os métodos abandonaram os textos literários e passaram a usar frases isoladas, geralmente criadas com propósito pedagógico. O mesmo acontece até hoje com os textos encontrados nos manuais didáticos, verdadeiros (pre)textos para se enfatizarem estruturas gramaticais. No método clássico, como nos ensina Howatt (1984, p. 131), textos clássicos autênticos eram utilizados para o ensino da gramática. O ensino de vocabulário focava a etimologia, um modo seguro para explicar significados e ortografia. No método de gramática e tradução, os textos autênticos foram

Corpora no Ensino de Línguas Estrangeiras | 13

substituídos por frases exemplificatórias do aspecto gramatical selecionado, e o vocabulário era apresentado em listas de palavras, com as respectivas traduções, que se esperava que os alunos memorizassem. No método direto, a gramática deveria ser deduzida de práticas tais como descrição de gravuras, mapas, perguntas e respostas em simulações de situações reais. As palavras novas deveriam ser ensinadas de forma mais contextualizada, ou seja, inseridas em frases e associadas a ilustrações. No método áudio-lingual, o foco principal era a memorização, por meio de repetição, de estruturas linguísticas de forma a automatizar o seu uso. Assim como no método direto, enfatizava-se a necessidade de se aprenderem as palavras em contexto e não de forma isolada. O número de palavras por unidade didática era limitado, pois se acreditava que a aquisição de vocabulário deveria ser retardada até que uma parte substancial do sistema gramatical fosse aprendida. Com o advento das abordagens comunicativas, advoga-se o uso real da linguagem e os bons materiais passam a fazer uso de textos autênticos em uma diversidade de gêneros textuais. As palavras e as estruturas linguísticas, agora a serviço das funções da linguagem, passam a ser vistas em termos de suas relações internas e externas, dentro de práticas sociais da linguagem escrita ou oral, ou seja, em textos autênticos. O vocabulário novo emerge das funções da linguagem, dos propósitos comunicativos e do papel dos interlocutores. Muito se tem insistido na importância do texto autêntico, mas muitos materiais ainda se valem de textos simulados. Mas, que palavras devem ser ensinadas? Como se dá essa escolha? Em Paiva (2004), eu mencionava a importância de corpora para a construção dos dicionários Collins cobuild English Language Dictionary (sinclair, 1989) e o Cambridge International Dictionary of English (procter, 1995). Naquele texto, eu registrava que essas publicações resgatavam o interesse pela frequência de palavras cuja origem remonta ao final do século xix quando Sweet, conforme registro em Howatt (1984, p. 187), postulava que o vocabulário deveria ser firmemente controlado por um método racional. Sweet defendia que 3.000 palavras seriam suficientes para o ensino de língua inglesa, excetuando, é claro, o vocabulário especializado. Dentre outras informações históricas, registrei no mesmo texto que “em 1953, West publicou sua lista de cerca de 2000 palavras (excluindo-se as derivadas) na denominada General service list of English words” (paiva, 2004, p. 80). Os critérios usados por West, segundo Morris (1964, p. 31) foram:

14 | Corpora no Ensino de Línguas Estrangeiras • frequência de palavras; • valor estrutural; • universalidade no que diz respeito à área geográfica; • abrangência do assunto; • valor dos propósitos da definição; • valores para formação de palavras, • funções estilísticas da palavra.1

Na década de 1970, as listas perderam seu prestígio e Wilkins (1972, p. 117-118) assim se pronunciava: Os dados de frequência originais parecem correr risco de se perder entre essas outras considerações. Não há dúvida de que aqueles itens que apareceriam em uma lista de 2.000 palavras mais comuns são, de fato, palavras úteis para a aquisição de um estrangeiro. Mas, como vimos, a aprendizagem não pode ficar restrita a esses itens. O próprio professor, normalmente, não escolhe que itens de vocabulário seus alunos irão aprender […]. Quanto mais o ensino de língua é orientado para atender às necessidades do aprendiz mais provável será que as situações usadas no ensino produzam linguagem “útil” sem ser necessário recorrer a um inventário de itens lexicais de antemão. Uma previsão comportamental razoável pode exercer a função que seria executada pela contagem de frequência de palavras.2

As previsões de Wilkins (1972) não se efetivaram e com o avanço das tecnologias computadorizadas e a criação de corpora diversos, o interesse em frequência de palavras e estruturas linguísticas e discursivas também

1

Minha tradução de “Word frequency / Structural value / Universality in respect of geographic area / Subject range / Value of purposes of definition / Values for word-building / Stylistic functions of a word”. 2

Minha tradução de “The original frequency data seem in danger of getting lost among these other considerations. No doubt those items that would appear on a list of the 2,000 most common words in a language are indeed useful words for a foreigner to acquire. But, as we have seen, learning could not be confined to these items. The teacher himself does not normally choose what vocabulary items his pupils will learn. […] The more language teaching is oriented towards meeting the needs of the learners the more likely it is that the situations used for teaching will produce ‘useful’ language without it having been necessary to draw up an inventory of lexical items beforehand. A reasonable behavioural prediction may do the work that a vocabulary frequency count sets out to do”.

Corpora no Ensino de Línguas Estrangeiras | 15

reapareceu. Willis e Willis (1989), por exemplo, produziram uma série didática, baseando-se no corpus do projeto cobuild. A série dividida em três volumes incluía textos reais, perfazendo um total de 2.500 palavras. Ao final de cada unidade, as palavras novas eram listadas e seu total adicionado aos anteriores. No Brasil, como constata Berber Sardinha (neste volume), não temos registro de livros didáticos que se valeram desse recurso, mas isso não significa que professores não utilizem dados de corpora em suas atividades docentes, como comprovam algumas das experiências e sugestões narradas neste livro. Esta coletânea demonstra que a utilização de corpora não se limita a questões lexicais. O escopo da Linguística de Corpus vem se diversificando, pois novos corpora, novas perguntas de pesquisa e novas ferramentas computadorizadas emergem em ritmo acelerado. Assim, podemos ampliar os critérios usados por West (1953), dependendo do objetivo do ensino. Os trabalhos aqui reunidos demonstram que podemos usar corpora para identificar padrões léxico-gramaticais; colocações; padrões textuais macro e microestruturais; comparar frequência e usos de aspectos lexicais, gramaticais e discursivos em duas línguas, por meio de corpora paralelos; identificar aspectos pragmáticos etc. A Linguística de Corpus tem mudado nossa visão sobre a linguagem em uso e apesar de sua aplicação em sala de aula ainda ser tímida, tanto no exterior quanto no Brasil, trabalhos como os que encontramos neste livro podem incentivar a incorporação de novas práticas pedagógicas com dados de corpora na sala de aula. Como primeira leitora deste livro, sinto-me presenteada com estudos inovadores e tendências bastante promissoras nos estudos com corpora. O livro reforça a importância de se ver o léxico não como fenômeno isolado, mas em conexão com a gramática, a pragmática e com as comunidades de práticas sociais da linguagem. Tenho certeza de que o leitor encontrará, neste livro, inspiração para se apropriar de uma nova forma de ver a língua e de ensiná-la.

16 | Corpora no Ensino de Línguas Estrangeiras

Referências bibliográficas

howatt, a. p. r. A history of English language teaching. Oxford: Oxford University Press, 1984.

morris, i. The art of teaching English as a living language. New York: Macmillan, 1964.

paiva, v. l. m. o. Ensino de vocabulário. In: dutra, d. p.; mello, h. (Eds.). A gramática e o vocabulário no ensino de inglês: novas perspectivas. Belo Horizonte: Faculdade de Letras/ufmg, 2004. p. 71-101. procter, p. (Ed.). Cambridge International Dictionary of English. Cambridge: Cambridge University Press, 1995.

sinclair, j. (Ed.). Collins London: Collins, 1989.

cobuild English language dictionary.

west, m. General service list of English words. London: Longman, 1953.

wilkins, d. a. Linguistics in language teaching. London: Edward Arnold, 1972.

willis, d.; willis, j. Collins cobuild English course. London: Collins, 1989.

Corpora no Ensino de Línguas Estrangeiras | 17

INTRODUÇÃO Há 50 anos o professor de línguas talvez não concebesse que seria possível observar, por exemplo, uma coleção de mais de 100 milhões de palavras quase que instantaneamente. Afinal, tais coleções estavam apenas começando em centros de pesquisa de universidades no chamado primeiro mundo. Mesmo que tivesse tal visão, o professor possivelmente seria levado a supor que precisaria se deslocar para alguma ‘línguateca’ – lugar em que essa coleção estaria fisicamente armazenada – para poder consultá-la. Dificilmente imaginaria que tal recurso estaria – como ocorre atualmente – disponível em nossas próprias casas a qualquer momento do dia ou da noite, não sendo necessário marcar um horário e/ou reservar uma sala. É exatamente o trabalho com essas coleções de língua em uso – denominadas de corpora – que o presente livro deseja abordar. Reunindo pesquisas com base na observação do uso linguístico, Línguas estrangeiras & corpora: ensino e pesquisa busca contribuir tanto para o avanço do conhecimento científico quanto para a ampliação das possibilidades de aplicação de corpora no ensino – seja de línguas estrangeiras, seja de tradução. É fato que a atividade na área de Linguística de Corpus, disciplina que estuda o uso da língua por meio da observação de linguagem autêntica, tem aumentado de forma consistente no Brasil nos últimos anos, mas ainda se faz notar uma ausência de bibliografia em língua portuguesa que possa atender às necessidades daqueles que não lidam diretamente com o inglês, língua na qual grande parte da produção mundial é escrita. Além disso, apesar de o uso de corpora se fazer presente no Brasil principalmente desde o final da década de 90, sua interface com a educação ainda é pouco explorada. Nesse sentido, esta obra ocupa um lugar de destaque, sendo a primeira publicação que reúne

18 | Corpora no Ensino de Línguas Estrangeiras

estudos sobre as línguas alemã, espanhola, francesa, inglesa e portuguesa, propondo uma conversa entre pesquisadores e professores de línguas. Para atingir o objetivo delineado anteriormente, nove capítulos compõem a presente coletânea. Com especial preocupação em relação à clareza dos conceitos aqui abordados, o volume se inicia com uma visão panorâmica da disciplina em pauta. Intitulada “Linguística de Corpus: conceitos, técnicas e análises”, a contribuição de Vander Viana (Queen’s University Belfast) apresenta os principais tópicos dessa área em linguagem acessível ao leitor iniciante, sem perder de vista o rigor metodológico que pauta a pesquisa de corpora. O autor não só introduz os temas e técnicas principais, como também ilustra essas últimas com pesquisas realizadas no âmbito brasileiro e com perguntas do interesse do professor de línguas estrangeiras. A exploração de línguas estrangeiras com corpora, conforme prometido no título desta publicação, é iniciada com o inglês. O texto de Andréa Geroldo dos Santos (Universidade de São Paulo) tem seu ponto de partida na questão pedagógica: a autora observa que as colocações adverbiais recebem pouca atenção em livros didáticos de inglês instrumental na área de negócios. Por esse motivo, opta por construir um corpus representativo desse campo de atuação para que possa verificar quais colocações adverbais se revelam fundamentais para o aluno de inglês para negócios. No fim do capítulo, a preocupação educacional é retomada a partir da discussão de possíveis aplicações educacionais para os resultados encontrados. O mesmo ciclo ensino-pesquisa-ensino é encontrado no capítulo intitulado “Corpora no ensino do inglês acadêmico: padrões léxico-gramaticais em abstracts de pós-graduandos brasileiros”, de Carmen Dayrell (Universidade de São Paulo). Também baseada na área de inglês instrumental, essa contribuição enfoca, contudo, a produção de resumos em língua inglesa por alunos das áreas de Física, Ciências Farmacêuticas e Computação. De forma mais específica, a autora contrasta o uso dos verbos ‘present’, ‘find’ e ‘show’ na produção de alunos brasileiros com aquela característica de publicações internacionais dessas áreas. Por fim, a autora sugere uma possibilidade de aplicação de seus resultados na sala de aula de língua inglesa. O escopo da atuação de linguistas de corpus é ampliado com o capítulo de Marcia Veirano Pinto e Renata Condi de Souza (ambas da Pontifícia Universidade Católica de São Paulo) ao proporem a investigação de roteiros de filmes em língua inglesa. Nesse sentido, o capítulo intitulado “Filmes comerciais:

Corpora no Ensino de Línguas Estrangeiras | 19

uma perspectiva da aplicação de pesquisa em corpus na sala de aula” revela-se especialmente importante para os professores de inglês geral que lançam mão de tal recurso audiovisual em suas aulas e/ou que gostariam de saber como isso pode ser realizado por meio da Linguística de Corpus. Após breve apresentação sobre as funções realizadas por ‘just’ nos roteiros fílmicos investigados, as autoras discorrem de forma mais específica sobre uma aplicação pedagógica para conscientizar os estudantes de inglês acerca do emprego de tal palavra. O último texto que aborda o inglês, de Fabio Alves (Universidade Federal de Minas Gerais) e Stella Tagnin (Universidade de São Paulo), introduz uma perspectiva distinta: a proposta de investigação contrastiva de um par de línguas. Com base nos estudos da tradução, os autores discorrem sobre como os estudantes podem ter um papel mais ativo e autônomo em sua própria formação universitária. Diferentemente das outras contribuições, “Corpora e ensino de tradução: o papel do automonitoramento e da conscientização cognitivo-discursiva no processo de aprendizagem de tradutores novatos” não apresenta uma seção específica sobre implicações pedagógicas uma vez que grande parte do capítulo é dedicada à exploração de como isso pode ser realizado na prática em relação à compilação de glossários para o par inglês-português. A língua alemã encontra seu espaço no capítulo de Maria José Bocorny Finatto, Leonardo Zilio e Elisandro José Migotto (todos da Universidade Federal do Rio Grande do Sul). Com base na perspectiva contrastiva, os autores propõem uma investigação de dois corpora comparáveis de artigos científicos de cardiologia em alemão e em português. De forma mais específica, essa contribuição mostra como a análise de corpus pode ser aplicada aos interesses dos professores de leitura instrumental, abordando tanto questões estruturais quanto terminológicas. As perspectivas pedagógicas são apresentadas nas conclusões do capítulo, sugerindo algumas formas pelas quais os resultados podem ser integrados ao fazer do professor de alemão. A preocupação com o ensino de línguas estrangeiras é latente no capítulo de Adriana Zavaglia e Marion Celli (ambas da Universidade de São Paulo), intitulado “Aplicação do conceito de transcategorialidade ao ensino de francês como língua estrangeira: o caso da marca ‘mas’”. Após traçar um panorama histórico dos diferentes métodos adotados no ensino de francês como língua estrangeira, as autoras se detêm na análise de uma palavra gramatical – a conjunção ‘mas’ em português. Longe de ter uma única

20 | Corpora no Ensino de Línguas Estrangeiras

possibilidade de tradução para o francês (a saber, ‘mais’), as pesquisadoras listam as diversas formas de expressão dessa ideia registrada no corpus por elas investigado. O capítulo igualmente contempla a indicação detalhada de uma proposta de atividade a ser implementada por professores de francês, com base nos resultados da pesquisa linguística realizada. A língua espanhola é representada neste volume pelo capítulo de Adriana Silvina Pagano e Giacomo Patrocínio Figueredo (ambos da Universidade Federal de Minas Gerais). Diferentemente das outras contribuições, a proposta analítica desta pauta-se na Linguística Sistêmico-Funcional para explorar as formas de expressão da dor em português e espanhol. Para tanto, os autores analisam como usuários dessas línguas falam/escrevem sobre suas dores físicas, em entrevistas, textos informativos e fóruns. As aplicações educacionais apresentadas no texto concernem ao ensino tanto de línguas estrangeiras quanto de tradução. O último capítulo da presente coletânea tem como objetivo trazer o foco da discussão mais explicitamente para a questão educacional. Em “Como usar a Linguística de Corpus no ensino de língua estrangeira. Por uma Linguística de Corpus educacional brasileira”, Tony Berber Sardinha (Pontifícia Universidade Católica de São Paulo) discorre sobre diferentes tipos de materiais de ensino com o auxílio de corpora. Após fazer uma revisão da abordagem pedagógica baseada em linhas de concordância e em textos, o autor detalha o que entende por atividades multimídia/multigênero com base em corpora. Na segunda parte do capítulo, há uma visão retrospectiva de parte da produção nacional sobre o uso da Linguística de Corpus, permitindo que diretrizes e perspectivas futuras sejam delineadas. O livro contempla ainda dois elementos pós-textuais com vistas a auxiliar o leitor iniciante na área: um glossário e uma lista de corpora on-line, ambos compilados por Stella Tagnin. Uma breve descrição da formação e experiência dos contribuidores deste projeto, assim como seus endereços eletrônicos, pode ser encontrada na última seção deste volume, intitulada “Sobre os autores”. Esperamos que esta publicação auxilie no desenvolvimento da área de línguas estrangeiras e corpora em termos tanto de pesquisa quanto de aplicações educacionais. Não nos parece que essas sejam áreas distintas, isto é, que devam caminhar separadamente. Como apontado de forma mais específica nos capítulos que seguem a esta introdução, é preciso reforçar o

Corpora no Ensino de Línguas Estrangeiras | 21

intercâmbio entre esses campos de atuação. Tal troca, no entanto, deve ocorrer em uma via de mão dupla: a pesquisa deve informar o fazer docente da mesma forma que o trabalho do professor deve prover parâmetros para a realização de novas investigações. Esperamos que o leitor se sinta motivado a fazer parte desse trajeto.

22 | Corpora no Ensino de Línguas Estrangeiras

LINGUÍSTICA DE CORPUS:

conceitos, técnicas & análises1 Vander Viana (Queen’s University Belfast)

abstract: This chapter aims at presenting an overview of Corpus Linguistics. To this end, it first discusses the most important concepts in this field such as those of corpus, word, frequency and language patterns. The second part of the present text describes three of the methodological procedures in corpus research: word lists, keywords and concordance lines. These are illustrated by the probing of Lácio-Ref, a corpus of written Brazilian Portuguese (see aluísio et al., 2003), with the help of WordSmith Tools (scott, 2009a). In order to broaden the scope of how these methods may be applied in the language realm, references are also made to previous investigations carried out by Brazilian researchers, which have adopted the same techniques. Additionally, some questions are proposed and discussed so as to show the ways in which these methods may be used in connection with language teaching. All in all, the chapter paves the way for the novice to fully understand the specific studies which are presented in this volume. Introdução Entendida como o campo do conhecimento dedicado à investigação da linguagem, a Linguística não está distante do fazer de professores de línguas estrangeiras. Apesar de tal constatação ser lógica pelo fato de ambas – tanto a ciência quanto a atuação pedagógica – estarem voltadas para o mesmo objeto de análise/ensino, há aqueles profissionais para os quais a Linguística remete tão somente a uma matéria cursada na época da formação universitária. O estudo da linguagem, contudo, subjaz à prática em sala de aula: é preciso entender o funcionamento de uma língua estrangeira para que seja possível facilitar a compreensão de como nela os alunos podem expressar suas ideias.

1

Agradeço a Danielle Menezes e Stella Tagnin pela leitura crítica de uma versão anterior deste capítulo e pelas sugestões dadas para sua redação.

Corpora no Ensino de Línguas Estrangeiras | 23

Esse estudo também se faz presente de forma indireta em conversas nas salas dos professores quando se discute, por exemplo, a adequação de determinado traço linguístico em redações escritas por discentes. Não há, no entanto, uma única forma de se obter respostas para dúvidas acerca do emprego de uma língua. Uma possibilidade corresponde ao uso da intuição: um falante lança mão de seu conhecimento para julgar a adequação ou inadequação de certo uso linguístico, assim como para indicar uma solução mais apropriada no segundo caso. A principal questão aqui é que a intuição permite o acesso ao conhecimento internalizado que se tem sobre uma língua ou ao que se imagina ser a mesma, o que não corresponde necessariamente ao seu uso efetivo (tsui, 2004, p. 39). Outra questão que geralmente se apresenta é a necessidade de se consultar um ‘falante nativo’ da língua-alvo porque seria ele (somente ou principalmente) quem deteria o conhecimento necessário para dirimir essa dúvida. Tal exigência, entretanto, alija do processo uma grande maioria de professores no Brasil, que não são ‘falantes nativos’ da língua estrangeira que ensinam. Por outro lado, pode-se estudar o funcionamento de uma língua a partir de uma abordagem que privilegie o uso de dados. Em vez de se recorrer ao conhecimento intuitivo, observa-se como a língua é utilizada por seus usuários. Nesse sentido, entende-se que “a linguagem não pode ser inventada; ela só pode ser capturada”2 (sinclair, 1997, p. 31). Em outras palavras, para compreender a questão linguística é necessário basear o estudo em um alicerce empírico no qual os resultados advêm da observação de exemplos reais. Por ser calcada em dados, a necessidade de se recorrer a um ‘nativo’ fica à margem do processo, podendo a investigação ser realizada por ‘falantes não nativos’ da língua estrangeira. O presente capítulo tem como objetivo apresentar os principais conceitos e técnicas da segunda perspectiva acima delineada – aquela baseada em dados –, que vem a ser denominada de Linguística de Corpus, ilustrando-os por meio de análises. Para tanto, o texto se estrutura em seis partes. A Seção 2, que segue esta introdução, lida com a conceituação e classificação de corpora antes de explicar alguns dos principais preceitos em Linguística de Corpus.

2

Todas as traduções são de minha autoria. No original: “Language cannot be invented; it can only be captured”.

24 | Corpora no Ensino de Línguas Estrangeiras

Posteriormente, o foco recai na palavra, principal unidade analítica dos estudos realizados nessa área. Na Seção 4, são discutidos quatro padrões que dão conta da cosseleção de palavras, a saber, colocação, coligação, preferência e prosódia semânticas. Por sua vez, os procedimentos metodológicos para a análise de dados encontram espaço na seção seguinte. Todas as técnicas descritas são apresentadas a partir da investigação de um corpus escrito em língua portuguesa. Além disso, de forma a demonstrar suas possíveis aplicações, há referências adicionais a estudos que tenham feito uso dessas técnicas, assim como a indicação de perguntas a serem exploradas no contexto pedagógico. As considerações finais são tecidas na sexta parte, que encerra o capítulo. Do corpus à linguística A noção inicial a ser compreendida na Linguística de Corpus é apresentada em seu próprio nome a partir do uso de um sintagma preposicional que explicita o modo de investigação da linguagem que ela prioriza. Deve-se, portanto, primeiramente especificar o que se entende por ‘corpus’. Após uma análise da literatura sobre esse tema, Viana (2008, p. 31) define o termo como “uma compilação eletrônica e criteriosa de (amostras de) textos que ocorrem naturalmente com o objetivo de representar uma dada língua ou algum de seus aspectos mais pontuais de forma a possibilitar uma análise linguística previamente delineada”. De outra forma, isso significa afirmar que um corpus: (a) deve ser compreendido como um conjunto de textos; (b) contempla textos (orais ou escritos) que tenham sido efetivamente produzidos por falantes de determinada língua; (c) consiste numa forma de representar empiricamente o uso que se faz de uma língua em seu sentido geral ou específico; (d) é uma reprodução da produção linguística de toda a população que se quer investigar ou uma amostra representativa dessa população, com base em princípios claros e bem definidos; (e) assume a forma eletrônica com vistas a ser investigado pelo computador; (f) é concebido com o objetivo de possibilitar a realização de uma pesquisa linguística. Uma das características mais controversas de um corpus relaciona-se à sua representatividade (item (c) acima) uma vez que, na maioria dos casos, não há como estabelecer de forma precisa e segura o que isso exige em termos práticos. A exceção concerne aos projetos nos quais os corpora representam

Corpora no Ensino de Línguas Estrangeiras | 25

a totalidade do uso linguístico, como numa investigação a respeito do uso da linguagem nas obras de certo autor falecido – por exemplo, Jorge Amado. Esse conjunto de dados é finito visto que não há nenhum empecilho (teórico) à coleta de todas as suas obras. No entanto, o mesmo não ocorre quando se deseja estudar a produção literária brasileira do século xxi, uma vez que ela está em constante expansão nos dias atuais. O mesmo problema também ocorre quando se opta por uma época passada. Supondo que se deseje analisar a prosa literária do século xx, não parece ser possível coletar todas as suas instâncias no Brasil – quer por autores renomados que tiveram suas obras publicadas, quer por escritores de menor reconhecimento social. Apesar da inexistência de regras claras para garantir a representatividade, alguns critérios são úteis na compilação de corpora representativos. Um deles corresponde à noção de diversidade: um corpus que objetiva representar a totalidade de uma língua precisa abarcar uma ampla gama de gêneros discursivos, contextos de produção, participantes (de diversas faixas etárias, origens geográficas, sexos, classes sociais etc.), entre outros. Ao mesmo tempo, a diversidade deve ser temperada com a concepção de equilíbrio. Por exemplo, uma coletânea composta somente por textos escritos não representa uma língua, da mesma forma que outra com textos disponíveis em sites de jornais não é passível de ser compreendida como uma amostra da linguagem jornalística. Em ambos os casos, o que se tem é uma compilação mais específica, a saber, um corpus escrito e outro de linguagem jornalística on-line. Associada à noção de representatividade, tem-se a questão do tamanho de um corpus, critério para o qual também não há uma definição clara o suficiente (cf. tognini-bonelli, 2001, p. 57; bowker e pearson, 2002, p. 45). Esse tamanho pode ser ditado em termos práticos pelas restrições impostas quando da compilação do corpus, como aponta Pearson (1998, p. 59). Sinclair (2004, p. 189), no entanto, argumenta de forma inequívoca a favor de grandes corpora ao afirmar que “não há nenhuma virtude em ser pequeno”.3 De acordo com a proposta do autor, ainda que uma diminuta coletânea de textos seja reconhecida como um corpus para a comunidade científica, os resultados derivados dele serão limitados, não possibilitando a realização de uma investigação de fôlego (sinclair, 2004).

3

No original: “There is no virtue in being small.”

26 | Corpora no Ensino de Línguas Estrangeiras

Nesse cenário, é mais do que apropriado pautar-se a compreensão do tamanho de corpora a partir da proposta de Bowker e Pearson (2002, p. 45-46): Infelizmente, não há regras consistentes e seguras que possam ser seguidas para determinar o tamanho ideal de um corpus. Em vez disso, você terá de tomar essa decisão baseado em fatores como as necessidades de seu projeto, a disponibilidade de dados e a quantidade de tempo de que você dispõe. É muito importante, no entanto, que não se suponha que maior é sempre melhor. Você pode descobrir que consegue obter mais informações úteis de um corpus que é pequeno, mas bem planejado, do que de um que é maior, mas não é personalizado para atender às suas necessidades.4

Isso implica que a adequação do conteúdo de um corpus deve prevalecer sobre questões acerca de seu tamanho. Dessa forma, garante-se que os dados sejam representativos do uso da linguagem que se deseja investigar, ponto fundamental para se realizar uma pesquisa de corpus. Uma vez que corpora representam uma língua ou um recorte dela, eles podem ser classificados de acordo com critérios distintos. A Figura 1 resume a taxonomia aqui proposta, a ser explicada e exemplificada em seguida.

4

No original: “Unfortunately, there are no hard and fast rules that can be followed to determine the ideal size of a corpus. Instead, you will have to make this decision based on factors such as the needs of your project, the availability of data and the amount of time that you have. It is very important, however, not to assume that bigger is always better. You may find that you can get more useful information from a corpus that is small but well designed than from one that is larger but is not customized to meet your needs”.

Corpora no Ensino de Línguas Estrangeiras | 27

Critérios Abrangência Meio Tempo

Número de períodos históricos Relação com a atualidade

Renovação Línguas

Número

Corpus Geral Especializado Oral Escrito Sincrônico Diacrônico Contemporâneo Histórico Dinâmico Estático Monolíngue Multilíngue Paralelos

Alinhados Não alinhados Não paralelos

Produtores

De primeira língua (l1) De segunda língua (l2) De língua estrangeira (le)

Emprego

Estudo Referência Figura 1: Taxonomia de corpora

No tocante à abrangência de seu conteúdo, um corpus é compreendido como geral ou especializado. No primeiro caso, tem-se o British National Corpus (bnc) e o American National Corpus (anc), cujo objetivo principal é documentar o uso da língua inglesa, respectivamente, em suas variedades britânica e americana.5 No segundo caso, há, por exemplo, o compara que visa registrar o uso das línguas portuguesa e inglesa em textos literários originais e traduzidos.6

5

Informações adicionais a respeito desses corpora podem ser encontradas, respectivamente, em

e . 6

Desenvolvido pela Linguateca, baseada em Portugal, o compara está disponível em .

28 | Corpora no Ensino de Línguas Estrangeiras

Quando os dados linguísticos são considerados a partir do meio no qual são veiculados, um corpus é designado, em linhas gerais, como oral e/ ou escrito.7 O Projeto c-oral-rom, por exemplo, consiste em um conjunto de corpora orais de línguas românicas tais como espanhol, francês, italiano e português.8 Por outro lado, o corpus negr@ é descrito como escrito na medida em que busca representar a língua alemã tal como utilizada em textos jornalísticos.9 Outro critério para a classificação de corpora corresponde à quantidade de períodos históricos representados. Um corpus sincrônico busca atestar o uso da linguagem em um espaço de tempo determinado, como no tocante ao Mac-Morpho, que contém textos publicados na Folha de São Paulo do ano de 1994.10 De modo diferente, um corpus diacrônico objetiva documentar as formas como uma dada língua foi e/ou é utilizada em diversos períodos de tempo. Nesse último caso, tem-se, por exemplo, o Corpus do Português, que contém textos dos séculos xiv ao xx.11 A questão temporal é também passível de ser abordada a partir de sua relação com a atualidade.12 Um corpus é caracterizado como contemporâneo

7 A distinção entre oral e escrito é uma forma simplificada de se referir aos possíveis textos incluídos em um corpus. Sabe-se, no entanto, que a descrição não é tão direta quanto pode parecer com a existência, por exemplo, de textos escritos para serem falados (como no caso de discursos políticos) e de textos falados para serem escritos (como em um memorando ditado por um gerente a uma secretária). 8

o c-oral-rom é um projeto internacional cujo site principal é encontrado no endereço .

9

O negr@ encontra-se brevemente descrito, nas línguas alemã e inglesa, em . A segunda versão desse corpus contabiliza 355.096 palavras. 10

Contemplando 1.167.183 palavras, o Mac-Morpho é parte integrante do projeto Lácio-Web (cf. aluísio et al., 2003), cujo site está disponível em . 11

O Corpus do Português, desenvolvido por Mark Davies e Michael j. Ferreira, pode ser consultado em . Ao todo, o corpus contempla aproximadamente 45 milhões de palavras nas variedades brasileira e portuguesa.

12

As duas classificações temporais não devem ser entendidas como excludentes, mas como complementares. Um corpus pode ser descrito tanto em termos do número de períodos históricos quanto em relação com a atualidade. Os critérios são apresentados de forma separada aqui apenas para fins de explicação da taxonomia proposta.

Corpora no Ensino de Línguas Estrangeiras | 29

quando a coleção de textos reflete o tempo presente: o Corpus of Contemporary American English (coca) contém textos produzidos de 1990 até 2009.13 Já uma coletânea de textos como o Tycho Brahe é descrita como um corpus histórico, visto que contempla textos em português de autores nascidos entre os séculos xiv e xix.14 Corpora podem ser diferenciados com base na renovação (ou não) de seus dados. No caso de o material linguístico ser constantemente alterado de forma a refletir a mudança de uso da língua, ele é designado de dinâmico. O Collins Wordbanks Online é um exemplo desse tipo de corpus.15 A maior parte dos corpora existentes, no entanto, corresponde a coleções em que a inclusão ou exclusão de textos não é permitida. Esses são denominados de corpora estáticos. O número de línguas é também empregado como um critério para a diferenciação de corpora. Um projeto como o Corpus e Lessico di Frequenza dell’Italiano Scritto Contemporaneo é reconhecidamente monolíngue visto que abarca somente a língua italiana.16 De forma diferente, o Corpus Multilíngue de Aprendizes (Comaprend), como o próprio nome indica, é uma coletânea descrita como multilíngue já que contempla redações escritas por alunos das línguas alemã, espanhola, francesa, inglesa e italiana.17 Os corpora multilíngues podem ser paralelos. Esse é o caso do Corpus de Tradução (CorTrad), desenvolvido na Universidade de São Paulo, já que engloba textos originalmente escritos em português e suas respectivas

13

Informações adicionais sobre esse corpus compilado na Brigham Young University encontram-se em . Nesse mesmo endereço, o usuário tem acesso a uma interface de busca que permite investigar as mais de 400 milhões de palavras do coca. 14 Ver para mais detalhes a respeito desse corpus, que atualmente contabiliza 2.406.898 palavras. 15

A versão integral do Collins Wordbanks Online é oferecida comercialmente em .

16 O endereço virtual referente a esse projeto é . 17 O Comaprend, parte integrante do Projeto comet, está em fase de compilação e seus dados são restritos a pesquisadores cadastrados (cf. ).

30 | Corpora no Ensino de Línguas Estrangeiras

traduções para a língua inglesa, e vice-versa.18 Uma característica adicional de corpora paralelos diz respeito ao seu possível alinhamento, ou seja, indica-se a correspondência entre, por exemplo, frases e/ou parágrafos nas línguas investigadas. A questão da língua também pode ser abordada pelo viés dos produtores dos textos incluídos em um corpus. Quando os textos são escritos em determinada língua por falantes que a têm como materna, diz-se ter um corpus de primeira língua (l1), língua nativa ou materna. Esse é o caso do Louvain Corpus of Native English Essays (locness) que contempla redações em inglês produzidas por britânicos ou americanos.19 Diferentemente, um projeto como o International Corpus of Learner English (icle) é geralmente descrito na literatura como ‘de aprendiz’.20 Viana (2008, p. 35), no entanto, propõe que essa terminologia seja modificada para ‘corpus de l2’ ou ‘corpus de le’ – de acordo com a situação de produção – para que se evite uma concepção ideológica em que “todos os falantes de le [estariam] em uma posição de aprendizes eternos da qual eles nunca sairiam”. Os corpora podem ser igualmente classificados a partir de seu emprego em uma pesquisa específica. Caracteriza-se um corpus como de estudo quando se deseja observar, descrever e explicar o uso da linguagem registrado nos textos nele contidos. Já um corpus de referência representa uma coletânea de textos que provê o padrão de comparação para o corpus de estudo. Ambos os conceitos são especialmente importantes quando da extração de palavras-chave (cf. Seção 5.3). Por fim, acrescenta-se um elemento extra na classificação de corpora, a saber, a comparabilidade entre eles. Essa característica é atribuída àquelas coletâneas que, com exceção de uma variável, seguem critérios semelhantes

18

O CorTrad conta com três subcorpora: jornalístico, literário e técnico-científico. Seus dados podem ser investigados a partir de uma interface de busca disponibilizada em .

19

Uma descrição do locness, corpus disponível comercialmente, pode ser encontrada em .

20

O Projeto icle é coordenado pelo mesmo grupo de pesquisa belga responsável pela comercialização do locness. De acordo com as informações publicadas em , a coleta de dados envolve 25 países, dos quais 18 já a completaram.

Corpora no Ensino de Línguas Estrangeiras | 31

(ou iguais) de compilação. Assim sendo, no caso do International Corpus of English (ice), que busca registrar o uso do inglês em países nos quais ele é empregado como língua oficial, a variável nacional é o que individualiza cada um dos corpora.21 A comparabilidade, no entanto, não se restringe a corpora monolíngues. Os subcorpora temáticos (astronomia, computação, futebol etc.) do Corpus Técnico-Científico (CorTec), por exemplo, também são descritos como comparáveis já que a seleção de seus textos foi pautada por características semelhantes nas duas línguas (português e inglês).22 A Linguística de Corpus consiste, portanto, numa forma de investigação empírica da linguagem a partir da exploração sistemática de um corpus. Nessa área, não há uma seleção de dados seja para excluí-los do ou incluí-los no escopo da análise (leech, 1992): o pesquisador deve analisar todas as ocorrências de um determinado traço linguístico existente no corpus e somente essas instâncias. Em termos práticos, isso corresponde à prática de não descartar dados por eles não se adequarem a uma teoria que se desejar ‘provar’, assim como exemplos não devem ser inventados para ‘comprovar’ tal teoria. Em sendo o corpus uma amostra de prática social (tognini-bonelli, 2001), a pesquisa deve ser baseada no que ele efetivamente registra. Ressalta-se que a exaustividade descritiva dos procedimentos metodológicos adotados na Linguística de Corpus contribui sobremaneira para a cientificidade dos estudos realizados nessa área. Com a exposição detalhada e objetiva das etapas seguidas – tanto para a coleta quanto para a análise de dados –, torna-se possível a replicação do estudo por outros pesquisadores que desejem fazê-lo. Nesse sentido, abrem-se múltiplas possibilidades de confirmação ou refutação de investigações anteriores, possibilitando o avanço do conhecimento. Em termos de agenda de pesquisa, não se objetiva levantar o que possivelmente há de universal em todas as línguas, como é o caso com a tradição gerativa, conforme aponta Leech (1992). A Linguística de Corpus, baseada na visão de linguagem como probabilidade (halliday, 1992 – ver Seção 4), prioriza o estudo de padrões de uso em línguas específicas, por parte de um dado grupo de pessoas, em gêneros / registros particulares, entre outras possibilidades.

21 22

Para mais detalhes a respeito do projeto, ver .

A interface de busca do CorTec, que faz parte do Projeto comet, pode ser acessada em .

32 | Corpora no Ensino de Línguas Estrangeiras

Devido ao uso do computador na investigação de corpora, os estudos dessa área geralmente começam por uma análise da forma, já que essa é mais facilmente identificada por ferramentas computacionais. No entanto, isso não significa que a Linguística de Corpus se ocupe tão somente desse aspecto. Pelo contrário, a atividade de pesquisa deve ser pautada pela investigação tanto da forma quanto da função do objeto de análise (leech, 2004). Para concretizar seus objetivos de pesquisa, linguistas de corpus lançam mão de métodos quantitativos e qualitativos (leech, 1992; biber, conrad e reppen, 1998). Assim sendo, muitos dos estudos de corpora têm seu início numa metodologia quantitativa – como a observação de frequências de uso – já que é esse o aspecto mais facilmente implementado pelo computador. No entanto, esse não deve ser o único ponto de uma investigação, que necessariamente requer um trabalho de análise qualitativa. Nesse panorama, a abordagem qualitativa se revela fundamental para decodificar os padrões evidenciados pela ferramenta computacional, contextualizar os resultados em termos tanto da população investigada como da macroárea em que uma pesquisa se insere, explicar o que os números revelam, e interpretar os achados de uma forma geral. As próximas seções têm como objetivo discutir algumas das questões fundamentais referentes à pesquisa na Linguística de Corpus seja a partir da perspectiva de reconhecimento e uso de aspectos de uma língua (cf. Seções 3 e 4) ou de tarefas analíticas propiciadas pelo computador (cf. Seção 5). Palavra: conceituação e identificação automática O conceito de ‘palavra’ assume grande importância na área de Linguística de Corpus devido a sua facilidade de identificação pelo computador. Contudo, o reconhecimento dessa unidade como uma sequência de letras precedida e seguida por um espaço, conforme propõe McArthur (1998, p. 47), não está livre de problemas. Um dilema que confronta tal definição diz respeito às palavras hifenizadas. No caso da língua espanhola, por exemplo, o pesquisador deve decidir, de antemão, se ‘ex-república’ e ‘centro-derecha’ / ‘centro-izquierda’, como indicam os fragmentos23 a seguir, constituem uma ou duas palavras.

23

Os dois exemplos foram retirados do Corpus del Español, que pode ser acessado em .

Corpora no Ensino de Línguas Estrangeiras | 33 El inmediato recrudecimiento del conflicto kosovar llevó a la Organización del Tratado del Atlántico Norte (otan) a efectuar, el 15 de junio siguiente, unas maniobras aéreas cerca de la frontera meridional serbia (al sur de Kosovo, en territorios de Albania y de la Ex-República Yugoslava de Macedonia) para presionar al gobierno de Milosevic con el objeto de que éste detuviera la represión contra la población albanesa de Kosovo. Cierto, las cosas se han complicado, pero eso no significa que el Pri deje de ser centro-derecha, el prd centro-izquierda y el Pan, por más que quiera acercarse al centro, sigue siendo de derecha, esto es, un partido reaccionario en el más acabado estilo decimonónico.

Intuitivamente, o primeiro caso parece indicar uma única palavra, visto que ‘ex-’ seria considerada uma unidade menor, a saber, um prefixo. O mesmo, no entanto, não se verifica no tocante a ‘centro’, que é uma palavra por si só em espanhol.24 Um problema semelhante ocorre na língua inglesa na qual uma mesma palavra pode ocorrer com ou sem hífen. Esse é o caso de ‘working class’, como ocorre nos períodos25 reproduzidos a seguir. They are a mix of ordinary working-class people and affluent business families who were trapped in their town flats when the fighting started and now know they have lost their country homes for ever. Chips became part of the British diet during the 19th century and over the course of the next hundred years, according to the Frozen Food Information Service, fish and chips became not only a national institution, but also a vital source of nutrition for the working class.

A pergunta a ser feita aqui é se há diferença entre a primeira ocorrência de ‘working-class’, na qual é empregada para qualificar o substantivo ‘people’, e a segunda, em que ‘working’ funciona como adjetivo modificador do substantivo ‘class’. O pesquisador precisa decidir se haverá uma forma

24

No exemplo a seguir, a palavra ‘centro’ é empregada, com referência política, de forma autônoma: “Mire, para nosotros hay tres conclusiones claras: en primer lugar, se produce – un incremento importantísimo del apoyo popular en torne a nuestro partido; en segundo lugar, el Partido Popular pasa a ser ¡el centro de la vida política española y se confirma como partido de centro en el panorama político!”. 25

Ambos os fragmentos foram extraídos do British National Corpus (bnc) a partir da ferramenta de busca desenvolvida por Mark Davies (cf. ).

34 | Corpora no Ensino de Línguas Estrangeiras

única de contabilizar ‘working (-) class’ ou se eles serão tratados de modos distintos. O emprego de hífens corresponde a somente um dos casos nos quais é preciso determinar o que se entende por ‘palavra’. Há também questões a serem consideradas no tocante ao uso do apóstrofo (‘don’t’ x ‘do not’, em inglês), de números em algarismos arábicos e por extenso (‘4’ x ‘quatro’), e de números arábicos e romanos (‘2’ x ‘II’), para citar apenas três casos. Talvez mais importante do que definir uma resposta para as questões aqui propostas e/ou estabelecer uma camisa de força a ser seguida por linguistas de corpus, faz-se essencial apontar a inexistência de uma definição clara para o conceito de palavra, normalmente tomado como inequívoco. Essa colocação aponta para a necessidade latente de registrar, de forma objetiva e clara, quais são os procedimentos adotados para a quantificação de palavras. A consistência metodológica se revela fundamental quando se opta por realizar a comparação de diferentes corpora ou de suas partes constitutivas – seja em um mesmo estudo ou em pesquisas realizadas por diferentes pessoas. Devese sempre garantir que a comparação seja realizada nos mesmos termos; caso contrário, corre-se o risco de os resultados não serem confiáveis. O termo ‘palavra’ em Linguística de Corpus abrange, na verdade, dois conceitos mais específicos. De forma a ilustrá-los, será utilizado um texto publicado no caderno Agrofolha da Folha de S. Paulo no dia 03 de maio de 1994.26 Girolanda vira raça A raça girolanda nasceu no Brasil a partir do cruzamento entre o gado holandês e o gir. O primeiro é europeu, mais produtivo, enquanto o zebuíno gir veio da Índia e é mais rústico. A girolanda foi reconhecida como raça pelo Ministério da Agricultura há apenas três anos. Alguns criadores de girolanda afirmam que a raça é a ideal para o clima tropical. Ela é criada sem tratos sofisticados. Há criatórios onde vacas da raça conseguem média individual de 20 litros de leite. Mas são exceções.

26

O texto integra o domínio de Ciências Agrárias do Lácio-Ref sob o nome de jo-if-

fsp-agf-03mai94_10.

Corpora no Ensino de Línguas Estrangeiras | 35

Em sendo solicitado a contabilizar o número de palavras do texto acima, um leitor humano provavelmente indicaria que há 89 palavras, mesmo número reportado por um editor de textos como o que é empregado para a redação deste capítulo. Em Linguística de Corpus, porém, emprega-se o termo ‘item’ (cf. ‘token’ em inglês) para se referir ao resultado do procedimento que consiste em totalizar o número de palavras existentes em um dado texto ou corpus. Assim sendo, o texto reproduzido acima contém 89 itens. Porém, as palavras são também contadas a partir do número de ‘formas’ (do inglês ‘types’), que correspondem à quantidade de palavras diferentes de um texto / corpus. Ainda em relação ao exemplo anterior, nota-se que 11 palavras são repetidas com frequências distintas, como reportado na Tabela 1. Tabela 1: Formas repetidas em um texto do caderno Agrofolha da Folha de S. Paulo do dia 03/05/94

#

Palavra

Frequência bruta

1

a

5

2

o

5

3

raça

5

4

é

4

5

girolanda

4

6

da

3

7

de

3

8

e

2

9

gir

2

10



2

11

mais

2

Para a contabilização de formas, não é levada em consideração a frequência bruta das palavras. Isso quer dizer que apesar de as palavras indicadas na Tabela 1 totalizarem 37 instâncias, elas são contabilizadas como apenas 11 para o total de formas. Tem-se, então, que o texto do caderno Agrofolha em questão contém 63 formas. Em suma, a indicação de itens corresponde ao número total de palavras, enquanto as formas representam a quantidade de palavras distintas em um texto / corpus.

36 | Corpora no Ensino de Línguas Estrangeiras

Apesar de as palavras representarem o ponto de início de muitos estudos na área de Linguística de Corpus, isso não significa que a área lida única e exclusivamente com elas. A atividade de pesquisa também enfoca, entre outros assuntos, como as palavras se combinam em corpora representativos da produção oral e/ou escrita de determinada população. Essas combinações lexicais serão o foco da próxima seção. Padrões de uso linguístico Os linguistas de corpus não concebem o uso de uma língua como um sistema de possibilidades. Em outras palavras, o objetivo de suas pesquisas não é a descrição das combinações possíveis de serem realizadas – por exemplo, o uso de adjetivo antes de substantivo em posição atributiva em língua inglesa. Em vez disso, seriam enfocados, de forma mais pontual, quais adjetivos são mais recorrentemente empregados para qualificar determinado substantivo. Isso significa que à Linguística de Corpus interessam as combinações ou padrões mais prováveis de ocorrerem. É isso, de forma resumida, que corresponde à compreensão de linguagem como probabilidade (halliday, 1992). Em outras palavras, a atividade nessa área confere especial importância à cosseleção de itens, ou seja, o uso de uma palavra irá provavelmente demonstrar certa preferência por outro item em determinado ambiente linguístico. Com vistas a explicar o que acontece quando uma língua é utilizada, Sinclair (1991) propõe a existência de dois princípios norteadores dessa atividade: o da livre escolha e o idiomático. Afirmar que a produção linguística de dado usuário é orientada pelo princípio da livre escolha significa que a seleção de cada palavra em sua fala / escrita ocorre de forma individual e sequencial. Em outras palavras, “este é um modo de ver um texto como o resultado de um grande número de escolhas complexas”27 (sinclair, 1991, p. 109). Há apenas uma única restrição ao princípio da livre escolha, que corresponde à gramaticalidade, ou seja, a necessidade de que os enunciados produzidos não violem as restrições impostas pela gramática de uma determinada língua. Por outro lado, o princípio idiomático postula que a produção linguística não é necessariamente caracterizada por inovação, mas por

27

No original: “This is a way of seeing language text as the result of a very large number of complex choices”.

Corpora no Ensino de Línguas Estrangeiras | 37

reiteração e repetição de padrões já anteriormente empregados. Assim sendo, ao falar ou escrever algo, “o usuário de uma língua tem à sua disposição um grande número de sintagmas semi-pré-construídos que constituem escolhas únicas, mesmo que pareçam ser analisáveis em segmentos”28 (sinclair, 1991, p. 120). Isso significa que o princípio idiomático envolve a seleção simultânea de estruturas maiores nas quais as palavras constituintes não estariam sujeitas à discriminação do falante e/ou escritor. Em termos mais práticos, em vez de tentar inovar a cada momento de sua produção linguística, o usuário recorreria a estruturas com as quais teve contato anterior, seja pela fala ou pela escrita de outrem. É verdade que não há nenhuma inovação na proposição do princípio da livre escolha, conforme apontado pelo próprio Sinclair (1991). O princípio idiomático, no entanto, não é compreendido da mesma forma. Como afirmam Erman e Warren (2002, p. 50), a recorrência de expressões pré-fabricadas tanto em textos orais como escritos “dá grande suporte ao princípio idiomático como formulado por Sinclair [...] e revela que a proporção da pré-fabricação na linguagem tem geralmente sido muito subestimada”.29 É a partir da compreensão do princípio idiomático que se nota a expansão de um campo de estudo denominado de Fraseologia, que lida com a observação dos padrões de uso da linguagem. Aqui essa área será abordada por meio de quatro padrões que atuam em planos distintos de uma língua. No plano da expressão lexical, emprega-se o termo ‘colocação’ para se referir ao uso estatisticamente significativo de determinada palavra em companhia de outra. De outra forma, o conceito, originalmente proposto por Firth (1957), é entendido como uma coescolha vocabular feita por falantes de uma língua. Em inglês, por exemplo, nota-se uma preferência por diferentes colocados adverbiais a depender do adjetivo que ele modifica: ‘surprising’ é frequentemente modificado por ‘hardly’, enquanto ‘significant’ é antecedido por ‘statistically’ (hunston, 2002, p. 71 e 75).

28

No original: “a language user has available to him or her a large number of semipreconstructed phrases that constitute single choices, even though they might appear to be analysable into segments”. 29 No original: “give strong support to the idiom principle as formulated by Sinclair [...] and reveal that the proportion of prefabrication in language has generally been much underestimated”.

38 | Corpora no Ensino de Línguas Estrangeiras

É preciso ressaltar que as colocações são entendidas como as associações que se revelam estatisticamente significativas (cf. sinclair, 2003). Essa é exatamente a diferença entre um padrão colocacional e uma co-ocorrência: nesse último caso, nota-se somente que uma palavra ocorre no entorno de outra, sem necessariamente haver uma relação recorrente e constante o suficiente. Para a verificação da significância estatística, são geralmente empregados testes como a informação mútua30 e o escore T31 (cf. mcenery e wilson, 1996; hunston, 2002; berber sardinha, 2004; mcenery, xiao e tono, 2006).32 No nível léxico-gramatical ou gramatical, a relação entre dois itens é denominada de coligação. Esse padrão é compreendido como “a ocorrência de uma classe gramatical ou padrão estrutural com outro, ou com uma palavra ou sintagma”33 (sinclair, 2003, p. 173). Em inglês, por exemplo, a posição de ‘flexible’ está relacionada ao que ele modifica numa oração, conforme apontado por Tognini-Bonelli (2001, p. 22). Assim, ao ser empregado com substantivos abstratos tais como ‘employment’, ‘options’ e ‘style’, o adjetivo assume uma posição atributiva, ou seja, antecede a forma nominal. No entanto, quando ‘flexible’ é utilizado para se referir a sujeitos animados, o que ocorre em um número menor de vezes, ele ocorre em posição predicativa.

30 A informação mútua mede a força colocacional de duas palavras, ou seja, a probabilidade de ambas serem empregadas conjuntamente de forma não aleatória (mcenery, xiao e tono, 2006). Um resultado maior do que três indica uma relação importante entre as palavras sob análise (hunston, 2002; berber sardinha, 2004). O problema com esse teste estatístico é que ele desconsidera a direção das palavras, isto é, elas podem funcionar tanto como base ou como colocado (hunston, 2002). 31

O escore T supre a lacuna da informação mútua por considerar a direcionalidade do uso das palavras. Por conseguinte, recomenda-se seu uso em conjunto com a informação mútua. Um resultado maior do que dois para o escore t representa que a associação entre as palavras deve ser considerada como relevante (berber sardinha, 2004). 32

Há calculadoras disponíveis na Internet que computam a informação mútua e o escore t se o usuário fornecer o tamanho do corpus de estudo, o tamanho do horizonte (isto é, a distância em número de palavras entre a base e o candidato a colocado) e as frequências brutas de ocorrência da base, do possível colocado e de ambos em conjunto. Caso haja interesse em realizar esses cálculos numa planilha de dados, recomenda-se a leitura de Berber Sardinha (2004, p. 206-208). Com relação ao uso de um programa computacional para a realização desse cálculo, ver Seção 5.3. 33

No original: “the occurrence of a grammatical class or structural pattern with another one, or with a word or phrase”.

Corpora no Ensino de Línguas Estrangeiras | 39

No âmbito semântico, trabalha-se com a preferência semântica por parte de determinada palavra. Isso significa que “às vezes na estrutura de um sintagma há uma clara preferência por palavras de um significado particular. A classe gramatical não é importante e qualquer palavra com o significado apropriado será empregada”34 (sinclair, 2003, p. 178). De forma a ilustrar tal noção, cita-se o caso de ‘completely’, geralmente utilizado para modificar uma palavra indicativa de ausência – como ‘disappeared’, ‘empty’, ‘hopeless’ e ‘gone’ – ou de mudança – por exemplo, ‘altered’, ‘changed’, ‘destroyed’ e ‘different’ (cf. partington, 2004). A existência de uma preferência por um campo semântico, no entanto, não significa que há uma equivalência no uso das palavras que fazem parte dele: aqui também são observados padrões colocacionais específicos (sinclair, 2003). Aproximando-se da expressão pragmática (tognini-bonelli, 2001), tem-se a noção de prosódia semântica, definida como “uma aura consistente de significado com a qual uma forma é imbuída por seus colocados”35 (louw, 1993, p. 157). Em outras palavras, os colocados de uma palavra acabam conferindo a ela um valor positivo, negativo ou neutro, sendo que o negativo parece predominar (mcenery, xiao e tono, 2006). É a extensão da prosódia semântica para além de uma única palavra, sendo necessariamente colocacional, que a distingue da noção tradicional de conotação de acordo com McEnery, Xiao e Tono (2006, p. 85). Ao analisar a companhia do advérbio ‘utterly’, Louw (1993) nota que seus colocados –‘blackened’, ‘burned’, ‘confused’, ‘exaustive’, entre outros – conferem a ele uma prosódia semântica negativa. O pesquisador reporta haver somente quatro exceções em um corpus de 18 milhões de palavras, sendo todas elas utilizadas em um contexto irônico, o que vem a confirmar a prosódia semântica negativa de ‘utterly’.36

34

No original: “Sometimes in the structure of a phrase there is a clear preference for words of a particular meaning. The word class is not important, and any word with the appropriate meaning will do”.

35 No original: “A consistent aura of meaning with which a form is imbued by its collocates”. 36 De acordo com Louw (1993), a violação de uma prosódia semântica seria realizada com a finalidade de gerar algum tipo de efeito no leitor / escritor seja ele de ironia, insinceridade ou humor.

40 | Corpora no Ensino de Línguas Estrangeiras

Apesar de os termos ‘preferência semântica’ e ‘prosódia semântica’ fazerem uso de um mesmo adjetivo, os padrões por eles identificados são diversos, como apontado anteriormente. No primeiro caso, o foco recai no significado dos colocados; no segundo, ressalta-se o valor afetivo de uma palavra com seus colocados. Apesar de os conceitos serem distintos, eles são interdependentes (mcenery, xiao e tono, 2006). Para Sinclair (2003), uma das maiores contribuições da Linguística de Corpus ao estudo da linguagem corresponde exatamente à revelação de prosódias semânticas. A observação e a quantificação do uso de palavras e de seus padrões são tarefas auxiliadas pelo uso de ferramentas computacionais. A próxima seção dedica-se à explicação de como o computador facilita o trabalho do pesquisador de corpus no garimpo de tais resultados. Técnicas e análises O computador desempenha papel fundamental na pesquisa em Linguística de Corpus, evitando que o analista humano gaste tempo na realização de tarefas mecânicas e repetitivas quando da exploração de grandes coleções de textos. Esse auxílio computacional possibilita que o pesquisador se detenha na análise do uso da linguagem e em sua respectiva interpretação. Esta seção tem como objetivo explicitar alguns dos procedimentos empregados na área de Linguística de Corpus.37 São detalhadas as possibilidades analíticas oferecidas por três ferramentas: gerador de listas de palavras, extrator de palavras-chave e concordanciador. Tendo em vista o uso recorrente do programa computacional WordSmith Tools (scott, 2009a) nos capítulos do presente livro, optou-se pelo emprego de tal programa também na ilustração oferecida neste capítulo, mantendo-se assim a unidade da publicação.38 Apesar de esse volume enfocar línguas estrangeiras, optou-se aqui pela investigação de um corpus em língua portuguesa, que representa um ponto em comum para todos os leitores, de forma a garantir a compreensão

37

As técnicas aqui descritas foram escolhidas com base nos métodos adotados nos capítulos incluídos no presente volume de forma tal que esse capítulo sobre Linguística de Corpus possa facilitar a compreensão dos estudos reportados a seguir. 38

Há de se ressaltar, no entanto, a existência de outros programas – como o AntConc (anthony, 2007) – que realizam tarefas iguais e/ou similares às aqui descritas com o WordSmith Tools (scott, 2009a).

Corpora no Ensino de Línguas Estrangeiras | 41

dos resultados apresentados. O corpus em questão é o Lácio-Ref, uma divisão do Projeto Lácio-Web, que objetiva prover um padrão de referência para o uso da língua portuguesa em sua variedade escrita (aluísio et al., 2003). Os textos são classificados em quatro categorias, quais sejam, domínio, gênero, meio de distribuição e tipo de texto. Para os fins deste capítulo, será explorada a diferença entre os diferentes domínios desse corpus, que correspondem a oito áreas temáticas: (a) Ciências Agrárias, (b) Ciências Biológicas, (c) Ciências da Saúde, (d) Ciências Exatas & da Terra, (e) Ciências Humanas, (f) Ciências Sociais Aplicadas, (g) Generalidades, e (h) Religião & Pensamento. Esses domínios serão entendidos no presente capítulo como subcorpora do Lácio-Ref. Além da explicação dos procedimentos de pesquisa, a seção contempla ampla exemplificação em termos tanto acadêmicos quanto pedagógicos. Em relação ao primeiro, há referências a estudos que utilizam as mesmas técnicas aqui descritas. Seguindo o foco de atuação do livro, procura-se dar ênfase à produção nacional, realizada por pesquisadores brasileiros. No tocante à discussão pedagógica, cada subseção a seguir termina com uma lista de perguntas que podem ser exploradas por professores de línguas. Assim sendo, busca-se apresentar variadas aplicações dos procedimentos descritos, assim como fornecer ao leitor referências adicionais de investigações na área de Linguística de Corpus. Gerador de lista de palavras Assim que o pesquisador tenha definido o conceito de ‘palavra’, possibilitando sua identificação por meio do computador, um dos modos de se extrair informações de um corpus corresponde ao levantamento de todas as formas que ocorrem nele juntamente com a indicação quantitativa de suas instâncias. Em outras palavras, a coleção de textos é investigada no sentido de se criar uma lista de todas as palavras diferentes com suas respectivas frequências em uma ordem a ser escolhida pelo usuário, conforme será discutido a seguir. Com a geração de listas de palavras, o foco na proposição de uma ideia fica em segundo plano para dar espaço às escolhas lexicais que foram feitas na realização dessa tarefa. O fato de um autor utilizar um número maior ou menor de determinado recurso linguístico consiste num provável traço de sua expressão estilística. De forma semelhante, se uma construção aparece mais frequentemente num determinado registro, ela é passível de ser compreendida como um traço inerente à constituição dele.

42 | Corpora no Ensino de Línguas Estrangeiras

Para a geração de listas de palavras, o usuário do WordSmith Tools (scott, 2009a) tem à sua disposição a ferramenta WordList. O primeiro passo para a compilação de tal lista é a especificação dos textos que compõem seu corpus de forma tal que o programa possa trabalhar com os arquivos correspondentes. A Figura 2 ilustra o resultado obtido com um dos subcorpora do Lácio-Ref, contendo 194 arquivos de texto.

Figura 2: Lista de palavras em ordem de frequência de um dos subcorpora do Lácio-Ref

A primeira coluna serve ao propósito de indicar a ordenação dos resultados. Na Figura 2, por exemplo, apenas as 13 primeiras palavras são apresentadas. Essas, por sua vez, são indicadas na segunda coluna, sendo seguidas por suas respectivas frequências.39 Dessa forma, tem-se que ‘de’ é a palavra mais recorrente nesse subcorpus, tendo sido empregada 10.524 vezes, o que corresponde a 5,92% de todas as palavras que ocorrem nessa coletânea de textos. Apesar de indicarem valores frequenciais, as colunas ‘Freq.’ e ‘%’ correspondem a formas diferentes de reportar o número de instâncias de determinada forma. No primeiro caso, tem-se a frequência bruta (raw

39

A coluna ‘lemmas’ será explicada posteriormente quando do processo de lematização. Já a coluna ‘set’ será apresentada na Seção 5.3 sobre o concordanciador.

Corpora no Ensino de Línguas Estrangeiras | 43

frequency, em inglês), que corresponde exatamente a uma contagem de todas as vezes que tal palavra foi efetivamente encontrada em dado texto ou corpus. Já no segundo caso, o resultado reportado refere-se à frequência normalizada ou relativa (do inglês normalized/relative frequency), que expressa o número de instâncias de uma forma a cada grupo x de itens. No caso da Figura 2, esse grupo é de 100 itens, já que a ferramenta WordList apresenta os resultados em valores percentuais.40 Em termos práticos, afirmar que ‘para’ (linha 10) ocorre 2.065 vezes no subcorpus de pesquisa permite somente uma comparação da frequência de uso dessa forma com outras formas apresentadas na mesma lista de palavras. No entanto, a posse da informação de que ‘para’ é utilizada 1,16% permite a comparação desse dado com a ocorrência de tal preposição em outros conjuntos de textos. Isso decorre da necessidade de considerar o tamanho do corpus quando a comparação envolve diferentes coleções de textos.41 A tela de resultados da ferramenta WordList também apresenta a distribuição das palavras por número de textos. Assim, se cada arquivo txt num dado corpus corresponde a um texto específico, é possível observar se as instâncias de uma palavra específica são empregadas por diferentes autores ou se elas são recorrentes em apenas alguns dos textos, o que seria um indício de uso idiossincrático e não representativo da população investigada. Ainda em relação à Figura 2, nota-se que ‘de’ ocorre em todos os 194 arquivos de texto, o que representa 100% (cf. 6ª e 7ª colunas – ‘texts’ e ‘%’, respectivamente). A

40

O número de itens a serem considerados por grupo é variável a depender do tamanho do corpus. Há, contudo, dois critérios que podem ser observados quando da escolha desse número: (a) o tamanho do corpus a ser descrito e (b) as frequências a serem reportadas. Em relação ao critério (a), geralmente opta-se por uma ordem de grandeza que se aproxime do tamanho do corpus – por exemplo, não seria apropriado utilizar a base 100 para um corpus de um milhão de palavras. Quanto ao critério (b), geralmente é preferível reportar frequências que sejam maiores do que um. Assim sendo, evita-se a noção – por vezes não muito bem compreendida – de que uma palavra ocorre 0,82%, como é o caso da preposição ‘com’ na Figura 2. Em substituição, poder-se-ia dizer que há 8,2 ocorrências dessa preposição a cada grupo de 1.000 palavras. Apesar de ser exatamente o mesmo resultado, a indicação de oito ocorrências parece ser mais facilmente entendida do que a de 0,82 instância de ‘com’. 41

A frequência relativa de um determinado traço linguístico é calculada com a realização de uma regra de três: basta multiplicar a frequência bruta de uma forma pela base comum escolhida pelo pesquisador, e dividir o resultado encontrado pelo tamanho do corpus (em número de itens).

44 | Corpora no Ensino de Línguas Estrangeiras

palavra ‘os’, no entanto, é a que ocorre em menor número de textos na Figura 2: ao todo, ela é encontrada em 167 arquivos, totalizando 86,08% dos textos. Uma lista de frequência pode representar o primeiro contato do pesquisador com seu corpus de estudo, já que ela permite a visualização das palavras mais e menos recorrentes. Esse procedimento revela inúmeros aspectos sobre o material incluído no corpus e igualmente gera hipóteses investigativas, que precisarão ser complementadas com análises mais detalhadas. Os resultados apresentados na Figura 2 parecem indicar que os textos analisados são escritos uma vez que não há nenhuma marca explícita de oralidade nas 13 palavras listadas. Esse resultado não é surpreendente já que se sabe que o Lácio-Ref é composto somente por textos do modo escrito. O conteúdo do subcorpus aqui investigado é revelado quando são observados os substantivos mais frequentes. A Figura 3 mostra que ‘preço’, o substantivo mais recorrentemente empregado nesse subcorpus, aparece na 30ª posição, contabilizando 522 instâncias. Em um exemplo hipotético no qual o pesquisador não sabe com que subcorpus lida, mas conhece a estrutura do Lácio-Ref em oito domínios gerais (Ciências Agrárias, Ciências Biológicas, Ciências da Saúde, Ciências Exatas & da Terra, Ciências Humanas, Ciências Sociais Aplicadas, Generalidades, e Religião & Pensamento), a observação da Figura 3 permite a identificação do conteúdo do material analisado.

Figura 3: Lista de palavras (com a indicação dos primeiros substantivos) de um dos subcorpora do Lácio-Ref

Corpora no Ensino de Línguas Estrangeiras | 45

Com a ocorrência de palavras que apontam para formas de combustível (linhas 31 e 37), bem como sua produção e venda (linhas 30, 35, 36 e 39), deduz-se que os textos são referentes ao domínio de Ciências Agrárias. A Figura 3 aponta para uma questão importante já anteriormente mencionada, a saber, da (im)possibilidade de generalização dos resultados para o subcorpus a partir da grande ocorrência de uma palavra em poucos textos. Nesse sentido, tanto ‘álcool’ como ‘gasolina’ figuram como recorrentes nessa coletânea de textos de Ciências Agrárias com 513 e 398 instâncias, respectivamente. A palavra ‘álcool’, além de ser a 31ª mais frequente, é também o segundo substantivo mais importante nesse subcorpus – a julgar pelos resultados apresentados pelo programa computacional. É nesse momento que deve entrar o julgamento informado do pesquisador de forma a responder se esses são efetivamente representativos do domínio estudado. A questão que se coloca aqui é que, apesar da alta frequência – resultado inquestionável –, ‘álcool’ foi empregada em apenas cinco textos e ‘gasolina’, em dois. Considerando-se que cada texto tenha sido escrito por uma pessoa diferente, não parece haver respaldo empírico para afirmar, de forma segura, que tais palavras são representantes legítimas de uma coletânea da área de Ciências Agrárias. Com efeito, nota-se que é somente uma mesma tese de doutorado que responde por muitas das instâncias de ambas as palavras nesse subcorpus.42 A título de ilustração, no caso de ‘gasolina’, há o emprego dessa palavra 397 vezes na referida tese e somente uma única ocorrência em um texto informativo proveniente de uma revista. A inclusão da palavra ‘Paulo’ como a 43ª mais frequente possivelmente represente um caso que o pesquisador deseje verificar de forma mais detalhada. Com o auxílio das linhas de concordância (cf. Seção 5.2), percebe-se que 319 das 354 ocorrências de ‘Paulo’ referem-se a ‘São Paulo’. Isso mais uma vez revela o conteúdo que foi incluído nesse subcorpus do Lácio-Ref, contemplando muitas publicações desse estado tais como o jornal Folha de S. Paulo, a revista Pesquisa fapesp e um jornal publicado pela Universidade de São Paulo. Com a mesma lista de palavras em ordem de frequência, o pesquisador tem a possibilidade de verificar quais palavras ocorreram uma única vez nesse

42

Esse tipo de informação pode ser obtido por meio do concordanciador, que será discutido na Seção 5.3.

46 | Corpora no Ensino de Línguas Estrangeiras

subcorpus. Tais palavras, denominadas em termos técnicos de hapax legomena, são indicadas na Figura 4.

Figura 4: Lista de hapax legomena do subcorpus de Ciências Agrárias do Lácio-Ref

Ao considerar que há 16.526 palavras diferentes no subcorpus de Ciências Agrárias, a Figura 4 revela que uma quantidade considerável delas ocorre apenas uma única vez nessa coletânea de textos. De forma mais específica, 46,4% de todas as palavras distintas empregadas nesse subcorpus ocorrem com frequência igual a um. A lista de palavras de um corpus em ordem de frequência pode prover ao analista sua unidade de análise. Nesse caso, o recorte metodológico é realizado de forma mais objetiva do que se simplesmente tivesse sido feito com base numa decisão unilateral. Tal procedimento é observado na investigação de letras de samba realizada por Garcia e Fachinni (2007). Após a compilação de um corpus de pesquisa com 801 composições, as pesquisadoras optam por investigar as realizações metafóricas da palavra ‘amor’ uma vez que esse é o substantivo mais frequente nos sambas das décadas de 1920 até 1990 por elas analisados. Se o objetivo, no entanto, é levantar o número de vezes que determinada palavra ocorre, convém recorrer à lista de palavras em ordem alfabética. Com tal forma de apresentação dos resultados será possível verificar com maior facilidade quantas vezes a palavra ‘línguística’ é utilizada no subcorpus de Ciências Agrárias do Lácio-Ref (cf. Figura 5).

Corpora no Ensino de Línguas Estrangeiras | 47

Figura 5: Lista de palavras em ordem alfabética do subcorpus de Ciências Agrárias do Lácio-Ref

A Figura 5 revela haver apenas uma única ocorrência de ‘linguística’. Porém, como a ordenação não é realizada por frequência, nota-se também a existência de duas instâncias de ‘língua’ e quatro de ‘linguagem’, que talvez sejam do interesse de um pesquisador que analisa, por exemplo, a inter-relação entre as Ciências da Linguagem e as Agrárias. A lista de palavras em ordem alfabética, portanto, facilita o trabalho analítico quando esse parte de um conjunto de itens específicos a serem buscados no corpus. Isso é observado, por exemplo, na investigação de Finatto et al (2006) acerca do uso de conjunções causais numa coletânea de textos didáticos da área de Química Geral. Após o levantamento de tais conjunções em três gramáticas da língua portuguesa (‘como’, ‘dado que’, ‘já que’, ‘pois’, ‘por causa que’, ‘por isso’, ‘por isso que’, ‘porquanto’, ‘porque’, ‘que’, ‘tanto mais que’, ‘uma vez que’, ‘visto como’, ‘visto que’), os pesquisadores verificam a frequência de doze43 dessas palavras/expressões em seu corpus de estudo.

43 Segundo Finatto et al. (2006), as palavras ‘como’ e ‘que’ foram desconsideradas para fins da pesquisa realizada por desempenharem um grande número de funções em português.

48 | Corpora no Ensino de Línguas Estrangeiras

O emprego da lista de palavras como um método de pesquisa tem transcendido a Linguística de Corpus, sendo aplicado em estudos de caráter semântico-discursivo. Numa investigação exploratória sobre a expressão da violência em redações de crianças (de 10 a 14 anos) do Rio de Janeiro e de Minas Gerais, Jordão et al. (2005) utilizam a ferramenta WordList como ponto inicial de prospecção de seus dados. De posse de uma lista de frequência, os pesquisadores agrupam as palavras em oito campos semânticos (bichos & natureza, contexto, educação, esportes & lazer, projeções, religião, vínculos afetivos e violência), de forma a contrastar qualitativamente essas referências nos escritos analisados. Uma lista de palavras gerada pelo WordSmith Tools (scott, 2009a) não se restringe somente à ordenação de palavras na mesma direção em que lemos um texto. Uma das possibilidades de visualização de dados propiciada pela lista de palavras em ordem alfabética corresponde à ordenação das palavras da direita para a esquerda. Dessa forma, em vez de ‘metodologia’ preceder ‘toxicologia’ como numa ordenação alfabética normal (já que a letra ‘m’ antecede a ‘t’), o resultado é justamente o contrário (cf. linhas 1.262 e 1.263 na Figura 6) uma vez que, da direita para a esquerda, a sequência ‘-ologia’ é igual e a primeira letra que difere as palavras é a ‘d’ e a ‘c’, respectivamente.

Figura 6: Lista de palavras em ordem alfabética da direita para a esquerda do subcorpus de Ciências Agrárias do Lácio-Ref

A Figura 6 revela que esse tipo de ordenação é especialmente relevante quando se faz necessário levantar todas as palavras com um determinado sufixo, já que quase

Corpora no Ensino de Línguas Estrangeiras | 49

todas as suas ocorrências são agrupadas em uma mesma área na lista de palavras. Nesse caso específico, foi possível identificar as palavras com o sufixo grego ‘-logia’. Como o programa não realiza a identificação de singular e plural, é preciso ressaltar que a segunda forma encontra-se em outro ponto da lista de frequência já que a última letra nesse caso é ‘s’. A título de ilustração, enquanto a palavra ‘metodologia’ aparece na linha 1.263 (cf. Figura 6), ‘metodologias’ só é listada na linha 12.230. Faz-se necessário, então, que o pesquisador fique atento a esses detalhes. Se, por outro lado, o objetivo da investigação é verificar quais são as palavras existentes em um corpus com radical comum, deve-se optar pela ordenação por prefixo ou sufixo. Aqui todas as ocorrências de formas relacionadas a um mesmo radical são apresentadas uma após a outra. Essas várias listas de palavras são úteis em investigações acerca de processos e/ou classes linguísticas nas quais há algum tipo de marcação prefixal e/ou sufixal. Um exemplo concerne ao estudo de Moraes (2008), que trata do uso de advérbios em textos de culinária e de direito nas línguas inglesa e portuguesa. Para tanto, a pesquisadora busca as palavras terminadas com os sufixos ‘-ly’ e ‘-mente’, respectivamente, em seus corpora de pesquisa. A lista de palavras ordenada por prefixo facilita a realização do procedimento de lematização no qual as formas diferentes de um mesmo lexema são reunidas tais como ocorre em um dicionário (cf. Figura 7).

Figura 7: Processo de lematização

A linha 19, reproduzida na Figura 7, indica que o verbo ‘abandonar’ ocorreu cinco vezes no subcorpus de pesquisa, abarcando três instâncias no infinitivo, uma na 3ª pessoa do plural do pretérito perfeito e uma na 3ª pessoa do plural do presente. O mesmo procedimento foi realizado com o adjetivo

50 | Corpora no Ensino de Línguas Estrangeiras

‘abandonados’44 e com o verbo ‘abastecer’. As formas dessas entradas são sempre exibidas na columa ‘lemmas’ com a indicação de frequência de cada. Há duas formas de realizar a lematização: manual ou semiautomaticamente. No tocante à Figura 7, optou-se pelo primeiro método. A tela reproduzida apresenta um estágio intermediário no qual as palavras a serem lematizadas aparecem riscadas e em cor cinza, indicando ainda ser possível desfazer a junção. Após a eliminação das linhas, não há como reverter a lematização, a não ser que seja gerada uma nova lista de palavras. O outro procedimento de lematização é descrito como semiautomático visto que ele também requer a ação do analista humano. É o pesquisador quem fica responsável por compilar uma lista de possíveis entradas (tais como em um dicionário) e de suas respectivas variantes a serem procuradas no corpus. Ao localizar a entrada e pelo menos uma de suas formas, o programa procederá à lematização. Vale ressaltar que a lista de palavras em ordem alfabética permite que as palavras sejam organizadas de acordo com o número de arquivos nos quais elas são encontradas. Dessa forma, são visualizadas as palavras que foram empregadas em todos os textos que integram o corpus assim como aquelas que parecem ser expressões idiossincráticas dos autores. A ferramenta WordList também fornece ao usuário do WordSmith Tools (scott, 2009a) diversos levantamentos quantitativos acerca do corpus com o qual se trabalha – resultados esses denominados de ‘estatísticas’45 pelo programa (cf. Figura 8).

44

Optou-se por ‘abandonados’ como a palavra principal já que a sua forma no singular não foi registrada no subcorpus de Ciências Agrárias. 45 Essa tela não diz respeito à realização de testes estatísticos, mas somente a resultados referentes ao que se conhece em termos técnicos como estatísticas descritivas, que, nesse caso, auxiliam a definição das características de um corpus.

Corpora no Ensino de Línguas Estrangeiras | 51

Figura 8: Estatísticas associadas à lista de palavras do subcorpus de Ciências Agrárias do Lácio-Ref

Cada coluna refere-se a um conjunto diferente de dados, indicado logo na primeira linha (‘N’). A segunda coluna é sempre uma referência a todo o corpus (denominado por ‘overall’). As outras reportam os resultados para cada um dos textos existentes no corpus. No caso dos dados de Ciências Agrárias do LácioRef, o programa retorna uma tabela com 195 colunas: uma para cada um dos 194 textos além daquela totalizadora. Com relação ao subcorpus em tela, a Figura 8 reporta a existência de 177.795 itens e 16.526 formas.46 Com esses números, a ferramenta WordList indica a relação entre a quantidade de palavras distintas e o número total de palavras em um texto e/ou corpus, que é denominada de razão forma/item. Seu cálculo é realizado a partir da divisão do número de formas pelo número de itens, multiplicando o resultado por 100. Uma vez que o valor encontrado expressa, em termos percentuais, a riqueza lexical do material linguístico sob

46

A linha na qual se lê ‘tokens used for word list’ refere-se ao número de palavras que foram totalizadas para a compilação da lista de palavras. Esse resultado pode não corresponder ao número total de itens, indicado na linha anterior, devido às configurações estabelecidas (seja pelo programador e/ou pelo usuário) para a identificação de palavras. Um exemplo aqui corresponde à substituição de qualquer algarismo arábico pelo símbolo ‘#’: ao fazer isso, a ferramenta WordList não considera os números como itens a serem incluídos como tais na lista de palavras.

52 | Corpora no Ensino de Línguas Estrangeiras

análise, um texto com uma razão forma/item de 100% seria aquele no qual nenhuma palavra é repetida. Tal padrão é praticamente impossível de ser atingido quando se trata de textos orais e/ou escritos mais longos, visto que formas gramaticais precisarão ser necessariamente empregadas para prover a ligação ou “cola textual” (cf. scott e tribble, 2006, p. 15) entre as palavras de conteúdo. O valor, então, da razão forma/item deve ser interpretado em termos relativos. Quanto mais o resultado se aproximar do teto máximo (100%), mais diversificado em termos lexicais o texto/corpus é. De forma contrária, um valor próximo ao 0% representa que há muita repetição, aqui entendida como o emprego das mesmas palavras. A razão forma/item do subcorpus de Ciências Agrárias é de 9,7% (cf. Figura 8). Sabe-se, no entanto, que o resultado dessa razão é diretamente afetado pela extensão do corpus em análise. Em outras palavras, quanto maior for a coletânea de textos, menor será a razão, já que a probabilidade de repetição de palavras cresce na mesma proporção da extensão do corpus. Com vistas a contornar esse problema, emprega-se a razão forma/item padronizada. O cálculo é semelhante ao anterior, havendo uma única diferença: em vez de a razão ser efetuada para o corpus como um todo, são levantadas razões individuais para cada grupo de x palavras, sendo que o valor de x é definido pelo usuário. O resultado final é uma média de todas as razões individuais. Para o subcorpus de Ciências Agrárias, foi empregado o valor padrão de 1.000 palavras por grupo, como indicado na Figura 8 (‘standardised ttr basis’). O resultado final é apresentado na linha correspondente a ‘standardised ttr’. Se a razão forma/item para o subcorpus em questão era de apenas 9,7%, o valor da razão padronizada é de 40,83%. A razão forma/item – seja a regular ou a padronizada – não revela muito a respeito de um texto/corpus por si só. É somente a partir da comparação de dois textos/corpora que ela pode ser devidamente interpretada. Por exemplo, se os seis domínios científicos do Lácio-Ref forem considerados subcorpora comparáveis, isto é, tendo sido desenvolvidos sob os mesmos critérios e com proporções semelhantes dos gêneros incluídos em cada um deles, a razão forma/item serve ao propósito de contrastar a expressão linguística nessas áreas do conhecimento (cf. Tabela 2).

Corpora no Ensino de Línguas Estrangeiras | 53 Tabela 2: Riqueza lexical dos subcorpora científicos do Lácio-Ref

Domínio científico

Razão forma/item padronizada

Ciências Sociais Aplicadas

59,44%

Ciências da Saúde

57,45%

Ciências Humanas

56,37%

Ciências Biológicas

42,83%

Ciências Agrárias

40,83%

Ciências Exatas & da Terra

40,19%

Nota-se que o subcorpus de Ciências Sociais Aplicadas é o que contém maior diversidade de palavras quando comparado aos outros domínios científicos do Lácio-Ref, totalizando uma razão forma/item padronizada de quase 60%. No outro extremo, com aproximadamente 40%, os textos que representam as Ciências Exatas & da Terra são aqueles nos quais se lança mão, de forma mais recorrente, de palavras repetidas. As razões forma/item regular e padronizada têm sido empregadas em diversas pesquisas lexicais, seja para permitir o contraste entre textos e/ ou gêneros numa língua ou entre línguas distintas. No primeiro caso, tem-se o estudo de Garcia e Fachinni (2007) sobre letras de samba de oito diferentes décadas do século

xx (1920-1990). A partir da comparação da razão/forma

item padronizada, as autoras notam que os sambas da década de 1990 são os que apresentam maior uso repetido de palavras. Como exemplo do segundo caso, há a comparação de O Sumiço da Santa de Jorge Amado com sua respectiva tradução para a língua inglesa – The War of Saints – por Gregory Rabassa (camargo, 2006). Ciente das especificidades que são trazidas à tona pela comparação de línguas distintas, Camargo (2006) também utiliza um corpus geral monolíngue em português e dois em inglês (um composto por traduções e outro por textos originalmente escritos nessa língua) para prover padrões de comparação às obras literárias analisadas. Ainda em relação às estatísticas descritivas apresentadas pelo WordList, o usuário tem à sua disposição: (a) tamanho médio de palavras em caracteres; (b) quantidade de frases, parágrafos, cabeçalhos e seções; (c) número médio de palavras por frase, parágrafo, cabeçalho e seção; (d) quantidade de números desconsiderados; e (e) totais de palavras contendo de 1 a 50 letras.

54 | Corpora no Ensino de Línguas Estrangeiras

Dependendo da pesquisa realizada, esses resultados específicos mostram-se úteis à análise. Lançando mão dos totais de palavras de uma letra até aquelas compostas por 13 ou mais letras, Garcia e Fachinni (2007) notam que há uma opção constante por palavras de uma, duas ou três letras em todos os sambas por elas investigados – desde a década de 1920 até a de 1990. Nesse sentido, as pesquisadoras argumentam que “[a] concentração de palavras com poucas letras nas canções pode ser explicada pelo seu caráter musical, em que são necessárias palavras com poucas sílabas para o efeito rítmico desejado” (garcia e fachinni, 2007, p. 266). Uma lista de palavras, no entanto, não precisa ser necessariamente composta por formas únicas. A ferramenta WordList também permite a geração de listas de agrupamentos lexicais (clusters, em inglês), ou seja, conjuntos multilexicais fixos. O programa computacional aqui adotado permite que essas sequências contemplem, no mínimo, duas palavras e, no máximo, 12. A Figura 9 apresenta os blocos de quatro palavras encontrados no subcorpus de Ciências Agrárias do Lácio-Ref.

Figura 9: Lista de agrupamentos lexicais em ordem de frequência do subcorpus de Ciências Agrárias do Lácio-Ref

Como já apontado, não é surpresa que agrupamentos lexicais contendo a palavra ‘Paulo’ figurem como os mais recorrentes: ‘Estado de São Paulo’ (linha 1) e ‘Universidade de São Paulo’ (linha 3). Esses necessariamente apontam para questões acerca da compilação do Lácio-Ref, que inclui muitos materiais referentes e/ou produzidos nesse estado.

Corpora no Ensino de Línguas Estrangeiras | 55

A indicação do número de textos em que ocorrem os agrupamentos lexicais é especialmente importante na interpretação dos resultados apresentados na Figura 9. Sete dessas sequências lexicais ocorrem em apenas um texto, ou seja, elas figuram como frequentes tão somente porque um único autor as empregou de forma reiterada. Por essa razão, deve-se ter cautela ao generalizar os achados de agrupamentos com ‘gasolina’ e ‘álcool’ para todo o subcorpus analisado já que não há base empírica para afirmar que eles são efetivamente características da escrita de toda a população estudada. Os agrupamentos lexicais têm sido empregados como unidade de análise em um grande número de pesquisas. Nesse sentido, a classificação funcional e estrutural proposta por Biber et al. (1999), Biber (2004) e Biber, Conrad e Cortes (2004) tem auxiliado na exploração dessas sequências por eles denominadas de ‘feixes lexicais’47 (do inglês ‘lexical bundles’).48 Ao investigar a prosa acadêmica em inglês de pesquisadores brasileiros, Viana (2006) levanta os feixes lexicais formados por quatro palavras tais como ‘on the other hand’, ‘in the case of’ e ‘the fact that the’. Após a detalhada classificação de cada um dos feixes lexicais encontrados no corpus de pesquisa, o estudo conclui que há uma aproximação da escrita de pesquisadores brasileiros e daqueles que têm o inglês como primeira língua quanto ao uso de padrões estruturais e funcionais. A mesma proposta taxonômica de feixes lexicais já foi igualmente aplicada à língua portuguesa. Ao investigar o discurso escrito de crianças provenientes de duas áreas distintas (rural e urbana), Shepherd, Zyngier e Viana (2006, p. 138) mostram, com base em dados empíricos, como “uma análise da forma e função de feixes lexicais pode revelar muito sobre formas preferidas de organização textual e visões coletivas de mundo”. No campo da literatura em língua portuguesa, Viana, Fausto e Zyngier (2007) comparam os feixes

47 48

O termo também já foi traduzido como ‘pacote lexical’ para a língua portuguesa.

A principal diferença entre os agrupamentos lexicais / feixes lexicais e os padrões apresentados na Seção 4 é que os primeiros correspondem a sequências fixas de palavras. Nesse sentido, afirmar que ‘Estado de São Paulo’ é um feixe lexical indica que essas quatro palavras são recorrentemente empregadas nessa mesma ordem no subcorpus de Ciências Agrárias. Uma sequência como ‘Cidade de São Paulo’ seria considerada como outro feixe. No entanto, tanto ‘Estado’ quanto ‘Cidade’ poderiam figurar como colocados da base ‘São Paulo’, o que não implicaria em necessariamente estabelecer uma sequência imutável para a ocorrência da base e dos colocados.

56 | Corpora no Ensino de Línguas Estrangeiras

lexicais em duas obras (canônica e popular) escolhidas por leitores como suas preferidas, a saber, Dom Casmurro, de Machado de Assis, e O Código da Vinci, de Dan Brown, em sua versão em português. A pesquisa revela a existência de uma linguagem mais padronizada na obra de Dan Brown, o que é levantado como uma das possíveis justificativas para a sua popularidade. É importante ressaltar que as mesmas facilidades anteriormente descritas para a lista de palavras são igualmente válidas no tocante aos agrupamentos lexicais. Dessa forma, a ferramenta WordList permite que uma gama similar de análises possa ser realizada não obstante o interesse do pesquisador em observar palavras isoladas ou em grupos. Por fim, são listadas a seguir algumas perguntas com o objetivo de relacionar os procedimentos aqui descritos ao fazer pedagógico de professores de línguas (materna ou estrangeira). Apesar de as questões estarem relacionadas à investigação de textos produzidos por alunos, ressalta-se que a aplicação não se restringe somente a esse tipo de dados. (a) Que palavras são empregadas com maior ou menor recorrência? No caso de um curso de inglês geral, a resposta a essa pergunta indica ao professor que palavras são utilizadas satisfatoriamente do ponto de vista quantitativo e quais potencialmente precisam ser reforçadas em sala de aula. No tocante aos cursos de inglês para fins específicos, a lista de palavras pode revelar em que medida os alunos dominam o conteúdo especializado da área que estudam. (b) Que palavras de conteúdo (relacionadas a um determinado campo semântico) podem ser encontradas nos textos investigados? Se o professor solicita que os alunos escrevam uma redação sobre o tema da beleza após uma lição vocabular acerca do mesmo tópico, espera-se que as palavras apresentadas e discutidas em sala de aula sejam empregadas nos textos escritos. Em caso negativo, isso possivelmente indica que esses itens lexicais não foram fixados pelos alunos, talvez apontando para a necessidade de um (novo) trabalho de reciclagem do conteúdo. (c) Que palavras ocorrem uma única vez no corpus? A observação de hapax legomena serve como um potencial indicador do que precisa ser ensinado (ou reapresentado). Se palavras reconhecidamente frequentes em uma língua estrangeira não são empregadas de forma consistente pelos alunos, esses precisam ser conscientizados a respeito de seus usos.

Corpora no Ensino de Línguas Estrangeiras | 57

(d) Que palavras-alvo são empregadas por somente um aluno ou por um número reduzido de discentes? A resposta a ser obtida para essa pergunta representa em que medida as palavras que devem ser especialmente enfocadas em determinado período letivo ainda não foram apropriadas por todos ou pela maioria dos alunos. (e) Como se compara a variedade lexical da produção em língua estrangeira de dois grupos de alunos? Se os grupos contemplam aprendizes de níveis distintos, ou seja, que tenham tido maior/menor contato com a língua estrangeira, espera-se que haja maior variedade lexical – aqui entendida como a razão forma/item padronizada – nos textos produzidos por alunos mais avançados. É válido ressaltar, no entanto, que para que a comparação seja realizada as tarefas precisam ser iguais (ou comparáveis). (f) O que revela o contraste da variedade lexical de falantes de uma língua estrangeira com aquela de falantes que a têm como primeira língua? Nesse cenário, o contraste não se refere a dois grupos de falantes de língua estrangeira – como no caso anterior –, mas a populações que têm relações distintas com a língua-alvo. Uma comparação da razão forma/item padronizada aqui permite visualizar em que medida os textos dos falantes de língua estrangeira se aproximam ou distanciam daqueles característicos dos usuários dessa mesma língua como primeira. Nem sempre essa pergunta é desejável no ensino de língua estrangeira porque a manutenção da identidade e da cultura dos aprendizes é um aspecto importante no fazer pedagógico. Contudo, nos casos em que os alunos serão submetidos a avaliações formais que decidirão se eles terão (ou não) a oportunidade de acesso a algo (como no tocante às provas de proficiência para o ingresso em universidades estrangeiras), talvez seja importante se alinhar às formas de expressão adotadas por falantes de uma língua como materna. (g) Que feixes lexicais são empregados de forma recorrente? A observação dos feixes lexicais permite que o professor constate quais expressões encontram-se cristalizadas como blocos no discurso discente. Esses resultados possibilitam verificar se esses feixes são adequados para a tarefa em tela, se são estruturalmente bem constituídos e se realizam diferentes funções discursivas. A presente lista de perguntas não deve ser entendida como exaustiva. Ela apenas representa algumas das possibilidades à disposição do professor

58 | Corpora no Ensino de Línguas Estrangeiras

para a observação, por meio da perspectiva de corpus, do uso de uma língua por parte de seus alunos. 5.2) Extrator de palavras-chave O extrator de palavras-chave permite o levantamento de índices linguísticos que caracterizam um corpus de pesquisa quando esse é comparado a outro de referência. Em termos visuais, o procedimento de geração de palavras-chave é representado na Figura 10 por dois círculos de tamanhos distintos.

Palavras em proporção semelhante

Corpus de referência

Palavras-chave

Corpus de estudo

Palavras-chave

Figura 10: Procedimento de palavras-chave

Como ilustrado, o corpus de referência, que proverá o padrão de comparação, precisa necessariamente ser maior do que o de estudo, o qual se deseja descrever em termos de seu léxico característico. A comparação de dois corpora produz três grupos de resultados: palavras (a) empregadas em proporção semelhante em ambos os conjuntos de texto, (b) frequentemente associadas ao corpus de estudo e (c) mais peculiares ao corpus de referência. No entanto, apenas os dois últimos grupos são reportados ao pesquisador quando da extração de palavras-chave. As palavras utilizadas em proporções semelhantes em ambos os corpora não aparecem na tela de resultados do programa computacional uma vez que o procedimento aqui adotado visa justamente ressaltar as diferenças existentes entre as compilações de textos comparadas.

Corpora no Ensino de Línguas Estrangeiras | 59

Como a Figura 10 ilustra, as palavras-chave positivas são aquelas que servem para identificar linguisticamente o corpus que se deseja descrever. Os resultados incluídos nessa listagem são os que ocorrem com maior frequência comparativa no corpus de estudo. Por outro lado, as palavras-chave negativas são aquelas particularmente mais recorrentes no corpus de referência. É fundamental ressaltar que as palavras-chave não são formas que ocorrem exclusivamente em um corpus ou em outro, diferentemente do que pode ser compreendido pela Figura 10. Tanto na teoria como na prática, elas são passíveis de serem encontradas em ambas as coletâneas de textos. A questão que se coloca aqui é que as palavras-chave são empregadas com maior frequência relativa em um corpus do que em outro. A noção de comparação é essencial na extração de palavras-chave. É preciso ter um conhecimento prévio do material a ser empregado nesse procedimento para que se possa saber exatamente em que direção os resultados apontarão. Por exemplo, um corpus como o British National Corpus (bnc) permite seu uso em um número grande e variado de investigações. Numa perspectiva interna, o bnc pode ser estudado com base em suas próprias partes constitutivas. Isso permite o levantamento de características específicas do inglês acadêmico ou de particularidades do inglês jornalístico em relação ao seu uso geral, para citar apenas dois exemplos. No âmbito externo, o bnc pode ser empregado como um corpus de referência já que é uma coletânea geral da língua inglesa em sua variedade britânica. Isso abre caminho para que ele seja comparado a um corpus menor, representativo de uma área específica do conhecimento. Nesse sentido, ao ser contrastado com uma coletânea de textos médicos, o procedimento revelará ao pesquisador uma lista de candidatos a termos em seu corpus de estudo. Para a compilação de palavras-chave, o usuário do WordSmith Tools (scott, 2009a) conta com a ferramenta KeyWords. Diferentemente da maior parte das rotinas realizadas pelo programa, o extrator de palavraschave não trabalha diretamente com os corpora envolvidos na comparação, isto é, a ferramenta não se utiliza dos arquivos txt originais como fonte de dados. Em vez desses, KeyWords trabalha com dados secundários – as listas de palavras referentes aos corpora de pesquisa e de referência. É por esse motivo que se faz necessária a compilação de duas listas de palavras, com o auxílio da ferramenta WordList (cf. Seção 5.1), antes da extração de palavras-chave.

60 | Corpora no Ensino de Línguas Estrangeiras

Considerando novamente que os subcorpora científicos do Lácio-Ref são comparáveis, tem-se a possibilidade de contrastar um deles com o conjunto formado pelos outros cinco. Essa comparação, com o uso da ferramenta KeyWords, permite ao pesquisador investigar o que é específico da disciplina sob análise. É exatamente esse resultado que aparece na Figura 11.

Figura 11: Palavras-chave positivas para um dos subcorpora do Lácio-Ref

O contraste realizado é evidenciado a partir da leitura dos primeiros quinze resultados gerados pela comparação dos subcorpora científicos do Lácio-Ref. Palavras-chave tais como ‘saúde’, ‘acidentes’, ‘aids’ e ‘gordura’, que assumem especial importância, indicam que essas são relativas ao subcorpus de Ciências da Saúde em comparação a um conjunto formado pelos outros cinco domínios científicos do Lácio-Ref. O layout da tela da ferramenta KeyWords (cf. Figura 11) é de certa forma parecido com o da WordList (cf. Figura 2) apesar de os resultados serem distintos. As quatro primeiras colunas correspondem às mesmas que aparecem numa lista de palavras regular: número de identificação da linha (‘n’), indicação da palavra-chave (‘key word’), frequência bruta (‘Freq.’) e frequência relativa (‘%’) no subcorpus de Ciências da Saúde. As duas outras colunas, cujos valores são apresentados em vermelho, referem-se à soma das ocorrências no corpus de referência (em inglês, ‘rc’ de ‘reference corpus’). A ausência de um valor percentual na coluna ‘rc. %’ indica que o total de ocorrências de determinada palavra-chave resulta em um valor percentual muito baixo, que não pode ser

Corpora no Ensino de Línguas Estrangeiras | 61

expresso somente com duas casas decimais. Assim, a palavra ‘saúde’, que figura no topo da lista apresentada na Figura 11, ocorre 1.839 vezes no subcorpus de Ciências da Saúde, representando 0,36% dos itens nele existentes. No corpus de referência, há apenas 979 instâncias, totalizando 0,02% dos itens. As principais colunas que dão suporte ao cálculo de palavras-chave correspondem à chavicidade (keyness) e ao valor de p. A chavicidade reporta o resultado de um procedimento estatístico pelo qual a ferramenta levanta o quão importante cada palavra-chave positiva é para o corpus de pesquisa em relação ao de referência (e vice-versa no caso das palavras-chave negativas).49 Quanto maior o valor apresentado nessa coluna, maior a relevância da palavra em questão. Isso permite, então, a interpretação dos resultados apresentados na Figura 11 em que ‘saúde’ (chavicidade = 5.358,83) é mais expressiva no subcorpus de pesquisa do que ‘municípios’ (chavicidade = 1.980,69). A coluna ‘p’ registra o valor desse índice estatístico. O conceito de p indica em que proporção o resultado encontrado é atribuído ao fator chance. Em outras palavras, quanto menor for o valor registrado para p, maior é a probabilidade de o resultado realmente expressar uma diferença entre, nesse caso, os domínios contrastados. Geralmente se aceita um valor de p menor do que 0,05 nas Ciências Humanas (cf. brown, 1988; van peer, hakemulder e zyngier, 2007), o que significa que há menos de cinco casos de erro em cada grupo de 100 ocorrências.50 Todas as 15 palavras-chave indicadas na Figura 11 apresentam um mesmo valor de p, que indica haver uma reduzida possibilidade de erro. As duas últimas colunas na Figura 11 já haviam aparecido anteriormente em relação à lista de palavras (cf. Figura 2). Novamente ressalta-se a possibilidade de promover a lematização de entradas em relação

49

Há duas possibilidades de testes estatísticos para a extração de palavras-chave no programa WordSmith Tools (scott, 2009a): qui-quadrado e logaritmo de verossimilhança, sendo a última a opção padrão (cf. scott, 2009b). 50

Esse valor de p não é constante para todas as áreas do conhecimento. Na medicina, por exemplo, em que os cientistas lidam com vidas humanas, não se deseja uma taxa de possível erro tão alta que gere a morte de cinco pessoas em cada grupo de 100 pacientes tratados com determinado remédio. Nas Humanas, pela diferente natureza da pesquisa, um possível erro de 5% nos resultados é aceitável, não causando nenhum problema ou comprometimento para a análise realizada.

62 | Corpora no Ensino de Línguas Estrangeiras

às palavras-chave se assim for do interesse do pesquisador. A coluna ‘set’, que permite a classificação das linhas de acordo com uma categorização desenvolvida pelo pesquisador, será discutida na Seção 5.3. Conforme descrito por Scott (2009b, p. 150), as palavras-chave geralmente são de três tipos: temáticas, gramaticais e/ou identificativas. A primeira categoria abarca todas as palavras que apontam para o assunto abordado no corpus de estudo, as quais seriam inicialmente identificadas por um analista humano. Isso fica evidente com formas tais como ‘pacientes’ (linha 7), ‘hospital’ (linha 14) e ‘doença’ (linha 15), para mencionar apenas três exemplos. As palavras gramaticais, por serem geralmente empregadas em quantidades semelhantes em ambos os corpora, não aparecem no topo da lista de palavras-chave como ocorre numa lista de palavras regular. Contudo, o surgimento delas – com altos valores de chavicidade – indica uma característica estilística do corpus estudado. No caso aqui investigado, o uso de algarismos arábicos aparece com certa proeminência nos resultados (linha 11). Parece ser de interesse, portanto, uma investigação mais detalhada a respeito do emprego desses números nos textos de saúde. Finalmente, as palavras identificativas correspondem a nomes próprios: por serem formas únicas de expressão, é esperado que apareçam entre as palavras-chave. A título de ilustração, citamse ‘Cuiabá’ (linha 73 / chavidade = 306,85), ‘Gioielli’ (linha 80 / chavicidade = 292,10) e ‘Ribeirão’ (linha 105 / chavicidade = 250,07). Os resultados da análise de palavras-chave, conforme descrito anteriormente, são divididos em dois grupos. Aqueles apresentados na Figura 11 estão relacionados às palavras-chave positivas, ou seja, aquelas que caracterizam o corpus de pesquisa – nesse caso, a coletânea de textos de Ciências da Saúde no Lácio-Ref. Porém, a ferramenta KeyWords também lista as ocorrências de palavras-chave negativas, que fornecem a identidade linguística do corpus de referência. Em outras palavras, essas palavras-chave são muito frequentes no corpus de referência, mas não ocorrem na mesma proporção que seria esperada no de estudo. As 15 palavras-chave negativas mais importantes (devido aos seus respectivos valores de chavicidade) encontram-se listadas na Figura 12. Vale ressaltar que, como a ordenação é feita em ordem crescente de chavicidade negativa, a última palavra (linha 2.013) é mais importante do que a primeira (linha 1.999).

Corpora no Ensino de Línguas Estrangeiras | 63

Figura 12: Palavras-chave negativas no subcorpus de Ciências da Saúde do Lácio-Ref

Não há muita diferença no layout da Figura 12 quando comparada ao da Figura 11. Apesar de elas serem apresentadas de forma descontínua neste capítulo, ambas integram a mesma tela de resultados. A maior alteração corresponde ao uso da cor vermelha também para assinalar as palavras-chave negativas e a chavicidade. Em relação à chavicidade, faz-se necessário apontar que o valor negativo não indica haver um débito do corpus de estudo em relação ao uso lexical. O sinal de menos apenas indica que o cálculo foi realizado na direção contrária: a palavra em questão é mais frequente no corpus de referência do que no de estudo. A palavra-chave negativa mais importante é ‘art’ (linha 2.013), que ocorre apenas 16 vezes nos textos de Ciências da Saúde. Todas essas instâncias referem-se a uma forma abreviada para indicar ‘artigo’ com referência jurídica. Já nos outros domínios científicos do Lácio-Ref, essa mesma palavra é encontrada 3.076 vezes, totalizando 0,06% dos itens do corpus de referência. Essa diferença desproporcional no uso de ‘art’ gera uma chavicidade negativa de 465,00, que é estatisticamente significativa. Aproximadamente 3.000 das ocorrências de ‘art’ no corpus de referência servem ao propósito de se referir a um artigo de natureza jurídica. Há, contudo, também instâncias nas quais ela se refere a um artigo em termos linguísticos (definido ou indefinido) ou discursivos (artigo de pesquisa publicado em periódico especializado), ou à palavra ‘arte’ em língua inglesa.

64 | Corpora no Ensino de Línguas Estrangeiras

À semelhança da lista de palavras (cf. Seção 5.1), a lista de palavras-chave pode ser ordenada de diversas formas. Todas as colunas apresentadas na Figura 11 são passíveis de funcionarem como critérios para a ordenação de dados. Em outras palavras, o usuário tem a possibilidade de organizar os dados por ordem alfabética da palavra-chave, frequência bruta ou relativa tanto no corpus de pesquisa como no de referência, chavicidade – que é a opção padrão do KeyWords –, valor de p, lemas e conteúdo da coluna ‘set’. Uma das aplicações da lista de palavras-chave corresponde à escolha de uma unidade de análise para a pesquisa a ser realizada. Esse é o caso de Viana (2008), que investiga o uso de verbos modais centrais em língua inglesa (‘can’, ‘could’, ‘may’, ‘might’, ‘shall’, ‘should’, ‘will’, ‘would’ e ‘must’) na escrita argumentativa de universitários brasileiros de Letras (Português/Inglês ou Inglês/Literaturas), comparando-o com aquele observado na produção escrita de falantes de inglês como primeira língua (il1). A decisão, no entanto, de trabalhar com verbos modais advém de uma comparação inicial, com a ferramenta KeyWords, entre o corpus de redações argumentativas em il1 com um corpus geral também de il1. Surgem na lista de palavras-chave sete verbos modais centrais em variadas formas (‘cannot’, ‘can’t’, ‘would’, ‘should’, ‘won’t’, ‘couldn’t’, ‘will’, ‘wouldn’t’, ‘shouldn’t’, ‘can’, ‘must’ e ‘shall’, em ordem decrescente de chavicidade). Identificados como uma característica do discurso escrito de falantes de il1, o pesquisador opta por investigar seu uso nas redações em inglês dos alunos brasileiros. Adicionalmente, a técnica de extração de palavras-chave tem sido amplamente empregada na identificação da fraseologia de áreas específicas do conhecimento, como é o caso da exploração da culinária por Tagnin e Teixeira (2004).51 De forma a investigar as particularidades de receitas escritas em português (brasileiro e europeu) e em inglês (americano e britânico), as pesquisadoras trabalham com quatro corpora – um para cada variante –, contendo 10 receitas de 11 tipos distintos (acompanhamentos, pães, sobremesas, sopas, etc.). Após a geração das listas de palavras, as palavras-chave são extraídas a partir de diferentes comparações, como indicado a seguir.

51 Para uma análise de termos médicos, ver, por exemplo, o estudo sobre gastroenterologia em português de Porfírio e Bidarra (2008), e a investigação contrastiva em inglês e português nas áreas de anestesiologia e ortopedia de Camargo e Paiva (2008).

Corpora no Ensino de Línguas Estrangeiras | 65

(a) Um tipo de receita na variante a x todas as outras receitas na variante a (por exemplo, massas em inglês americano x outras receitas na mesma variante): esse procedimento permite que seja identificado tudo que há de específico na preparação de massas; em outras palavras, os resultados apontam para aquilo que é mais comumente empregado em tais receitas, como a referência a ‘tomatoes’, ‘pasta’ e ‘sauce’. (b) Um tipo de receita na variante a x todas as receitas na variante b (por exemplo, pães em português europeu x receitas em português brasileiro): diferentemente de (a), os resultados aqui encontrados apontam em duas direções – tanto para aquilo que se refere à preparação de pães (‘padeiro’ e ‘farinha’) como para diferenças entre as variantes (‘se’ e ‘cozer’), sendo que em alguns casos um só termo parece desempenhar os dois papéis (por exemplo, ‘levedar’ que aponta tanto para o que é preparado como para a variante linguística). (c) Todas as receitas na variante a x todas as receitas na variante b (por exemplo, receitas em português europeu x textos comparáveis em português brasileiro): essa comparação relega as possíveis diferenças entre os tipos de receita a um segundo plano, que não passam mais a ser o foco da pesquisa, para trazer à ordem do dia as diferenças linguísticas existentes entre as variantes nacionais do português. Nesse cenário, tanto as palavras-chave positivas quanto as negativas são de interesse do pesquisador já que as primeiras indicam o que é característico da variante europeia (‘bocados’, ‘lume’, ‘tacho’) enquanto as últimas ressaltam as especificidades do português brasileiro (‘oliva’, ‘rendimento’, ‘salsinha’). O escopo de aplicação das palavras-chave não se restringe aos estudos que se pautam pela investigação estrita de aspectos linguísticos. Essa técnica pode ser aplicada à análise literária como, por exemplo, na comparação da obra Dubliners com um corpus de referência contendo contos de três autores da mesma época de James Joyce (gonçalves, 2008). Dentre as palavras-chave extraídas do corpus de estudo, nota-se a recorrência de formas como ‘baritone’, ‘concert’, ‘piano’ e ‘song’. Essas são agrupadas em um campo semântico musical, cuja importância, de acordo com Gonçalves (2008, p. 396), “vai além de delinear personagens; ela define ambientes, estados de espírito, e dá muitas vezes o tom da narrativa”. Outro campo de aplicação da técnica de extração de palavras-chave concerne à análise do discurso. A título de ilustração, cita-se o trabalho de Menezes (2010) no qual são enfocadas as concepções que professores de literaturas de língua inglesa têm de sua própria formação acadêmica e prática

66 | Corpora no Ensino de Línguas Estrangeiras

docente. Com o objetivo de identificar o que há de característico em cada uma das dez entrevistas por ela realizadas, a pesquisadora emprega a ferramenta KeyWords de forma a comparar a transcrição de uma entrevista com o conjunto das outras nove. Esse procedimento é realizado dez vezes de forma tal que haja um conjunto de palavras-chave positivas para cada participante da pesquisa. Como as entrevistas são semiestruturadas, os professores entrevistados são questionados a respeito dos mesmos temas, mas também têm a liberdade de enquadrar a interação da forma como desejam. De posse dos dez conjuntos de palavras-chave, Menezes (2010) analisa seus respectivos usos e as agrupa em cinco dimensões – cognitiva, institucional, metodológica, ontológica e sócio-histórica. Essas servem como forma de interpretação do discurso dos docentes que participam da pesquisa, revelando de que forma eles concebem a literatura ao falarem sobre ela. Assim como no tocante ao gerador de listas de palavras, a ferramenta KeyWords não trabalha unicamente com a extração de palavras-chave. Ela também identifica os agrupamentos-chave característicos de um corpus. Para tanto, basta compilar as listas de agrupamentos (de duas a 12 palavras) via WordList antes de iniciar o trabalho com a ferramenta KeyWords. Com o objetivo de trazer a aplicação do extrator de palavras-chave para o cotidiano do professor de línguas, são sugeridas a seguir algumas perguntas que relacionam essa técnica ao trabalho docente. (a) Que termos são específicos de um domínio? Se o professor trabalha com línguas instrumentais, provavelmente deseja saber que termos são fundamentais na área de atuação de seus alunos. Ao comparar um corpus de textos técnicos de informática em uma língua com outro geral, será possível levantar os (candidatos a) termos mais comumente associados a esse domínio e que potencialmente deverão ser apresentados aos aprendizes. (b) Que recursos linguísticos são característicos de um gênero / registro? As palavras-chave são empregadas com sucesso para a prospecção de usos linguísticos específicos de um gênero ou registro. Supondo-se que o interesse do professor seja ensinar a escrever uma resenha de filme, a decisão a respeito de quais recursos linguísticos são necessários para tal tarefa pode ser baseada numa lista de palavras-chave gerada a partir da investigação contrastiva de um corpus de resenhas com outro que represente a totalidade da língua ensinada.

Corpora no Ensino de Línguas Estrangeiras | 67

(c) Que conjunto de palavras é especificamente utilizado por um aluno? Caso o professor tenha duas turmas de mesmo nível, sendo que uma é regular – isto é, composta por um grupo de discentes – enquanto a outra se refere a aulas particulares para um único aluno, pode-se comparar em que medida a produção desse último se equipara à da turma como um todo. A listagem de palavras-chave indica o que deve ser trabalhado de forma mais específica com esse aprendiz para que ele acompanhe o mesmo nível de progressão da turma. (d) Quais são as nuances de significados expressas em textos sobre um tema específico? Se o professor solicita, ao longo de um período letivo, que seus alunos produzam textos comparáveis cuja única mudança é o tema, é possível explorar as formas empregadas para se referir a um tópico específico. Por exemplo, se cada aprendiz escreveu dez redações argumentativas no decorrer do período, os textos sobre um tema x podem ser comparados a um corpus de referência composto pelas redações sobre os outros nove temas. O objetivo nesse caso concerne à identificação do léxico empregado pelos discentes para se referir ao tópico proposto pelo professor. (e) Qual é a relação entre as palavras-chave e o vocabulário-alvo de uma unidade? Em alguns contextos de ensino, o professor é solicitado a pautar seu fazer pedagógico por uma lista de vocabulário-alvo, que necessariamente deve ser trabalhada em sala de aula. Caso o professor disponha de uma coletânea de textos previamente produzidos pelos alunos, como mencionado no item anterior, essa pode ser utilizada como um corpus de referência. Aqui, as redações produzidas ao curso de uma unidade seriam comparadas a esse corpus maior para que seja possível verificar se o vocabulário-alvo dessa unidade é efetivamente empregado pelos alunos ou se atividades de reciclagem precisam ser realizadas. (f) De que forma a produção de falantes de uma língua estrangeira se aproxima ou se distancia daquela de usuários que têm a mesma língua como materna? Nesse caso, além dos textos produzidos pelos alunos de uma língua estrangeira, é preciso ter um corpus comparável de textos produzidos por falantes que a têm como primeira língua. As palavras-chave indicam o que os aprendizes usam em maior ou menor escala, ressaltando o que deve (ou não) ser enfocado na atividade pedagógica.

68 | Corpora no Ensino de Línguas Estrangeiras

Certamente, essa breve lista de perguntas não tem como objetivo esgotar a questão de aplicação da ferramenta KeyWords ao contexto pedagógico, mas somente indicar algumas possibilidades. A criatividade e o rigor metodológico do professor-pesquisador serão capazes de formular outras formas de sua utilização. Concordanciador Se, por um lado, o gerador de listas de palavras e o extrator de palavraschave são frequentemente empregados como formas de encontrar um ponto de entrada na exploração de corpora, o concordanciador é geralmente aproveitado de forma a consubstanciar essas análises iniciais. Tal ferramenta permite que o pesquisador empreenda uma observação mais qualitativa dos dados existentes em um corpus, analisando o cotexto de uma palavra de busca. Na Linguística de Corpus, emprega-se o termo ‘cotexto’ para se referir ao ambiente linguístico, ou seja, aos itens que são utilizados à esquerda e à direita de uma dada palavra de busca. Os resultados apresentados pelo concordanciador são dispostos em linhas de concordância, que são fragmentos dos textos do corpus contendo a palavra de busca informada pelo usuário. Diferentemente das ferramentas apresentadas nas Seções 5.1 e 5.2, esses resultados são os que mais se aproximam da configuração espacial de um texto regular. No entanto, deve-se lembrar que os excertos são geralmente curtos – aproximadamente uma linha52 – de forma tal que o analista humano possa se concentrar na detecção de padrões de uso linguístico. Há duas formas de disposição gráfica para as linhas de concordância. Uma delas corresponde à noção de frase completa. Em outras palavras, todas as frases que contêm o item pesquisado são listadas em sua completude, geralmente sem nenhum tipo de destaque ou realce. Esse é o caso, por exemplo, da tela de resultados oferecida pela ferramenta de busca do próprio British National Corpus (bnc), conforme ilustrado na Figura 13.

52

Por esse motivo, faz-se referência às linhas de concordância.

Corpora no Ensino de Línguas Estrangeiras | 69

Figura 13: Linhas de concordância para ‘language’ no bnc53

Ao buscar pela palavra ‘language’ em língua inglesa, o usuário é informado sobre a existência de 18.788 ocorrências no bnc, sendo que somente 50 delas são apresentadas na tela de resultados.54 Essas ocorrências são selecionadas aleatoriamente e apresentadas logo após o código que identifica a origem do exemplo. Por um lado, a seleção das frases em que ‘language’ aparece é um grande avanço já que não há a necessidade de ler todas as aproximadamente cem milhões de palavras do bnc para que sejam identificadas as 18.788 instâncias de tal palavra de busca. Por outro, no entanto, a apresentação dos resultados em frases completas com formatação semelhante à de um texto não auxilia nem facilita a investigação de padrões linguísticos, já que o pesquisador terá que ler cada uma das frases e identificar exatamente onde é que a palavra ocorre. É nesse processo de leitura de frase por frase que reside a grande dificuldade

53

Disponível em: . Acesso em: 29 maio 2010. 54

A análise de apenas 50 instâncias serve ao propósito de se ter uma ideia geral de como uma palavra é utilizada em um corpus, mas esse panorama não é completo. Por esse motivo, essa restrição da ferramenta de busca oficial do bnc não atende às necessidades de uma pesquisa científica.

70 | Corpora no Ensino de Línguas Estrangeiras

da análise visto que há grande chance de o foco na identificação dos padrões ser perdido (mesmo que de forma inconsciente) para passar a privilegiar a compreensão da idéia apresentada em cada frase. O tipo de apresentação de linhas de concordância mais comum na Linguística de Corpus é o que apresenta a palavra de busca no centro da linha (com ou sem algum tipo de formatação especial) de forma tal que ela possa ser facilmente identificada pelo analista (cf. Figura 12). Esse tipo de layout é denominado de ‘key word in context’ em inglês (ou ‘palavra-chave em contexto’ em português), mais conhecido pela abreviatura kwic. Apesar de estar cristalizado na literatura da área, deve-se ressaltar que esse é o único caso em que ainda se emprega o termo ‘palavra-chave’ para o objetivo de geração de linhas de concordância. Opta-se mais apropriadamente por empregar esse termo no sentido descrito na Seção 5.2, substituindo-o por ‘palavra de busca’ (ou ‘search word’ em inglês) para fins de concordância. Além disso, como já apontado, emprega-se atualmente o termo ‘cotexto’ em substituição a ‘contexto’ para se referir ao entorno linguístico de uma palavra.

Figura 14: Linhas de concordância para ‘lingua’ no coris-demo55

O importante a ser ressaltado na exploração da Figura 14 é que não deve ser empregada uma leitura estritamente linear da esquerda para a direita, da primeira para a última linha. Esse procedimento é empregado para a compreensão de ideias, o que não é o foco nem o objetivo da observação de linhas de concordância. Em substituição, deve-se aproveitar a disposição

55

As linhas de concordância foram geradas, no dia 29 de maio de 2010, a partir da interface disponível em .

Corpora no Ensino de Línguas Estrangeiras | 71

kwic para verificar como a palavra ‘lingua’ é empregada no Corpus di Italiano Scritto (coris). Com o das linhas de concordância segundo o modelo

posicionamento da palavra de busca no centro da linha, o pesquisador tem a possibilidade de se concentrar na observação dos exemplos em busca de algum tipo de padronização. A leitura nesse caso deve ser iniciada justamente pela palavra em posição central, verificando as palavras empregadas à esquerda e à direita (ou vice-versa). No âmbito do WordSmith Tools (scott, 2009a), é a ferramenta Concord que provê as linhas de concordância. Para tanto, o usuário precisa indicar (a) a palavra de busca cujos padrões serão descritos e (b) o corpus no qual essa palavra deve ser pesquisada. De acordo com a Figura 11 (cf. Seção 5.2), ‘ang’ figura entre as 15 primeiras palavras-chave positivas para o subcorpus de Ciências da Saúde do Lácio-Ref. Supondo-se que o pesquisador desconheça essa palavra e tenha interesse em saber como ela foi empregada, ele precisaria gerar as linhas de concordância para tal item, que são parcialmente reproduzidas na Figura 15.

Figura 15: Linhas de concordância para ‘ang’ no subcorpus de Ciências da Saúde do Lácio-Ref

A ferramenta Concord apresenta os resultados no formato

kwic (cf. Figura

15) com a palavra de busca posicionada no centro de cada uma das linhas de concordância e com uma cor diferente do seu cotexto de forma a dar-lhe maior destaque. As outras colunas apresentam informações detalhadas a respeito do

72 | Corpora no Ensino de Línguas Estrangeiras

posicionamento de cada uma das instâncias de ‘ang’ no subcorpus de Ciências da Saúde, a saber:56 (a) número da palavra no texto de origem (‘Word #’); (b) número da sentença (‘Sent. #’), parágrafo (‘Para. #’), cabeçalho (‘Head. #’) e seção (‘Sect. #’)57 no qual a palavra foi empregada; (c) valor percentual correspondente à posição da palavra na sentença (‘Sent. Pos.’), parágrafo (‘Para. Pos.’), cabeçalho (‘Head. Pos.’) e seção (‘Sect. Pos.’); (d) nome do arquivo de texto do qual o fragmento listado foi retirado (‘File’); (e) indicação do valor percentual correspondente à posição da palavra no texto (‘%’). Dessa forma, as duas primeiras ocorrências de ‘Ang’ (linhas 1 e 2) ocorrem em um mesmo período (o 484º do texto de origem) apesar de estarem separadas por 16 palavras. A primeira instância está posicionada no início desse período (14% de distância relativa) enquanto a segunda encontra-se na metade final (61% do período). Com a observação da coluna que indica o texto no qual a palavra ocorre, percebe-se que todas as 320 instâncias de ‘Ang’ foram empregadas por um único autor na redação de sua tese. Essa descoberta coloca em cheque a proposição de ‘Ang’ como palavra-chave dos textos de Ciências da Saúde visto que ela não parece representar a produção da área, tendo sido incluída entre os resultados justamente por ter sido amplamente utilizada por esse autor em questão.58 Quanto ao significado e padronização de ‘Ang’, a Figura 15 não contribui de forma relevante uma vez que as linhas de concordância não foram

56

A Figura 15 apresenta somente as sete primeiras colunas por falta de espaço. Há ainda oito colunas que, apesar de não aparecerem na ilustração, são descritas na listagem a seguir. 57

A indicação dos dados relativos a cabeçalhos e seções requer que tais divisões sejam indicadas por meio de etiquetas no próprio corpus. 58

Como forma de contornar esse problema, utiliza-se a técnica de palavra-chave-chave. De forma resumida, essa consiste inicialmente na geração de listas de palavras-chave para cada um dos arquivos que integram um corpus de estudo, sempre os contrastando com um corpus de referência. Posteriormente, a ferramenta compila uma lista com todas as palavras-chave juntamente com a indicação do número de listas em que elas ocorreram. As palavras-chave-chave são aquelas encontradas em um número maior ou igual de listas de acordo com o ponto de corte estabelecido pelo pesquisador. Para mais detalhes a respeito do procedimento, ver Scott e Tribble (2006).

Corpora no Ensino de Línguas Estrangeiras | 73

organizadas de acordo com as palavras ao seu redor. Os padrões linguísticos se tornam mais visíveis quando se utiliza a funcionalidade de ordenação alfabética das linhas pelas palavras à esquerda, à direita ou uma combinação de ambas. Tal procedimento foi adotado em relação às linhas de concordância a seguir,59 que foram aleatoriamente selecionadas pela ferramenta Concord a partir das 320 ocorrências originais da palavra de busca. 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

59

ovando que o peptídeo [Pro11-d-Ala12]-Ang i precisa ser convertido em Ang ii par hecida da e-2lamr com [Pro11-d-Ala12]-Ang i e ch 5450, ambos considerados como r mente que as ações de [Pro11-d-Ala12]-Ang i são precedidas pela sua conversão em Tanto Ang i quanto [Pro11-d-Ala12]-Ang i foram convertidos em Ang ii pela e-2 res de Ang ii (Ang i, [Pro11-d-Ala12]-Ang i e tdp) e de substratos cromogênicos contrátil ao peptídeo [Pro11-d-Ala12]-Ang i (Figura 11), porém a combinação de c vel pela conversão de [Pro11-d-Ala12]-Ang i em Ang ii. Um candidato em potencial promove a liberação de angiotensina (Ang) ii, a qual exerce seus efeitos pela i etanto, que os efeitos inibitórios da Ang i sobre essas reações foram ligeiramen ausência de atividade degradadora de Ang ii pela enzima. O rnam para e-2lamr fo alternativas à eca para a formação de Ang ii na parede vascular (Ideishi et al., que as evidências para a formação de Ang ii in vivo por quimases podem ter sido rticipação de quimases na formação de Ang ii em preparações derivadas de tecidos a(s) alternativa(s) para a geração de Ang ii no lam isolado de rato. Porém, pelo a alternativa à eca para a geração de Ang ii no lam isolado de rato. A clonagem ndependentes da eca para a geração de Ang ii in vivo ou in vitro em leitos vascu m a existência de uma via geradora de Ang ii independente da eca, a qual é sensí ações prévias sobre vias geradoras de Ang ii. Experimentos realizados com o lam ro que o estudo das vias geradoras de Ang ii no lam somente pode ser compreendid 1, a enzima formou Ang ii a partir de Ang i numa velocidade aproximadamente três opriadas de diferentes precursores de Ang ii e de inibidores de proteases formad uimostatina, enquanto as respostas de Ang ii não foram afetadas pela combinação de [Pro11-d-Ala12]-Ang i (Tabela 2) e Ang i (Paula et al., 1998), respectivament em que Ang i e tdp são convertidos em Ang ii, aqual é a responsável pela respost s-Leu durante a conversão de Ang i em Ang ii. Figura 6 Figura 7 5.1.7 Efeito i ara a eficiente conversão de Ang I em Ang ii. Adicionalmente, a sequência revela rfusão do lam isolado de rato Ang ii, Ang I, tdp e [Pro11-d-Ala12]-Ang i produzi ch 5450 da contração desencadeada por Ang i em tiras de bexiga humana foi determ vasoconstritoras produzidas tanto por Ang i quanto por tdp foram significativame resposta à Ang ii e seus precursores (Ang i, tdp e [Pro11-d-Ala12]-Ang i) no lam

Convenciona-se utilizar a fonte Courier New para a reprodução de linhas de concordância visto que cada caractere ocupa exatamente o mesmo espaço, permitindo assim o alinhamento da palavra de busca em posição central. Quanto ao tamanho, geralmente opta-se pelo 9.

74 | Corpora no Ensino de Línguas Estrangeiras

No presente exemplo, solicitou-se que as linhas fossem dispostas de acordo com a primeira palavra à esquerda de ‘Ang’. Por esse motivo, ‘da Ang’ (linha 09) precede ‘de Ang’ (linhas 10-22). Quando a primeira palavra à esquerda é igual em duas ocorrências, optou-se pela organização com base na segunda e terceira palavras à esquerda, respectivamente.60 Sem observar todas as 320 linhas de concordância para ‘Ang’, o que seria fundamental para um estudo mais detalhado sobre o uso dessa palavra, a leitura dos 30 fragmentos apresentados permite a identificação de seu significado. Sabe-se agora que ‘Ang’ é parte integrante de uma expressão maior ‘[Pro11-d-Ala12]-Ang i’, que denomina um peptídeo (linhas 01 e 06), sendo uma forma abreviada de se referir a ‘angiotensina’ (linha 08). Quanto aos padrões, nota-se uma referência constante à formação, geração e conversão de Ang. Além da ordenação alfabética pelas palavras empregadas no cotexto, as linhas de concordância também podem ser classificadas de acordo com os dados indicados em colunas na ferramenta Concord, conforme descrição anterior.61 O critério a ser escolhido para a organização dos resultados depende necessariamente do que se deseja investigar. Ao trabalhar com as 786 instâncias da palavra ‘respectivamente’ em todo o Lácio-Ref, por exemplo, nota-se a existência de padronização no tocante à posição dessa palavra no período. Mais de três quartos das ocorrências estão localizadas na metade final dos períodos nos quais elas ocorrem. Parece, então, haver um padrão em relação à posição de ocorrência de tal palavra de busca, que fica mais claro quando transportado para um gráfico. Na Figura 16, o eixo horizontal se refere à posição de ‘respectivamente’ no período (em faixas percentuais) enquanto o vertical indica a frequência relativa desse item em cada posição.

60

Assim sendo, ‘desencadeada por Ang’ (linha 28) é listada antes de ‘tanto por Ang’ (linha 29). Por apresentarem as mesmas duas palavras à esquerda, alguns casos são ordenados de acordo com a terceira palavra: ‘a formação de Ang’ (linha 12) antecede ‘na formação de Ang’ (linha 13), por exemplo. 61 Há ainda outros critérios para a organização das linhas, mas esses fogem ao escopo do presente capítulo, que não busca descrever todas as possibilidades de prospecção de dados com o auxílio do WordSmith Tools (scott, 2009a).

Corpora no Ensino de Línguas Estrangeiras | 75

Figura 16: Posição de ‘respectivamente’ no período em termos percentuais no Lácio-Ref

A quantidade de usos de ‘respectivamente’ cresce proporcionalmente à medida que sua posição se aproxima do fim da frase, havendo somente uma exceção (50-59%). Até a posição 79% no período, as faixas totalizam um valor menor do que 10% para o uso de ‘respectivamente’. O baixo valor registrado pela penúltima faixa talvez esteja relacionado ao fato de o valor 100% – isto é, quando ‘respectivamente’ é a última palavra do período – ter sido deslocado para uma categoria própria. Aliás, é nessa posição que se concentram 38,17% das instâncias dessa palavra de busca no Lácio-Ref. Ainda no tocante à posição de determinado traço linguístico, a ferramenta Concord facilita a verificação de alguma relação entre seu uso e em que parte do texto ocorre. Nesse caso, optou-se por observar o que acontece no tocante à palavra de busca ‘revelado(s)’ ou ‘revelada(s)’ antecedida por ‘é’, ‘são’, ‘foi’, ‘foram’, ‘será’ ou ‘serão’ em um horizonte de cinco palavras à esquerda.62 Objetivava-se, assim, realizar um levantamento de todas as ocorrências do verbo ‘revelar’ na voz passiva com o verbo apassivador na terceira pessoa do singular ou plural expresso no presente, pretérito perfeito ou futuro do indicativo. Após a exclusão das instâncias repetidas63 e de um caso que não

62

Isso significa que essas formas do verbo ‘ser’ deveriam necessariamente ocorrer antes de ‘revelado(s)’ ou ‘revelada(s)’, podendo ou não haver palavras intervenientes entre esses dois elementos. 63

Ao todo, oito instâncias repetidas – provenientes de oito textos – foram omitidas da lista inicial de resultados. A repetição de textos no Lácio-Ref pode ser um impeditivo para aqueles que desejam utilizar esse corpus como fonte de pesquisa, apontando para a necessidade de realizar uma verificação sempre que ele é utilizado.

76 | Corpora no Ensino de Línguas Estrangeiras

seguia o padrão especificado,64 chegou-se à lista de 17 linhas de concordância, reproduzidas abaixo. 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17

ndir sua arma terrível (p. 1140), é revelada ao leitor através do menosprezo aos Verdadeira Madame Bovary é revelada em livro de pesquisadora A pesquisa Porém, a sabedoria da composição é revelada justamente sua pela aparente falta e 5%. Na prática, essa intenção foi revelada na última quinta-feira pelo próprio oestruturas do metal de solda foram reveladas através de um ataque com Nital 2% s na pedra e, consequentemente, são reveladas no écran, estão no registro da “di sofisticada e cheia de glamour, são reveladas zonas sombrias, lugares em que ele suas paisagens. Em algumas telas, é revelado em nuances de amarelo, vermelho. Um ler dúzia de carusos). O desejo foi revelado em carta para o amigo Manuel Bandei setor. O valor da operação não foi revelado. O anúncio oficial da transação ser “Advertising Age”). O valor não foi revelado. A Salles –com receita de us$ 39 mil tem. O teor da fita, porém, não foi revelado. "Vamos chamar o Pimenta para escla ortadoras de hiv foi outro problema revelado. Muitas delas não são orientadas so eitos do meio ambiente são mais bem revelados em estudos experimentais nos quais o a amostra com hf (Figura 4) foram revelados cristais granulares de mulita prim gressos dos grupos envolvidos foram revelados através de realizações com os mais 1ª edição do Projeto Nascente foram revelados no dia 19 passado, segunda-feira.

O objetivo, contudo, era verificar a existência (ou não) de um padrão na expressão de revelação nos textos do Lácio-Ref. A pergunta norteadora era se essa estrutura linguística estaria associada ao início ou ao fim do texto no qual ocorre. Para tanto, recorreu-se ao gráfico de distribuição (do inglês plot), que mostra de forma visual a distribuição de uma palavra de busca (cf. Figura 17).

64

Apesar de haver o emprego de ‘são’ como a quinta palavra à esquerda de ‘reveladas’, essa funciona na construção da voz passiva do verbo ‘destacar’: “No capítulo final — Conclusões — são destacadas as principais evidências reveladas pela pesquisa e as lições decorrentes [...]”.

Corpora no Ensino de Línguas Estrangeiras | 77

Figura 17: Gráfico de distribuição para ‘revelado(s)’ ou ‘revelada(s)’ precedido por ‘é’, ‘são’, ‘foi’, ‘foram’, ‘será’ ou ‘serão’ até a 5ª posição à esquerda no Lácio-Ref

Cada linha na Figura 17 refere-se a um texto do Lácio-Ref, conforme indicado na coluna ‘File’. A terceira coluna (‘Words’) indica o tamanho do texto em número de itens, seguido pelo número de ocorrências da palavra de busca nele registrado (‘Hits’). Essa frequência também é expressa em valores relativos em grupos de 1.000 itens (na coluna ‘per 1,000’). A penúltima coluna (‘Dispersion’) apresenta um valor matemático que indica o quão bem distribuídas estão as ocorrências da palavra de busca. Esse valor varia de 0 a 1, sendo que quanto menor o resultado menos uniforme é a distribuição (scott, 2009b).65 A última coluna (‘Plot’) é a que corresponde ao chamado gráfico de distribuição. Há aqui uma representação visual de cada um dos 17 textos cujo início e fim são delimitados pelas linhas contínuas em verde à esquerda e à direita dessa coluna. Cada traço que aparece entre as linhas de início e fim representa uma ocorrência da palavra de busca. Nesse caso específico, só há um

65

No tocante aos exemplos apresentados na Figura 17, o valor da dispersão é igual para todos os arquivos (-0,069) já que há um mesmo número de ocorrências da expressão de busca por texto. O valor muito próximo ao zero indica que o uso dessa expressão não se encontra uniformemente disperso no texto, o que já era esperado, visto que há somente uma ocorrência em cada um deles.

78 | Corpora no Ensino de Línguas Estrangeiras

traço por texto (ou seja, por linha), visto que todos contêm apenas uma única instância do termo que foi pesquisado. Ao observar a distribuição de ‘revelado(s)’ ou ‘revelada(s)’ antecedido por ‘é’, ‘são’, ‘foi’, ‘foram’, ‘será’, ou ‘serão’ com a possível ocorrência de até quatro palavras intervenientes, levanta-se a hipótese de que essa estrutura é geralmente empregada no início de um texto. Aparentemente, há somente três casos (linhas 15-17) nos quais o termo de busca foi utilizado na segunda metade do texto. Esse resultado talvez indique que algo precise ser revelado logo no início de um texto para que a narrativa possa se desenvolver. O estudo da padronização, contudo, não precisa se restringir ao local de ocorrência de uma palavra de busca. Como indicado na Seção 4, os padrões de uso de uma língua são mais facilmente identificados com o auxílio das ferramentas da Linguística de Corpus. Após a extração das palavras-chave do subcorpus de Ciências da Saúde no Lácio-Ref, nota-se que ‘saúde’ aparece como a mais importante (cf. Figura 11). A ferramenta Concord, nesse caso, auxilia no levantamento de possíveis candidatos a colocados, como ilustrado na Figura 18.

Figura 18: Lista de candidatos a colocados para ‘saúde’ no subcorpus de Ciências da Saúde do Lácio-Ref

A tela de resultados, reproduzida na Figura 18, apresenta ao todo 19 colunas: (a) número de referência da linha (‘n’); (b) indicação do possível colocado (‘Word’);66

66

O primeiro item a ser listado é sempre a palavra de busca. Na maioria das vezes, essa linha pode ser desconsiderada, já que a posição mais produtiva deverá ser a central.

Corpora no Ensino de Línguas Estrangeiras | 79

(c) referência à palavra de busca, aqui entendida como a base (‘With’);67 (d) valor da estatística de associação entre o colocado e a base (‘Relation’);68 (e) número de textos no qual a associação ocorre (‘Texts’);69 (f) quantidade total de vezes nas quais o colocado se encontra no entorno70 da base (‘Total’); (g) totais de ocorrências do colocado tanto à esquerda (‘Total Left’) quanto à direita (‘Total Right’) da base; (h) número de vezes em que o colocado foi encontrado em cada uma das posições pesquisadas em que ‘l’ se refere à esquerda, ‘Centre’ à posição central e ‘r’ à direita, sendo que a cor vermelha é empregada para ressaltar a posição mais produtiva, isto é, aquela na qual o colocado ocorre de forma mais frequente. Os resultados apresentados na Figura 18 precisam ser entendidos como uma lista de candidatos porque o que a ferramenta efetivamente faz é listar todas as formas que ocorrem, com certa frequência, no entorno da palavra de busca. Dessa forma, há indícios tanto de possíveis coligações quanto de colocações. Como explicado na Seção 4, essas relações precisam ser submetidas a testes estatísticos para que seja possível diferenciar o que é uma mera co-ocorrência (duas palavras que são empregadas juntas em determinado horizonte) ou de uma colocação (emprego significativo de duas formas).71 De qualquer forma, a inclusão de ‘pública’ na linha 12 da Figura 18 chama a atenção para um possível colocado de ‘saúde’. Segundo o Concord, esse adjetivo ocorre 157 vezes no cotexto de ‘saúde’ em 64 textos distintos, sendo

67

Como a tarefa solicitada foi o levantamento dos colocados com ‘saúde’, tal palavra encontra-se repetida em todas as linhas na coluna ‘with’. Essa coluna revela-se importante quando se trabalha com mais de uma palavra de busca simultaneamente. 68

A ferramenta Concord oferece seis possibilidades de testes estatísticos a serem empregados na medida de associação lexical dentre elas, o escore t, o escore z e a informação mútua. Para mais detalhes a respeito do uso de técnicas estatísticas na Linguística de Corpus, ver Oakes (1998). 69

Há 309 textos no subcorpus de Ciências da Saúde do Lácio-Ref.

70 O entorno é entendido como um horizonte de até cinco palavras à esquerda (l1-l5) e cinco palavras à direita (r1-r5). Ressalta-se, no entanto, que o tamanho do horizonte a ser considerado é uma decisão a ser tomada pelo pesquisador. 71

Aponta-se que a tela da ferramenta Concord pode apresentar os valores relativos a um desses testes estatísticos, como o faz para o escore t na Figura 18.

80 | Corpora no Ensino de Línguas Estrangeiras

153 instâncias à direita da base e apenas quatro à esquerda. A especificação das posições revela que ‘pública’ aparece de forma mais recorrente como a primeira palavra à direita de ‘saúde’ (151 instâncias). Após o cálculo do escore

t e da

informação mútua (cf. Seção 4), conclui-se que ‘saúde pública’ efetivamente ilustra um caso de colocação. O próximo passo no levantamento da fraseologia de ‘saúde’ no subcorpus de Ciências da Saúde do Lácio-Ref corresponde à observação de como o termo ‘saúde pública’ foi empregado, com o objetivo de levantar a existência de outros padrões de uso. Para tanto, deve-se voltar ao estudo das linhas de concordância, 20 das quais (aleatoriamente selecionadas pela ferramenta Concord) encontram-se reproduzidas a seguir. 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20

oas, as comunidades em geral e a saúde pública, com coibição de protecionismos, lgação de seus efeitos nocivos à saúde pública despertou grandes reivindicações mbolo da paz, pode representar saúde pública da população urbana. Segundo Môni der e enfrentar, com as armas da saúde pública, um problema como o das drogas, q ão de uma Memória Fonográfica da saúde pública que reunirá em cds depoimentos de ncia brasileira e na história da saúde pública do país. Afinal, hoje, para as no , com revitalização das ações de saúde pública, tendo a unidade básica de saúde rd Institute, órgão da Escola de Saúde Pública da Universidade de Harvard (eua) outoramento junto à Faculdade de Saúde Pública da Universidade de São Paulo, tra uma pesquisadora da Faculdade de Saúde Pública,concluindo que os médicos se for ia Lúcia Lebrão, da Faculdade de Saúde Pública da usp, que advoga essa ideia. Al atenção especial da Faculdade de Saúde Pública é a da mulher, as causas da morta tação de Mestrado - Faculdade de Saúde Pública da usp]. 75. Gielen ac. Health ed efendida por ela na Faculdade de Saúde Pública da usp, em abril, propõe o acompa dezembro de 2001 na Faculdade de Saúde Pública da usp, aborda a formação do homo de risco médio. “Na Faculdade de Saúde Pública o índice para uso de drogas é con Brasil. São Paulo: Faculdade de Saúde Pública;1994.; p 58-69. Medici ac. Saúde orre em detrimento de medidas de saúde pública, de caráter preventivo e de inter emia, tornando-se um problema de saúde pública no âmbito mundial. Segundo dados meio das Faculdades de Medicina, Saúde Pública,Escola de Enfermagem e hu, a ser

Mesmo sem observar todas as ocorrências de ‘saúde pública’, nota-se a existência de padrões maiores à esquerda da expressão de busca. Um exemplo claro é ‘Faculdade de Saúde Pública’ (linhas 09-17), sendo que em mais da metade das ocorrências há também uma referência específica à Universidade de São Paulo por extenso ou de forma abreviada (usp). O levantamento de sequências lexicais contendo ‘saúde pública’, no entanto, não precisa ser feito a partir da leitura das linhas de concordância.

Corpora no Ensino de Línguas Estrangeiras | 81

A ferramenta Concord automatiza uma forma de listar essas sequências denominadas de agrupamentos lexicais (clusters, em inglês) a partir da definição, por parte do pesquisador, do número de palavras a serem incluídas,72 do horizonte de busca e da frequência bruta mínima de ocorrência. A Figura 19 lista os agrupamentos de quatro palavras que contêm ‘saúde pública’ no subcorpus de Ciências da Saúde do Lácio-Ref.

Figura 19: Agrupamentos lexicais de quatro palavras com ‘saúde pública’ no subcorpus de Ciências da Saúde no Lácio-Ref

A percepção inicial de que ‘Faculdade de Saúde Pública’ era uma sequência repetida nos dados analisados é agora confirmada, sendo esse o agrupamento de quatro palavras mais frequente, com 42 instâncias ao todo. A indicação da usp à direita também forma um padrão explícito nas 18 ocorrências de ‘Saúde Pública da usp’ (linha 3) e indireto em ‘Saúde Pública da Universidade’ (linha 5).73 Além de referências a nomes de instituições educacionais, a Figura 19 revela um padrão de uso da linguagem: ‘problema de saúde pública’, que ocorre oito vezes no subcorpus em análise. Ao verificar os resultados apresentados

72

Os agrupamentos lexicais computados pela ferramenta Concord podem conter até um máximo de 12 palavras. 73

A análise das linhas de concordância revela haver um caso no qual a universidade à qual o autor se refere não é a usp: “O estudo faz parte de um projeto internacional coordenado pelo Harvard Institute, órgão da Escola de Saúde Pública da Universidade de Harvard (eua), com financiamento da Merck Foundation, ligada ao Laboratório Merck, Sharp & Dohme.”

82 | Corpora no Ensino de Línguas Estrangeiras

pela ferramenta Concord para essa expressão de busca, nota-se que ela é preferencialmente utilizada na segunda metade do período (de 56% até 91% de posição relativa), com uma única exceção em que ‘problema de saúde pública’ ocorre na primeira metade (47%) do período (cf. linha 1 a seguir). 01 02 03 04 05 06 07 08

amplia os gastos com esse problema de saúde pública: calcula-se que os custos d m ser consideradas o maior problema de saúde pública do Brasil. Em matéria de co o definir a violência como problema de saúde pública. Em maio de 2001, esses set idadesetransformaram num problema de saúde pública.”Falhas na educação também o, mas não deixa de ser um problema de saúde pública. Muitas crianças e adolesce ador da usp, representa um problema de saúde pública mundial relacionado à pobre a pandemia, tornando-se um problema de saúde pública no âmbito mundial. Segundo idas constitui-se em grave problema de saúde pública no meio rural", diz Meyer.

As linhas de concordância permitem reformular a observação inicial: ‘problema de saúde pública’ geralmente aparece no final de uma oração (linhas 1, 3, 4 e 5). Quando isso não ocorre, há o emprego de um adjunto adverbial para especificar o local no qual o problema é identificado (linhas 2, 6, 7 e 8) antes do término da oração. A posição dessa expressão, nesse caso, parece estar diretamente relacionada a um padrão textual: primeiramente identificase o problema74 para depois rotulá-lo como ‘de saúde pública’.75 Apesar da impossibilidade de generalização desses achados para a língua portuguesa, essa análise inicial serve como um exemplo do potencial da observação dos colocados e agrupamentos lexicais. Como esperado, a ferramenta Concord é a que possui aplicação em um número maior de estudos na área de Línguística de Corpus, uma vez que esses exigem, em muitos casos, que o pesquisador observe como os itens são

74

Os problemas mencionados são ‘falsos diagnósticos da doença de Chagas’ (linha 1), ‘drogas’ (linha 2), ‘violência’ (linha 3), ‘dor e obesidade’ (linha 4), ‘malária’ (linha 6), ‘aids’ (linha 7), e ‘uso de pesticidas’ (linha 8). 75

Há uma única exceção em um texto que busca trazer seriedade ao assunto tratado antes de introduzi-lo. Dessa forma, argumenta-se que o problema é ‘de saúde pública’ logo no primeiro período antes de descrevê-lo: “Parece piada de mau gosto, mas não deixa de ser um problema de saúde pública. Muitas crianças e adolescentes prendem o pênis no zíper e precisam ir ao pronto-socorro para que o órgão fique livre do doloroso apêndice. Retirar o zíper é uma coisa fácil para o médico que sabe. Aquele que não conhece a técnica pode até causar mais danos ao pênis do garoto”.

Corpora no Ensino de Línguas Estrangeiras | 83

efetivamente empregados em cada ocorrência na coletânea de textos que se pretende descrever. Dessa forma, ao empregar o gerador de listas de palavras ou o extrator de palavras-chave, é provável que o concordanciador também tenha que ser utilizado. Porém, o sentido contrário nem sempre é verdadeiro. Um exemplo diz respeito à investigação da fraseologia do futebol em português e em inglês no qual Matuda (2008) escolhe a palavra ‘gol’ como seu objeto de análise. Com o auxílio da identificação de agrupamentos lexicais, a pesquisadora chega aos equivalentes tradutórios das fraseologias investigadas nas duas línguas, tais como ‘gol da virada’ / ‘go-ahead goal’, ‘marcou um gol contra’ / ‘scored an own goal’, e ‘uma oportunidade clara de gol’ / ‘an obvious goalscoring opportunity’. Em alguns casos, a análise das linhas de concordância requer que elas sejam classificadas de acordo com uma teoria já existente ou com uma proposta feita pelo próprio pesquisador. Para dar conta dessa necessidade, a ferramenta Concord permite que o usuário associe uma letra, um número ou uma sequência maior de letras e números a cada uma das linhas de concordância. Esse valor é exibido na coluna ‘set’, como ilustrado na Figura 20.

Figura 20: Classificação das linhas de concordância para o verbo ‘exibir’

Adotando-se a proposta de Ferreira (1999), as instâncias de ‘exibir’ foram classificadas em três categorias: verbo transitivo direto, verbo transitivo direto e indireto e verbo pronominal. Para facilitar a codificação dos dados, optou-se por indicar os nomes das categorias por meio de ‘d’, ‘2’ e ‘p’, respectivamente.

84 | Corpora no Ensino de Línguas Estrangeiras

O uso da facilidade de classificação das linhas de concordância auxilia sobremaneira a realização de pesquisas de base semântica com o auxílio de corpus. Nesse tipo de investigação, o computador realiza o levantamento de todas as ocorrências de uma palavra de busca para que a categorização possa ser levada a cabo pelo pesquisador. A investigação do posicionamento de estudantes universitários de Letras acerca do papel da literatura (viana, 2005) ilustra esta questão. Analisando a transcrição de três grupos de enfoque, o pesquisador faz o levantamento dos adjetivos mais frequentes nas interações e os classifica de acordo com o subsistema de Apreciação (cf. martin e rose, 2003).76 Em termos de visualização das linhas de concordância, o usuário tem diversas opções à sua disposição, tais como o aumento ou a diminuição do cotexto que é apresentado pela ferramenta Concord. Com um duplo clique, o usuário tem a possibilidade de visualizar o texto original no qual um fragmento ocorre. Pode-se igualmente omitir a palavra de busca, pressionando a barra de espaço do teclado, deixando somente um espaço em branco, como indicado na Figura 21.

Figura 21: Linhas de concordância com a omissão da palavra de busca

76

Para mais detalhes a respeito do procedimento metodológico adotado, ver Viana (2007).

Corpora no Ensino de Línguas Estrangeiras | 85

Para a geração da Figura 21, foram procuradas as instâncias de ‘por que’, ‘por quê’, ‘porque’ e ‘porquê’ em todo o Lácio-Ref, que não registra nenhuma ocorrência dessa última forma. Com a omissão da palavra de busca, as linhas passam a apresentar um latente potencial para a aplicação em sala de aula.77 Para tanto, os resultados foram organizados de acordo com a primeira palavra à esquerda e à direita, respectivamente. Buscou-se também manter um equilíbrio no número de exemplos de cada pronome para fins pedagógicos. Esse tipo de exercício pode ser planejado como uma atividade de fixação após a explicação dos diversos usos de ‘por que’, ‘por quê’, ‘porque’ e ‘porquê’. Os alunos seriam, então, solicitados a preencher as linhas de concordância com a forma adequada desse pronome interrogativo.78 Deve-se ressaltar que a ferramenta Concord permite a realização de inúmeros tipos de pesquisa (seja a partir de uma única palavra ou de um agrupamento lexical). Não é preciso especificar todas as letras de uma palavra ou todas as palavras de um agrupamento, sendo possível empregar caracteres coringas no levantamento de linhas de concordância. É igualmente possível especificar palavras a serem desconsideradas de uma busca, assim como indicar palavras que necessariamente devam ser encontradas no cotexto. Todos esses recursos facilitam sobremaneira a investigação de corpora de forma automática. Para finalizar, seguem algumas perguntas que podem nortear a exploração de corpora por professores de língua. Deve-se lembrar que, apesar da referência explícita a uma palavra, as perguntas abaixo também são aplicáveis a sequências lexicais. (a) Em que textos uma palavra é empregada? A resposta para essa pergunta permite observar se o uso (in)frequente de uma palavra é um caso isolado de um único autor ou se é algo que pode

77

Não é preciso, no entanto, trabalhar com uma captura de tela da ferramenta Concord, o que foi feito neste capítulo apenas para fins de ilustração. Ao copiar e colar os dados sem a palavra de busca para um editor de texto, as linhas são apresentadas com um espaço em branco no lugar da(s) forma(s) omitida(s), evitando que o professor gaste tempo desnecessário na exclusão delas. 78

A palavra ‘por que’ foi originalmente utilizada nas linhas 1, 4, 6, 9 e 12; ‘por quê’, nas linhas 7, 8 e 11; e ‘porque’, nas linhas 2, 3, 5, 10 e 13.

86 | Corpora no Ensino de Línguas Estrangeiras

ser considerado como uma característica da população cuja produção é representada no corpus. (b) Em que parte do período, do parágrafo e/ou do texto uma palavra é recorrentemente utilizada? A posição de uma palavra numa unidade textual maior não tem desdobramentos apenas matemáticos – por exemplo, ocorrência na primeira ou segunda metade. É preciso interpretar discursivamente o padrão apresentado, como ocorreu em relação à discussão acerca do uso de ‘saúde pública’ no Lácio-Ref. (c) Quais são as companhias lexicais e léxico-gramaticais de uma palavra? Como discutido na Seção 4, saber uma língua não se resume somente ao conhecimento de palavras isoladas: faz-se necessário reconhecer e utilizar as combinações que são frequentemente empregadas por usuários dessa língua. Nesse sentido, o ensino de uma língua estrangeira deve se afastar das palavras isoladas de forma a ressaltar suas companhias características. (d) O que indicam semântica e pragmaticamente as colocações de uma base? A resposta para essa pergunta apresenta padrões mais genéricos do que aqueles indicados no caso anterior (cf. o uso de ‘completely’ e ‘utterly’, em língua inglesa, discutido na Seção 4). Os alunos de uma língua estrangeira precisam ser conscientizados a respeito dessas questões semânticas e pragmáticas para que possam fazer uso da língua de forma apropriada em situações comunicativas nas quais sua produção precise se aproximar à de falantes que têm essa língua como primeira. Alternativamente, o conhecimento desses aspectos também permite que o aprendiz de língua estrangeira possa quebrar conscientemente esses padrões para atingir algum objetivo específico como, por exemplo, um uso inovador numa produção literária. (e) Quais são os agrupamentos lexicais em que uma palavra ocorre? Diferentemente da relação colocado-base em que os elementos podem ocorrer teoricamente em qualquer posição num determinado horizonte, os agrupamentos lexicais revelam as expressões fixas nas quais uma palavra ocorre. Essas expressões fazem parte do conhecimento fraseológico necessário aos usuários de determinada língua, sendo utilizadas como blocos únicos na produção discursiva desses falantes. As questões aqui apresentadas podem ser utilizadas tanto na investigação de textos de falantes de uma língua como primeira, segunda ou

Corpora no Ensino de Línguas Estrangeiras | 87

estrangeira. O levantamento dos usos se faz necessário em todos esses casos, e a comparação entre dois ou mais grupos se mostra mais do que relevante para a atividade do professor de línguas. Conforme indicado anteriormente, o uso do concordanciador encontra-se geralmente atrelado a outras ferramentas da Linguística de Corpus, permitindo uma investigação que vai além de contagens de frequência. Nesse sentido, o professor de línguas estrangeiras conseguirá notar ainda muitos outros potenciais usos para esse recurso em sua prática pedagógica e/ou de pesquisa. 6) Conclusão O presente capítulo demonstrou que a pesquisa em Linguística de Corpus pauta-se fundamentalmente pela exploração, por meio computacional, de corpora. A aplicação dessa abordagem empírica na área de línguas estrangeiras altera o foco de atenção no chamado ‘falante nativo’ para um conjunto de dados que representa o uso efetivo da língua que se deseja descrever. Com isso, transpõe-se a barreira de que o ‘falante não nativo’ de uma língua estaria em desvantagem ao realizar um estudo dessa língua: os capítulos reunidos neste volume são provas de que esse impedimento não existe. Buscou-se oferecer aqui uma visão caleidoscópica de alguns dos procedimentos em Linguística de Corpus, ilustrando principalmente o que será enfocado nos capítulos que seguem a esta introdução. Nesse sentido, as técnicas reportadas não devem ser entendidas como uma listagem exaustiva das possibilidades metodológicas. Dentre as abordagens não discutidas, encontram-se, por exemplo, o uso de testes estatísticos inferenciais para a comparação de frequências em dois (ou mais) corpora (cf. kauffman, 2008) ou o emprego da análise multidimensional (cf. oliveira, 1997). Da mesma forma, a ilustração dos procedimentos com o WordSmith Tools (scott, 2009a), não deve ser compreendida como a única forma de observação de dados linguísticos com o auxílio computacional. É verdade que a facilidade de uso desse programa é responsável por sua popularidade nos centros de pesquisa brasileiros. Contudo, deve-se tomar cuidado para que a Linguística de Corpus não seja entendida única e exclusivamente como algo a ser implementado com o uso desse software. Além da existência de outros programas, o pesquisador de corpus pode desenvolver seus próprios recursos computacionais caso tenha o conhecimento necessário para tal.

88 | Corpora no Ensino de Línguas Estrangeiras

Acima de tudo, espera-se que esta introdução aos conceitos, técnicas e análises da Linguística de Corpus tenha revelado que a atividade nessa área é uma tarefa factível para o estudante, professor e/ou pesquisador. Se o presente texto sensibilizar o leitor a realizar suas próprias investigações empíricas com base em corpora e/ou incentivá-lo a estudar mais sobre essa área do conhecimento, o objetivo principal do capítulo terá sido atingido com sucesso. Referências bibliográficas

aluísio, s. et al. The Lacio-Web Project: overview and issues in Brazilian Portuguese corpora creation. In: archer, d.; rayson, p.; wilson, a.; mcenery, t. (Eds.). Proceedings of the Corpus Linguistics 2003 conference. Lancaster: ucrel, 2003. p. 14-21. Disponível em: . Acesso em: 29 maio 2010. anthony, l. AntConc 3.2.1w. Tokyo: Waseda University, 2007. Disponível em: . Acesso em: 29 maio 2010.

berber sardinha, t. Linguística de Corpus. Barueri, sp: Manole, 2004.

biber, d. Lexical bundles in academic speech and writing. In: lewandowska-tomaszczyk, b. (Ed.). Practical applications in language and computers (palc 2003). Frankfurt am Main: Peter Lang, 2004. p. 165-178. biber, d.; conrad, s.; cortes, v. If you look at…: lexical bundles in university teaching and textbooks. Applied Linguistics, v. 25, n. 3, p. 371-405, 2004.

biber, d.; conrad, s.; reppen, r. Corpus linguistics: investigating language structure and use. Cambridge: Cambridge University Press, 1998.

biber, d. et al. Longman grammar of spoken and written English. London: Longman, 1999.

bowker, l.; pearson, j. Working with specialized language: a practical guide to using corpora. London: Routledge, 2002.

brown, j. d. Understanding research in second language learning: a teacher’s guide to statistics and research design. Cambridge: Cambridge University Press, 1988.

camargo, d. c. de. Uso do conjunto léxico por um tradutor literário em The war of the saints. Matraga, n. 19, p. 33-48, jul.-dez. 2006.

Corpora no Ensino de Línguas Estrangeiras | 89

______; paiva, p. t. p. Aproximações e distanciamentos na tradução de termos médicos levantados a partir de um corpus paralelo em relação a dois

magalhães, j. s. de; travaglia, l. c. (Orgs.). Múltiplas perspectivas em Linguística. Uberlândia: Edufu, 2008. p. 2485-2494. corpora comparáveis. In:

erman, b.; warren, b. The idiom principle and the open choice principle. Text, v. 20, n. 1, p. 29-62, 2000.

ferreira, a. b. de h. Novo Aurélio século xxi: o dicionário da língua portuguesa. 3. ed. Rio de Janeiro: Nova Fronteira, 1999.

finatto, m. j. b. et al. O vocabulário além da terminologia: expressões de causalidade em textos de química. Matraga, n. 19, p. 85-105, jul.-dez. 2006.

firth, j. r. Papers in linguistics: 1934-1951. London: Oxford University Press, 1957.

garcia, t. m.; fachinni, s. r. v. O amor em metáforas nos sambas de ontem e de hoje: uma análise com base em corpus. In: zyngier, s.; viana, v.; jandre, j. (Eds.). Textos & leituras: estudos empíricos de língua e de literatura. Rio de Janeiro: Publit, 2007. p. 257-274.

gonçalves, l. b. Linguística de Corpus e análise literária: o que revelam as palavras-chave. In: tagnin, s. e. o.; vale, o. a. (Orgs.). Avanços da Linguística de Corpus no Brasil. São Paulo: Humanitas, 2008. p. 387-405.

halliday, m. a. k. Language as system and language as instance: the corpus as a theoretical construct. In: svartvik, j. (Ed.). Directions in corpus linguistics: proceedings of Nobel Symposium 82. Berlin: Mouton de Gruyter, 1992. p. 61-77.

hunston, s. Corpora in applied linguistics. Cambridge: Cambridge University Press, 2002.

jordão, S. et al. Violência no imaginário da criança. In: zyngier, s.; viana, v.; fausto, f. (Orgs.). Venturas & desventuras: coletânea dos trabalhos do v ecel. Rio de Janeiro: Setor de Publicações da Faculdade de Letras da ufrj, 2005. p. 172-188. kauffman, c. h. Variação linguística nas páginas de um jornal brasileiro. In: zyngier, s.; viana, v.; silveira, n. (Eds.). Ver & visualizar: Letras sob o prisma empírico. Rio de Janeiro: Publit, 2008. p. 25-39.

90 | Corpora no Ensino de Línguas Estrangeiras

leech, g. Corpora and theories of linguistic performance. In: svartvik, j. (Ed.). Directions in corpus linguistics: proceedings of Nobel Symposium 82. Berlin: Mouton de Gruyter, 1992. p. 105-122. ______. Recent grammatical change in English: data, description, theory. In: aijmer, k.; altenberg, b. (Eds.). Advances in corpus linguistics: papers from the 23rd International Conference on English Language Research on Computerized Corpora (icame 23). Amsterdam: Rodopi, 2004. p. 61-81.

louw, b. Irony in the text or insincerity in the writer? – The diagnostic potential of semantic prosodies. In: baker, m.; francis, g.; tognini-bonelli, e. (Eds.). Text and technology: in honour of John Sinclair. Amsterdam: John Benjamins, 1993. p. 157-176.

martin, j. r.; rose, d. Working with discourse: meaning beyond the clause. London: Continuum, 2003.

matuda, s. Fraseologia no futebol: um estudo bilíngue baseado em corpus. Domínios da Linguagem, n. 4, 2008. Disponível em: . Acesso em: 29 maio 2010.

mcarthur, t. Living words: language, lexicography, and the knowledge revolution. Exeter: Exeter University Press, 1998.

mcenery, t.; wilson, a. Corpus linguistics. Edinburgh: Edinburgh University Press, 1996.

mcenery, t.; xiao, r.; tono, y. Corpus-based language studies: an advanced resource book. London: Routledge, 2006.

menezes, d. de a. Discursos sobre literaturas de língua inglesa: percepções e práticas pedagógicas de professores universitários. 2010. 261 f. Tese (Doutorado em Letras) – Departamento de Letras, Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro.

moraes, h. f. r. de. Os advérbios em -ly e -mente: a busca pela equivalência na culinária e no direito. In: tagnin, s. e. o.; vale, o. a. (Orgs.). Avanços da Linguística de Corpus no Brasil. São Paulo: Humanitas, 2008. p. 315-332.

oakes, m. p. Statistics for corpus linguistics. Edinburgh: Edinburgh University Press, 1998.

Corpora no Ensino de Línguas Estrangeiras | 91

oliveira, l. p. de. Variação intercultural na escrita: contrastes multidimensionais em inglês e português. 1997. 358 f. Tese (Doutorado em Linguística Aplicada e Ensino de Línguas) – Programa de Estudos Pós-Graduados em Linguística Aplicada e Ensino de Línguas, Pontifícia Universidade Católica de São Paulo, São Paulo.

partington, a. Utterly content in each other’s company: semantic prosody and semantic preference. International Journal of Corpus Linguistics, v. 9, n. 1, p. 131-156, 2004.

pearson, j. Terms in context. Amsterdam: John Benjamins, 1998. porfírio, l.; bidarra, j. A extração de informação aplicada à interpretação de textos: um estudo de caso sobre textos no domínio da gastroenterologia. Veredas, v. 12, n. 1, p. 80-94, 2008. Disponível em: . Acesso em 29 maio 2010.

scott, m. WordSmith Tools. Versão 5.0. Oxford: Oxford University Press, 2009a. ______. WordSmith Tools Version 5.0. Liverpool: Lexical Analysis Software, 2009b. ______; tribble, c. Textual patterns: key words and corpus analysis in language education. Amsterdam: John Benjamins, 2006.

shepherd, t.; zyngier, s.; viana, v. Feixes lexicais e visões de mundo: um estudo sobre corpus. Matraga, n. 19, p. 125-140, jul.-dez. 2006. sinclair, j. Corpus, concordance, collocation. Oxford: Oxford University Press, 1991. ______. Corpus evidence in language description. In: wichmann, a. et al. (Eds.). Teaching and language corpora. London: Longman, 1997. p. 27-39. ______. Reading concordances: an introduction. London: Longman, 2003. ______. Trust the text: language, corpus and discourse. London: Routledge, 2004.

tagnin, s. e. o.; teixeira, e. d. British vs. American English, Brazilian vs. European Portuguese: how close or how far apart? – a corpus-driven study. In: lewandowska-tomaszczyk, b. (Ed.). Practical applications in language and computers (palc 2003). Frankfurt am Main: Peter Lang, 2004. p. 193-208.

92 | Corpora no Ensino de Línguas Estrangeiras

tognini-bonelli, e. Corpus linguistics at work. Amsterdam: John Benjamins, 2001.

tsui, a. b. m. What teachers have always wanted to know – and how corpora can help. In: sinclair, j. (Ed.). How to use corpora in language teaching. Amsterdam: John Benjamins, 2004. p. 39-61.

van peer, w.; hakemulder, j.; zyngier, s. Muses and measures: empirical research methods for the humanities. Cambridge: Cambridge Scholars Publishing, 2007.

viana, v. O papel da literatura na vida de estudantes de Letras: um estudo linguístico das manifestações de Apreciação. In: saliés, t. m. g.; shepherd, t. m. g. (Orgs.). Linguagem: teoria, análise e aplicações. Rio de Janeiro: Publit, 2005. p. 225-244. ______. On the other hand: a escrita acadêmica de pesquisadores brasileiros em língua inglesa. In: zyngier, s.; viana, v.; spallanzani, a. m. (Orgs.). Linguagens e tecnologias: estudos empíricos. Rio de Janeiro: Publit, 2006. p. 263-287. ______. Utilizando o programa WordSmith Tools na pesquisa sobre apreciação: uma sugestão metodológica. Intercâmbio, v. xvi, 2007. Disponível em: . Acesso em: 29 maio 2010. ______. Verbos modais em contraste: análise de corpus da escrita de universitários em inglês. 2008. 230 f. Dissertação (Mestrado em Letras) – Departamento de Letras, Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro. ______; fausto, f.; zyngier, s. Corpus linguistics & literature: a contrastive analysis of Dan Brown and Machado de Assis. In: zyngier, s.; viana, v.; jandre, j. (Orgs.). Textos & leituras: estudos empíricos de língua e literatura. Rio de Janeiro: Publit, 2007. p. 233-256.

Corpora no Ensino de Línguas Estrangeiras | 93

WORKING CLOSELY WITH CORPUS:

análise de colocações adverbiais em inglês para negócios1 Andréa Geroldo dos Santos (usp)

abstract: Mastering the use of collocations is not an easy task. Although collocations may be understood by learners, they are not easily produced thereafter, according to Bahns and Eldaw (1993). Teaching them may be even more challenging if the way they are approached is inadequate. The objective of the present chapter is to show how important the study of these units is. Bearing this in mind, we researched how conventionality is dealt with in some business English textbooks available in Brazil. We found that these publications focus mainly on verbal and noun collocational patterns, with little practice in adjectival and adverbial ones. Moreover, the texts and exercises provided are not corpus-based. In an effort to help to change this panorama, we offer an overview of the monolingual business corpus we have compiled. We also list several candidates for adverbial collocations and analyze the most frequent ones. Finally, we discuss how the results might change the way conventionality is taught in the classroom.

Introdução O presente capítulo tem como objetivo demonstrar como a convencionalidade é um aspecto importante no ensino de língua inglesa para que um aprendiz possa se tornar fluente na língua-alvo. Essa é uma preocupação constante em várias publicações (bahns e eldaw, 1993; granger, 1996;

lewis, 2000), principalmente naquelas que se referem ao ensino de colocações. Em termos de materiais didáticos para o ensino de inglês geral, já aparecem referências à frequência das colocações ou a situações de uso

1

O presente capítulo está relacionado à investigação relatada em Santos (2008). Aqui, no entanto, apresentamos a análise integral das colocações adverbiais mais frequentes e consideramos as possíveis implicações que esse estudo tem para o ensino de inglês para negócios.

94 | Corpora no Ensino de Línguas Estrangeiras

nos exercícios propostos. Isso se verifica, por exemplo, na série Touchstone (mccarthy, mccarten e sandiford, 2005). O Longman Dictionary of Contemporary English Online2 também menciona quão recorrentes os verbetes são. Contudo, em uma pesquisa-piloto realizada para verificar como as colocações são abordadas no material didático para o ensino de inglês para negócios, notamos que o mesmo ainda não ocorre nessa área. Apesar de já contar com trabalhos baseados em Linguística de Corpus que tratem do assunto (nelson, 2000; succi jr., 2003), essa língua de especialidade carece de estudos acadêmicos, já que o foco maior ainda é a elaboração de material didático, conforme apontado por Dudley-Evans e St. John (1996). Por esse motivo, propusemo-nos a levantar e analisar quais colocações adverbiais são típicas da área de negócios em inglês à luz da Linguística de Corpus. Para isso, discorreremos sobre a convencionalidade e, mais especificamente, sobre as colocações na Seção 2. Posteriormente, apresentaremos um panorama sobre o inglês como língua de especialidade, enfocando a área de negócios e sua relação com a convencionalidade. A Seção 4 relata a experiência da pesquisapiloto sobre a abordagem da convencionalidade em livros didáticos de inglês para negócios disponíveis no Brasil. A metodologia de pesquisa será descrita na Seção 5, antes da apresentação da análise de oito colocações adverbiais. As possíveis implicações que os resultados podem ter no processo de ensino/ aprendizagem de língua inglesa para negócios serão discutidas na Seção 7. Finalmente, o capítulo se encerra com as considerações finais em relação ao presente estudo. Convencionalidade Talvez uma das maiores preocupações no tocante ao ensino de uma língua estrangeira relacione-se ao modo pelo qual o aprendiz pode se tornar fluente na língua-alvo (folse, 1996; riggenbach, 2000; thornbury, 2005; o’keefe, mccarthy e carter, 2007). Apesar dessa produção, o termo ‘fluência’ – muito utilizado para descrever um desempenho bom e sem esforço em uma língua – é, em geral, abordado de forma vaga, como apontam O’Keefe, McCarthy e Carter (2007, p. 61).

2

Disponível em: . Acesso em: 10 out. 2009.

Corpora no Ensino de Línguas Estrangeiras | 95

A fluência ocorreria, segundo Nattinger e DeCarrico (1997), quando o falante/ouvinte não precisa se concentrar na produção/recepção de palavras individuais, mas no discurso como um todo. Contudo, tradicionalmente, as regras gramaticais têm sido valorizadas, pois há, segundo Lewis (2000, p. 172), quem acredite que a proficiência em um idioma é resultado da capacidade de se construir frases com exatidão. Em outras palavras, ainda persiste o mito de que, se o aprendiz dominar as estruturas linguísticas e conhecer determinado número de palavras, terá condições de ter domínio da língua-alvo. Nota-se, porém, que mesmo alunos de estágios avançados têm dificuldade de se expressar de modo natural, apesar de possuírem um bom domínio das estruturas linguísticas (bahns e eldaw, 1993; granger, 1996; lewis, 2000; orenha, 20043). Esse fato ocorreria porque o aprendiz ainda seria um “falante ingênuo” (“innocent speaker” – fillmore, 1979, p. 64). Consequentemente, apesar de conhecer a morfologia e as estruturas gramaticais, como ouvinte, esse aprendiz ainda decodifica o significado de uma frase considerando isoladamente suas partes constituintes. E, como falante, expressa suas ideias do modo mais direto possível, sem se valer de expressões ou colocações usadas comumente por falantes nativos. Vemos, então, que só o conhecimento das regras gramaticais não garante necessariamente que o aprendiz escolherá corretamente os elementos lexicais que soem naturais. Essa escolha depende de convenções linguísticas, as quais são “os ‘jeitos’ aceitos pela comunidade que fala determinada língua. Assim, podemos chamar de convencionalidade o aspecto que caracteriza a forma peculiar de expressão numa dada língua ou comunidade linguística.” (tagnin, 2005, p. 14). A convencionalidade é classificada por Tagnin (2005, p. 17-20) em três níveis, conforme indicados a seguir. (a) Pragmático: situações de interação entre os falantes como, por exemplo, a necessidade de agradecer por algo recebido, o que exigiria o uso de uma expressão linguística (como ‘obrigado’). (b) Semântico: a convencionalidade é observada na relação não motivada entre uma expressão e seu significado (como ‘bater as botas’ para indicar ‘morrer’),

3 Antes de descrever a compilação de um glossário de colocações em inglês para negócios em sua dissertação, Orenha (2004) discorre sobre as razões que a levaram à pesquisa de mestrado, entre elas, a dificuldade de seus alunos em se comunicarem fluentemente.

96 | Corpora no Ensino de Línguas Estrangeiras

ou no significado de uma imagem (na cultura ocidental, por exemplo, tudo o que é bom é ‘para cima’, como em ‘cabeça erguida’; e tudo o que é mau, ‘para baixo’, como em ‘estar na fossa’). (c) Sintático: esse nível compreende como os elementos se combinam (associação consagrada pelo uso, como ‘varinha mágica’), sua ordem (‘cama e mesa’) e gramaticalidade (o uso consagrou expressões que fogem às regras gramaticais de determinada língua, por exemplo, ‘de vez em quando’).4 Dos três níveis, interessa-nos o sintático, já que seguiremos a classificação nele adotada para identificar as unidades linguísticas com as quais trabalharemos. Nosso objeto de estudo se encontra nas colocações, a serem discutidas na próxima seção, especialmente as adverbiais, aqui compreendidas por verbo + advérbio ou advérbio + adjetivo, seguindo a taxonomia adotada por Hausmann (1989). Colocações O termo ‘colocação’ foi introduzido pelo linguista j. r. Firth (1957) para definir o fato de algumas palavras co-ocorrerem com certa frequência. Essa co-ocorrência é arbitrária, já que não há regra sintática ou justificativa semântica para tal. As colocações são encontradas em blocos: base + colocado(s). Se um de seus componentes for alterado, poderá haver um ruído na comunicação. Em outras palavras, a opção passa a não mais ser a convencionalmente aceita pela comunidade, como observa Tagnin (2005). A título de ilustração, tomemos a colocação ‘colégio interno’ – se substituirmos ‘colégio’ por ‘escola’ (‘escola interna’), perde-se o significado de ‘internato’. Como Wray (2002, p. 5 e 7) afirma, “algumas palavras parecem ter sido feitas uma para outra numa expressão, enquanto outras, que deveriam ser igualmente adequadas, soam estranhas”.5 Por esse motivo, se a aprendizagem do léxico privilegiar listas de palavras isoladas, em detrimento das colocações, tender-se-á ao surgimento de problemas relacionados ao mau uso das colocações. No caso de aprendizes turcos, por exemplo, notam-se a influência da língua materna (há uma propensão ao uso de ‘become lovers’ em vez de ‘fall in love’) e a generalização

4 5

Todos os exemplos foram extraídos de Tagnin (2005).

No original: “some words seem to belong together in a phrase, while others, that should be equally good, sound odd.” (Todas as traduções dos fragmentos em inglês são de minha autoria.)

Corpora no Ensino de Línguas Estrangeiras | 97

de regras (a possível correlação de antonímia entre ‘put on your coat’ e ‘put off your coat’, em vez de ‘take off your coat’), como afirma Deveci (2004, p. 17-18). A importância de se aprender/ensinar colocações relaciona-se também ao fato de elas não serem facilmente parafraseadas. Em outras palavras, “embora os aprendizes consigam entender e traduzir frases em inglês que contenham colocações, eles não conseguem depois produzir essas mesmas colocações em inglês”6 (bahns e eldaw, 1993, p. 108). A percepção de que o estudo/ensino das colocações é de vital importância para um aprendiz chegar a ser fluente em uma língua levou-nos a fazer uma pesquisa-piloto em 2005, a fim de verificar como as colocações de um modo geral são abordadas e ensinadas no material didático para o ensino de inglês para negócios, disponível no mercado brasileiro. Nossa pesquisa limitou-se a uma especialidade (negócios) porque, inicialmente, era a área em que trabalhávamos naquele momento. Na próxima seção, discorreremos sobre línguas de especialidade antes de apresentarmos a pesquisa-piloto na Seção 4. Inglês como língua de especialidade Uma vez que nossa pesquisa aborda uma língua de especialidade, são utilizados textos jornalísticos de negócios e relatórios anuais de empresas para a busca e compilação de colocações adverbiais que sejam características desse uso. Veremos, na presente seção, (a) como o inglês para negócios se diferencia do inglês geral e (b) por que o estudo da convencionalidade é importante e necessário nessa área. Língua inglesa: geral, para fins específicos e para negócios Tradicionalmente, a definição de ‘inglês geral’ (egp – English for General Purposes) parece aparecer sempre em contraste com o ensino de inglês para fins específicos (esp – English for Specific Purposes) na literatura (hutchinson e waters, 1994; johnson e johnson, 1999; gavioli, 2005), alegando-se que o primeiro lida com a língua em sua totalidade, em oposição à especialização (de assuntos e/ou vocabulário) do último. No ensino de inglês geral, não há

6 No original: “Although learners can comprehend and translate English sentences containing collocations, they cannot thereafter produce those same collocations in English”.

98 | Corpora no Ensino de Línguas Estrangeiras

como se identificar prontamente as necessidades dos alunos, o que se contrapõe aos objetivos claros do aprendiz para fins específicos – negócios, medicina ou engenharia, por exemplo (hutchinson e waters, 1994; johnson e johnson, 1999). Ainda, no inglês geral, os falantes se comunicam em várias situações e especialidades, enquanto no inglês para fins específicos o foco está numa menor variedade de registros, geralmente um por vez (gavioli, 2005, p. 6). Na verdade, o ensino de inglês para fins específicos deve ser entendido como uma abordagem ao ensino de línguas – nela, todas as decisões referentes ao conteúdo e ao método empregado são baseadas nas necessidades dos aprendizes (hutchinson e

waters, 1994; gavioli, 2005). A pergunta

fundamental em ESP diz respeito ao motivo pelo qual o aluno precisa aprender uma língua estrangeira. De forma direta ou indireta, é a partir dessa decisão inicial que as outras questões decorrem. Consideram-se, portanto, as pessoas ou entidades envolvidas no processo (aluno, professor, empresas que custeiam o curso de línguas para os funcionários, por exemplo), o local no qual e quando serão dadas as aulas, de quanto tempo o aluno dispõe para aprender, o que exatamente é preciso ser ensinado, o nível de proficiência esperado no final do processo, e qual o método a ser utilizado para que a aprendizagem seja efetiva (hutchinson e waters, 1994, p. 21-22). Esse tipo de ensino teria se iniciado em fins do século xv apesar de não haver consenso acerca da data (cf. pickett, 1988, p. 89 apud nelson, 2000). Porém, seu crescimento só ocorreu após a Segunda Guerra Mundial, por causa do fortalecimento da economia e do domínio político americano. As alterações ocorridas no processo educacional, principalmente na década de 1960, quando o aluno começou a ser o foco do processo de aprendizagem, também contribuíram para a sua ascensão. Desde então, o ensino para fins específicos já conheceu diversas abordagens, desde a análise de gêneros (ewer e latorre, 1967; swales, 1990), passando pela análise do discurso (cook, 1989; widdowson, 1990), até a abordagem centrada na aprendizagem (hutchinson e waters, 1987;

johns, 1991). É possível notar que muitas delas ainda estão em voga. Por isso, professores procuram lançar mão de variados recursos dessas abordagens, adaptando-os às necessidades de seus alunos. Essa pedagogia é descrita por Nelson (2000) como eclética. O ensino de inglês para negócios (Business English) faz parte do inglês para fins específicos e foi um dos que mais cresceu em comparação às outras

Corpora no Ensino de Línguas Estrangeiras | 99

especialidades, de acordo com Nelson (2000). Contudo, o autor também constata que tal crescimento se observa mais no que se refere à produção de materiais pedagógicos, gerando um grande interesse por parte do mercado editorial. No tocante à investigação acadêmica, há ainda poucas teses que tenham pesquisado o assunto (cf. nelson, 2000). Assim como ocorre com a língua inglesa, o que se denomina de inglês para negócios também se subdivide em ‘geral’ e ‘específico’. O primeiro, English for General Business Purposes (egbp), diz respeito ao ensino de inglês para estudantes da área de negócios ou profissionais em início de carreira, sendo lecionado em escolas de idiomas, nas quais os alunos são classificados de acordo com o nível de proficiência na língua, e não de acordo com sua profissão. Já o específico, English for Specific Business Purposes (esbp), é direcionado a alunos que possuem experiência profissional e o utilizariam como tópico para discussões em sala de aula. Esses cursos se concentram no ensino de uma ou duas habilidades (como conversação e escrita) e eventos específicos de negócios (tais como apresentações e reuniões) ( É possível questionar, porém, se há realmente um léxico próprio do inglês na área de negócios, distinto do inglês dito geral, que justificasse a criação de cursos, materiais didáticos e até mesmo de um corpus específico para estudo. Contudo, conforme afirma Aubert (2001 [1996], p. 25), a língua de especialidade compreende, “genericamente, o conjunto de marcas lexicais, sintáticas, estilísticas e discursivas que tipificam o uso de um código linguístico qualquer em ambiente de interação social centrado em uma atividade humana”. No nível lexical, algumas palavras caracterizam-se como típicas da área de negócios por serem mais frequentes em textos dessa área do que na língua geral, como afirmam Nelson (2000) e Tribble (2006). Não somente as palavras isoladas devem ser investigadas, mas também os seus respectivos padrões, que serão o foco da próxima seção. Inglês para negócios e convencionalidade Embora já tenhamos tratado sobre convencionalidade na Seção 2, reforçamos aqui a importância de estudá-la também na área de negócios, a fim de auxiliar o aluno a se expressar de modo mais preciso e fluente. Nessa especialidade, como em outras, predominam colocações típicas que precisam ser abordadas quando da análise de textos, conforme constata Hill (2000, p. 57). Ainda nessa especialidade, após pesquisa com alunos franceses de inglês para negócios de nível avançado, Fontenelle (1994) constatou a

100 | Corpora no Ensino de Línguas Estrangeiras

dificuldade que esses alunos tinham de usar colocações frequentes em textos de economia. O autor notou que os alunos, por desconhecimento ou simplificação, produziam colocações com ‘price’ restringindo-se apenas a ‘increase’ (‘prices increased’), para ‘aumentar’, ou ‘decrease’ (‘prices decreased’), para ‘diminuir’, ignorando variantes mais precisas, como ‘soar’ ou ‘rocket’ para o primeiro caso, e ‘plunge’ ou ‘slump’, para o segundo. Alinhando-se aos achados de Fontenelle (1994), Orenha (2004) aponta, com base em sua experiência pedagógica, que mesmo alunos brasileiros de nível avançado parecem ter a mesma dificuldade. No que se refere a falar sobre as flutuações do mercado de ações, também constatamos, com base em nossa prática docente, que, apesar de não terem problemas em entender as colocações anteriormente indicadas em relatórios ou textos jornalísticos, os alunos só conseguiam produzir frases com ‘increase’ ou ‘decrease’, nunca utilizando ‘soar’ ou ‘slump’, por exemplo. Finalmente, a proficiência em uma língua de especialidade será determinada pelo domínio que um aprendiz venha a ter das colocações mais comuns naquela área. É por essa razão que o seu ensino deve ser prioritário no inglês para negócios, como afirma Woolard (2000, p. 31), ao discorrer sobre como as colocações estão ligadas a áreas específicas do conhecimento. Veremos, na próxima seção, como os padrões colocacionais são abordados por livros didáticos para o ensino de inglês para negócios, disponíveis no Brasil. Abordagem das colocações em livros didáticos Em 2005, durante um curso de especialização em inglês com ênfase em convencionalidade, fizemos uma pesquisa-piloto a fim de verificar como as colocações eram abordadas em material didático para o ensino de inglês para negócios. Para isso, selecionamos cinco livros didáticos e uma gramática, utilizados por escolas de idiomas nas regiões Sudeste e Sul do Brasil.7 Na Figura 1, apresentamos um quadro sinóptico dessa pesquisa.

7

A seleção foi baseada nas listas de livros adotados por escolas de idiomas, disponíveis para a venda nos sites de duas distribuidoras de livros e acessadas na opção ‘Livros do seu curso’.

Colocação adverbial

Colocação verbal

Sim Sim (lex.) (gram.)

Não

Sim (gram.)

Colocação nominal93

Interm. forte94

Nível

Editora

1993 Longman

Colocação adjetiva

Business Class

Ano

Livro

Corpora no Ensino de Línguas Estrangeiras | 101

Business 1998 Opportunities

Oxford

Interm. forte

Sim Sim (lex.) (gram.)

Não

Não

Business Options

1999

Oxford

Interm.

Sim Sim (lex.) (gram.)

Não

Não

Global Links

2002 Longman

Market Leader

2001- Longman Todos (com Sim Sim 200495 exceção do (lex. / (gram.) avançado) gram.)

Não

Sim96

Business Grammar Builder

2002 Macmillan

Sim

Sim

Básico e Não Sim Sim pré-interm. (gram.) (gram.)

Interm.

Não

Sim

Não

Figura 1: Livros didáticos e gramática analisados

Ao analisarmos o quadro acima, podemos notar que esses livros demonstram preocupação com o ensino de colocações verbais, principalmente com os verbos frasais (phrasal verbs) em exercícios de cunho gramatical, e as nominais nas atividades lexicais. Observamos também que, no material investigado, a abordagem das colocações adjetivas e adverbiais ainda está ligada à prática de aspectos gramaticais.

8

Os itens entre parênteses indicam se os exercícios encontrados estavam nas seções gramaticais (gram.) ou lexicais (lex.) nos materiais analisados 9

O intermediário forte (high intermediate ou upper intermediate) corresponde ao nível

b2 (‘usuário independente’) do Quadro Europeu Comum de Referência para Línguas. 10

Um período de tempo é indicado nesse caso porque a série foi publicada entre 2001 (lançamento do livro destinado ao nível básico) e 2004 (ano de publicação do livro destinado aos alunos do nível intermediário forte). 11

Isso só é tratato, contudo, no intermediário forte.

102 | Corpora no Ensino de Línguas Estrangeiras

Os autores desses livros parecem acreditar que, se o aluno souber as palavras e suas classes gramaticais, poderá formar as colocações com base em tal conhecimento, já que a maioria dos exercícios propostos pede para que o aluno relacione base + colocado, com pouca ou nenhuma contextualização, esperando que o aluno possa chegar às colocações com base na intuição. Não há nenhuma referência aos padrões colocacionais ou a situações de uso nos exercícios propostos nos livros didáticos, nem no manual do professor. Em relação às publicações que fazem alusão ao uso das colocações adverbiais, verificamos que elas são destinadas aos alunos do nível intermediário (no caso do Business Grammar Builder) ou intermediário forte. Os exercícios propostos, no entanto, caracterizam-se por apresentar uma abordagem tradicional, como observado anteriormente, privilegiando o conhecimento de unidades isoladas, esperando, assim, que o aluno forme colocações através da intuição. Por exemplo, aos alunos é dada uma lista de bases (adjetivos) cujos itens devem ser relacionados aos colocados (advérbios) de uma segunda lista. Quanto à gramática analisada, foram encontrados dois exercícios que visavam praticar o uso das colocações adjetivas e adverbiais em conjunto, e com a mesma abordagem tradicional encontrada nos livros didáticos também analisados. Por outro lado, observamos um exercício com foco na prática de expressões utilizadas para analisar gráficos, entre elas, colocações adverbiais como ‘fall12 sharply’ e ‘increase slowly’, o que, considerando os poucos exercícios encontrados anteriormente, nos pareceu positivo. Embora tenha representado um estágio inicial do estudo da abordagem da convencionalidade em material didático na área de inglês para negócios, nossa pesquisa-piloto demonstrou que, se há a preocupação em tratar das colocações (entendida nos livros analisados como prática de colocações nominais e verbais) desde o nível básico, ainda há poucos exercícios para a prática de colocações adverbiais. Também notamos que as colocações adverbiais são abordadas na expectativa de que o aluno use a intuição para relacionar bases e colocados adequadamente. Como não encontramos até o momento estudos referentes ao ensino das colocações adverbiais na área de negócios mais especificamente, optamos por estudá-las, tendo como objetivos: (a) levantar e analisar quais colocações adverbiais são mais frequentes com base num corpus monolíngue de inglês compilado a partir de textos publicados em periódicos de negócios e de relatórios anuais de empresas disponíveis on-line;

12

Representamos os lemas em versalete.

Corpora no Ensino de Línguas Estrangeiras | 103

(b) checar se esses grupos colocacionais mais recorrentes são abordados pelo material didático que analisamos. Afinal, como acreditar que colocações como ‘fall sharply’ ou ‘widely expected’,13 usadas para tratar das flutuações do mercado financeiro diariamente, só possam ser abordadas após anos de estudo? Ou então, que o conhecimento isolado do verbo ‘fall’ e do adjetivo ‘expected’, assim como dos advérbios ‘sharply’ e ‘widely’ por parte do aprendiz, signifique que ele será capaz de produzir as colocações adequadas? Além disso, parece-nos que, ao insistir no uso de combinações adverbiais que usam apenas advérbios frequentes como ‘a bit’, ‘quite’, ‘really’, ‘totally’ e ‘very’ (como evidencia o livro destinado ao nível intermediário forte), acaba-se por incentivar que os aprendizes repitam sempre as mesmas colocações. Com isso, deixa-se de contribuir para a aquisição de um léxico mais rico e, certamente, muito mais preciso. Na verdade, esses advérbios recorrentes nem são listados no ltp Dictionary of Selected Collocations, já que os autores afirmam que eles são comuns e podem ser usados com quase todos os adjetivos (hill e lewis, 1997, p. 217). Por último, a maioria das colocações propostas pelos livros didáticos, e que deveriam ser praticadas pelo aluno, foram introduzidas de modo descontextualizado: os exercícios solicitavam que o aluno escrevesse frases com base apenas em uma lista de colocações adverbiais, entre as quais podemos citar: ‘badly misjudged’, ‘superbly presented’ e ‘thoroughly enjoyed’, as quais parecem ser pouco relevantes na especialidade estudada.14 Dessa forma, os autores desses livros parecem esperar que o aprendiz crie frases com base apenas no que ele julga correto, sem nenhum tipo de orientação, como se não houvesse um léxico específico da área de negócios. Isso posto, acreditamos que para estudar as colocações adverbiais na área de negócios devemos utilizar dados autênticos, que podem ser obtidos por meio da compilação de um corpus especializado. Demonstraremos, na próxima seção, como compilamos um corpus monolíngue em inglês, a fim de levantar as colocações adverbiais mais frequentes.

13

Essas colocações, duas das mais frequentes no nosso corpus de estudo, serão analisadas na Seção 6. 14

Na Seção 7, discorreremos mais sobre essas três colocações, tomadas como exemplos, e sobre sua relevância (ou não) para a área de negócios.

104 | Corpora no Ensino de Línguas Estrangeiras

Metodologia de pesquisa A presente seção contempla o procedimento de compilação de nosso corpus de estudo, detalhando sua composição e critérios para a seleção dos textos que o constituem. Adicionalmente, também será enfocado o modo como o corpus foi explorado com a ferramenta WordSmith Tools (scott, 2008). Construção do corpus de estudo Na Figura 2, apresentamos resumidamente uma descrição do corpus de estudo (doravante ce), valendo-nos da tipologia proposta por Berber Sardinha (2004). Modo Tempo Seleção Conteúdo Autoria Finalidade

Escrito (apenas textos disponíveis na Internet) Sincrônico (textos de 2005-2008) Amostragem (linguagem de textos da área de negócios) Estático (seleção não renovável) Especializado (jornalismo de negócios e relatórios) Língua nativa (inglês americano e britânico) Estudo (descrição linguística) Figura 2: Tipologia do corpus de estudo

Neste trabalho, utilizaremos o corpus compilado até o momento, com um total de 2.310.143 palavras. Apresentamos, na Tabela 1, o detalhamento do ce. Tabela 1: Número de palavras do ce

Jornal Revista Relatórios Total Inglês Financial Times The Economist Annual Report.com britânico 343.405 303.831 476.117 1.123.353 Inglês The New York Times, Forbes Annual Report.com americano The Los Angeles Times, usa Today, Financial Times100 284.527 297.648 604.615 1.186.790 Total 627.932 601.479 1.080.732 2.310.143

15 Há mais fontes para os textos de jornais americanos porque utilizamos um pequeno corpus compilado pelos pesquisadores do Projeto comet, que nos foi cedido por Stella Tagnin.

Corpora no Ensino de Línguas Estrangeiras | 105

A escolha dos jornais e revistas utilizados para a construção do ce foi baseada em três critérios. Primeiramente, a decisão foi pautada pelo prestígio internacional dessas publicações na área do jornalismo de negócios. Também contribuiu para a seleção o fato de textos desses veículos midiáticos serem utilizados como material para livros de inglês para negócios adotados no contexto brasileiro. Por questões práticas, só utilizamos os jornais e revistas que permitiram o acesso a boa parte de seus textos a não assinantes. Finalmente, é importante lembrar que embora esses textos sejam jornalísticos, eles tratam de assuntos relacionados a negócios e são dirigidos a profissionais da área, ou seja, de uma forma ou outra, acabam por utilizar uma linguagem específica. Em pesquisa sobre essa especialidade em textos jornalísticos, Palmer e Posteguillo (1997, p. 108) observam que há dois tipos de artigos, o artigo da imprensa especializada em negócios (business press article) e a notícia de negócios na imprensa (business news in the press). Nosso

ce vale-se dos dois tipos, à medida que é formado por textos do primeiro (artigos dos jornais Financial Times e das revistas The Economist e Forbes) e do segundo (artigos dos jornais The New York Times, The Los Angeles Times e usa Today). Após a escolha das fontes jornalísticas (cf. Tabela 1), foi necessário estabelecer parâmetros para selecionar os textos a serem incluídos no ce. No que tange a essa escolha, qualquer corpus corre o risco de valorizar a importância de algumas palavras e minimizar outras (cf. leitner, 2000). Por causa disso, optamos por baixar textos em datas aleatórias, já que gostaríamos de evitar que, dado um determinado tema em alta abordado pela mídia durante um período, houvesse a recorrência de colocações que não fossem típicas da área de negócios.16 Ademais, os textos jornalísticos a serem inseridos no corpus deveriam:

16

Além do que é afirmado por Leitner (2000), o que nos levou a adotar tal critério foi nossa experiência inicial com o ce. Baixamos textos diariamente durante uma semana de dezembro de 2005, quando houve muitos artigos sobre uma explosão no maior depósito de combustível da Inglaterra. Nos relatos da explosão e nos comentários sobre as consequências que ela teria sobre a economia, notamos a ocorrência da colocação ‘badly damaged’. Como todas as quatro ocorrências referem-se ao acidente, não tendo a colocação aparecido em textos posteriores, consideramos que tal padrão não seja típico da área de negócios.

106 | Corpora no Ensino de Línguas Estrangeiras

(a) estar disponíveis integralmente para não assinantes; (b) ter pelo menos três parágrafos, pois, numa experiência inicial, textos com apenas dois parágrafos praticamente não apresentaram colocações adverbiais; (c) ser realmente novos.17 Para tentar balancear o peso dos textos jornalísticos que, inicialmente, compunham nosso ce, acrescentamos relatórios de empresas obtidos no site Annual Reports disponibilizados em 2008, mas referentes ao ano de 2007.18 Esse site agrupa e disponibiliza relatórios em inglês de empresas multinacionais de diversos segmentos (por exemplo, bancário, petrolífero e securitário). Como os textos são longos, variando de 180 a 300 páginas, o critério de seleção aqui foi procurar baixar relatórios de empresas de segmentos econômicos diferentes até atingirem o número total de um milhão de palavras. Todos os textos selecionados foram salvos em arquivos com a extensão

txt. Esses foram organizados em pastas seguindo o critério cronológico e subdivididos de acordo com seus temas. No tocante aos textos jornalísticos, adotamos quatro categorias: (a) mundo: política e economia internacional; (b) mercados: análise das variações no mercado de ações; (c) empresas: notícias sobre empresas do mundo todo; e (d) comentários e análises: editoriais e comentários sobre temas ligados à política e aos negócios, escritos por articulistas do jornal/revista ou convidados. Para os relatórios, usamos os nomes das empresas como forma de organização dos arquivos. Ferramenta de análise: listas de concordâncias do ce Partindo do ce, levantamos inicialmente a lista de palavras por ordem alfabética, obtida com a ferramenta WordList do WordSmith Tools (scott, 2008). Posteriormente, utilizamos o comando re-sort para classificar as palavras por ordem alfabética da última letra para a primeira, escolhendo a opção reverse sort. Dessa forma, foi possível procurar por palavras terminadas

17

Durante a coleta inicial, em setembro de 2005, através de checagem manual, percebemos que muitos artigos sobre um determinado tema, apesar de possuírem título e, às vezes, um ou dois parágrafos diferentes, eram, na verdade, atualizações de textos que haviam sido publicados anteriormente. Por esse motivo, decidimos coletar os textos em datas aleatórias. 18

Disponível em: . Acesso em: 01 nov. 2008.

Corpora no Ensino de Línguas Estrangeiras | 107

em -ly, já que a maioria dos advérbios em inglês é formada por esse sufixo. Excluímos manualmente os advérbios que não interessavam a nossa pesquisa no momento (os de tempo e de lugar), uma vez que nosso interesse inicial residia nos advérbios intensificadores. Obtivemos, assim, uma lista de 283 advérbios, que geraram 15.153 co-ocorrências a serem analisadas. Com essa lista, pudemos dar início à seleção das colocações adverbiais de acordo com sua frequência: as candidatas a colocação deveriam ter no mínimo duas ocorrências19 com o mesmo significado, verificadas manualmente pela pesquisadora. Chegamos, assim, ao total de 29 advérbios (colocados) que, combinados com bases diferentes, originaram 797 ocorrências. Para a análise aqui apresentada, selecionamos os advérbios que ocorreram mais de 55 vezes, os quais são listados na Tabela 2. Na primeira coluna à esquerda, listamos os colocados (advérbios) em ordem alfabética, que co-ocorreram com as bases (adjetivos e/ou lemas das formas verbais) listadas na segunda coluna. A terceira coluna refere-se ao número de ocorrências do colocado com determinada base, enquanto a última apresenta o número total de ocorrências registradas de determinado colocado com as bases encontradas no ce. Tabela 2: Lista parcial de co-ocorrências do CE

Colocado

Actively

Adversely

19

Base

manage market monitor pursue quote trade affect impact

Nº de ocorrências com a base 31 2 3 2 3 14 62 13

Nº total de ocorrências

55

75

Usamos uma frequência baixa porque o ce utilizado para esta pesquisa ainda não está completo.

108 | Corpora no Ensino de Línguas Estrangeiras

Closely

align correlate follow involve link look match monitor reflect relate resemble scrutinised (adjetivo) supervised (adjetivo) watch (verbo – 7) watched (adjetivo – 10)

work affect associated (adjetivo) attributable (adjetivo – 4) attribute (verbo – 1)

charge

Directly

charged or credited (expressão) compete deal elect involve linked (adjetivo) observable (adjetivo – 4) observed (adjetivo – 2) owned (adjetivo)

purchase recognised (verbo) record relate report take work

3 2 3 2 5 3 3 6 2 11 3 2 2

94

17 30 5 4 5 6 3 2 2 5 4 5 6 2 2 34 3 14 5 12 3

122

Corpora no Ensino de Línguas Estrangeiras | 109

Sharply

Widely

drop end fall increase reduce rise accept anticipate available believe criticise document expect hold quote regard respect see use view watch

6 3 24 3 1 21 3 2 7 3 2 2 25 7 2 4 2 8 3 3 2

58

75

Para este artigo, limitamos a análise das candidatas a colocações adverbiais (Tabela 2) àquelas cujas bases e colocados co-ocorreram mais de quinze vezes. Recorremos também a uma calculadora on-line20 para computar o escore T e a informação mútua (doravante t e im, respectivamente) das associações possivelmente colocacionais. Seguindo esses passos, encontramos oito colocações adverbiais, que apresentaremos na Seção 6. Análise dos dados Nesta seção, analisaremos as oito colocações adverbiais mais frequentes do ce, em ordem alfabética: ‘actively manage’, ‘adversely affect’, ‘closely watched’ / ‘watch closely’, ‘work closely’, ‘recognised directly’, ‘fall sharply’, ‘rise sharply’ e ‘widely expect’. Apresentaremos as linhas de concordância centralizadas pela palavra de busca e ordenadas em ordem alfabética pela

20

Essa calculadora foi criada pelo Prof. Dr. Tony Berber Sardinha (puc-sp) e está disponível em .

110 | Corpora no Ensino de Línguas Estrangeiras

primeira palavra à esquerda e à direita da palavra de busca, a fim de facilitar a visualização do nódulo e possíveis colocados, assim como a análise das linhas de concordância. Em dois casos, porque auxiliou a análise de um contexto maior, optamos por ordenar somente à direita do nódulo: pela segunda palavra, em ‘adversely affect’; e pela terceira, em ‘recognised directly’. ‘Actively manage’ De todas as ocorrências do advérbio ‘actively’ no ce, analisaremos aqui a colocação ‘actively manage’, que ocorreu 31 vezes (t = 5,62; im = 7,52). Dessas instâncias, apenas seis provêm de artigos da revista Forbes (linhas 9, 23, 24, 26-28), sendo todas as outras oriundas de relatórios. 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

7 on January 1, 2008. The Firm also actively manages wholesale credit exposure m nerally reference all or part of an actively managed portfolio of credits. An ag ion that assets and liabilities are actively managed and may vary at the time th pport facilities and the assets are actively managed by the siv investment manag ember 31, 2007. These positions are actively risk managed. The remaining Real es under management: Represent assets actively managed by Asset Management on beha emand and supply of capital will be actively managed throughout the year. Sectio o mitigate this refinancing risk by actively managing the amount of our borrowin m low. Postscript: The ten cheapest actively managed funds are all from Vanguard Operations Real Estate The Company actively manages its real estate portfolio w et/LiabilityManagementTheCompany actively manages its assets using an approac et/LiabilityManagementTheCompany actively manages its assets using an approac y 20% between 1990 and 2010 we have actively managed carbon dioxide outputs sinc ial and operating performance. hsbc actively manages the cash flows from its sub ajority of our client assets are in actively managed portfolios. (a) iMoneyNet d jority of am’s client assets are in actively managed portfolios. Selected income jority of am’s client assets are in actively managed portfolios. jpMorgan Chase portfolio of assets which we manage actively Good results from these activities ly, monitored regularly and managed actively at both the transaction and portfol gement transactions will be managed actively to ensure that all the risk managem s and hsbc is committed to managing actively all health and safety risks associa lso managing their investments more actively, diversifying across currencies, re ld erroneously conclude that 43% of actively managed funds beat the passive one. r, if you hold a large selection of actively managed equity mutual funds with th one. Among the ten best-performing actively managed funds (see table, above) th 1%. Over There and Overpriced Some actively managed international funds underpe tive, they concluded after studying actively managed funds in businessfor at lea Index is down 32%; by contrast the actively managed Fidelity Japan Fund is down 7, our focus on identifying trends, actively managing our portfolio, and consist ly manner at a reasonable price. We actively manage the liquidity risks in our b nterest rates rose and spreads were actively managed in a highly competitive mar

Corpora no Ensino de Línguas Estrangeiras | 111

Essa colocação trata do modo como fundos e investimentos são administrados, com exceção das linhas 13 e 21, que se referem, respectivamente, a ‘carbon dioxide’ (dióxido de carbono) e a ‘health and safety risks associated with its business’ (riscos para a saúde e segurança relacionados ao seu negócio). Assim, não só a frequência com que ocorre no ce, mas também a especificidade de que trata demonstram a importância de se praticar essa colocação. No ce, a colocação é encontrada como advérbio + verbo (19 ocorrências: linhas 1, 3-5, 7, 8, 10-14, 18-22, 29-31) e advérbio + adjetivo (12 ocorrências: linhas 2, 6, 9, 15-17, 23-28). Quando a base é um verbo, predominam as ocorrências no present tense: três na voz passiva (linhas 3-5) e sete na voz ativa (linhas 1, 10-12, 14, 18 e 30). Em cinco dessas sete ocorrências na voz ativa, o sujeito refere-se a uma firma / companhia (linhas 1 e 10-12) ou diretamente ao próprio nome da instituição financeira (linha 14). Quando a base é um adjetivo, ela faz parte de um sintagma nominal, cujo núcleo é representado por ‘assets’ (1 ocorrência: linha 6 – único caso em que a colocação adverbial é posposta ao núcleo), ‘portfolio’ (4 ocorrências: linhas 2, 15-17) e ‘funds’ (7 ocorrências: linhas 9, 23-28). Calculamos, então, o escore T e a informação mútua de ‘actively managed portfolio’ (t = 2,19; im= 5,72) e ‘actively managed’ + ‘funds’ (t = 2,18; im = 5,72), constatando o status colocacional de ambas as expressões. Finalmente, ressaltamos aqui a importância de praticar a colocação ‘actively manage’ com alunos da área de negócios, não só porque é uma das mais frequentes, mas também porque se refere a um modo específico de gerenciar investimentos, bastante comum nas transações com ações. Se um aprendiz não conhecê-la, pode ter dificuldades para falar sobre o assunto. ‘Adversely affect’ O advérbio ‘adversely’ ocorreu 75 vezes no ce, formando colocações adverbiais com os verbos ‘affect’ (62 ocorrências) e ‘impact’ (13 ocorrências). Analisaremos aqui a colocação ‘adversely affect’ (t = 7,87; im = 11,37), a mais frequente no ce. 01 02 03 04 05

, that have the potential to affect ’s control. Factors that could also r equity markets in 2008 would also ncentive to expand. Rubber was also ied up. This lack of liquidity also

adversely adversely adversely adversely adversely

the Firm’s reputation. These regio affect abn amro’s results or the a affect business volumes, assets un affected by the rains, which washe affected credit trading and asset-

112 | Corpora no Ensino de Línguas Estrangeiras

06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49

sting laws and regulations may also However, other factors could also cash flows could be materially and cash flows, would be materially and However, we may be materially and on proceedings could materially and icipated, this could materially and es, as needed, could materially and stems problems could materially and rvicing rights could materially and plicable to us could materially and mro’s access to capital markets and cash flows could be materially and cash flows would be materially and ial and insurance products could be , the Fund’s net asset value may be ity of Barclays businesses could be nagement companies' shares could be ts and financial condition could be o meet business objectives, will be s period. abn amro’s results can be rth American results continue to be our business and reputation may be our results of operations could be e Firm’s financial results could be general credit environment has been rmers and other consumers have been ogether with increased competition, cial condition. Systemic risk could es or enforcement initiatives could a daily basis, and therefore could al competitive pressures that could larger financial institution could utomobile contracts, and thus could Our substantial indebtedness could conomic slowdown or recession could e financial services industry could gation Risk Legal proceedings could se in excess spread cash flow could icantly higher interest rates could mpetitive in all areas, which could ce guarantees and tax rulings could ons where we conduct business could umans was affecting their economies

adversely affect our businesses. As we expan adversely affect the Group results and so th adversely affected by unfavorable outcomes.I adversely affected if we were to be terminat adversely affected if we fail to comply with adversely affect our results of operations, adversely affect our results of operations, adversely affect our results of operations, adversely affect our results of operations, adversely affect our results of operations, adversely affect our ability to operate our adversely affect the ability of abn amro’s b adversely affected. The anticipated adverse adversely affected. We require a substantial adversely affected. Adverse changes in the e adversely affected. Although changes in prev adversely affected by a worsening of general adversely affected by the burgeoning scandal adversely affected by any of the following s adversely affected by changes in the level o adversely affected by general economic condi adversely affected by high loan impairment c adversely affected. In addition, regulatory adversely affected. In addition, under the t adversely affected. The consumer Provision f adversely affected by significant instances adversely affected by the significant impact adversely affected margins on lendings and c adversely affect abn amro’s business. In the adversely affectabnamro’sbusiness.abnam adversely affectabnamro.abnamro’Stransi adversely affect abn amro’s results of opera adversely affect financial markets generally adversely affect our earnings and cash flows adversely affect our financial condition, by adversely affect our ability to acquire subs adversely affect our business and results of adversely affect our operating results for a adversely affect our earnings and cash flow. adversely affect the credit quality of Barcl adversely affect the Group’s profitability t adversely affect the results of the Company. adversely affect us. As we expand into new r adversely. “Many officials warned that it sc

Corpora no Ensino de Línguas Estrangeiras | 113

50 51 52 53 54 55 56 57 58 59 60 61 62

itial recognition of the asset have rate and foreign exchange rates may erred to as ‘systemic risk’ and may erred to as ‘systemic risk’ and may tegy on the part of that lender may gnise further write-downs which may laws or regulations that affect us gly. However, Credit and Rates were However, the insurance results were monoline financial guarantors were eased interest expense, which would lue or become illiquid, which would rience financial stress which would

adversely affected the amount or timing of f adversely affect abn amro’s results. Fluctua adversely affect financial intermediaries, s adversely affect financial intermediaries, s adversely affect that lender's ability to co adversely affect the Group’s future results. adversely;. our ability to compete with our adversely affected by lower volumes due to u adversely affected by lower income from paym adversely affected by their exposure to theu adversely our results of operations.i adversely the Loan’s value. Credit Su adversely affect their ability to service th

No estudo das linhas de concordância, notamos, em cerca de 77% delas (48 ocorrências), que a colocação é usada com verbos modais:21 ‘could’ (31 ocorrências: linhas 2, 7-8, 11-16, 18, 20, 22-24, 29-30, 34-48), ‘may’ (9 instâncias: linhas 6, 10, 21, 28, 51-55), ‘would’ (6 casos: linhas 3, 9, 19, 60-62), ‘will’ (linha 25) e ‘can’ (linha 26). A alta ocorrência com ‘could’ e ‘may’ (40 instâncias) demonstra que ‘adversely affect’ é comumente empregada com a expressão de possibilidade futura em relação a, por exemplo, ‘results’ (linhas 7, 43 e 47), ‘business and results’ (linha 42) e ‘earnings and cash flow’ (linhas 39 e 44). A ideia de predição ainda pode ser notada nas sete ocorrências da colocação com ‘would’ e ‘will’, co-ocorrendo também com ‘business volumes’ (linha 3), ‘cash flow’ (linhas 9 e 19) e ‘results’ (linha 60). Em número menor, observamos nas quatorze ocorrências restantes de ‘adversely affect’: (a) 7 instâncias no passado (linhas 4, 5, 33, 49, 57-59), (b) 3 no present perfect (linhas 31, 32 e 50), (c) 2 no presente (linhas 17 e 56), e (d) 2 no infinitivo (linhas 1 e 27). Com exceção da linha 1, em que a colocação co-ocorre com o substantivo ‘potential’ – o que alinharia essa ocorrência, na verdade, ao grupo daquelas que exprimem ‘possibilidade’ –, as outras instâncias

21 Nesse estudo, seguimos a definição de verbos modais centrais em inglês proposta por Biber et al. (1999), a saber: esses verbos são invariáveis; precedem o sujeito em perguntas que pedem sim/não como resposta; são seguidos de verbos no infinitivo sem ‘to’. Ainda segundo os linguistas, esses verbos são: ‘can’, ‘could’, ‘may’ e ‘might’ (permissão, possibilidade ou habilidade); ‘will’, ‘would’ e ‘shall’ (volição ou predição); ‘should’ e ‘must’ (necessidade e obrigação).

114 | Corpora no Ensino de Línguas Estrangeiras

se referem a situações que afetaram adversamente os negócios no passado (por exemplo, linhas 4 e 33) ou que ainda continuam a fazê-lo no presente (linhas 17 e 27). Embora ‘adversely affect’ pareça preferir a voz ativa (40 ocorrências: linhas 1-3, 5-7, 11-17, 33-56, 60-62), não pudemos deixar de notar que, nas 22 instâncias da colocação na voz passiva (linhas 4, 8-10, 18-32, 57-59), o agente foi mencionado após a colocação em treze das 22 ocorrências (linhas 4, 8, 22-27, 31, 32, 57-59). Em sete dessas ocorrências, o agente da passiva contém adjetivos e substantivos que reforçam a prosódia semântica negativa da colocação adverbial: ‘unfavorable’ (linha 8), ‘worsening’ (linha 22), ‘scandal’ (linha 23), ‘impairment’ (linha 27), ‘lower’ (linhas 57 e 58) e ‘exposure’ (linha 59). Finalmente, a colocação também foi usada em uma aparente unidade fraseológica,22 com o advérbio ‘materially’: ‘materially and adversely affect’ (11 vezes: linhas 8-16, 18 e 19). Notamos que todas elas ocorreram apenas no relatório de uma empresa americana (o ce contém, ao todo, quatorze relatórios), o que suscita dúvidas quanto a estarmos mesmo diante de uma expressão ou se se trata apenas de uma idiossincrasia. ‘Closely’ O advérbio ‘closely’ ocorreu 94 vezes no

ce, sendo empregado no

entorno de diversos itens lexicais. Seguindo o ponto de corte aqui adotado, analisaremos as ocorrências de ‘closely watched’ / ‘watch closely’ (17 ocorrências) e ‘work closely’ (30 ocorrências). ‘Closely watched’ / ‘watch closely’ Notamos que a ideia ‘observar atentamente’, expressa pelo advérbio ‘closely’ e pelo verbo ‘watch’ ou seu adjetivo derivado ‘watched’ (t: 4,23; im: 10,17), foi expressa dez vezes por meio da colocação advérbio + adjetivo (linhas 1-5, 9-13) e sete vezes na forma verbo + advérbio (linhas 6-8, 14-17).

22

Embora nossa pesquisa se concentre nas colocações adverbiais, não pudemos deixar de notar que algumas delas fazem parte de unidades maiores.

Corpora no Ensino de Línguas Estrangeiras | 115

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17

s. (See "December 2008 Layoffs.") A closely-watched reading on manufacturing act nth high in October, according to a closely-watched survey, which supports the e reform programme. Also on Monday a closely watched Bank of Japan report confirm ss confidence has turned down and a closely watched survey of purchasing manager ea is struggling almost as badly. A closely watched index of activity,based on s h nuclear power, China will also be closely watched by that ol' boy from Texas.b per cent to ¥945. The msci index is closely watched by fund managers as a benchm s claims, which analysts watch more closely, changed little, falling by just 250 among large manufacturers, the most closely watched Tankan index, rose less than Nationwide. The building society’s closely-watched monthly survey found prices Both companies have brushed off the closely-watched rivalry. “We’re more concern than-expected tankan number for the closely watched large manufacturers’ index s rhead. fundraising e fficiency: This closely watched statistic shows the cut of g – although analysts will also watch closely Friday’s business climate index rele eaders and lawyers will be watching closely to see how the competition regime de ntor Index. Ellen Kelleher Watching closely With renowned investors on both side (psdb). So the municipal polls were closely watched for evidence of their respec

Na maior parte dos casos, as ocorrências se relacionam ao acompanhamento, com certa apreensão, da atividade econômica (por exemplo, índices de preços e de cotações de ações) feito por analistas financeiros e/ou investidores. As únicas exceções concernem às linhas 6 e 17, em que a colocação foi empregada no contexto da observação de atos do governo. Quando a colocação corresponde à combinação advérbio + adjetivo, ela faz parte de um sintagma nominal que, na maioria das ocorrências (7 ao todo: linhas 1, 3-5, 9-10 e 13), é o sujeito das frases analisadas. Em quase todos os casos, o núcleo do sintagma nominal parece integrar o campo semântico de ‘dados estatísticos’, referindo-se a índices (‘index’: linhas 5, 9 e 12; ‘statistic’: linha 13) ou a pesquisas (‘survey’: linhas 2, 4 e 10). Mesmo no tocante ao uso de ‘reading’ (linha 1) e ‘report’ (linha 3), notamos um alinhamento à idéia de ‘leitura de dados estatísticos’, ao resgatarmos o cotexto dessas ocorrências.23 A exceção aqui parece ser ‘rivalry’ (linha 11).

23

No caso da linha 1, tem-se “A closely-watched reading on manufacturing activity was not as bad as feared; the Philadelphia Fed index came in at negative 32.9 for December. The figure indicates regional activity in the sector slowed less than expected, following a negative 39.3 reading in November.” Na linha 3, lê-se “Also on Monday a closely watched Bank of Japan report confirmed the economy was slowly emerging from deflation”.

116 | Corpora no Ensino de Línguas Estrangeiras

Como verbo + advérbio, ‘watch’ ocorreu três vezes na voz passiva (linhas 6, 7 e 17 – no futuro, no presente e no passado, respectivamente). Nessas ocorrências, o agente da passiva é mencionado nas linhas 6 (‘that ol’ boy from Texas’) e 7 (‘fund managers’). Na voz ativa, temos quatro instâncias: duas ocorrências no futuro (linhas 14 e 15) e duas no presente (linhas 8 e 16 – essa última, uma oração reduzida do gerúndio), tendo como sujeitos ‘analysts’ (linhas 8 e 14) e ‘business leaders and lawyers’ (linha 15). No geral, parece haver uma preferência da forma verbo + advérbio pelo presente (3 ocorrências) e pelo futuro (3 ocorrências), assim como a manutenção do mesmo campo semântico referente à observação de dados estatísticos, analisado na forma advérbio + adjetivo. As linhas 6, 14 e 17, no entanto, destoam de tal campo porque tratam de observação quanto a atos de governos, como já havíamos mencionado no início desta seção. ‘work closely’ A colocação ‘work closely’ (t: 4,45; im: 7,67), que ocorreu 30 vezes, indica a ideia de ‘trabalhar em estreita colaboração’. Em todas as instâncias, notamos que a colocação foi empregada em situações em que é necessário um esforço conjunto para resolver algo, como podemos ver nas linhas de concordância abaixo. 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19

latory bodies to work together more immunity to allow them to work more into reality. They should work more o branches where they can work more hat the Nato mission will work more of that and we've been working very restructuring process. We will work to our Chicago headquarters to work aid that although Ofsted would work ture." LeMasters said he would work ity unit was formed in 2007 to work which is why most people will work x professionals understand and work enior politicians. Mr Matsuo worked n, the consortium banks have worked and Ireland, and Ulster Bank worked ntal standards. We have also worked , he and Mr Portman are now working look of their debit card. . Working

closely. Interaction and cooperation have le closely together in the transatlantic market closely with schools too – head teachers are closely with customers. Tesco Personal Finan closely with the us’s Operation Enduring Fre closely with officials abroad, particularly closely with unite and other employees repre closely with Gerry for several years for ant closely with employers, quality improvement closely with Replay's entertainment-industry closely with individuals and businesses in a closely with an insurance agent. Be sure to closely with the different areas of the busi closely with the Cabinet Secretariat decidin closely with the management of abn amro to v closely with gbm in Madrid, the relationship closely with the u.s. government and with a closely to try to find common ground on trad closely with rbs Insurance, Retail Markets h

Corpora no Ensino de Línguas Estrangeiras | 117

20 21 22 23 24 25 26 27 28 29 30

ind alternative employment, working ded as quickly as possible. Working d Account, and we have been working ing activities. The unit also works risks. Each line of business works . One Wall Street adviser who works ilding,” says Mr. Majidi, who works arly and our collection staff works k and its clients. The Centre works the Board. The Group Chairman works , & Monitoring of Risks — orm works

closely with closely with closely with closely with closely with closely with closely with closely with closely with closely with closely with

local agencies including OneNor Retail Markets, we have made ex consumer groups and third parti Group Marketing to further embe Risk Management through itw own private equity groups said Mr n Norman Foster, the Pritzker-Pri customers to address these prob hsbc’s Global Research sector h the Company Secretary to ensure business management as well wit

Em muitos casos, a indicação de colaboradores ocorre de forma separada: o primeiro assume o lugar do sujeito, ao passo que o outro é apresentado após o padrão colocacional, gerando a fraseologia ‘work closely with’. Na linha 18, um dos três casos onde a preposição ‘with’ não é empregada, ambos os envolvidos na tarefa são mencionados na posição de sujeito, sendo os elementos coordenados com o uso da conjunção ‘and’. Nas outras duas instâncias, apesar da ausência da preposição, a colaboração fica marcada pelo uso de ‘together’, seja preposto ao advérbio ‘closely’ (linha 1) ou posposto a ele (linha 2). Ainda sobre essas duas ocorrências, checamos o sujeito nos textos de origem e constatamos que ele é coletivo: ‘regulatory bodies’ (linha 1) e ‘American Airlines, Iberia, the Spanish flag carrier, and three other airlines in the Oneworld global alliance’ (linha 2), demonstrando o porquê de essas duas instâncias não se alinharem à estrutura com a preposição ‘with’. ‘Recognised directly’ Com 122 ocorrências, ‘directly’ é o advérbio mais recorrente no

ce

dentre os estudados, e o que mais co-ocorre com bases diferentes (19 ao todo). Também é o advérbio que forma uma das colocações mais recorrentes: ‘recognised directly’ (t = 5,62 e im = 8,07), que teve 34 ocorrências. 01 9.3 – 9.3 Total of items recognised directly in equity – – – (10.2) (11.6)(38.9) 02 .0 – 32.0 Total of items recognised directly in equity – – – (121.6) 21.1 (100.5 03 .1 – 51.1 Total of items recognised directly in equity – – – (171.1) 21.1 (150.0 04 .7 – 15.7 Total of items recognised directly in equity – – – (27.3) (11.6) (38.9 05 res after impairment are recognised directly in equity. 9.

Sale

and

repurchase

118 | Corpora no Ensino de Línguas Estrangeiras

06 ilable-for-sale has been recognised directly in equity and there is objective ev 07 he hedging instrument is recognised directly in equity and the ineffective porti 08 a foreign operation are recognised directly in equity and included in profit or 09 the non-monetary item is recognised directly in equity. Any exchange component o 10 be an effective hedge is recognised directly in equity. Any

ineffective

portion

11 (39) 2 Total 574 674 506 recognised directly in equity (Benefits)/charges 2007 2 12 ng these investments are recognised directly in equity. Changes in foreign curre 13 n these translations are recognised directly in equity (‘currency

translation

ac

14 instruments to Euro are recognised directly in the currency translation account 15 t-employment benefits is recognised directly in equity. Deferred tax relating to 16 ly hedge accounting, are recognised directly through income. Derivatives designa 17 n exchange exposures are recognised directly in equity. hsbc’s management of its 18 n a non-monetary item is recognised directly in equity if the gain or loss on th 19 – (529) Share of changes recognised directly in equity in the equity of associat 20 – (510) Share of changes recognised directly in equity in the equity of associat 21 that it relates to items recognised directly in equity, in which case it is reco 22 – (431) Share of changes recognised directly in equity in the equity of associat 23 and losses are initially recognised directly in equity, in the cash flow hedging 24 on a nonmonetary item is recognised directly in the income statement if the gain 25 that has been previously recognised directly in equity is removed from equity an 26 that has been previously recognised directly in equity is removed from equity an 27 ng charge. Any excess is recognised directly in equity. n) Government grants Gov 28 ealised gains and losses recognised directly in equity, net 29 he hedging instrument is recognised directly in equity. The

of

applicable

ineffective

taxes portion

30 f foreign operations are recognised directly in equity together with the effecti 31 f foreign operations are recognised directly in equity together with the effecti 32 ale financial assets are recognised directly in equity unless an impairment loss 33 he hedging instrument is recognised directly in equity. When a cash flow hedging 34 s of eur 165 million are recognised directly in equity within unrealized gains a

A colocação ‘recognised directly’ faz parte das seguintes unidades fraseológicas: (a) coligação com o verbo ‘to be’ (o que era esperado), muito frequentemente no presente, conjugado com o aspecto simples (linhas 5, 7-10, 12-18, 23, 24, 27, 29-34) e às vezes com o perfeito (linhas 6, 25 e 26); (b) colocação com ‘in equity’ (t: 5,56; im: 10,95), funcionando como adverbial em muitos dos casos.

Corpora no Ensino de Línguas Estrangeiras | 119

(c) observação de padronização de ‘gain or loss on’ seguido por um substantivo como parte do sujeito em seis casos (linhas 7, 9, 15, 18, 24 e 29).24 Ressaltamos, por fim, que todas as 34 ocorrências da colocação ‘recognised directly’ são de relatórios de empresas, demonstrando a natureza convencional desse tipo de texto. ‘Sharply’ O advérbio ‘sharply’ foi empregado 58 vezes no ce, co-ocorrendo com seis verbos diferentes. Analisaremos aqui aquelas com mais de 15 instâncias, ‘fall sharply’ e ‘rise sharply’. ‘fall sharply’ A colocação ‘fall sharply’ (cair rápida e subitamente) ocorreu 24 vezes no ce (t: 4,77; im: 7,61). Assim como observaremos no tocante ao padrão ‘rise sharply’, aqui a colocação também se refere, na maior parte dos casos, a questões financeiras, conforme ilustrado a seguir. 01 02 03 04 05 06

only seen its borrowing costs fall inflation is still forecast to fall rly-paid workers are likely to fall or its lifting equipment had fallen e of wealth—their houses—has fallen lar loans between banks, has fallen

sharply, sharply sharply. sharply. sharply, sharply.

it has also been able to borrow qui next year due to a recent cut to val Record results by the Mercedes-Benz Any earnings downgrades could affec as The Economist’s house-price indi But the financial crisis has spawne

24 Uma vez que não é possível observar esse padrão nas linhas de concordância já apresentadas, reproduzimos abaixo o cotexto expandido dessas linhas.

(07) the effective portion of the gain or loss on the hedging instrument is recognised directly in equity (09) if the gain or loss on the non-monetary item is recognised directly in equity. (15) Deferred tax relating to actuarial gains and losses on post-employment benefits is recognised directly in equity. (18) Any exchange component of a gain or loss on a non-monetary item is recognised directly in equity if the gain or loss on the non-monetary item is recognised directly in equity. (24) Any exchange component of a gain or loss on a nonmonetary item is recognised directly in the income statement (29) the effective portion of the gain or loss on the hedging instrument is recognised directly in equity. The ineffective portion is recognised in profit or loss.

120 | Corpora no Ensino de Línguas Estrangeiras

07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

analysts' expectations have fallen ged and many currencies have fallen -term youth unemployment had fallen ent. Powerleague shares have fallen anks and other companies has fallen ke private equity firms, has fallen lear. With commodity prices falling l price rises as fares were falling pitiful. Interest rates are falling niture and electronics. Stocks fell lumes. Loan impairment charges fell hree biggest securities houses fell es. Yields on government bonds fell led into hog futures the price fell lump. Residential construction fell rt ruling last week, bnp share fell s a result, sterling initially fell the last time registrations fell so

sharply. sharply. sharply sharply sharply. sharply sharply sharply, sharply, sharply sharply sharply sharply. sharply sharply sharply, sharply, sharply

By this October, Wall Street was fo Domestic demand in much of the emer from the middle of the 1990s on the over the year, as sentiments towards Pressures on financial firms also a since peaking in early June at $29.3 (the price of a barrel of crude was the past three years are fin-the co with more central banks announcing after the retail sales report was re by 59 per cent due to releases of pr despite denying involvement. Nomura Due to the aggressive easing of mon — even as prices of other commoditie in March, shrinking 4.6 percent as b reflecting the importance being att slipping from its intra-day high of was in 1999 and in 1993, before eu e

As exceções parecem ser as linhas 4, 7 e 24, em que o sujeito é, respectivamente, ‘demand’, ‘expectations’ e ‘registrations’. Embora nessas ocorrências não se abordem diretamente ‘shares’ e ‘prices’ como no padrão predominante, quando buscamos o seu cotexto, ainda notamos que se relacionam indiretamente a temas econômicos (venda de escavadeiras, lucro e registro de novos carros de passeio, respectivamente). A colocação parece demonstrar uma preferência pelo passado simples (9 ocorrências: linhas 16-24) e pelo present perfect (7 ocorrências: linhas 5-8, 10-12) justamente por tratar de de quedas ocorridas no passado ou cujo processo se iniciou no passado e ainda está em progresso no presente. As únicas referências ao futuro apareceram com a colocação utilizada no infinitivo com um verbo indicando previsão (linha 2) e após a estrutura ‘be + likely’ (linha 3). Por fim, observamos também que, por ter um verbo intransitivo como base (‘fall’), a colocação ou precedeu um adjunto adverbial de tempo em seis ocorrências (linhas 2, 9, 10, 12, 16 e 21) ou, em muitos casos, apareceu no fim de uma oração (linhas 1, 3-8, 11, 13-15, 19, 20, 22 e 23). ‘rise sharply’ A ideia de ‘aumentar rápida e subitamente’ é expressa pela colocação ‘rise sharply’, com 21 ocorrências no ce (t: 3,96; im: 6,72), de acordo com as linhas de concordância abaixo.

Corpora no Ensino de Línguas Estrangeiras | 121

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21

[and] input prices continue to rise essure with input costs rising more and's top cricketers is set to rise School productivity could rise r money in state schools could rise large European companies have risen ly when commodity prices have risen n natural gas whose price has risen ummarily tax assets that have risen nt. Colour printing has been risin ational business, where income rose t in a day while the lira also rose mestic sectors such as banking rose s and cash management activity rose erica, loan impairment charges rose ed States exports. Rice prices rose henzhen hard-currency B shares rose ding Noble, Diamond and Ensco, rose cific, loan impairment charges rose nd rising inflation, due in part to , worries that if the yen rises too

sharply.” sharply than expected while output price inf sharply as a result of their exploits this s sharply if changes to figures accepted. sharply reversing a trend, if the governmen sharply amid lbo speculation. Bond investors sharply. But when those prices have fallen,g sharply in tandem with oil. As a versatile a sharply in price create unpredictability and sharply, thanks in part to better printers. sharply. 2007 was an eventful year for Barcl sharply against the dollar. There was some m sharply, and export sectors such as electric sharply as a 6 per cent increase in deposits sharply, by 53 per cent to US$1.7 billion, d sharply in March and April after many export sharply on hopes that the government would s sharply on news of the deal. Halliburton, wh sharply to us$512 million. Taiwan and Indone sharply rising oil prices that had also depr sharply, it will cut short a recovery from t

A colocação refere-se, na maior parte dos casos, ao aumento de custos, valores, ações e preços. As exceções concernem às linhas 4, que faz alusão à produtividade escolar, e 10, que trata de impressão em cores.25 Quanto à forma, notamos uma preferência por verbos no passado simples (9 ocorrências: linhas 11-19) e no present perfect (5 ocorrências: linhas 6-10), assim como ocorrera com ‘fall sharply’. Provavelmente porque a colocação é utilizada para relatar ações ocorridas no passado (recente). Outra semelhança com a colocação ‘fall sharply’ é ter poucas ocorrências para prever aumentos no futuro – enquanto com aquela notamos apenas duas instâncias, com ‘rise sharply’ houve cinco: duas com a base no infinitivo (linhas 1 e 3, sucedendo a ‘continue to’ e ‘is set to’, respectivamente); duas ocorrências com ‘could’ (linhas 4 e 5); e uma numa oração condicional (linha 21).

25

Lê-se na linha 4: “School productivity could rise sharply if changes to figures accepted”. O cotexto da linha 10 apresenta: “Even as people in rich countries print, copy and file less paper, says Mr Gibson, they demand more beauty in the few things they do still print. Colour printing has been rising sharply, thanks in part to better printers”.

122 | Corpora no Ensino de Línguas Estrangeiras

Observamos que ‘rise sharply’ é uma colocação que expressa com mais propriedade a ideia de aumento do que a estrutura comumente usada pelos alunos da área: ‘prices increased’, como observa Fontenelle (1994). Na verdade, com a base ‘increase’, o ce registrou apenas três ocorrências de ‘increase sharply’, como ilustrado a seguir. 01 cked deals, issuance could increase sharply next year. "We think this is the fir 02 rink of formal insolvency increased sharply the third quarter compared with a 03 bus Industrie planes have increased sharply since New York native John j. Leahy

Apesar de serem poucas ocorrências, notamos que em nenhuma delas houve menção a aumento de preços ou taxas, mas ao aumento de ‘issuance’ (emissão), ‘insolvency’ (insolvência) e ‘orders’ (pedidos). Buscamos também no ce a base ‘increase’ sem ‘sharply’, mas com ‘price’. Obtivemos 31 ocorrências, sendo que 30 delas foram da colocação nominal ‘price increases’. Em apenas uma ocorrência (“Meanwhile, food prices increased 0.2% following a 0.3% jump in the prior month.”), ‘increase’ funcionou como verbo, e no passado, confirmando, assim, que ‘prices increased’ não parece ser uma colocação recorrente para se referir ao aumento de preços. Em resumo, pelo que observamos no ce, ‘fall sharply’ e ‘rise sharply’ são colocações que precisam ser ensinadas/aprendidas em conjunto, já que são antônimas do ponto de vista semântico. Além disso, elas são muito parecidas no que tange à estrutura (tempo verbal), e ocorrem em cotextos similares (custos, preços e ações), o que talvez pudesse auxiliar seu aprendizado. ‘Widely expect’ O advérbio ‘widely’ ocorreu 75 vezes no ce, com 15 bases diferentes. Uma das colocações adverbiais mais frequentes do ce até o momento, a expressão ‘widely expect’ (t = 5,36 e im = 8,43) ocorreu 25 vezes, conforme listamos abaixo. 01 ed interest rates to 4 per cent, as widely expected. Dealers said if the dollar 02 interest rates. The moves had been widely expected after Beijing on Thursday un 03 t, from 3% to 2%. The step had been widely expected in the City, but it still ma 04 t accompanying the Bank of Canada's widely expected quarter-point rate was not a 05 was €0.80 higher at €63.80. Akzo is widely expected to come back with a raised b 06 orld's daily consumption of oil, is widely expected to cut production by between

Corpora no Ensino de Línguas Estrangeiras | 123

07 policy meeting this Tuesday, and is widely expected to cut the federal funds rat 08 after the London close; the Fed is widely expected to cut rates by 50 basis poi 09 c. The separatist Bloc Québécois is widely expected to improve on its current 54 10 ins uncertain. The Bank of Korea is widely expected to increase its benchmark in 11 late afternoon business. The Fed is widely expected to raise rates by 25 basis p 12 central bank’s thinking. The Fed is widely expected to reduce interest rates aga 13 will serve a full third term but is widely expected to stand down in 2007 and 20 14 Exporting Countries. The cartel is widely expected to trim production by at lea 15 ot at unseating the incumbent list, widely expected to dominate Thursday’s votin 16 set interest rate policy, a meeting widely expected to result in a quarter-point 17 range of $22 to $28. The Fed is now widely expected to deliver a half-point cut 18 .78 against the yen after Tuesday’s widely expected interest rate rise by the

us

19 he first half of 2007, and is still widely expected to emerge in the top spot fo 20 s limited after a decision that was widely expected, with a slight drop in bond 21 nt to 4 per cent. Although this was widely expected, the accompanying statement 22 oint rise in the Fed funds rate was widely expected. The Fed indicated it would 23 has been on hold. The decision was widely expected among investors in financial 24 ssures benign, the central bank was widely expected to wait until next year befo 25 ce June 2004. The new rate rise was widely expected and was already factored int

Com exceção das linhas em que a colocação ora funciona como adjetivo (linhas 4 e 18), ora como oração reduzida do particípio (linhas 1, 15 e 16), notamos a predominância da estrutura de voz passiva em 20 ocorrências (linhas 2, 3, 5-14, 17, 19-25). Ao lançar mão da construção passiva, os autores utilizam, com certa recorrência, a estrutura ‘be + widely expected + to’ (precedendo um verbo no infinitivo): doze ocorrências com ‘is’ (presente – linhas 5-14, 17, 19) e uma com ‘was’ (passado – linha 24). Em relação ao campo semântico, a colocação parece ser utilizada tanto para falar de aumentos, como de cortes. Quando se refere ao primeiro, observamos treze ocorrências (linhas 1, 2, 4, 5, 10, 11, 16, 18, 19, 21, 22, 24 e 25) relacionadas à expectativa de subida de taxas ou índices – duas delas com o verbo ‘raise’ (linhas 126 e 11), quatro com o substantivo ‘rise’ (especialmente

26 Lê-se na linha 1: “The dollar strengthened to a fresh two-year high against the yen, trading around y116.90 by mid-morning during the European session after the Federal Reserve raised interest rates to 4 per cent, as widely expected”.

124 | Corpora no Ensino de Línguas Estrangeiras

‘rate rise’) em seu cotexto (linhas 1627, 18, 2228 e 25). Contudo, não encontramos nenhuma ocorrência, em nosso ce, da colocação com o substantivo ‘raise’ ou com o verbo ‘rise’. Houve ainda uma ocorrência com os verbos ‘emerge’ (linha 19) e ‘increase’ (linha 10) cada e com o substantivo ‘hike’ (linha 4 – ‘quarterpoint rate hike’), mas essas ocorrências são poucas para verificarmos um padrão. Quanto ao contexto de diminuição ou cortes, houve sete ocorrências: três com o verbo ‘cut’ (linhas 6-8), uma com os verbos ‘reduce’ (linha 12) e ‘trim’ (linha 14) cada, e uma com os substantivos ‘cut’ (linha 17) e ‘drop’ (linha 20). Há dois casos em que a classificação não parece poder ser feita de forma inequívoca. A linha 3,29 por exemplo, refere-se tanto a aumento com o verbo ‘raise’, quanto a diminuição com o emprego de ‘slash’. Já a linha 23 parece expressar neutralidade ao se referir à manutenção das taxas de juros.30 Finalmente, nas linhas 9, 13 e 15, observamos que ‘widely expected’ foi empregada para tratar de política. As linhas 9 e 15 referem-se mais especificamente ao número de políticos eleitos, enquanto a linha 13 aborda a expectativa quanto ao terceiro mandato do Primeiro Ministro britânico. De forma resumida, esta seção apresentou a análise das oito colocações adverbiais mais frequentes no ce. A partir dos dados levantados aqui, tecemos,

27

O cotexto expandido da linha 16 revela o uso de ‘rise’: “The latest signs of strong consumption come less than a week ahead of the Federal Reserve’s next meeting to set interest rate policy, a meeting widely expected to result in a quarter-point rise in shortterm rates”.

28

O substantive ‘rise’ também aparece no cotexto da linha 22: “The 12th consecutive quarter-point rise in the Fed funds rate was widely expected. The Fed indicated it would continue to raise interest rates at a “measured” pace, leaving the door open for further rate hikes”.

29

Na linha 3, lê-se: “China on Friday responded to a surprise acceleration in growth during the second quarter and a jump in inflation by announcing it would slash its tax on bank deposit interest income and raise interest rates.The moves had been widely expected after Beijing on Thursday unveiled second-quarter growth in gross domestic product of 11.9 per cent and said consumer price inflation had hit 4.4 per cent in June, its highest rate in nearly three years”. 30

O cotexto expandido da linha 23 corresponde a “The Bank of England has decided to keep interest rates unchanged at 4.5 per cent, the fourth month in a row monetary policy has been on hold. The decision was widely expected among investors in financial markets and City analysts”.

Corpora no Ensino de Línguas Estrangeiras | 125

na próxima seção, alguns considerações acerca do modo pelo qual as colocações adverbiais podem ser abordadas no ensino de inglês para negócios. Implicações para o ensino A análise dos dados obtidos até o momento indica que é preciso haver outra abordagem no ensino das colocações adverbiais na área de negócios. Primeiramente, com base no aprendizado direcionado por dados31 (ou datadriven learning / ddl, em inglês), sugerimos que as linhas de concordância sejam utilizadas para a aquisição e revisão das colocações. Nesse caso, o trabalho com corpus: (a) facilita a assimilação do conteúdo por parte do aprendiz, já que permite a visualização das colocações em seu cotexto, auxiliando não só na sua compreensão, mas também no seu uso adequado; (b) demonstra aos aprendizes que uma língua tem uma grande parte convencional, contrariando a crença de que é possível produzir linguagem apenas com o conhecimento das regras gramaticais e do léxico; (c) dá aos alunos a oportunidade de não só observar e comparar as estruturas linguísticas, mas também de refletir sobre elas de modo crítico (gavioli, 2005, p. 143), o que pode tornar o aprendizado muito mais eficiente; (d) constitui-se no complemento perfeito a dicionários e gramáticas, porque permite o acesso a um “consultor nativo” sempre que necessário (granath, 2009, p. 48). Por exemplo, valendo-nos das colocações mais frequentes no nosso ce, poderíamos sugerir o seguinte: (a) com a colocação ‘work closely’, poderíamos selecionar algumas linhas de concordâncias, apresentá-las aos alunos e perguntar que preposição é comumente utilizada com essa colocação (no caso, ‘with’); no passo seguinte, apresentaríamos outras linhas de concordância, omitindo ora o verbo, ora o advérbio, ora a preposição, para que os alunos as completassem; (b) a alunos mais avançados, seria possível mostrar algumas concordâncias com ‘rise sharply’, contrastando-as com as de ‘increase sharply’, pedindo que eles listem os substantivos que precedem cada colocação e observem se são os mesmos, justamente para que percebam que a primeira colocação é a mais usada quando se pretende falar sobre o aumento de preços e taxas.

31

Tradução de Tagnin (comunicação pessoal).

126 | Corpora no Ensino de Línguas Estrangeiras

Naturalmente, não temos garantia de que o ensino ddl auxiliará todos os alunos a compreender e fazer uso correto das colocações. Todavia, ao final do processo, eles terão tido muito mais contato com a colocação – sua estrutura e seu uso –, do que nos exercícios propostos na maioria dos livros didáticos analisados, que contemplam meras listas de verbos e adjetivos a serem correlacionados aos advérbios. Em segundo lugar, não é mais possível ignorar a necessidade de se usar textos autênticos e relevantes na elaboração de material didático. Também não parece ser adequado empregar tais textos somente como apoio de leitura, sendo necessário que eles sirvam como fonte para exercícios de prática do léxico e/ ou da gramática. Em Market Leader – Upper Intermediate, um dos livros didáticos que abordou as colocações adverbiais, os autores de fato usaram um texto extraído do jornal Financial Times (uma das fontes de nosso ce), no qual havia uma ocorrência de ‘fully prepared’ – colocação usada também para introduzir o tópico sobre colocações adverbiais. No entanto, constatamos tratar-se de uma colocação de língua geral, como atesta o Collins Wordbanks Online English (t = 5,28; im = 10,45).32 Além disso, ela não ocorreu no nosso ce especializado. Na verdade, com o colocado ‘fully’, temos como mais frequentes ‘paid’ (13 ocorrências) e ‘cooperate ~ with’ (9 ocorrências). Nos exercícios desse mesmo livro, porém, foram solicitadas colocações que não constavam no texto, como: ‘badly misjudged’, ‘thoroughly enjoyed’ e ‘superbly presented’. Novamente, não há nenhuma ocorrência desses três casos no ce até o momento. No tocante à expressão ‘badly misjudged’, não há nenhum exemplo no Collins Wordbanks Online English, havendo apenas uma ocorrência no British National Corpus (bnc) e 76 no WebCorp,33 mas apenas três ocorrências faziam referência a política e nenhuma a negócios.34 Apesar de ‘thoroughly enjoyed’ poder ser caracterizado como um padrão colocacional (t = 7,2 e im = 11,38), como observado no Collins Wordbanks

32

Disponível em . Acesso em: 20 ago. 2009. 33

O WebCorp é um mecanismo de busca que utiliza a web como corpus, diferentemente do Collins Wordbanks Online English, que é um corpus de 56 milhões de palavras, e do bnc, um corpus de 100 milhões de palavras. 34

Acesso em: 20 out. 2009.

Corpora no Ensino de Línguas Estrangeiras | 127

Online (a partir da análise das 40 linhas de concordância disponibilizadas), a sequência não parece ser empregada no contexto de negócios, como podemos notar nos exemplos abaixo.35 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

-Train Crew Element" which was nks we have received, they all to be eagerly anticipated and is not used to children but he rained most of the time but we e. [p] It sounds as though you of Kid's show I said: `Yeah, I r been to the North before and l, psi sponsor Ulli Kasselmann ble and the careful Ballyquinn ight up Howard's street and he ve go leave what I have always ners misnomers [/h] Although I very kind and helpful and I've and gracious and I believe she y hospitality, which George so of his perfect role and he has d the `last tuna sandwich" and en playing since 1977 and have I must be in favour of them. I an air traffic controller. He Never afraid of precedents, he itherland, was another fan: `I stair Campbell [/b] [p] i have pals. [p] She was so happy and mains to be seen. [p] But I've t itself. [p] He seems to have her son's birth. Although she e views were consulted, and he that? [m06] Oh good lord no. I ce. [f03] And I went along and hose people who came to see it he movies of the other two but ed me who volunteered that she

35

Acesso em: 20 ago. 2009.

thoroughly enjoyed by 27 members and 7 visitors. thoroughly enjoyed themselves! The new Hall is wo thoroughly enjoyed. [p] But on Wednesday 9th Dece thoroughly enjoyed himself with them and it gave thoroughly enjoyed ourselves, it was interesting thoroughly enjoyed your week-end with you in-laws thoroughly enjoyed it'. He said: `Since you didn’ thoroughly enjoyed it. We all know if the missus thoroughly enjoyed it and said he was sure there thoroughly enjoyed themselves, galloping round to thoroughly enjoyed every minute. Howard soon esta thoroughly enjoyed? [p] I will be reading your pa thoroughly enjoyed your feature `Playing The Fiel thoroughly enjoyed my chats with so many cyclists thoroughly enjoyed herself. She stayed at least h thoroughly enjoyed. They eased the sense of isola thoroughly enjoyed his game there. But uncertaint thoroughly enjoyed it. [p] Yours faithfully [p] p thoroughly enjoyed it," he said. `This is the rig thoroughly enjoyed them and they were very useful thoroughly enjoyed the challenge of `bringing the thoroughly enjoyed the scope for innovation which thoroughly enjoyed it and would recommend it to a thoroughly enjoyed writing this column, and I hav thoroughly enjoyed herself," said neighbour and f thoroughly enjoyed my time at the club and if I c thoroughly enjoyed his spell in Tsarang indeed he thoroughly enjoyed her role as caregiver, family thoroughly enjoyed the attention. [p] The capston thoroughly enjoyed erm h e Bates er Darling Buds thoroughly enjoyed myself. [m01] Yeah. [f09] And thoroughly enjoyed it but the arts bodies weren’t thoroughly enjoyed them but when I put them all t thoroughly enjoyed [zgy] [f0x] Well. [zgy] That’s

128 | Corpora no Ensino de Línguas Estrangeiras

35 36 37 38 39 40

erm at [zg0] Handsworth. I er er teacher was excellent and I irst one just before half term 02] But er [m01] [zgy] [m02] I fferent [m01] Really [f01] She d er sh er we went up and they

thoroughly enjoyed thoroughly enjoyed thoroughly enjoyed thoroughly enjoyed thoroughly enjoyed thoroughly enjoyed

myself. [m01] Erm from what yo my year. [m01] Ha di [zf1] you it. Er the first time I’ve don it. I learnt a tremendous amou it [f02] Enjoyed what [f01] th [f01] Mm [f02] it ‘cos it was

No caso de ‘superbly presented’, há apenas uma ocorrência no Collins Wordbanks Online. Adicionalmente, o advérbio ‘superbly’ não é listado como um dos mais frequentes para a base ‘presented’ na ferramenta Collocation Sampler no Collins Wordbanks Online. De forma similar, não encontramos nenhuma ocorrência no Webcorp.36 Considerando essas informações, não é possível compreender o critério utilizado para incluir tais colocações no livro analisado. A leitura do manual do professor também não é esclarecedora nesse sentido. Finalmente, ao observarmos as colocações adverbiais mais frequentes no ce, parece não haver nada que impeça que elas sejam ensinadas desde o nível básico, a não ser a camisa de força imposta pela gradação do conteúdo programático (distinguindo também entre itens lexicais e gramaticais) que deve ser ensinado em cada nível. Não afirmamos aqui que as colocações adverbiais sejam as mais importantes. Contudo, se o aluno de inglês para negócios aprende logo no nível básico verbos como ‘work’, parece ser apropriado que esse item lexical também seja apresentado juntamente com ‘closely’, que é um dos seus possíveis colocados. Acreditamos que essas colocações possam ser ensinadas sem que tenhamos de explicar o que é um verbo ou o que é um advérbio, da mesma forma como ensinamos ‘get up’ no nível básico sem dizer que se trata de um verbo acompanhado de uma partícula adverbial, mas apenas que é um verbo com a ideia de ‘levantar-se’. 8) Considerações finais Procuramos, neste capítulo, demonstrar que a aprendizagem das colocações, e da convencionalidade como um todo, é importante para que um aprendiz de língua estrangeira possa se comunicar na língua-alvo com fluência. Cientes desse aspecto, fizemos uma pesquisa-piloto, a fim de verificar

36

Acesso em: 20 ago. 2009.

Corpora no Ensino de Línguas Estrangeiras | 129

como as colocações são abordadas em material para o ensino de inglês para negócios. Nossa pesquisa demonstrou que existe a preocupação de se ensinar as colocações (principalmente as verbais e nominais), mas que pouca atenção é dada às colocações adjetivas e adverbiais. Quando essas colocações são mencionadas, a abordagem pauta-se pela forma tradicional. Em outras palavras, constatamos a crença de que a memorização das classes gramaticais (quais são os adjetivos e os advérbios, por exemplo) leva o aprendiz a usar as colocações adequadamente. Frente a esse problema, propusemo-nos a levantar e analisar quais colocações adverbiais são típicas da área de negócios em inglês à luz da Linguística de Corpus a fim de propor outra abordagem de ensino para esse tipo de colocações – uma abordagem que se desvencilhe do aspecto gramatical e se aproxime mais dos aspectos lexicais, pragmáticos e/ou semânticos. Sabemos, porém, que um corpus de inglês para negócios, formado apenas por textos escritos coletados em periódicos e relatórios de empresas, não representa a totalidade desse uso linguístico, conforme discutimos na Seção 5.1. Mesmo assim, acreditamos que os resultados apresentados, com base em dados autênticos, apontaram para colocações que podem ser típicas dessa área, como as analisadas na Seção 6 e que, portanto, precisariam ser aprendidas e praticadas pelos aprendizes a fim de tornar seu discurso mais fluente e natural. Dessa forma, esperamos ter contribuído para os estudos da Linguística de Corpus aplicada ao ensino de línguas, demonstrando o quão importante o ensino da convencionalidade é. Referências bibliográficas

aubert, f. h. Introdução à metodologia da pesquisa terminológica bilíngue. 2. ed. São Paulo: Humanitas, 2001 [1996].

bahns, j.; eldaw, m. Should we teach efl students collocations? System, v. 21, n. 1, p. 101-114, 1993.

berber sardinha, t. Linguística de corpus. Barueri, SP: Manole, 2004. biber, d. et al. Longman grammar of spoken and written English. London: Longman, 1999.

cook, g. Discourse. Oxford: Oxford University Press, 1989. deveci, t. Why and how to teach collocations. English Teaching Forum, v. 42, n. 2, p. 16-19, abr. 2004.

130 | Corpora no Ensino de Línguas Estrangeiras

dudley-evans, t.; st. john, m. j. Report on business English: a review of research and published teaching materials. toeic research report number 2. [s.i.]: The Chauncey Group International, 1996. Disponível em: . Acesso em: 01 mar. 2010. ______; ______. Developments in English for specific purposes. Cambridge: Cambridge University Press, 1998.

ewer, j.; latorre, g. Preparing an English course for students of science. English Language Teaching Journal, v. 21, n. 3, p. 221-229, 1967.

fillmore, c. j. Innocence: a second idealization for linguistics. Berkeley Linguistics Society, v. 5, p. 63-76, 1979.

firth, j. r. Modes of meaning. In: ______. Papers in Linguistics: 1934-1951. London: Oxford University Press, 1957. p. 190-215.

folse, k. f. Discussion starters: speaking fluency activities for advanced esl/efl students. Ann Arbor, mi: University of Michigan Press, 1996. fontenelle, t. Towards the construction of a collocational database for translation students. Meta: Journal des Traducteurs / Meta: Translators’ Journal, v. 39, n. 1, p. 47-56, 1994. Disponível em: . Acesso em: 01 nov. 2006.

gavioli, l. Exploring corpora for esp learning. Amsterdam: John Benjamins, 2005.

granath, s. Who benefits from learning how to use corpora? In: aijmer, k. (Ed.). Corpora and language teaching. Amsterdam: John Benjamins, 2009. p. 47-66.

granger, s. Prefabricated patterns in advanced EFL writing: collocations and formulae. In: cowie, a. (Ed.). Phraseology. Oxford: Oxford University Press, 1996. p. 145-160.

hausmann, f. j. Le dictionnaire de collocations. In: ______ et al. (Eds.). Wörterbücher, Dictionaries, Dictionnaires. Erster Teilband. Berlin: De Gruyter, 1989. p. 1010-1019. hill, j. Revising priorities: from grammatical failure to collocational success. In: lewis, m. (Ed.). Teaching collocation: further developments in the lexical approach. Hove: ltp, 2000. p. 47-69. ______; lewis, Hove: ltp, 1997.

m. (Eds.). ltp dictionary of selected collocations.

Corpora no Ensino de Línguas Estrangeiras | 131

hutchinson, t.; waters, a. esp: a learning-centred approach. Cambridge: Cambridge University Press, 1987. ______; ______. English for specific purposes. Cambridge: Cambridge University Press, 1994.

johns, a. English for specific purposes (esp): its history and contributions. In: celce-murcia, m. (Ed.). Teaching English as a second or foreign language. New York: Newbury House, 1991. johnson, k.; johnson, h. (Eds.). Encyclopedic dictionary of applied linguistics. Oxford: Blackwell, 1999.

leitner, g. Lexical frequencies in a 300 million word corpus of Australian newspapers: analysis and interpretation. International Journal of Corpus Linguistics, v. 5, n. 2, p. 147-178, 2000. lewis, m. There is nothing as practical as a good theory. In: ______. (Ed.). Teaching collocation: further developments in the lexical approach. Hove: ltp, 2000.

mccarthy, m.; mccarten, j.; sandiford, h. Touchstone: student’s book 1. Cambridge: Cambridge University Press, 2005.

nattinger, j. r.; decarrico, j. s. Lexical phrases and language teaching. 2. ed. New York: Oxford University Press, 1997. nelson, m. A corpus-based study of business English and business English teaching material. 2000. Tese (Doutorado em Educação) – Faculty of Education, The University of Manchester, Manchester. Disponível em: . Acesso em: 01 mar. 2010. o’keefe, a.; mccarthy, m.; carter, r. From corpus to classroom: language use and language teaching. Cambridge: Cambridge University Press, 2007.

orenha, a. A compilação de um glossário bilíngue de colocações na área de jornalismo de negócios, baseado em corpus comparável. 2004. 246 f. Dissertação (Mestrado em Estudos Linguísticos e Literários em Inglês) – Faculdade de Filosofia, Letras e Ciências Humanas, Universidade de São Paulo, São Paulo.

palmer, j. c.; posteguillo, S. Layers of specificity in business English discourse. In: piqué, j.; viera, d. j. (Eds.). Applied languages: theory and practice in esp. Valencia: La Nau, 1997. p. 107-117.

132 | Corpora no Ensino de Línguas Estrangeiras

riggenbach, h. Perspectives on fluency. Ann Arbor: University of Michigan Press, 2000.

santos, a. g. dos. Colocações adverbiais em inglês para negócios: uma proposta à luz da Linguística de Corpus. Domínios de Linguagem, v. 4, p. 1-22, dez. 2008. Disponível em: . Acesso em: 12 jun. 2010.

scott, m. WordSmith Tools. Versão 5. Liverpool: Lexical Analysis Software, 2008.

succi jr., o. A utilização da Linguística de Corpus e da gramática de padrões na análise de alguns adjetivos presentes em um livro didático de inglês para negócios. 2003. 158 f. Dissertação (Mestrado em Linguística Aplicada e Estudos da Linguagem) – Faculdade de Comunicação e Filosofia, Pontifícia Universidade Católica de São Paulo, São Paulo.

swales, j. Genre analysis: English in academic and research settings. Cambridge: Cambridge University Press, 1990.

tagnin, s. e. o. O jeito que a gente diz: expressões convencionais e idiomáticas. São Paulo: Disal, 2005.

thornbury, s. How to teach speaking. Harlow: Pearson-Longman, 2005.

tribble, c. Business and professional communication: managing relationships in professional writing. In: scott, m.; tribble, c. Textual patterns: key words and corpus analysis in language education. Amsterdam: John Benjamins, 2006. p. 109-129.

widdowson, h. g. Aspects of language teaching. Oxford: Oxford University Press, 1990.

woolard, g. Encouraging learner independence. In: lewis, m. (Ed.). Teaching collocation: further developments in the lexical approach. Hove: ltp, 2000. p. 28-46.

wray, a. Formulaic language and the lexicon. Cambridge: Cambridge University Press, 2002.

Corpora no Ensino de Línguas Estrangeiras | 133

CORPORA NO ENSINO DO INGLÊS ACADÊMICO:

padrões léxico-gramaticais em abstracts de pós-graduandos brasileiros Carmen Dayrell (usp)1

abstract: This chapter investigates potential differences between English abstracts written by Brazilian graduate students vis-à-vis those taken from published papers. The primary purpose is to compare the frequencies of lexical items which are typically used in academic discourse. The study then takes a step further and examines the lexicogrammatical patterns of three selected lemmas – ‘present’, ‘find’ and ‘show’. The data are drawn from two independent and separate corpora. One corpus is made up of 189 abstracts (40,278 words) written by master’s and Phd students from the disciplines of physics, computing and pharmaceutical sciences. The other corpus comprises 1,086 abstracts (187,619 words) taken from papers published by various leading academic journals from the same disciplines. Significant differences were found between student and published writing in relation to both frequency and lexico-grammatical patterns. The chapter concludes with a discussion on the application of the findings into pedagogic practice. Introdução Por ser a língua franca da comunidade científica internacional, o inglês para fins acadêmicos (English for academic purposes – eap) é hoje visto como

1

Aos Profs. Drs. Adalberto Pessoa Jr. da Faculdade de Ciências Farmacêuticas (fcf), Sandra Aluísio do Instituto de Ciências Matemáticas e de Computação (icmc) e Valtencir Zucolotto do Instituto de Física de São Carlos (ifsc) da Universidade de São Paulo (usp), coordenadores dos cursos de escrita acadêmica em inglês nos seus respectivos departamentos, os meus sinceros agradecimentos pela cooperação e apoio na coleta dos dados analisados nesse estudo. Agradeço também a todos os alunos participantes desses cursos por permitirem a utilização de seus textos nessa pesquisa e aos Profs. Drs. German Moreno Arenas e Júlio Singer, do Instituto de Matemática e Estatística da usp, pelo suporte para realização dos cálculos estatísticos aqui aplicados. Sou também especialmente grata aos organizadores dessa obra pelos comentários e sugestões pertinentes; e à fapesp pelo total apoio a esse projeto (2007/52405-3).

134 | Corpora no Ensino de Línguas Estrangeiras

um requisito essencial para pesquisadores, professores e estudantes de todo o mundo, mesmo em países onde esse não é o idioma oficial (hyland, 2009, p. 3-5; swales e feak, 2009, p. ix-xi). No entanto, adquirir competência comunicativa em uma determinada área de estudo não é uma tarefa fácil, pois está diretamente vinculada à adesão às convenções e características do discurso acadêmico (hyland, 2009, p. ix). Como explica Hyland (2008a, 2008b), falantes experientes conhecem e usam os padrões lexicais mais frequentemente empregados pela comunidade discursiva da qual participam. Portanto, a ausência desses é um dos aspectos que denuncia a falta de fluência de um principiante. Para falantes não nativos do inglês, o desafio é ainda maior. Além de dominar as estruturas lexicais e gramaticais da língua inglesa, os não nativos devem também reconhecer a lógica do gênero sendo utilizado, ou seja, as motivações retóricas, semânticas e pragmáticas que determinam as escolhas linguísticas (davoodifard, 2008;

milton e hyland, 1999;

vold, 2006). Soma-se a isso a necessidade de estar atento às características específicas de cada cultura, visto que as práticas, expectativas e valores do gênero acadêmico podem variar consideravelmente de uma língua para outra (cortes, 2008;

davoodifard, 2008; hirano, 2009; lópez-arroyo e méndez-cendón, 2007; vold, 2006). Não é de surpreender, portanto,

que, como veremos na próxima seção, diversos estudos tenham se concentrado especificamente na análise da linguagem de falantes não nativos na escrita do inglês para fins acadêmicos. Uma característica geralmente associada à linguagem produzida por falantes não nativos de inglês é o fato de terem um repertório lexical restrito, quando comparados a falantes nativos (gilquin, 2007;

granger e paquot,

granger e tribble, 1998; ringbom, 1998). Com isso, falantes

não nativos tendem a repetir determinados itens lexicais e, consequentemente, a não utilizar outros (aktas e

cortes, 2008; de cock, 2000; gilquin, granger e paquot, 2007; ringbom, 1998). Embora de grande relevância

para o ensino, a comparação de frequências de uso não é em si suficiente para uma aplicação eficaz dos resultados em sala de aula. Como alerta Hunston (2002, p. 208-209), não basta dizer ao aprendiz para usar determinado item mais ou menos frequentemente, o fundamental é precisar as circunstâncias em que deva ser empregado. Portanto, além da frequência, é também importante considerar o contexto de uso do item pesquisado.

Corpora no Ensino de Línguas Estrangeiras | 135

O presente estudo concentra-se na investigação de resumos (abstracts) de artigos científicos escritos em inglês por pós-graduandos brasileiros. Esse foco justifica-se pela relevância desses em várias atividades acadêmicas. Como ressaltam Swales e Feak (2009, p. 2), os resumos científicos apresentam de forma sucinta o conteúdo de determinado trabalho, oferecendo ao corpo editorial de periódicos acadêmicos uma visão geral do estudo a ser avaliado e auxiliando os leitores na seleção dos artigos a serem lidos. No caso de conferências, os resumos são um fator importante na decisão do comitê organizador em aceitar ou rejeitar um trabalho para apresentação (swales e feak, 2009, p. 43). No entanto, a tarefa de escrever um resumo claro e eficiente não é simples, mesmo para pesquisadores experientes e com um grande número de publicações (swales e feak, 2009, p. xiii). Os resumos científicos são textos altamente elaborados, densos e, ao mesmo tempo, compactos (gledhill, 2005, p. 41), nos quais os autores devem apresentar os principais argumentos do trabalho, assim como atrair a atenção dos leitores e convencê-los a ler o artigo completo (hyland e tse, 2005). No contexto brasileiro, a necessidade de produção de resumos científicos em inglês é evidente, pois são obrigatoriamente parte de dissertações e teses e, geralmente, incluídos em artigos científicos em português, seja para periódicos acadêmicos ou anais de congressos. Assim, apoiando-se na Linguística de Corpus como base metodológica, o principal objetivo desse capítulo é investigar as características lexicais e gramaticais de resumos de artigos científicos em inglês escritos por mestrandos e doutorandos brasileiros das áreas de Física, Ciências Farmacêuticas e Computação. Como padrão de comparação, utilizamos um corpus de resumos de artigos científicos em inglês publicados por periódicos de excelência nas mesmas áreas de estudos. A análise foca em itens lexicais recorrentes no discurso acadêmico e frequentes em resumos científicos publicados. Dois aspectos são abordados, a saber: frequência de uso e padronização léxicogramatical. Por padrão léxico-gramatical, entende-se as regularidades lexicais, gramaticais ou semânticas que aparecem na vizinhança do item em análise. A discussão de padrões léxico-gramaticais restringe-se a três itens lexicais específicos, sendo eles: ‘present’, ‘find’ e ‘show’. Tais itens foram selecionados por ilustrarem três padrões de frequência distintos: (a) ‘present’ é muito mais frequente nos resumos dos alunos do que nos resumos publicados; (b) ‘find’ é bem menos frequente nos resumos dos alunos; e (c) ‘show’ ocorre em uma frequência semelhante nos dois corpora.

136 | Corpora no Ensino de Línguas Estrangeiras

Na próxima seção, relacionamos alguns exemplos de estudos com base em corpora voltados para a análise de características lexicais e sintáticas de textos acadêmicos em inglês. A terceira seção apresenta os corpora usados na presente pesquisa e é seguida pela descrição dos procedimentos metodológicos adotados para a extração e manipulação dos dados. Os resultados da análise são apresentados na Seção 5, e a seção seguinte discute a aplicação desses em sala de aula. O capítulo conclui com algumas considerações sobre as limitações e contribuições desse estudo. Padrões léxico-gramaticais em textos acadêmicos No campo do inglês para fins acadêmicos, o uso de corpora tem crescido rapidamente, principalmente no que se refere à análise das características lexicais e sintáticas do discurso acadêmico. Alguns trabalhos focam exclusivamente na linguagem produzida por falantes nativos e/ou experientes.2 Nesses casos, os textos representam a norma aceita por uma dada comunidade linguística e servem como uma rica fonte de informações para a identificação de como determinado item lexical é usado por falantes competentes, em quais circunstâncias e o que o distingue de outros itens relacionados. Dentro dessa perspectiva, alguns autores contrastam a prosa acadêmica com outros gêneros textuais (por exemplo, BIBER et al., 1999, p. 988-1036; BIBER, CONRAD e CORTES, 2004). Outros investigam as principais semelhanças e diferenças entre gêneros científicos em uma mesma área de estudo e entre áreas (GLEDHILL, 2005; GROOM, 2005; PEACOCK, 2006, dentre outros). Existem ainda aqueles que focam em seções específicas de artigos científicos. Gledhill (2000), por exemplo, examina introduções de artigos sobre câncer, ao passo que Brett (1994) investiga a seção de resultados em artigos da área de sociologia. Embora reconheçam as valiosas contribuições e benefícios dessa abordagem, alguns autores alertam para o fato de que a análise dos dados

2

Nesse estudo, optamos por empregar o termo falante nativo e/ou experiente (em vez de falante nativo) pelo fato de que, como veremos a seguir, diversos estudos com base em corpora de textos acadêmicos utilizam artigos científicos publicados como padrão de comparação. Em outras palavras, toma-se como referência a linguagem aceita e utilizada por periódicos de excelência nas áreas analisadas, mesmo que não tenha sido produzida por falantes nativos. Uma discussão mais detalhada sobre essa questão será apresentada na Seção 3.

Corpora no Ensino de Línguas Estrangeiras | 137

única e exclusivamente do ponto de vista do falante nativo não é suficiente para identificar as dificuldades encontradas por falantes não nativos (GRANGER, 2002; NESSELHAUF, 2004; GILQUIN, GRANGER e PAQUOT, 2007). Nesse caso, a principal alegação é que, embora falantes nativos mais novatos em determinada comunidade discursiva e falantes não nativos compartilhem algumas dificuldades, esses últimos apresentam também dificuldades específicas de falantes de língua estrangeira. Portanto, a sugestão é que as informações fornecidas pelos corpora de textos produzidos por falantes nativos sejam complementadas com informações extraídas de corpora de aprendizes, ou seja, corpora compostos de textos produzidos por falantes de língua estrangeira ou segunda língua (granger, 2002; nesselhauf, 2004).3 Diversos estudos com base em corpora de textos acadêmicos em inglês produzidos por falantes não nativos utilizam como padrão de comparação artigos científicos que tenham sido publicados por periódicos de excelência na área em análise. Esse é o caso de todos os estudos citados a seguir, que se concentram na investigação de características lexicais e sintáticas em textos escritos por pós-graduandos não-nativos do inglês. Por exemplo, Hyland (2008a) examina o uso de pacotes lexicais (sequências ininterruptas de palavras, que tendem a ser recorrentes em um dado gênero textual, tais como ‘as a result of’ no discurso acadêmico) em dissertações e teses escritas em inglês por mestrandos e doutorandos chineses. Já Hyland e Tse (2005) focam nos resumos dessas dissertações e teses escritas em inglês por pós-graduandos chineses e investigam o uso do pronome avaliativo ‘that’. Com base em dissertações de mestrado escritas por estudantes não nativos do inglês da Universidade de Birmingham, Hewings e Hewings (2002) concentram-se na análise do ‘it’

3

Assim como o conceito de falante nativo, o termo aprendiz também incita controvérsias. Como explica Nesselhauf (2004), o termo geralmente se refere a alunos de língua estrangeira ou estrangeiros que estejam aprendendo um idioma em um país onde seja a língua nativa. No entanto, acrescenta a autora, tem sido também empregado para se referir a alunos de língua estrangeira que morem e estudem o idioma em um país onde não é a primeira língua, mas a segunda ou a língua usada em repartições públicas e/ou instituições acadêmicas. No presente trabalho, referimo-nos à última concepção. Analisamos aqui textos em inglês produzidos por pós-graduandos brasileiros, ou seja, falantes nativos do português brasileiro, morando no Brasil e estudando em uma universidade brasileira. Todos têm o inglês como língua estrangeira e participam de cursos de redação de artigos científicos em inglês.

138 | Corpora no Ensino de Línguas Estrangeiras

antecipatório. Tal estrutura refere-se a sequências como ‘it has been shown that’ ou ‘it is important to’, onde o pronome assume a posição de sujeito e a oração complementar funciona como o sujeito lógico da oração principal (biber et al., 1999, p. 660). Outro exemplo é o estudo de Aktas e Cortes (2008) sobre substantivos usados como recursos de coesão (shell nouns), tais como ‘effect’ e ‘result’ que englobam ou antecipam o significado do discurso ao seu redor, em artigos científicos escritos por pós-graduandos não nativos do inglês, cursando uma universidade americana. Todos esses estudos revelam diferenças relevantes em relação às escolhas lexicais e gramaticais de estudantes não nativos e falantes nativos e/ou experientes na escrita de textos acadêmicos em inglês. Esse tipo de comparação é de grande valia para o ensino, pois os resultados podem ser usados tanto no planejamento do conteúdo programático de cursos de escrita acadêmica quanto na elaboração de materiais didáticos adequados às necessidades específicas de um grupo específico de falantes (granger, 2002; granger e tribble 1998; nesselhauf, 2004). Esses são exatamente os propósitos que norteiam o presente trabalho. Corpora usados nesse estudo O corpus de estudo aqui investigado contempla resumos de artigos científicos escritos em inglês por pós-graduandos brasileiros. Esses textos foram coletados em nove cursos de escrita acadêmica oferecidos pelos departamentos de Física, Ciências Farmacêuticas4 e Computação da Universidade de São Paulo (usp),5 entre 2004 e 2009. O principal objetivo desses cursos é orientar e auxiliar os alunos na escrita de artigos científicos em inglês e assim estimular a divulgação de seus trabalhos de pesquisa em nível internacional. Nas áreas de Física e Ciências Farmacêuticas, a disciplina é optativa e oferecida anualmente na grade curricular da pós-graduação. Como trabalho final, o aluno deve apresentar um artigo científico completo e espera-se que seja posteriormente revisado, aprimorado e submetido a um periódico internacional de referência. Já na área de Computação, apesar de o curso

4 5

A área de Ciências Farmacêuticas engloba os cursos de Farmácia, Química e Biologia.

A razão de se trabalhar com essas áreas especificamente deve-se ao simples fato de a disciplina ser oferecida apenas por esses três departamentos.

Corpora no Ensino de Línguas Estrangeiras | 139

ter os mesmos propósitos e seguir as mesmas diretrizes, exige-se apenas um resumo de um artigo científico em inglês, visto que se trata de uma atividade extracurricular de curta duração. Uma das primeiras atividades nesses cursos é a escrita da primeira versão de um resumo (abstract) de um artigo científico. Esses são os textos que compõem o nosso corpus de estudo. Portanto, o corpus de resumos escritos por estudantes brasileiros (doravante est) contempla os textos entregues no início de cada curso, antes da incorporação de comentários e sugestões propostos pelos instrutores, colegas e orientadores. O est totaliza 189 resumos e 40.278 palavras (cf. Tabela 1) e a divisão desses valores por área de estudo foi determinada pelo número de alunos nos cursos realizados por cada departamento. A maior parte dos textos é da área de Física, visto que esse departamento ministrou o maior número de cursos e cada um deles com um grande número de alunos. Já na área de Ciências Farmacêuticas, embora os cursos também sejam regulares, o número de alunos tem sido menor. No departamento de Computação, foram oferecidos apenas dois cursos até o momento da coleta de dados. Vale esclarecer que a discrepância entre o número de textos de cada área não é vista como problemática, partindo do pressuposto de que textos escritos em língua estrangeira por falantes de uma mesma língua materna compartilham características (gilquin, granger e paquot, 2007; granger, 2002). No entanto, não podemos esquecer que diversos estudos (e.g. charles, 2006, 2007; groom, 2005; hyland, 2008b; peacock, 2006) já apontaram e discutiram várias diferenças entre textos de um mesmo gênero acadêmico, mas de áreas de estudo diferentes. No caso dessa pesquisa, a opção pela não distinção das áreas justifica-se pelo tamanho modesto do corpus de estudo, tendo em vista que a investigação de padrões colocacionais torna-se mais eficaz com um maior volume de dados (clear, 1993; stubbs, 1995). Outro ponto a ser mencionado é que o nível de conhecimento de inglês dos alunos cuja produção é aqui investigada apresenta ampla variação, desde um comando intermediário dessa língua até o estágio avançado (genovês et al., 2007). Tal característica deve-se ao fato de não haver uma seleção dos alunos com base na proficiência da língua inglesa. O requisito obrigatório para ingresso nesses cursos é que o aluno seja integrante de um programa de mestrado ou doutorado dos referidos departamentos e tenha um conhecimento razoável de inglês.

140 | Corpora no Ensino de Línguas Estrangeiras

Como padrão de comparação ao est, utilizamos um corpus de 1.086 resumos (187.619 palavras) em inglês, das mesmas áreas de estudo (Física, Ciências Farmacêuticas e Computação). Todos esses resumos foram extraídos de artigos publicados em periódicos internacionais, seja de circulação eletrônica ou impressa, com conceito ‘a’ no programa Qualis da capes. Para agilizar a coleta, utilizamos apenas resumos disponíveis on-line. Além disso, como os resumos incluídos no corpus de resumos publicados (doravante pub) são em sua grande maioria de autoria múltipla, enquanto os resumos do est foram, em princípio, escritos por um único autor, tentou-se diversificar o pub o máximo possível em termos de número de autores. Para o pub, o número de resumos de cada área de estudo foi estabelecido de forma que os percentuais de textos de cada área fossem compatíveis com aqueles do est (cf. Tabela 1, % de resumos). Tabela 1: Composição do corpus de resumos escritos por estudantes brasileiros (est) e do corpus de resumos publicados (pub)

est Áreas Física

pub

Número Número Número Número % de % de de de de de resumos resumos resumos palavras resumos palavras 110

58%

25.613

630

58%

93.707

Ciências Farmacêuticas

53

28%

10.743

304

28%

67.552

Computação

26

14%

3.922

152

14%

26.360

189

100%

40.278

1.086

100%

187.619

Total

No entanto, como os textos são de tamanhos variáveis, isso significa que não foi alcançado um balanceamento entre os dois corpora em termos das porcentagens de palavras em cada área. Por outro lado, o balanceamento dos corpora em termos de porcentagens de palavras tampouco garantiria o equilíbrio do percentual de textos. Na realidade, como ressalta Baker (2004), desequilíbrios são inevitáveis nesse tipo de comparação, visto que é impossível alcançar o balanceamento completo de todos os aspectos sendo comparados. O importante enfatizar aqui é que, como veremos a seguir, tais discrepâncias são contornadas recorrendo-se a um teste estatístico de significância para validar a comparação das frequências.

Corpora no Ensino de Línguas Estrangeiras | 141

Por fim, é importante mencionar que, embora tenha sido dada preferência para textos de autores afiliados a universidades de países de língua inglesa, os resumos incluídos no pub não são necessariamente escritos por falantes nativos. O que se preza aqui é que o resumo seja parte de um artigo que tenha sido publicado por um periódico de excelência na área, ou seja, tenha passado pelo crivo de um comitê científico reconhecido. Tal abordagem apoia-se na sugestão de Swales e Feak (2009, p. xi) de que, com o crescente número de pesquisadores não nativos do inglês na comunidade científica internacional, a “tradicional distinção entre falantes nativos e não nativos de inglês está em decadência”.6 Além disso, não podemos ignorar as diversas questões inerentes à noção de falante nativo. Como ressalta Willliams (2006), o primeiro problema é decidir que variedades do inglês devem ser consideradas como padrão. O inglês americano, britânico e australiano são citados como candidatos óbvios, mas existem países, como a Índia por exemplo, que têm o inglês como um dos idiomas oficiais, mas nem todos os falantes têm o mesmo nível de competência. Willliams (2006) acrescenta ainda que, ao lidarmos com artigos de pesquisa, deparamos com o fato de a grande maioria ser de autoria múltipla, o que torna impossível determinar quem escreveu o texto. Ademais, a localização do laboratório ou centro de pesquisa não diz nada a respeito da língua materna dos seus membros; muitos empregam ou trabalham em parceria com cientistas de todo o mundo. Além de todas essas dificuldades, não podemos ignorar que nem todos os falantes nativos representam a norma (williams, 2006). Portanto, seguindo a abordagem adotada por diversos estudos relacionados (aktas e cortes, 2008; hewings e hewings, 2002; hyland, 2008a; hyland e tse, 2005), consideramos resumos científicos publicados como o padrão de referência e a norma aceita pelas comunidades linguísticas aqui analisadas. Metodologia Neste trabalho, a manipulação dos dados é feita de forma semiautomática, através da versão 5 do software WordSmith Tools (doravante

wst – scott, 2007) e do aplicativo Excel.

6

No original: “the traditional distinction between native speakers and non-native speakers (nns) of English is collapsing”.

142 | Corpora no Ensino de Línguas Estrangeiras

O primeiro passo é a identificação de itens lexicais recorrentes no discurso acadêmico e frequentes em resumos científicos publicados. Tal procedimento é feito através do utilitário KeyWord do wts, que permite identificar automaticamente palavras-chave, ou seja, aquelas cujas frequências em um corpus de estudo são estatisticamente diferentes daquelas registradas em um corpus de referência. Nesse caso, esses corpora foram representados pelo pub e no British National Corpus (bnc).7 Para efeitos desse estudo, consideramos apenas itens lexicais que ocorram, no mínimo, 300 vezes no

pub. Essa frequência de corte foi adotada apenas por conveniência, para que fosse selecionado um número limitado de itens, mas que esses fossem recorrentes nos resumos publicados. Os itens gramaticais foram excluídos desse procedimento através da stop list8 proposta por Stubbs (1986) para o inglês. Dentre os itens com frequências diferentes nos dois corpora, selecionamos aqueles com chavicidade positiva maior do que 100, ou seja, cujas frequências sejam relativamente muito mais altas no pub do que bnc.9 Tanto a identificação das palavras-chave dos resumos publicados quanto os demais procedimentos descritos a seguir são efetuados levandose em consideração a frequência de lemas, ou seja, todas as flexões do item pesquisado (e.g. ‘show’, ‘shows’, ‘showed’, ‘shown’ e ‘showing’). Os lemas são aqui representados em versalete (‘show’) e a lematização é feita com base na lista de lemas do inglês, compilada por Yasumasa Someya.10 No entanto, é importante esclarecer que o procedimento de lematização do wst considera apenas a grafia e não o contexto de uso. Como consequência, homógrafos são

7

O bnc é um corpus de textos escritos originalmente em inglês, contendo 100 milhões de palavras. Mais informações podem ser obtidas através do site (último acesso em fevereiro de 2010).

8

Uma stop list consiste em uma lista de palavras que não serão incluídas na análise (scott, 2007). 9 Para esse cálculo, utilizamos o teste estatístico quiquadrado com um p de no mínimo 0,0001. 10

No wst, o processo de lematização pode ser feito tanto manual quanto automaticamente. Nesse último, o procedimento é feito com base em uma lista de lemas oferecida pelo pesquisador, onde estão especificadas as cabeças dos lemas e os itens pertencentes a cada um. A lista de lemas do inglês compilada por Yasumasa Someya pode ser baixada através do site do wst: (último acesso em fevereiro de 2010).

Corpora no Ensino de Línguas Estrangeiras | 143

agrupados como parte de um mesmo lema, independente do significado ou da classe gramatical a que pertencem. Por exemplo, como veremos a seguir, o lema ‘present’ inclui a forma ‘present’ tanto como verbo (‘In this paper, we present a...’) quanto como adjetivo (‘The present study shows...’). No caso específico dessa investigação, tal fato não é considerado como empecilho para adoção dessa forma de lematização, visto que o estudo também prevê a análise dos padrões léxico-gramaticais de cada lema. Como afirma Sinclair (1991, p. 53), existe uma forte relação entre o significado de uma palavra e os padrões lexicais e gramaticais em que se insere. Portanto, a análise do contexto de uso auxilia a distinguir um significado de outro (sinclair, 1991, p. 78). Uma vez identificados os lemas-chave nos resumos publicados, o próximo passo é recuperar o número de ocorrências desses mesmos lemas nos resumos dos alunos e compará-los. Como os corpora não têm tamanhos semelhantes, uma forma de fazer esse tipo de comparação seria através de frequências normalizadas (por exemplo, em cada 10.000 palavras), estabelecendo-se um valor mínimo para que elas fossem consideradas diferentes. No entanto, com o intuito de aumentar a confiabilidade da interpretação dos dados, optamos aqui por aplicar um teste de significância estatística.11 O que se pretende é verificar, por exemplo, se 128 ocorrências de ‘show’ em um corpus de 40.278 palavras (est) são estatisticamente diferentes de 527 em um corpus de 187.619 palavras (pub). Para esse cálculo, recorremos ao modelo probabilístico de Poisson, conforme Potthoff e Whittinghill (1966). Tal modelo é usado para calcular a probabilidade aproximada de se obter determinado número de eventos r em um número grande n de tentativas (oakes, 1998, p. 6). Na presente análise, r refere-se à frequência da palavra de interesse e n ao número total de palavras no corpus em que ocorre. Portanto, desejamos determinar a probabilidade aproximada de uma dada palavra ocorrer em cada corpus. O modelo de Poisson é adequado para experimentos aleatórios com variáveis com distribuição binomial, ou seja, cada tentativa resulta em apenas duas possibilidades: sucesso

11

Testes estatísticos de significância são aplicados para testar a hipótese nula de que não existe diferença significativa entre dois grupos de dados e as diferenças entre eles ocorrem puramente por acaso (oakes, 1998, p. 9). Tais testes indicam o grau de confiança com que um pesquisador pode aceitar ou rejeitar uma dada hipótese (hinton, 1995, p. 38).

144 | Corpora no Ensino de Línguas Estrangeiras

ou fracasso. No nosso caso, presença ou ausência da palavra no corpus. As frequências esperadas são calculadas com base na hipótese nula de que não existe diferença significativa entre as probabilidades de a palavra pesquisada ocorrer nos dois corpora. Para comparar as frequências esperadas às observadas em cada corpus, utilizamos a distribuição quiquadrado com grau de liberdade um (gl1). O valor resultante de um teste estatístico de significância é interpretado em relação a um nível de significância pré-estabelecido, ou seja, o ponto em que a diferença entre as frequências observadas e esperadas seja tão grande, que se torna evidente que essa não ocorreu ao acaso (kurtz, 1999, p. 151). Nas ciências sociais, é comum adotar 0,05 como o valor de corte, ou seja, o ponto acima do qual a probabilidade de se aceitar um resultado como significativo quando este tenha ocorrido ao acaso é de no máximo 5 em 100 chances (5%) (hinton, 1995, p. 38;

oakes, 1998, p. 9). Em outras palavras, um valor de p ≥ 0,05

indica que a diferença entre as frequências analisadas não é estatisticamente significativa. Já para um p < 0,05, a diferença entre as frequências observadas nos dois corpora é estatisticamente significativa, ou seja, o analista pode afirmar com certeza que as frequências observadas são diferentes. Além de comparar a frequência de um determinado lema no est e no PUB, esse estudo prevê também a comparação dos padrões léxico-gramaticais formados pelo item pesquisado nos dois corpora. A identificação dos padrões léxico-gramaticais é feita através do utilitário Concord do

wst, que permite

ordenar os itens à esquerda e à direita do item pesquisado, facilitando assim a análise do seu contexto de uso. Esse procedimento é realizado nos dois corpora simultaneamente e repetido quantas vezes forem necessárias até que todas as linhas de concordância sejam analisadas. Como padrão léxico-gramatical considera-se: (a) repetições lexicais em torno do lema (como é o caso de ‘we’ e ‘that’ nos exemplos abaixo); 01 02 03 04 05

cument elements and contents. preservation are guaranteed. s refinement checks. Finally, h the bhrf1 gene was deleted, e clarified. In this article,

We show that the data definition and manipulation We show that it is np-complete to find an embeddi we show that refusal traces equivalence is charac we showed that killing of latently infected cells we show that the lectin-like transcript 1 (llt1)

Corpora no Ensino de Línguas Estrangeiras | 145

(b) diferentes formas de um mesmo lema (como as ocorrências do verbo ‘to be’ em ‘be found’); 06 07 08 09 10

efers to plant lectins that are to traditional software can be nling, lineage Wistar. It’s was -tof). The purified protein was The glass temperature (tg) were

found exclusively in species of the Leguminosae found, few works have addressed its application found on vital organ (brain and liver) biomarke found as a single band on sds-page. The putativ found by Dynamic-Mechanics Analysis (dma) and s

(c) recorrência de um determinado grupo semântico (como nos exemplos abaixo em que ‘study’, ‘work’, ‘research’ e ‘article’ são usados para se referir ao trabalho sendo apresentado no artigo). 11 12 13 14 15

aste and appeal to the consumer. in associate with red light. In accahri lfm 101 The objective of umophila serogroups 1, 8 and 12. textual identity of the node. In

The present study evaluated the sensory accept the present study we propose the investigation the present work were identified the poly(hydr The present research comproved the presence of the present article, some measurements derived

Para ser considerado padrão léxico-gramatical, a sequência deverá ocorrer em, no mínimo, 5% do número total de ocorrências do item pesquisado

be shown/showed (that)’ aparece em apenas 2% das ocorrências de ‘show’ no est (2 em 128), mas é em, pelo menos, um dos corpora. Por exemplo, ‘it

considerado como um padrão recorrente por representar 9% das ocorrências no pub (48 em 527). Uma vez identificado um padrão, buscam-se variações dele nas linhas de concordâncias restantes. Por exemplo, além de ‘we show that’, encontramos também ocorrências com um advérbio à esquerda ou à direita do verbo (e.g. ‘we also show that’ e ‘we have shown previously that’). Observa-se ainda que o pronome ‘we’ aparece como o sujeito de duas orações coordenadas aditivas e ‘show’ pode ocorrer como o verbo principal da segunda (‘We present a general model for quantum channels with memory and show that’). Ademais, além de ‘that’, ‘we show’ pode ser seguido por outros itens tais como ‘how’ (‘we show how’) e ‘the’ (‘we show the’). As frequências brutas apresentadas na próxima seção incluem todas as variações encontradas para um dado padrão. No entanto, para efeito de simplificação, representamos (entre parênteses) aquelas que ocorram em, no

146 | Corpora no Ensino de Línguas Estrangeiras

mínimo, 30% das ocorrências do padrão em um ou ambos os corpora. Por exemplo, a conjunção ‘that’ aparece em 33% das ocorrências de ‘we show’ no est e em 85% de suas ocorrências no pub. Já ‘how’ ocorre em apenas 11% das ocorrências no est e 7% no pub e ‘the’, em 22% das ocorrências no est e 3% no pub. O padrão é, portanto, representado como ‘we show (that)’. Todas as ocorrências em que o item pesquisado não está inserido em um padrão recorrente foram agrupadas e classificadas como demais ocorrências. As linhas de concordância abaixo mostram alguns exemplos da categoria demais ocorrências do verbo ‘show’ no est. 16 17 18 19 20

pedot as hole injection layer has shown a higher efficiency and also a better pe the median diameters of particles verage diameter of ca 100 nm), as e problems classified by category ciency and low vfa concentrations

showed shown showed shows

a gradual decrease with the sonication. in figure 1. The basic ph used in the pr which npd area presents more potential that this features exerts an important r

A comparação das frequências dos padrões léxico-gramaticais identificados nos dois corpora é feita seguindo-se o mesmo procedimento adotado para a comparação das frequências de itens individuais. Em outras palavras, o teste de distribuição de Poisson é novamente aplicado para determinar se a diferença entre as frequências de cada padrão no est e no pub é estatisticamente significativa. No entanto, para calcular a probabilidade de um dado item ocorrer em cada corpus, o modelo de Poisson considera o número total de palavras do respectivo corpus. Já no caso dos padrões, sua probabilidade de ocorrer em cada corpus é calculada em relação à frequência total do item pesquisado no corpus em questão. Por exemplo, a probabilidade de o padrão ‘we show (that)’ ocorrer no est é estimada considerando-se a frequência total de ‘show’ naquele corpus. 5) Resultados A análise dos dados inicia-se pela identificação dos lemas-chave no

pub, quando comparado ao bnc. Tais lemas são mostrados na Tabela 2 abaixo, classificados em ordem decrescente pela frequência nos resumos publicados.

Corpora no Ensino de Línguas Estrangeiras | 147 Tabela 2: Lemas com alta frequência no PUB quando comparado ao BNC

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Lema-chave

Frequência bruta no pub

Frequência bruta no bnc

Chavicidade

cell use model result show study high state system protein base effect method energy field find present data increase

1.003

5.418

81.296,84

985

62.273

6.303,92

624

13.155

13.791,74

552

21.938

6.135,19

527

26.084

4.539,53

483

21.844

4.624,91

478

38.276

2.247,92

461

37.907

2.091,53

453

44.076

1.624,89

393

2.898

24.130,27

385

9.072

7.566,84

365

23.160

2.319,82

358

8.955

6.604,48

349

12.098

4.518,02

324

14.992

3.017,11

321

40.935

760,84

310

24.856

1.453,14

304

18.084

2.092,56

302

16.808

2.255,63

O próximo passo é recuperar as frequências desses lemas no est. A Tabela 3 mostra as frequências brutas e normalizadas (número de ocorrências em cada 10.000 palavras) dos 19 lemas no est e no pub, ordenados pela diferença entre as frequências normalizadas nos dois corpora. A última coluna mostra o valor p do teste estatístico aplicado. O asterisco à direita indica os lemas cuja diferença entre as frequências nos dois corpora é estatisticamente significativa.

148 | Corpora no Ensino de Línguas Estrangeiras Tabela 3: Frequências dos 19 lemas selecionados para análise no est e no pub

1

use

342

84,9

985

52,5

32,4

< 0,0001*

2

study

187

46,4

483

25,7

20,7

< 0,0001*

3

present

111

27,6

319

17,0

10,6

< 0,0001*

4

show

128

31,8

527

28,1

3,7

0,2100

5

method

87

21,6

358

19,1

2,5

0,2993

6

result

121

30,0

552

29,4

0,6

0,8354

7

high

98

24,3

478

25,5

-1,2

0,6780

8

data

58

14,4

304

16,2

-1,8

0,4100

9

effect

70

17,4

365

19,5

-2,1

0,3871

10

system

81

20,1

453

24,1

-4,0

0,1291

11

increase

48

11,9

302

16,1

-4,2

0,0521

12

base

63

15,6

385

20,5

-4,9

0,0451*

13

find

47

11,7

321

17,1

-5,4

0,0137*

14

protein

53

13,2

393

20,9

-7,7

0,0013*

15

model

95

23,6

624

33,3

-9,7

0,0017*

16

energy

31

7,7

349

18,6

-10,9

< 0,0001*

17

field

22

5,5

324

17,3

-11,8

< 0,0001*

18

state

30

7,4

461

24,6

-17,2

< 0,0001*

19

cell

35

8,7

1003

53,5

-44,8

< 0,0001*

Lema-chave

Normalizada

p

Bruta

Diferença entre as frequências normalizadas

Normalizada

Frequências no pub

Bruta

Frequências no est

Corpora no Ensino de Línguas Estrangeiras | 149

Os três primeiros lemas (‘use’, ‘study’ e ‘present’) são muito mais frequentes nos resumos dos alunos do que naqueles publicados, sendo a diferença entre as frequências nos dois corpora estatisticamente significativa. Em outras palavras, esse resultado talvez seja um indício de que os alunos sobreusam esses três itens, ou seja, os empregam em uma frequência muito mais acentuada do que os autores de resumos publicados o fazem. É interessante notar ainda que os três lemas são também bastante frequentes no pub, o que sugere uma possível tendência dos alunos a repetir itens lexicais de alta frequência no discurso acadêmico em inglês. Tais resultados corroboram com a afirmação de que falantes não nativos tendem a repetir itens mais frequentes e, consequentemente, a não utilizar outros (gilquin, granger e paquot, 2007; granger e tribble, 1998; ringbom, 1998). Por outro lado, os lemas 12 a 19 (cf. Tabela 3) mostram a tendência oposta, pois são bem mais frequentes no pub do que no est, o que é confirmado pelo teste estatístico. Esses são, portanto, lemas talvez negligenciados pelos alunos, visto que são pouco empregados por eles apesar de serem recorrentes nos resumos publicados. As razões para a baixa incidência desses itens nos resumos dos alunos podem ser várias. Uma possível explicação é, por exemplo, a influência da língua materna, geralmente citada na literatura como um fator determinante nas escolhas lexicais do falante não nativo (gilquin e paquot, 2007; gilquin, granger e paquot, 2007; ringbom, 1998). Como explica Ringbom (1998), falantes não nativos tendem a evitar o uso de itens e estruturas da língua inglesa que não tenham um correspondente direto em suas línguas maternas. Esse talvez seja o caso do lema ‘find’, visto que seus equivalentes em português (‘encontrar’ e ‘achar’) são pouco frequentes em resumos científicos das disciplinas investigadas (dayrell, 2010). No caso da presente análise, o tópico dos resumos parece também figurar como uma possível razão para a baixa frequência de alguns itens. Por exemplo, este talvez seja o caso de ‘protein’, ‘energy’ e ‘cell’ (‘proteína’, ‘energia’ e ‘célula’), tendo em vista que todos os três itens têm equivalentes diretos no português. Já os lemas 4 a 11 ocorrem com frequências semelhantes nos dois corpora, o que é confirmado pela ausência de diferença significativa. Nesses casos, podemos concluir que os alunos recorrem a esses itens na mesma proporção de autores mais experientes. No entanto, é importante lembrar que, embora a frequência de uso seja um dos aspectos que contribuem para a naturalidade do texto, não é em si suficiente para determinar se são usados

150 | Corpora no Ensino de Línguas Estrangeiras

da mesma forma (hunston, 2002, p. 208-209). Para tal, faz-se necessário comparar as circunstâncias em que são empregados. Como mencionado anteriormente, analisamos aqui os padrões léxicogramaticais de três itens lexicais, sendo eles: ‘present’, ‘find’ e ‘show’. Conforme a Tabela 3, ‘present’ é bem mais frequente no est que no pub; enquanto ‘find’ mostra a tendência oposta, sendo muito mais recorrente no pub que no est. ‘show’ é o único que apresenta uma frequência relativa semelhante nos dois corpora. Para cada um dos três itens, apresentamos as frequências brutas dos padrões léxico-gramaticais identificados nos dois corpora, em ordem decrescente de frequência no est, e o nível de significância (p) da diferença entre essas frequências. O asterisco à direita do valor-p indica aqueles para os quais a diferença entre as frequências nos dois corpora é estatisticamente significativa. A fim de facilitar a visualização dos dados, as frequências são também apresentadas em gráficos, em termos da porcentagem de ocorrências do lema pesquisado em relação a sua frequência total em cada corpus. Por exemplo, o padrão ‘results show (that)’ ocorre 19 vezes em 128 ocorrências de ‘show’ no est; portanto, corresponde a 15% das ocorrências do lema nesse corpus. Vale mencionar ainda que todos os exemplos mencionados na discussão dos resultados foram extraídos dos resumos dos alunos. ‘present’ A Tabela 4 abaixo apresenta os padrões léxico-gramaticais identificados para ‘present’ nos dois corpora. A categoria semântica “paper” que aparece nos padrões (i), (ii) e (iii) refere-se aos itens lexicais ‘paper’, ‘study’, ‘work’, ‘research’ e ‘article’. Tabela 4: Padrões léxico-gramaticais de present

Padrões léxico-gramaticais i ii iii iv v

(in) the present “paper” (this) “paper” presents (the/a|an) (in this “paper”) we present (a|an) be presented Demais ocorrências TOTAL

Frequências brutas

est

pub

16 11 8 6 70 111

24 17 98 94 86 319

p 0,0403* 0,1033 < 0,0001* < 0,0001* < 0,0001*

Corpora no Ensino de Línguas Estrangeiras | 151

Esses mesmos dados são apresentados na Figura 1 em termos percentuais em relação à frequência total de ‘present’ em cada corpus. EST

PUB

100% 80%

63%

60% 31%

40% 20% 0%

15%

i

8%

10% 5% ii

7% iii

29%

27%

5% iv

v

Figura 1: Percentuais de ocorrência dos padrões léxico-gramaticais em relação ao número total de ocorrências de present em cada corpus

O padrão (i) é o único em que ‘present’ é usado como adjetivo. Em todas as ocorrências nos dois corpora, a estrutura refere-se ao trabalho discutido no artigo em questão, como ilustrado pelos exemplos abaixo. 01 02 03 04 05

in associate with red light. In textual identity of the node. In accahri lfm 101 The objective of aste and appeal to the consumer. umophila serogroups 1, 8 and 12.

the present the present the present The present The present

study we propose the investigation work, some measurements derived fr work were identified the poly(hydr study evaluated the sensory accept research comproved the presence of

Dentre os padrões formados por ‘present’, ‘(in) the present “paper”’ é o mais usado pelos alunos, sendo muito mais frequente no est do que no pub (cf. Figura 1), o que é confirmado pelo teste estatístico (cf. Tabela 4). Nesse caso, levantou-se a hipótese de que essa diferença talvez estivesse relacionada a uma possível preferência dos resumos publicados pelo uso de ‘this’ no lugar de ‘the present’. No entanto, a frequência normalizada de ‘(in) this “paper”’ no

est (33,5 ocorrências por 10.000 palavras) é mais do dobro de sua frequência no pub (16,6). Sequências como ‘in the present study’ e ‘the objective of the present work’ são, conforme Hyland (2008a, 2008b), utilizadas como organizadores textuais, ou seja, servem para organizar trechos do discurso ou direcionar os leitores para determinado ponto no texto. Além de auxiliarem na estruturação

152 | Corpora no Ensino de Línguas Estrangeiras

dos argumentos, tais marcadores também indicam uma tentativa do autor de mostrar competência científica e domínio das convenções retóricas do discurso acadêmico (hyland, 2008b). Portanto, embora a análise aborde apenas dois exemplos de organizadores textuais [‘(in) the present “paper”’ e ‘(in this “paper”)’], os resultados podem ser interpretados como um indício de que os pós-graduandos brasileiros talvez mostrem uma tendência mais acentuada a chamar a atenção para o trabalho sendo apresentado, quando comparados aos autores publicados. Outra estrutura considerada por aprendizes como uma forma de demonstrar competência acadêmica é o uso de sujeitos abstratos (hyland e tse, 2005), como em ‘the present study evaluated’. Segundo Hyland e Tse (2005), essa estrutura é geralmente recomendada em manuais e livros-texto de escrita acadêmica, por ser uma tentativa de remover qualquer indício de interesse pessoal e dar credibilidade ao estudo sendo apresentado. No entanto, no caso deste estudo, é interessante notar que, o número de ocorrências do padrão ‘(this) “paper” presents (the/a|an)’, em que ‘present’ aparece como verbo e é precedido por um sujeito abstrato, é semelhante nos dois corpora. Embora o percentual do padrão no est seja o dobro do percentual no pub (cf. Figura 1), a diferença entre os dois não é significativa do ponto de vista estatístico (cf. Tabela 4). Por outro lado, se considerarmos apenas os padrões em que ‘present’ é usado como verbo (ii, iii e iv, indicados na Tabela 4), observamos que o padrão ‘(this) “paper” presents (the/a|an)’ é o mais frequente no est e o menos frequente no pub. Assim sendo, a tendência dos alunos a chamar a atenção para suas pesquisas parece se manter. Ainda em relação ao padrão (ii), outra diferença interessante entre os dois corpora é o fato de que o uso do artigo definido à direita do verbo (exemplos 06 a 10 abaixo) é muito mais frequente no est (55% das ocorrências do padrão) do que no pub (12%). Essa diferença revela uma tendência dos alunos a empregarem o padrão para apresentar algo específico, o que não ocorre nos resumos publicados. 06 07 08 09 10

researchers. This ame lectins. This sive. Hence, this and starch. This s designers. This

paper paper study study works

presents the presents the presents the presents the presents the

results obtained from laboratory reinforce isolation and characterization of the camp evaluation of two application techniques o preparation and characterization of films Cog-learn, a Pattern Languague aiming at

Corpora no Ensino de Línguas Estrangeiras | 153

No pub, a preferência é pelo artigo indefinido (65% das ocorrências do padrão ii), que faz menção a uma referência genérica (exemplos 11 a 15). 11 12 13 14 15

tional cost. This paper this sense, this paper This study is relevant. This work sion makers. This study

present a presents a presents a presents a presents a

novel approach of dtw, with the use of Discr mechanism for the automatic creation of dags quantitative methodology based on geotechnic crysta structure of a hiv-1 protease of subt framework for meta-modeling of knowledge. Th

Já o padrão (iii) ‘(in this “paper”) we present (a|an)’ é, claramente, muito mais frequente no pub do que no est (cf. Figura 1), sendo a diferença entre as frequências nos dois corpora significativa (cf. Tabela 4). A baixa incidência do padrão nos resumos dos alunos corrobora com a sugestão de outros estudos (cf. hyland, 2008a; hyland e tse, 2005) de que aprendizes tendem a optar pela impessoalidade e a evitar dispositivos linguísticos que explicitem a posição do pesquisador como agente ou avaliador, como é o caso dos pronomes de primeira pessoa. No caso específico de falantes nativos de português, essa tendência talvez esteja também relacionada a preferências e práticas culturais, visto que os pronomes de primeira pessoa são pouco recorrentes em resumos científicos em português, que tendem a dar preferência a estruturas impessoais (dayrell, 2010). No entanto, embora outros estudos já tenham demonstrado que a voz passiva tende a ser bem mais frequente em resumos científicos escritos em inglês por pós-graduandos brasileiros do que em resumos publicados das mesmas áreas de estudo (dayrell, 2009, 2010), isso não acontece com ‘be presented’. O padrão é muito mais frequente no pub do que no est, sendo a diferença entre as frequências nos dois corpora significativa. Uma possível justificativa para esse resultado talvez esteja relacionada à influência negativa da língua materna dos alunos. Como demonstra Dayrell (2010), o seu equivalente ‘ser apresentado(a)(s)’ é bastante frequente em resumos científicos em português das áreas de estudo aqui analisadas (8,7 ocorrências em cada 10.000 palavras). Portanto, os alunos talvez considerem ‘be presented’ como uma tradução muito literal do seu correspondente em português e, por isso, evitam empregá-lo. Para finalizar, vale ressaltar que o percentual de ocorrências em que ‘present’ não é parte de um padrão léxico-gramatical é muito mais alto nos resumos dos alunos do que nos resumos publicados. A clara diferença entre os dois corpora talvez seja um indício de que os alunos

154 | Corpora no Ensino de Línguas Estrangeiras

estejam pouco familiarizados com alguns dos padrões léxico-gramaticais formados por ‘present’. ‘find’ Dos quatro padrões léxico-gramaticais formados por ‘find’, três incluem a sequência ‘be found’ (cf. Tabela 5). Nesse caso, o padrão (i) inclui todas as ocorrências da voz passiva, exceto aquelas em que o verbo principal é seguido de um verbo no infinitivo [‘be found to (be)’] ou o ‘it’ antecipatório (‘it be found that’). Tabela 5: Padrões léxico-gramaticais de ‘find’

Padrões léxico-gramaticais

Frequências brutas

p

est

pub

be found ii We find (that) iii be found to (be) iv It be found that

12

40

0,0240*

6

121

0,0071*

2

87

0,0031*

2

22

0,5231

v

25 47

54 324

< 0,0001*

i

Demais ocorrências Total

A Figura 2 mostra os percentuais de ocorrências desses padrões em relação à frequência total de ‘find’ em cada corpus. EST

PUB

100% 80%

53%

60% 40%

37% 12%

20% 0%

27%

26%

i

13%

ii

4% iii

17% 4% iv

7% v

Figura 2: Percentuais de ocorrência dos padrões léxico-gramaticais em relação ao número total de ocorrências de ‘find’ em cada corpus

Corpora no Ensino de Línguas Estrangeiras | 155

Somadas todas as ocorrências dos padrões em que ‘be found’ é parte (padrões i, iii e iv), observamos que a voz passiva corresponde a um alto percentual das ocorrências de ‘find’ tanto no est (34%) quanto no pub (46%). Embora ligeiramente mais frequente nos resumos publicados, a diferença entre as frequências nos dois corpora não é significativa (p = 0,4628). Esse resultado reflete o esperado, visto que a voz passiva é uma estrutura comum no inglês acadêmico (carter e

mccarthy, 2006, p. 277). O que é interessante

notar aqui são as diferenças entre os dois corpora em relação às regularidades na vizinhança da estrutura. Nos resumos dos alunos, a grande maioria das ocorrências da voz passiva refere-se a ‘be found’, onde não há recorrência de itens lexicais no seu cotexto, como ilustram as linhas de concordância abaixo. 01 02 03 04 05

efers to plant lectins that are to traditional software can be nling, lineage Wistar. It’s was -tof). The purified protein was The glass temperature (Tg) were

found exclusively in species of the Leguminosae found, few works have addressed its application found on vital organ (brain and liver) biomarke found as a single band on sds-page. The putativ found by Dynamic-Mechanics Analysis (dma) and s

Esse padrão é mais frequente no est que no pub, sendo a diferença estatisticamente significativa. Por outro lado, quando a sequência ‘be found’ é seguida por um verbo no infinitivo [‘be found to (be)’], o padrão é muito mais frequente no

pub do que no est, sendo a diferença entre os dois

corpora estatisticamente significativa. Uma possível explicação para essa baixa incidência talvez esteja relacionada ao fato de o padrão não ter correspondentes diretos no português, daí o desconforto dos alunos em utilizá-lo. Já ‘it be found that’ é pouco frequente em ambos os corpora. Embora o percentual no PUB seja levemente mais alto, a diferença entre as frequências nos dois corpora não é estatisticamente significativa. No entanto, vale mencionar que se além de ‘found’, considerarmos o uso do ‘it’ antecipatório com outros verbos (e.g. ‘shown’, ‘demonstrated’, ‘observed’) que também são usados para apresentar os resultados de um estudo, observamos que a estrutura aparece quase o dobro de vezes nos resumos publicados (dayrell, no prelo). Essa diferença é interpretada como um indício da pouca familiaridade dos alunos com o emprego da estrutura para esse fim. Outra diferença também relevante é o fato de que o padrão ‘we find (that)’ é muito mais frequente no pub que no est, sendo a diferença significativa.

156 | Corpora no Ensino de Línguas Estrangeiras

Assim como no caso de ‘present’, aqui também os alunos tendem a evitar um comprometimento explícito com o resultado ou argumento apresentado. Outro resultado que também se repete é o alto percentual de ocorrências no est em que ‘find’ não forma um padrão recorrente, claramente bem acima do seu correspondente no pub. Em suma, em relação a ‘find’, observa-se que, além de empregarem o lema em uma frequência muito mais baixa do que nos resumos publicados (cf. Figura 2), os alunos não parecem familiarizados com os padrões léxico-gramaticais em que ele geralmente ocorre. Essa conclusão baseia-se no fato de que mais da metade das ocorrências de ‘find’ no est não está inserida em um padrão recorrente. Soma-se a esse resultado a baixa incidência dos padrões (ii) e (iii) nos resumos dos alunos, visto que ambos são muito mais frequentes nos resumos publicados. ‘show’ O lema ‘show’ é um caso interessante por apresentar frequências semelhantes nos dois corpora, mas preferências totalmente distintas em relação aos padrões léxico-gramaticais empregados (cf. Tabela 6). No padrão (ii), a categoria semântica “study” refere-se aos itens ‘study’, ‘studies’, ‘paper’, ‘work’, ‘project’, ‘research’, ‘investigation(s)’ e ‘review’. No padrão (iii), “analysis” referese a ‘analysis’, ‘tests’ e ‘experiments’. Tabela 6: Padrões léxico-gramaticais de ‘show’

Padrões léxico-gramaticais

Frequências brutas

est

pub

p

i

results show (that)

19

44

0,0336*

ii

“study” show (that/the)

16

19

< 0,0001*

iii

“analysis” show (that)

15

16

< 0,0001*

iv

we show (that)

9

162

< 0,0001*

v

it be shown/showed (that)

2

48

0,0056*

vi

be shown to (be)

1

52

0,0012*

66

186

0,0078*

128

527

vii Demais ocorrências Total

Corpora no Ensino de Línguas Estrangeiras | 157

Os percentuais de ocorrências desses padrões em relação à frequência total de ‘show’ em cada corpus são apresentados na Figura 3. EST

PUB

100% 80% 60%

51%

40% 20% 0%

35%

31% 15% 12% 12% 8% 4% 3% 7% i

ii

iii

iv

2%

9%

v

10% 1% vi

vii

Figura 3: Percentuais de ocorrência dos padrões léxico-gramaticais em relação ao número total de ocorrências de ‘show’ em cada corpus

Em relação aos padrões léxico-gramaticais de ‘show’, observamos que

show (that) ’, (ii) ‘“study” show (that/the)’ e (iii) ‘“analysis” show (that)’. Já os resumos publicados mostram uma preferência marcante pelo padrão (iv) ‘we show (that)’. Outros dois padrões também mais frequentes no pub que no est são (v) ‘it be shown/ showed (that)’ e (vi) ‘be shown to (be)’. Uma discussão mais detalhada sobre as os alunos parecem preferir os padrões (i) ‘results

diferenças relacionadas às frequências de uso de cada padrão nos resumos dos alunos e nos publicados é apresentada a seguir. Conforme mostrado na Figura 3, os padrões (i), (ii) e (iii) ocorrem em frequências semelhantes nos resumos dos alunos. Todos esses três padrões são bem mais frequentes no est do que no pub, sendo as diferenças entre as frequências nos dois corpora estatisticamente significativas. De forma semelhante ao discutido para o lema ‘present’, observamos que os pós-graduandos brasileiros novamente mostram uma preferência mais acentuada por sujeitos abstratos, o que sugere uma tendência a se distanciarem da interpretação dos dados e apresentá-los de forma impessoal e objetiva. Essa tendência é reforçada pela discrepância entre as frequências do padrão ‘we show (that)’ nos dois corpora. O padrão é muito mais frequente no pub do que est, sendo a diferença entre as frequências nos dois corpora

158 | Corpora no Ensino de Línguas Estrangeiras

significativa. Portanto, mais uma vez, os dados apontam para uma baixa incidência do pronome pessoal de primeira pessoa nos resumos dos alunos, sinalizando sua relutância de se colocarem frente ao argumento apresentado. Por outro lado, os padrões ‘it be shown/showed (that)’ e ‘be shown to (be)’, que poderiam ser uma alternativa para apresentar os resultados de forma impessoal, são muito mais frequentes no pub que no est. Para ambos, a diferença entre as frequências nos dois corpora é significativa. Assim como observado para ‘find’, aqui também as ocorrências do ‘it’ antecipatório e da voz passiva seguida de infinitivo são pouco recorrentes no est. É interessante notar também que, quando empregam o ‘it’ antecipatório (‘it be shown/showed (that)’), os alunos tendem a usar a forma não usual do particípio (‘showed’) (wehmeier, 2000, p. 1189), que aparece apenas no est, em 75% das ocorrências. Por fim, a categoria demais ocorrências é novamente mais frequente no est do que no pub, sendo a diferença entre os dois corpora significativa. Portanto, para os três lemas analisados (‘present’, ‘find’ e ‘show’), encontramos um alto percentual de ocorrências nos resumos dos alunos em que os lemas não fazem parte de um padrão léxico-gramatical. Esses números indicam que os alunos talvez estejam pouco familiarizados com as fraseologias mais recorrentes formadas pelos lemas analisados. Aplicações no ensino A comparação entre corpora de aprendizes e corpora compostos por textos escritos por falantes nativos e/ou experientes oferece contribuições importantes para o ensino. Dois aspectos se beneficiam particularmente com os resultados desse tipo de estudo, a saber: (a) a seleção do conteúdo programático de cursos e (b) a elaboração de materiais didáticos (granger, 2002; granger e tribble, 1998; nesselhauf, 2004). Na análise apresentada acima, identificamos itens lexicais com frequências diferentes nos dois corpora. Independentemente de ocorrerem mais ou menos vezes nos resumos dos alunos, tais itens mereceriam uma atenção especial em sala de aula, visto que sinalizam a não naturalidade da linguagem produzida pelos aprendizes. Para minimizar o sobreuso de determinado item lexical e incentivar o aprendiz a empregar vocábulos pouco frequentes, Granger e Tribble (1998) sugerem uma atividade interessante, com base no adjetivo ‘important’ do inglês. Primeiramente, são apresentadas ao aluno 15 linhas de

Corpora no Ensino de Línguas Estrangeiras | 159

concordância, dos quais ‘important’ foi removido e substituído por um espaço a ser preenchido pelo aluno com um dos adjetivos sugeridos: ‘critical’, ‘crucial’, ‘major’, ‘serious’, ‘significant’ e ‘vital’. O aluno tem também a opção de manter o adjetivo ‘important’ quando achar plausível. A fim de chamar a atenção para as combinações de palavras, a segunda parte da atividade consiste em buscar no corpus de estudo, ou em outras obras de referência, os substantivos que tipicamente co-ocorrem com os adjetivos listados. Corpora de aprendizes são também úteis para realçar dificuldades enfrentadas pelos aprendizes, inclusive aquelas que poderiam passar despercebidas pela intuição e experiência de professores (granger e

tribble, 1998). Por exemplo, no caso desse estudo, os resultados revelam que os padrões ‘be found to (be)’ e ‘be shown/showed to (be)’ são raramente empregados pelos pós-graduandos brasileiros. No entanto, ambos são recorrentes nos resumos publicados e, portanto, mostram-se úteis na escrita de um resumo científico e mereceriam ser abordados em sala de aula. Dados de textos escritos por aprendizes também podem contribuir para o aprimoramento de observações incluídas em dicionários e gramáticas sobre os erros mais comuns relacionados ao uso de determinado item lexical (granger, 2002). A autora também destaca a relevância desse tipo de dados no desenvolvimento de software de auxílio ao aprendizado de língua voltado para usuários específicos. Exemplos autênticos extraídos de corpora de aprendizes podem também ser eficazes em sala de aula, através da aplicação da abordagem de aprendizagem direcionada por dados (data-driven learning, ddl) (granger

tribble, 1998; granger, 2002; nesselhauf, 2004). Na abordagem ddl (johns, 1991a, 1991b, 2002), o aprendiz é convidado a mergulhar nos

e

dados e explorar suas regularidades. Privilegia-se nesse caso a aprendizagem por indução, em que o aprendiz é estimulado a descobrir os padrões da linguagem e a fazer generalizações sobre suas formas e usos. No entanto, alguns cuidados são necessários para se garantir a eficácia da abordagem ddl. Por exemplo, é essencial ponderar a quantidade de dados apresentada ao aprendiz, visto que o excesso pode não só consumir muito tempo como também tornar a atividade confusa e extremamente frustrante (granger e tribble, 1998; nesselhauf, 2004). A forma de apresentação dos dados é outro ponto a ser considerado. Como explicam Granger e Tribble (1998), nem todas as formas linguísticas são apropriadas para serem analisadas

160 | Corpora no Ensino de Línguas Estrangeiras

através de linhas de concordâncias. Os autores citam como exemplo o uso de tempos verbais, para os quais talvez seja necessário apresentar ao aprendiz um contexto maior, da sentença ou parágrafo. Em se tratando da aplicação da abordagem ddl com o uso de dados de corpora de aprendizes, uma série de questões adicionais deve ser considerada, por estarmos lidando com dados diferentes daqueles de corpora de textos de falantes nativos e/ou experientes (nesselhauf, 2004). Nesse caso, a recomendação é que os textos de aprendizes sejam usados com extrema cautela e em contextos específicos (granger 2002; granger e tribble, 1998; nesselhauf, 2004). Para Nesselhauf (2004), é essencial que os alunos tenham ciência de que estão lidando com evidência negativa, visto que incorrem no risco de não serem capazes de identificá-la e, ainda pior, memorizá-la. Daí a importância de apresentá-la junto com evidências positivas, extraídas de textos de falantes competentes. Exercícios que enfatizem o uso adequado da estrutura em questão são também essenciais para a consolidação do aprendizado (granger e tribble, 1998; nesselhauf, 2004). Além disso, recomendase também que as linhas de concordância sejam cuidadosamente preparadas e, até mesmo, editadas, de forma que permitam a fácil visualização do ponto que se deseja abordar (granger e tribble, 1998; nesselhauf, 2004). Concluise, portanto, que, como afirma Nesselhauf (2004), quando a ddl baseia-se em dados de corpora de aprendizes, o professor exerce um papel mais importante do que no caso de corpora de falantes nativos e/ou experientes, tanto em relação à seleção do que deverá ser analisado quanto à forma de fazê-lo. Tomando o lema ‘show’ como exemplo, descrevemos abaixo uma atividade elaborada com base em exemplos extraídos do nosso corpus de estudo (est). Apoiamo-nos aqui na sugestão de Granger (2002) de que textos de aprendizes mostram-se bastante eficazes na conscientização dos alunos sobre as diferenças mais relevantes entre as formas linguísticas produzidas por eles e aquelas de falantes competentes. A ideia é, portanto, apresentar ao aprendiz dois conjuntos de linhas de concordância, um coletado do est e outro do pub, considerando-se as devidas peculiaridades de cada corpus. Cabe ao aprendiz identificar as principais diferenças entre os dados. Conforme recomendado por alguns autores (granger e tribble, 1998; hunston, 2002; nesselhauf, 2004), incluímos também algumas perguntas para direcionar os olhos do aprendiz para as diferenças mais evidentes nas linhas de concordância. Tais perguntas foram elaboradas com

Corpora no Ensino de Línguas Estrangeiras | 161

base nos resultados da comparação entre os padrões léxico-gramaticais de ‘show’ no est e no pub descritos na seção anterior. São elas: (a) Qual a sequência mais frequente em cada conjunto de dados? (b) A sequência mais frequente em um conjunto ocorre em proporção semelhante no outro? (c) Que sequência ocorre nos resumos publicados, mas não nos resumos dos alunos? (d) Qual a diferença entre a forma verbal de ‘show’ na linha 20 e nas linhas 35 a 37? Exemplos extraídos de resumos de artigos científicos escritos por alunos brasileiros 01 sample preparation. The results show that by ultraviolet excitation the excited 02 ity to uncertainty. The results showed that the nodule group had a higher entro 03 talloproteinase-2). The results showed that reck, mmp-14 and timp-2 expression 04 [2] in this binding. Our result shows that tr dl can bind dna better than tr db 05 matrix error (dme. Results have shown that

galattea method find adequate predic

06 ch responses. Then results have shown that, considering the use of images digit 07 ce with ito as anode. This work shows the necessity to hole injection layer, li 08

This paper shows the evaluation process about the impact o

09 tures of the product. The study showed that the association of a cereal bar and 10 tree. However, several studies shows that these criteria leads to different so 11

Recent investigations show that natural xanthones possess anti-inflam

12 y sonication. Chemical analysis showed that the composition of the sample was n 13 oll protocol. The

dgge analysis showed changes in microbial trusts structure in

14 ucture distribution. Tests have shown quite similarity between regions of inter 15 literature. Computational tests showed that the improvement of the carry over w 16 inary computational experiments showed that effective gains can be obtained whe 17 rmations gauge. In this work we show that the energy and the momentum are bound 18 ure). In the present article we show a theoretical model where is consider the 19 sed at the experiments. Also we show the interferences of salt and

mgcl[2] in t

20 d mixed-integer programs. It is showed that the robust formulations trade off p

162 | Corpora no Ensino de Línguas Estrangeiras

Exemplos extraídos de resumos de artigos científicos escritos publicados 21 e problem. Experimental results show that using cplex to solve the ilp formulati 22 the wireless node. Our results show that the proposed model is able to provide 23 l protein synthesis. This study shows the potential of proteomics using shotgun 24 uccessive regimes. The analysis shows that the so-called marginal modes are not 25 ument elements and contents. We show that the data definition and manipulation 26 r and multilayer geometries. We show that, in a local-density approximation, the 27 ice over many Bloch periods. We show that an increasing atom-atom interaction sy 28 cs of the constituent atoms. We show that in the case of bosonic atoms Bose enha 29 ies of the Hamiltonian. Here we show that supplementing the algorithm with symme 30 tag count assignment (mta). We show that

mca, the generalized variant of the lo

31 (eat-2), in human nk cells. We show that association of eat-2 induces the phosp 32 t from quantum teleportation We show that the phenomenon of superadditivity of d 33 by lentiviral transduction, we show that nkg2d is required for cytolysis of tum 34 -induced apoptosis. Finally, we show that the extent of Treg depletion correlate 35 magnetic resonance data. It is shown that a superior denoising performance is o 36 ximation for nonzero one. It is shown that in certain interval of chemical poten 37 ross the interface. It has been shown that conjugating water-soluble enzymes wit 38 schemes are presented, and are shown to be significantly more effective than th 39 sition. Distributed gradient is shown to be efficient when the motion of the rob 40 ctions, and this difference was shown to be physically important. The best wave

Vale ressaltar ainda que, além conscientizar os aprendizes sobre as principais diferenças entre as características lexicais e gramaticais da linguagem por eles produzida e aquela usada em resumos publicados, é também importante alertá-los sobre as estratégias que permeiam as escolhas linguísticas. Por exemplo, no caso de ‘show’, é importante chamar a atenção do aprendiz para o fato de que ao empregar o padrão ‘results show (that)’ está também optando por apresentar os resultados de uma forma impessoal e, dessa forma, se distanciar da interpretação dos dados. Por outro lado, ao empregar ‘we show (that)’, o aluno coloca-se na posição de agente ou avaliador, e assume total responsabilidade pelo argumento apresentado. Portanto, como explicam Milton e Hyland (1999), para garantir a adesão às convenções e ao estilo do gênero acadêmico, além dos padrões lexicais e gramaticais da língua alvo, o aprendiz precisa também conhecer os contextos semânticos e pragmáticos do gênero-alvo e o papel da linguagem na lógica do discurso.

Corpora no Ensino de Línguas Estrangeiras | 163

Considerações finais O objetivo deste capítulo era investigar as características lexicais e gramaticais de resumos de artigos científicos em inglês escritos por pós-graduandos brasileiros e resumos publicados por periódicos de excelência nas áreas de Física, Ciências Farmacêuticas e Computação. O estudo aponta uma série de diferenças relevantes entre os dois corpora no que se refere tanto à frequência de diversos itens lexicais quanto ao uso dos verbos ‘present’, ‘find’ e ‘show’. No entanto, o trabalho tem também limitações que não podem ser ignoradas. Primeiramente, é importante enfatizar que o tamanho do nosso corpus de estudo (est) é extremamente modesto. Portanto, o leitor deve ter em mente que os resultados aqui apresentados refletem características da linguagem produzida por um grupo muito específico de falantes, pós-graduandos brasileiros dos departamentos de Física, Ciências Farmacêuticas e Computação da Universidade de São Paulo. Generalizações consistentes a respeito das características lexicais e gramaticais de resumos em inglês escritos por pós-graduandos brasileiros só poderiam ser elaboradas a partir de um corpus robusto de aprendizes. O tamanho reduzido do corpus tampouco permitiu avaliar diferenças e semelhanças entre as três áreas de estudos analisadas. Como mencionado anteriormente, diversos autores (charles, 2006, 2007; groom, 2005; hyland, 2008b; dentre outros) argumentam que características fraseológicas podem variar de uma área para outra. Outra limitação do estudo é que a análise restringe-se a um pequeno número de lemas, principalmente em relação aos padrões léxico-gramaticais. Apesar de todas essas restrições, o presente trabalho é um passo importante, pois aponta uma série de diferenças relevantes entre os dois corpora no que diz respeito às características lexicais e gramáticas de resumos científicos escritos em inglês por pós-graduandos brasileiros. Ao chamarmos a atenção dos aprendizes para os principais aspectos que distinguem sua linguagem daquela de falantes nativos e/ou experientes, contribuímos para que melhor compreendam o texto que produzem e, com isso, possam aprimorá-lo. Em suma, tomar consciência e empregar adequadamente os padrões léxicogramaticais mais tipicamente usados por suas comunidades acadêmicas irá, certamente, auxiliar os aprendizes a escrever de forma mais eficaz.

164 | Corpora no Ensino de Línguas Estrangeiras

Referências bibliográficas

aktas, r. n.; cortes, v. Shell nouns as cohesive devices in published and esl student writing. Journal of English for Academic Purposes, v. 7, n. 1, p. 3-14, 2008.

baker, m. A corpus-based view of similarity and difference in translation. International Journal of Corpus Linguistics, v. 9, n. 2, p. 167-193, 2004.

biber, d.; conrad, s.; cortes, v. If you look at…: lexical bundles in university teaching and textbooks. Applied Linguistics, v. 25, n. 3, p. 371-405, 2004. ______ et al. Longman grammar of spoken and written English. Harlow: Pearson Education, 1999.

brett, p. A genre analysis of the results section of sociology articles. English for Specific Purposes, v. 13, n. 1, p. 47-59, 1994.

carter, r.; mccarthy, m. Cambridge grammar of English: a comprehensive guide. Cambridge: Cambridge University Press, 2006.

charles, m. Phraseological pattern in reporting clauses used in citation: a corpus-based study of theses in two disciplines. English for Specific Purposes, v. 25, n. 3, p. 310-331, 2006. ______. Argument or evidence? Disciplinary variation in the use of the noun that pattern in stance construction. English for Specific Purposes, v. 26, n. 2, p. 203-218, 2007.

clear, j. From Firth principles: computational tools for the study of collocation. In: baker, m.; francis, g.; tognini-bonelli, E. (Eds.). Text and technology: in honour of John Sinclair. Amsterdam/Philadelphia: John Benjamins, 1993. p. 271-292.

cortes, v. A comparative analysis of lexical bundles in academic history writing in English and Spanish. Corpora, v. 3, n. 1, p. 43-57, 2008.

davoodifard, m. Functions and hedges in English and Persian academic discourse: effects of culture and the scientific discipline. esp Across Cultures, n. 5, p. 23-48, 2008.

dayrell, c. Sense-related verbs in English scientific abstracts: a corpus-based study of students’ writing. esp Across Cultures, n. 6, p. 61-78, 2009. ______. Sense-related verbs in published and student writing: a corpus-based study of English and Portuguese abstracts. In:

xiao, r. (ed.).

Corpora no Ensino de Línguas Estrangeiras | 165

Using corpora in contrastive and translation studies. Newcastle: Cambridge Scholars Publishing, 2010. p. 486-507. ______. Anticipatory ‘it’ in English abstracts: a corpus-based study of non-native student and published writing. In: international conference on practical applications in language and computers, 7., 2009, Lodz. Proceedings of the palc 2009. Lodz: Lodz University, 2009. No prelo.

de cock, s. Repetitive phrasal chunkiness and advanced efl speech and writing. In: mair, c.; hundt, m. (Eds.). Corpus linguistics and linguistic theory. Amsterdam/Atlanta: Rodopi, 2000. p. 51-68.

genovês jr., l. et al. A two-tiered approach to detecting English article usage: an application in scientific paper writing tools. In: international conference recent advances in natural language processing (ranlp), 2007, Borovetz. Proceedings… Borovetz: Bulgarian Academy of Sciences, 2007. p. 225-239.

gilquin, g.; granger, s.; paquot, m. Learner corpora: the missing link in eap pedagogy. Journal of English for Academic Purposes, v. 6, n. 4, p. 319-335, 2007. ______; paquot, m. Spoken features in learner academic writing: identification, explanation and solution. In: corpus linguistics conference, 4., 2007, Birmingham. Proceedings… Birmingham: University of Birmingham, 2007. Disponível em: . Acesso em: 15 jun. 2010.

gledhill, c. The discourse function of collocation in research article introductions. English for Specific Purposes, v. 19, n. 2, p. 115-135, 2000. ______. Collocations in science writing. Tübingen: Gunter Narr Verlag, 2005.

granger, s. A bird’s-eye view of learner corpus research. In: granger, s.; hung, j.; petch-tyson, s. (Eds.). Computer learner corpora, second language acquisition and foreign language teaching. Amsterdam/ Philadelphia: John Benjamins Publishing, 2002. p. 3-33. ______; tribble, c. Learner corpus data in the foreign language classroom: form-focused instruction and data-driven learning. In: granger, s. (ed.). Learner English on computer. London: Longman, 1998. p. 199-209.

groom, n. Pattern and meaning across genres and disciplines: an exploratory study. Journal of English for Academic Purposes, v. 4, n. 3, p. 257-277, 2005.

166 | Corpora no Ensino de Línguas Estrangeiras

hewings, m.; hewings, a. ‘It is interesting to note that…’: a comparative study of anticipatory ‘it’ in student and published writing. English for Specific Purposes, v. 21, n. 4, p. 367-383, 2002.

hinton, p. r. Statistics explained: a guide for social science students. London/New York: Routledge, 1995.

hirano, e. Research article introductions in English for specific purposes: a comparison between Brazilian Portuguese and English. English for Specific Purposes, v. 28, n. 4, p. 240-250, 2009.

hunston, s. Corpora in applied linguistics. Cambridge: Cambridge University Press, 2002.

hyland, k. Academic clusters: text patterning in published and postgraduate writing. International Journal of Applied Linguistics, v. 18, n. 1, p. 41-61, 2008a. ______. As can be seen: lexical bundles and disciplinary variation. English for Specific Purposes, v. 27, n. 1, p. 4-21, 2008b. ______. Academic discourse. London/New York: Continuum, 2009. ______; tse, p. Hooking the reader: a corpus study of evaluative that in abstracts. English for Specific Purposes, v. 24, n. 2, p. 123-139, 2005.

johns, t. From print out to handout: grammar and vocabulary teaching in the context of data-driving learning. call Austria, n. 10, p. 14-34, 1991a. ______. Should you be persuaded: two samples of data-driven learning materials. elr Journal, v. 4, p. 1-16, 1991b. ______. Data-driven learning: the perpetual challenge. In: kettermann, b.; marko, g. (Eds.). Teaching and learning by doing corpus linguistics. Amsterdam: Rodopi, 2002. p. 107-117.

kurtz, n. Statistical analysis for the social sciences. Boston: Allyn and Bacon, 1999.

lópez-arroyo,

b.;

méndez-cendón,

b.

Describing phraseological devices in medical abstracts: an English/Spanish contrastive analysis. Meta, v. 52, n. 3, p. 503-516, 2007.

milton, j.; hyland, k. Assertions in students’ academic essays: a comparison of English ns and nns student writers. In: berry, r.; asker, b.; hyland, k. (Eds.). Language analysis, description and pedagogy. Hong Kong: Language Centre hkust, 1999. p. 147-161.

Corpora no Ensino de Línguas Estrangeiras | 167

nesselhauf, n. Learner corpora and their potential for language teaching. In: sinclair, j. (ed.). How to use corpora in language teaching. Amsterdam/Philadelphia: John Benjamins, 2004. p. 125-152.

oakes, m. Statistics for corpus linguistics. Edinburgh: Edinburgh University Press, 1998.

peacock, m. A cross-disciplinary comparison of boosting in research articles. Corpora, v. 1, n. 1, p. 61-84, 2006.

potthoff, r. f.; whittinghill, m. Testing for homogeneity ii: the Poisson distribution. Biometrika, v. 53, n. 1/2, p. 183-190, 1966.

ringbom, h. Vocabulary frequencies in advanced learner English: a cross-linguistic approach. In: granger, s. (ed.). Learner English on computer. London: Longman, 1998. p. 41-52.

scott, m. WordSmith Tools. Versão 5. Oxford: Oxford University Press, 2007.

sinclair, j. Corpus, concordance and collocation. Oxford: Oxford University Press, 1991.

stubbs, m. Lexical density: a technique and some findings. In: coulthard, m. (ed.). Talking about texts. Birmingham: English Language Research Unit (University of Birmingham), 1986. p. 27-42. ______. Evidence for norms of lexical collocation. In: cook, g.; seidlhofer, b. (Eds.). Principle and practice in applied linguistics. London: Oxford University Press, 1995. p. 245-256.

swales, j. m.; feak, c. b. Abstracts and the writing of abstracts. Michigan: University of Michigan Press, 2009.

vold, e. t. Epistemic modality markers in research articles: a cross-linguistic and crossdisciplinary study. International Journal of Applied Linguistics, v. 16, n. 1, p. 61-87, 2006.

wehmeier, s. (ed.). Oxford advanced learner’s dictionary of current English. 6. ed. Oxford: Oxford University Press, 2000.

williams, g. Challenging the native-speaker norm: a corpusdriven analysis of scientific usage. In: barnbrook, g.; danielsson, p.; mahlberg, m. (Eds.). Meaning texts: the extraction of semantic information from monolingual and multilingual corpora. London/New York: Continuum, 2006. p. 115-127.

168 | Corpora no Ensino de Línguas Estrangeiras

FILMES COMERCIAIS:

uma perspectiva da aplicação de pesquisa em corpus na sala de aula Marcia Veirano Pinto (puc-sp) Renata Condi de Souza (puc-sp)

abstract: This chapter examines the potential of commercial film scripts as source materials to teach the pragmatic dimension of the word ‘just’. To this end, we have collected a corpus of 72 general classification film scripts from the World Wide Web and analyzed it with the help of the WordSmith Tools (scott, 2007). The research results have shown that in our corpus ‘just’ is used as an adverb of exclusion 94% of times and only 6% as a time adverb. Such finding seems to warrant a shift from a syntactic to a pragmatic approach to the teaching of ‘just’ in efl classrooms, which has been exemplified by the classroom application we propose here. At the end of the chapter, we discuss the implications of our research to efl teaching and further developments of our work. Introdução É indiscutível que na área de ensino de inglês como língua estrangeira, doravante ile, há uma constante busca por novos métodos, abordagens, visões de ensino e aprendizado, ferramentas e materiais que atendam às expectativas do aprendiz moderno. Nesse contexto, espera-se que o aprendiz não saiba apenas se comunicar, mas também respeitar as convenções sociais do ambiente em que a interação acontece (tomlinson, 2003). A língua, portanto, deixa de ser ensinada como um código vazio e passa a ser tratada como um modo de expressão de crenças e valores culturais. Esse aprendizado ocorre por meio da conscientização dos aprendizes com relação aos fatores que determinam as escolhas linguísticas e os efeitos que elas têm em situações sociais, retirando parte da ênfase dos currículos de ile da elaboração da mensagem em si e colocando-a sobre o modo de expressá-la. Essa mudança nos currículos torna-se possível com a análise de corpora que põe em relevo aspectos da linguagem em uso que antes não eram

Corpora no Ensino de Línguas Estrangeiras | 169

considerados importantes e deveriam estar presentes em sua descrição (biber, conrad e reppen, 1998). Nesse sentido, ressalta-se que o léxico não está confinado às dimensões sintáticas e de significado, mas estende-se também às dimensões discursivas e pragmáticas, importantes para o desenvolvimento de fluência e adequação da linguagem na interação. Tais dimensões, no entanto, são muitas vezes erroneamente ignoradas em currículos tradicionais (sinclair e renoulf, 1988). A falta de atenção dada a essas dimensões pode ser observada, especialmente, em relação às unidades lexicais muito frequentes que, de tão comuns, passam despercebidas por docentes e autores de materiais didáticos (sinclair e renoulf, 1988). As pesquisas que comprovam a regularidade das associações entre as unidades lexicais de uma língua além de corrigirem essa falha, também contribuem para a sistematização do ensino e aprendizagem das diversas dimensões e combinações possíveis de unidades lexicais consideradas frequentes e comuns (sinclair e renoulf, 1988). Assim, unidades lexicais tais como ‘just’, ‘thing’, ‘like’, ‘right’, ‘see’, etc.,1 que contribuem para o desenvolvimento de fluência em língua inglesa (hasselgren, 2002), passam a ter mais destaque em currículos de ile. Dessa forma, este capítulo busca propor, por meio do uso de roteiros de filmes comerciais, categorizados pela indústria cinematográfica como comédias e comédias românticas, e da ferramenta de análise lexical WordSmith Tools (scott, 2007), uma reflexão acerca da unidade lexical ‘just’, escolhida dentre aquelas pertencentes ao conjunto limitado de unidades lexicais e expressões comuns proposto por Hasselgren (2002). A escolha de ‘just’ deve-se a dois fatores: (a) das unidades lexicais estudadas por Hasselgren (2002), é a de maior frequência em nosso corpus, com 4.034 ocorrências; (b) ao longo dos 18 anos de experiência profissional das autoras, tem-se observado que a ênfase dada a essa unidade lexical pela maioria dos materiais didáticos disponíveis no

1

Essas unidades lexicais são tradicionalmente categorizadas como marcadores de discurso, mas são chamadas de “unidades lexicais curtas da fala” (“the small words of speech”) por Hasselgren (2002, p. 144) que as define como “unidades lexicais e expressões que ocorrem frequentemente na linguagem oral, que ajudam a manter nossa fluência na fala, mas que não contribuem de modo essencial para a mensagem” (hasselgren, 2002, p. 150 – “small words and phrases, occurring with high frequency in the spoken language, that help to keep our speech flowing, yet do not contribute essentially to the message”).

170 | Corpora no Ensino de Línguas Estrangeiras

mercado tende a recair apenas sobre sua dimensão gramatical, em companhia do tempo verbal conhecido como present perfect. Assim sendo, o objetivo é despertar o docente para a visão probabilística da língua (sinclair, 1991; biber, conrad e reppen, 1998; berber sardinha, 2004; entre outros) e sua dimensão pragmática (sinclair e renoulf, 1988), complementando, dessa forma, o material didático que utiliza em seu dia a dia e contribuindo para o desenvolvimento da fluência e capacidade de interação de seus aprendizes. Com esse intuito, apresentamos, inicialmente, uma breve revisão da literatura sobre a Linguística de Corpus aplicada ao ensino de ile e o uso de filmes comerciais como fontes de exemplos de língua em uso. Em seguida, descrevemos o processo de coleta e análise dos roteiros, os resultados da análise da unidade lexical ‘just’ e a aplicação desses resultados a atividades didáticas. Por fim, discutimos as implicações, conclusões e encaminhamentos dessa pesquisa para o ensino de ile. Fundamentação teórica A seguir, revisitamos a literatura referente à aplicação da Linguística de Corpus ao ensino de ile, e ao uso de roteiros de filmes comerciais como material rico no tocante à aprendizagem de aspectos pragmáticos da língua. Linguística de Corpus e ensino de ile O uso de grandes quantidades de textos naturais no ensino de língua estrangeira teve seu marco, segundo Berber Sardinha (2004), com a publicação de uma gramática baseada na descrição de corpus, em 1990, pela equipe do Cobuild (sinclair et al., 1990). Alegando que “não há justificativa para inventar exemplos”,2 Sinclair et al. (1990, p. xi), propuseram um material no qual exemplos reais favoreceriam a compreensão do uso da língua natural. Apesar da proposta diferenciada, a aplicação da Linguística de Corpus ainda parecia estar restrita ao mundo acadêmico. Foi apenas em 1996, a partir de uma conferência3 para docentes de ile (cf. berber sardinha, 2004), que o uso de corpus começou a ter uma utilização mais diversificada no ensino e, hoje em

2 3

“There is no justification for inventing examples.”

O evento em questão é tesol Conference (Teachers of English to Speakers of Other Languages Conference), realizado em Chicago, Illinois, nos Estados Unidos.

Corpora no Ensino de Línguas Estrangeiras | 171

dia, divide-se em três, como sugere Leech (1997): (a) exploram-se corpora para ensinar, com o objetivo de colocar em relevo padrões linguísticos que, apesar de frequentes, permanecem inexplorados por livros didáticos, e de corrigir regras e generalizações que contradizem evidências apontadas por pesquisa com corpora; (b) ensina-se sobre corpora, alertando, por exemplo, sobre como a validade de determinada análise depende das características dos textos que compõem um corpus e (c) ensina-se a explorar corpora, desde a leitura de linhas de concordância até as diversas ferramentas disponíveis e seus usos. Os defensores da aplicação de corpora em sala de aula (sinclair e

renoulf, 1988; johns, 1991; granger e tribble, 1998; entre outros) mencionam como principais benefícios dessa transposição: (a) a independência do aprendiz, que passa a ter a habilidade de testar suas hipóteses e obter autonomamente respostas às suas dúvidas e (b) a mudança de paradigmas com relação ao papel do docente e ao ensino em si. O docente deixa de ser a fonte de todas as informações e o ensino deixa de ser baseado na transmissão de regras prontas, já que “há muitas exceções, empregos divergentes e inovações” (berber sardinha, 2004, p. 279) que são descobertos quando se analisa a linguagem natural. Tal mudança de paradigma com relação ao papel do docente como fonte de todas as informações dá-se a partir da exploração de linhas de concordância como fonte de conhecimento e ao uso de corpora adequados aos objetivos do curso (cf. sinclair e renoulf, 1988; granger e tribble, 1998). Ao defenderem a elaboração de um currículo para o ensino de ile organizado a partir do léxico, Sinclair e Renoulf (1988) versam sobre os critérios de seleção das unidades lexicais que comporiam esse currículo, apresentando diversas considerações a respeito da definição do termo ‘unidade lexical’ e do que deveria ser ensinado (sinclair e renoulf, 1988). Enfatizam que, sem a ajuda de corpora e suas ferramentas de análise, não é possível elaborar um currículo lexical balanceado e abrangente, pois, para os autores, a mente humana não está preparada para perceber o comum de modo consciente. Assim, a análise de combinações lexicais com o auxílio de ferramentas computacionais é necessária para que docentes enxerguem, mais claramente, em textos falados e escritos, a função interativa de tais combinações, bem como seus usos pragmáticos e discursivos. A abordagem conhecida por data-driven learning (ddl), ou estudos direcionados por corpus (johns, 1991), enfatiza a importância de apresentar

172 | Corpora no Ensino de Línguas Estrangeiras

aos aprendizes exemplos autênticos de linguagem em uso, sem modificação em nome da pedagogia ou didática. Nessa proposta, o papel das ferramentas computacionais e corpora disponíveis é enfatizado. De modo similar à proposta do currículo lexical, a abordagem em tela reavalia o papel do aprendiz e do docente, colocando as linhas de concordância como uma fonte de estímulo para o desenvolvimento de estratégias de aprendizado indutivas. A exploração de linhas de concordância obtidas a partir de um corpus elaborado com material produzido pelos aprendizes em sala de aula é defendida por Granger e Tribble (1998). A análise de tais linhas, na visão dos autores, auxilia na percepção e autocorreção das inadequações da linguagem, fazendo com que o ensino de ile deixe de ser baseado na transmissão de regras prontas. Entretanto, alertam para o fato de que essa abordagem não necessariamente se adapta a todos os estilos de aprendizagem e pode ser inadequada para iniciantes. Entendemos que um dos maiores ganhos pedagógicos da aplicação da Linguística de Corpus à sala de aula diz respeito à descrição da linguagem nativa com enfoque na dimensão pragmática de itens lexicais frequentes bem como nas variações que ocorrem em seus padrões em interações sociais distintas. Por esse motivo, escolhemos coletar e explorar um corpus de estudo que julgamos contextualizar a língua em uso em uma variedade de situações sociais cotidianas. A seguir, apresentamos uma discussão relativa à utilização de filmes comerciais como fonte de linguagem na sala de aula de ile e discutimos a validade de explorar a linguagem dos roteiros que selecionamos como exemplo de língua em uso. Filmes comerciais como fontes de linguagem na sala de aula de ile Aplicações pedagógicas de filmes comerciais na sala de aula de ile são uma tradição e possuem extensa literatura (cooper et al., 1991; stempleski e arcario, 1992; braddock, 1996; brinton, 2001; king, 2002). Entretanto, a linguagem de seus roteiros ainda não foi objeto de pesquisas que buscassem determinar o grau de semelhança ou diferença entre essa e a produção oral espontânea do dia a dia. Entendemos, no entanto, que apesar de haver esta lacuna na literatura, os roteiros dos filmes selecionados continuam a ser válidos para a nossa proposta de estudo, uma vez que a linguagem adotada nestes textos é usada por personagens plausíveis em situações que fazem parte do cotidiano da sociedade americana.

Corpora no Ensino de Línguas Estrangeiras | 173

Além do mais, parece-nos ser correto afirmar que os roteiros selecionados são ricos no tocante ao ensino e aprendizagem de aspectos pragmáticos da língua em uso. Afinal, assim como na vida real, as escolhas linguísticas dos roteiristas podem dar origem – entre outras características da dimensão pragmática da língua – a implicaturas, ou seja, algo que não foi vocalizado, mas que ficou subentendido, implícito ou sugerido (grice, 1975), e que terá um efeito na interação. Um exemplo retirado de nosso corpus encontra-se a seguir. A personagem Bridget Jones, conversando com seu namorado Mark após uma visita a seus pais, tem receio de pronunciar a unidade lexical ‘casamento’: Bridget: Mark: Bridget: Mark: Bridget: Mark:

Did you mean that thing you said? What thing? You know what thing. No, I don’t know what thing. The thing thing. Now, let’s see, there are any number of things, um... in an afternoon full of all sorts of things, so I, um,... Bridget: The thing where you said you’re not, um,... That you’re not, not even thinking about, um... Mark: What’s the matter? Bridget: Let’s get a drink.

No exemplo acima, o tópico foi interrompido abruptamente porque um dos personagens não estava disposto a ser explícito. Essa falta de continuidade na interação (gillmore, 2004), representada pela hesitação e a presença de unidades lexicais sinalizadoras de vagueza (channel, 1994), notadamente ‘thing(s)’ [coisa(s)] e seus usos, representam duas das características da interação oral. Além dos pontos levantados acima, filmes são ricos em elementos culturais e proporcionam a exposição do aprendiz a diversas situações sociais, sotaques diferentes, gírias, etc. (king, 2002). Essas diversas situações sociais podem enriquecer a interação em sala de aula por permitir o confronto de valores morais, o reconhecimento de contradições e a percepção do comum sob um olhar novo (brandão, 2004). Fatores que tendem a favorecer o desenvolvimento de uma consciência linguística crítica e também possibilitam o aprendizado da língua à luz de sua função social e sempre dentro de um contexto social e situacional (king, 2002).

174 | Corpora no Ensino de Línguas Estrangeiras

Metodologia Tendo como objetivo compor nosso corpus de estudo, iniciamos a coleta de roteiros na rede mundial de computadores por meio da ferramenta de busca Google e sítios especializados4 após traçarmos como parâmetro a censura livre e a disponibilidade dos filmes nas principais locadoras da cidade de São Paulo a partir da consulta a guias de dvd.5 A coleta, feita entre o início de 2006 e os primeiros meses de 2008, gerou um corpus de estudo composto por 72 roteiros que perfazem um total de 781.179 itens e 28.026 formas. Após o primeiro passo, isto é, a coleta manual, os roteiros foram salvos em arquivos txt (sem formatação) e armazenados em uma pasta no computador. Em um próximo momento, partimos para a busca por exemplos contendo a unidade lexical ‘just’, com o objetivo de ilustrar seu uso na dimensão pragmática da língua. Para tanto, fizemos uso do programa de análise lexical WordSmith Tools (scott, 2007), mais especificamente da ferramenta Concord. A partir de um nódulo de busca – ou seja, a unidade lexical cujos padrões se deseja investigar –, essa ferramenta fornece as “listagens das ocorrências de um item específico acompanhado do texto ao seu redor” (berber sardinha, 2004, p. 187), também conhecidas como linhas de concordância. Após selecionarmos todos os textos que compunham o corpus de estudo e digitarmos o nódulo de busca na ferramenta Concord, o programa disponibilizou as linhas de concordância que continham a unidade lexical em questão. As linhas de concordância nos possibilitaram partir para a observação dos padrões surgidos entre o nódulo de busca e as unidades lexicais ao seu redor, isto é, seus colocados à esquerda e à direita, como também suas variações em diferentes interações sociais. Tal observação forneceu dados referentes à língua em uso, a respeito dos quais desenvolvemos uma aplicação didática visando proporcionar momentos de reflexão sobre o uso de ‘just’ na língua inglesa.

4

Os sítios onde todos os títulos selecionados foram encontrados são: , e . 5

Os guias utilizados foram os elaborados por Rubens Ewald Filho entre os anos de 2004 e 2008.

Corpora no Ensino de Línguas Estrangeiras | 175

Resultados da análise da unidade lexical ‘just’ Em nosso corpus de estudo, ‘just’ ocorre 4.034 vezes e aparece como a trigésima terceira palavra mais frequente. Em termos relativos, considerando-se o tamanho do corpus como uma variável, ‘just’ ocorre pouco mais de 5 vezes a cada 1.000 unidades lexicais. Além disso, ‘just’ aparece em todos os 72 roteiros que compõem o corpus, com dispersão uniforme na grande maioria deles. Em outras palavras, a unidade lexical em questão é empregada em todos os roteiros e não se concentra em uma única parte (inicial, medial ou final) deles. Quanto ao valor semântico, observamos, no corpus de estudo, que ‘just’ é utilizado, aproximadamente, 94% das vezes como advérbio de exclusão com o sentido de ‘só’, ‘apenas’, e ‘simplesmente’ como pode ser visto nas linhas de concordância a seguir. 01 02 03 04 05

well, it's ok for you, Julia, but I mes out. I set the damn date, okay? ard of dance lessons for a wedding? ust excuse me. - Hey, Bernie... - I an experience you'll never forget.

just can't afford all the things we do. Nigh Just buy it for me on margin. Dude, you don’ Just about everyone. You are taking the mike just... I just need to be alone right now, o Just have a great time, have fun. No! No! Yo

Nos outros casos, aproximadamente 6%, a unidade lexical é empregada como advérbio de tempo com o sentido de ‘acabar de’ e ‘assim que’, conforme ilustram as linhas abaixo. 01 02 03 04 05

ckless abandonment. I believe you've d to return your shampoo. - Your mom You're Halley's comet. What did you incoln and slam the top of the trunk . They hear a horn honking, and turn

just won your case. Ms. Woods, you did well just walked in. You really should use a sha just say? It's a nice turn of phrase, but i just as Ben gets out of the minivan to insp just as Ben's car comes flying past them. T

Desse modo, acreditamos que o docente deva ser alertado para a necessidade de complementação do material didático, pois, conforme o exposto na introdução deste capítulo, a tendência de se enfatizar a dimensão gramatical de ‘just’ como advérbio de tempo, em companhia do tempo verbal conhecido como present perfect, não foi verificada nos dados extraídos do corpus aqui investigado. A unidade lexical em questão aparece em companhia desse tempo verbal em apenas 47 das 4.034 linhas de concordância, ou seja, um pouco mais de 1% delas.

176 | Corpora no Ensino de Línguas Estrangeiras

Aplicação dos resultados Nesta seção do capítulo, propomos uma sequência didática, composta por cinco atividades mediadas pelo docente. Seu objetivo é conscientizar os aprendizes em relação aos fatores que determinam as escolhas linguísticas e os efeitos que elas têm em situações e convenções sociais. Dessa forma, parte da ênfase da elaboração da mensagem em si é retirada e colocada sobre o modo de expressá-la. As atividades propostas foram realizadas com 17 aprendizes de um curso de aperfeiçoamento oferecido por uma renomada universidade da cidade de São Paulo. O curso, oferecido duas vezes a cada semestre, visa difundir o uso da Linguística de Corpus na sala de aula de ile, aplicado à linguagem em uso presente nos vídeos da Internet, filmes, programas de tv, desenhos animados e animações disponíveis em dvd. Os aprendizes que fizeram as atividades são professores da rede pública e particular de ensino, bem como professores que atuam como autônomos em ambiente de negócios e/ou familiar. Apenas três desses professores haviam ouvido falar em Linguística de Corpus, por meio de material didático produzido por uma editora internacional, mas nenhum deles havia entrado em contato direto com linhas de concordância e precisaram de orientação das professoras para explorá-las. A primeira atividade propôs que os aprendizes assistissem a um trecho do filme Quero Ficar com Polly (Along Came Polly). O objetivo dessa atividade era permitir que eles visualizassem e contextualizassem a situação e o diálogo em que ‘just’ seria utilizado sete vezes, com sete efeitos pragmáticos diferentes. Para dar início à segunda atividade, os participantes do curso foram convidados a observar o trecho do roteiro referente a cena que assistiram, reproduzido a seguir. Polly: I am so glad that you came. Reuben: Yeah. I wore my comfortable shoes (1) just like you said. [Laughs] So what are we doing? Oh, crap. [Salsa] Polly: This place is a total secret. It is the best underground salsa club in New York. Reuben: Yeah, you know, I’m not really a big dancer. I don’t know... Polly: Oh, come on. You know what? It’s easier than it looks. Reuben: Oh! Oh, okay. Polly: There you go. (2) Just feel it in your legs. Reuben: All right. Okay.

Corpora no Ensino de Línguas Estrangeiras | 177 Polly: Ow! Reuben: Sorry, sorry. Polly: That’s okay. (3) Just step on my feet a little less than that. Work it. Javi: Hey, hey, hey, hey! Looking good, Pollyanna. Polly: Hey, Javi. [Javi mumbling] You stop that. This is my friend Reuben. Reuben: Hey. Polly: This is Javi. Javi: Hey, you mind if I dance with the beautiful lady? Reuben: Hum, I guess not. Yeah. Javi:All right, thanks, man. Polly: Hey. Reuben: Hi! I think I might take off. Polly: Really? Reuben: Yeah. Polly: Are you having a bad time? Reuben: No, no, no! I’m (4) just not into this whole dirty dancing thing. Polly: What do you mean, dirty dancing? Reuben: I saw that movie. I know that’s what you and that, uh, Spaniard were doing. Polly: Whoa. Wait a minute. First of all, he’s Cuban, and that wasn’t dirty dancing,that was (5) just salsa. Reuben: Okay, it’s (6) just I’m (7) just really, truthfully not the kind of guy...that’s ever gonna be into these kind of clubs or any...

No início da terceira atividade, os aprendizes foram orientados para uma visão reflexiva acerca da língua, por meio das perguntas abertas, abaixo, que tinham como objetivo levá-los a construir e a defender suas hipóteses: (a) ‘Just’ tem o mesmo significado em todas as linhas? (b) Com que propósito os personagens incluíram ‘just’ em suas falas? (c) Os propósitos que você identificou são os mesmos que seus colegas identificaram? Compare e justifique suas afirmações. Ao discutir a pergunta (a), os aprendizes observaram que as ocorrências de ‘just’, acima, significavam ‘assim como’ (1)6, só (4), (6) e (7)

6

Os números entre parênteses referem-se aos números no roteiro, que marcam as sete ocorrências de just.

178 | Corpora no Ensino de Línguas Estrangeiras

e ‘simplesmente’ (5). Ainda de acordo com eles, as ocorrências (2) e (3) não possuíam significado, mas marcavam o uso do imperativo. Todos expressaram surpresa por nunca haverem pensado em como uma palavra aparentemente simples como ‘just’ poderia adquirir todos esses significados em contexto. A discussão das perguntas (b) e (c), inicialmente, gerou as seguintes hipóteses sobre o uso da palavra ‘just’ que, nesse roteiro, segundo os aprendizes, foi utilizada para: minimizar o caráter imperativo de uma afirmação e intensificar o que foi dito (1), mitigar uma crítica e intensificar o que foi dito (2), amenizar o conteúdo negativo de algo que está sendo dito e expressar decepção (3), justificar-se e esclarecer algo (4), demonstrar estar envergonhado (5), justificar-se e enfatizar (6), enfatizar e expressar decepção (7). No entanto, como diferentes alunos apontaram mais de uma resposta para o propósito que os personagens tinham com o uso de ‘just’, um longo debate foi iniciado, tendo sido as respostas ora influenciadas por elementos metalinguísticos como expressões faciais, ora pela entonação dada às falas pelos artistas. As respostas finais foram: expressar concordância (1), minimizar o caráter imperativo de uma afirmação (2), mitigar uma crítica (3), justificar uma decisão (4), esclarecer algo (5), amenizar o conteúdo negativo de algo que será dito (6) e, finalmente, enfatizar o caráter verdadeiro de uma afirmação (7). De posse desses dados, as professoras sugeriram a quarta atividade. Um trabalho, em duplas, com as linhas de concordância abaixo, novamente extraídas do corpus de roteiros de filmes, contendo ‘just’ como nódulo. 01 02 03 04 05 06 07 08 09 10

ad. No, they seem really happy. I... I rip, me and the other tour leaders are es or work you have to do a shot. It’s ase take your top off for us. Come on, nd myself. Oh, Edward, please. This is head. Somebody get him some ice. Move! ahead. Oh, God ! okay, look. Everybody ll, uh, do something to hurt myself? I it that way. He didn’t love you? Did I ion starter. God. A smart person would

just remember how much we used to talk ab just... - We’re fed up with all these. Ok just that Shakespeare is so useless… Stop just once. Wisconsin? Yes. Why there, son just another in a series of escapades. Wh Just move when it's coming at you! Damn!I just needs to chill out here. There’ll be just sensed it. Really? You could sense t just say that? Oh, God! Um, I meant to sa just get so very drunk now. How long were

Nessa tarefa, os aprendizes foram solicitados a observar as linhas e marcar os usos pragmáticos de ‘just’ de acordo com a seguinte lista elencada: (a) dar ordens, (b) justificar-se, (c) enfatizar a veracidade do que foi dito, (d) checar informação, (e) explicar e (f) outro uso (justificar).

Corpora no Ensino de Línguas Estrangeiras | 179

Adicionalmente, as professoras solicitaram que os aprendizes descrevessem o contexto em que tais usos seriam possíveis. Assim sendo, as seguintes perguntas foram propostas: (i) quem são os participantes do diálogo? (Pai e filho? Amigos? Casal de namorados? etc.); (ii) em que ambiente eles estão? (Familiar? Profissional? Escolar? etc.); (iii) como estão se sentindo? (Felizes? Aborrecidos? Nervosos? etc.). Dessa vez, após serem orientados em relação à leitura das linhas, terminaram a atividade mais rapidamente e com menor dificuldade. As respostas dadas encontram-se compiladas na Figura 1. Linha 1 2 3 4 5 6 7 8 9 10

Uso pragmático Dar elementos para a compreensão de algo Explicar Explicar Intensificar Expressar irritação/aborrecimento Dar ordens Dar ordens Justificar-se Checar informação Enfatizar a veracidade do que foi dito

Figura 1: Usos pragmáticos de ‘just’ identificados pelos participantes do curso

Em relação às perguntas de explicitação do contexto, foi interessante observar a variedade de participantes inventados pelos aprendizes, bem como a multiplicidade de ambientes em que estavam inseridos. Entretanto, é importante relatar que os sentimentos associados a tais identidades praticamente se mantiveram os mesmos em todas as duplas. Por fim, as professoras sugeriram que a quarta atividade fosse complementada com o uso de ‘just’ no relato de experiências pessoais. Para tanto, em uma quinta atividade, os aprendizes, caso assim o desejassem, tiveram a oportunidade de expressar oralmente sentimentos e opiniões a respeito de notícias de jornais e/ou comportamento de colegas/familiares utilizando os usos pragmáticos de ‘just’ apontados durante a aula. A intenção desse passo era a de permitir que transferissem o conhecimento recém adquirido para um contexto de sala de aula de ile, mas que fosse relevante para cada um.

180 | Corpora no Ensino de Línguas Estrangeiras

Implicações para o ensino Ao combinar o uso de filmes em sala de aula à Linguística de Corpus e suas ferramentas, esperamos ter contribuído para o entendimento de seu potencial para o ensino de ile. Afinal, o caráter visual de obras cinematográficas se alia à possibilidade de observação das regularidades de associação a que se submetem as unidades lexicais de uma língua a partir da investigação baseada em corpus, podendo vir a auxiliar a conscientização dos fatores que determinam as escolhas linguísticas em situações e convenções sociais. Por meio das atividades propostas, buscamos destacar dois fatores que consideramos importantes para aquisição de fluência em

ile: (a) o enfoque

no ensino das múltiplas funções pragmáticas de palavras curtas da fala e (b) a promoção da independência analítica do aprendiz, por meio da observação de trechos de roteiros e linhas de concordância. Também entendemos que as linhas de concordância foram um recurso eficiente para as atividades didáticas aqui propostas. Além de terem proporcionado interação entre os aprendizes pela discussão em grupo, desenvolvimento de estratégias de aprendizado e entendimento das funções pragmáticas da palavra ‘just’, promoveram um ambiente onde os alunos também eram detentores de parte do conhecimento e, portanto, não se sentiram ameaçados. Outro desdobramento deste capítulo, que traz como um dos pontos de destaque o uso de linhas de concordância em sala de aula, é o fato de que essas auxiliam o docente a obter informações provenientes da linguagem em uso a respeito de aspectos da língua que antes lhe passavam despercebidos. Isso pode promover ganho de conhecimento e maior segurança em sala de aula. Entretanto, este aspecto do uso de concordâncias em sala de aula merece ser aprofundado em outro trabalho onde o foco seria o docente de

ile e não os

aprendizes. Conclusões e encaminhamentos O presente capítulo, que apresentou a coleta e análise de um corpus, fornece também uma colaboração à utilização da Linguística de Corpus no ensino de

ile por propor o uso de suas ferramentas em roteiros de

filmes comerciais. Almejamos mostrar como a integração da Linguística de Corpus à sala de aula pode destacar características linguísticas que passavam despercebidas em materiais tradicionais, como os filmes, e, assim, promover

Corpora no Ensino de Línguas Estrangeiras | 181

a complementação de materiais didáticos. Na aplicação proposta, ao fazermos uso da Linguística de Corpus e da ferramenta de análise lexical WordSmith Tools (scott, 2007) oferecemos ao aluno a possibilidade de observar não apenas os efeitos pragmáticos de ‘just’ como também nuances de sentido. Esperamos que o percurso aqui descrito para a exploração das informações acerca da unidade lexical ‘just’ possa ser usado como referência por docentes de ile, caso desejem inserir linguagem autêntica na sala de aula de modo criterioso e sem ignorar o conteúdo programático que devem seguir. De nossa parte, daremos sequência ao estudo sobre a utilização de filmes comerciais em sala de aula de ile, a partir do contato com docentes em cursos de aperfeiçoamento e extensão. Teremos como objetivo a elaboração de uma proposta de trabalho que possa tornar a aplicação da Linguística de Corpus e de ferramentas de análise lexical mais presente no cotidiano escolar, tanto para benefício dos aprendizes como dos docentes. Referências bibliográficas

berber sardinha, t. Linguística de corpus. São Paulo: Manole, 2004. biber, d.; conrad, s.; reppen, r. Corpus linguistics: investigating language structure and use. Cambridge: Cambridge University Press, 1998.

braddock, b. Using films in the English class. Hemel Hempstead: Phoenix elt, 1996.

brandão, s. m. Leve o seu gerente ao cinema. São Paulo: Qualitymark, 2004.

brinton, d. The use of media in language teaching. In: celce-murcia, m. (ed.). Teaching English as a second or foreign language. Boston: Heinle & Heinle Publishers, 2001. p. 454-471.

channel, j. Vague language. Oxford: Oxford University Press, 1994. cooper, r. et al. Video. Oxford: Oxford University Press, 1991. gillmore, a. A comparison of textbook and authentic interactions. elt Journal, v. 58, n. 4, p. 363-374, out. 2004. granger, s.; tribble, c. Learner corpus data in the foreign language classroom: form-focused instruction and data-driven learning. In:

granger, s. (ed.). Learner English on computer. New York: Longman, 1998. p. 199-209.

182 | Corpora no Ensino de Línguas Estrangeiras

grice, p. Logic and conversation. In: cole, p.; morgan, j. (Eds.). Syntax and semantics 3: speech acts. New York: Academic Press, 1975. p. 41-58.

hasselgren, a. Learner corpora and language testing: smallwords as markers of learner fluency. In: granger, s.; hung, j.; petch-tyson, s. (Eds.). Computer learner corpora, second language acquisition and foreign language teaching. Amsterdam: John Benjamins, 2002. p. 143-173.

johns, t. Should you be persuaded: two examples of data-driven learning. elr Journal, v. 4, p. 1-16, 1991. king, j. Using dvd feature films in the efl classroom. The Weekly Column, art. 88, fev. 2002. Disponível em: . Acesso em: 07 abr. 2008.

leech, g. Teaching and language corpora: a convergence. In: wichman, a. et al. (Eds.). Teaching and language corpora. London: Longman, 1997. p. 1-23.

scott, m. WordSmith Tools. Versão 4.0. Oxford: Oxford University Press, 2007.

sinclair, j. m. Corpus, concordance, collocation. Oxford: Oxford University Press, 1991. ______; renoulf, a. A lexical syllabus for language learning. In: carter, r.; mccarthy, m. (Eds.). Vocabulary and language teaching. New York: Longman, 1988. p. 140-160. ______ et al. Collins Cobuild English grammar. London: Harper Collins Publishers, 1990.

stempleski, s.; arcario, p. Video in second language teaching: using, selecting and producing video for the classroom. Alexandria, va: tesol, 1992.

tomlinson, b. Developing materials for language teaching. New York: Continuum, 2003.

Corpora no Ensino de Línguas Estrangeiras | 183

CORPORA E ENSINO DE TRADUÇÃO:

o papel do automonitoramento e da conscientização cognitivo-discursiva no processo de aprendizagem de tradutores novatos Fabio Alves (ufmg) Stella E. O. Tagnin (usp)

abstract: This paper draws on theoretical assumptions about expert knowledge and expert performance (ericsson and charness, 1997; ericsson, 2002; lajoie, 2003) to focus on the development of expertise in translation (shreve, 2006). It applies these notions to the acquisition of translation competence (pagano, magalhães and alves, 2005) and illustrates the path towards expertise by analyzing the task of developing a domain-specific corpus used to build a bilingual glossary (perrotti-garcia and rebechi, 2007; tagnin, 2007). First, the paper presents six steps upon which novice translators should rely to produce a bilingual glossary. Secondly, drawing on retrospective verbal reports (alves, 2003), the paper examines the performance of two novice translators who worked together on that task to produce a bilingual glossary in Chemistry. The paper points out that the development of their work can be mapped onto a very special type of behavior known as self-regulatory (glaser, 1996), which is the result of an increase in the proceduralization of cognitive processes in a specific domain. It is also accompanied by an increase in the levels of metacognition, i.e., the conscious awareness of how mental processes work. By developing higher levels of selfregulatory behavior and metacognition, translators acquire expertise. Introdução Evidências obtidas através de uma série de estudos de natureza empírico-experimental que investigaram o processo tradutório (alves, 2003; alves e magalhães, 2004; pagano, magalhães e alves 2005; buchweitz e alves, 2006; magalhães e alves, 2006) apontam que, via de regra, tradutores novatos tendem a enfocar excessivamente aspectos microtextuais do texto, concentrando esforços na solução de problemas lexicais. O desempenho desses sujeitos assemelha-se àquele de um “falante/ouvinte ingênuo” (fillmore, 1979, p. 63), ou seja, o aprendiz

184 | Corpora no Ensino de Línguas Estrangeiras

cujo entendimento da língua é literal. Em outras palavras, seria o aprendiz que desconhece as convenções linguísticas, desde o nível morfológico até o pragmático. No primeiro caso, por exemplo, o aprendiz não saberia que sufixos idênticos, agregados a bases de mesmo significado, podem produzir vocábulos com sentidos praticamente opostos, como é o caso de cárcere e prisão que, ao receberem o sufixo –eiro, produzem carcereiro – o que cuida da prisão – e prisioneiro – o que está confinado à prisão. No segundo caso, o aprendiz não saberia ‘o que dizer quando’, ou seja, que fórmula linguística empregar em determinadas ocasiões. Acreditamos que esse conceito possa se estender ao campo dos estudos da tradução, de modo que o tradutor ingênuo – ou tradutor novato, como denominado neste capítulo – seria aquele que, além de desconhecer as convenções das línguas com que trabalha, acredita na equivalência unívoca entre elas, ou seja, na possibilidade de uma tradução literal ou, como foi dito acima, na necessidade de tradução de cada item lexical contido no texto de partida. De forma diferente, devido ao foco excessivo em aspectos lexicais e literais, esses tradutores novatos carecem de um gerenciamento cognitivo eficiente e de níveis de conscientização linguístico-discursivo adequados para lidar com questões macrotextuais. Neste capítulo, nosso objetivo é discutir formas de modificar as características cognitivo-discursivas que limitam o desempenho desses aprendizes, introduzindo, como exemplo, uma prática gradativa que incentive o aprendiz a elaborar um glossário para a tradução de textos técnicos a partir da construção de um corpus especializado. O conhecimento experto e a formação do tradutor Teoricamente, nossa reflexão toma por base os trabalhos desenvolvidos pelo Laboratório Experimental de Tradução (doravante letra) da Universidade Federal de Minas Gerais, aproximando-se de um campo disciplinar conhecido como estudos sobre expertise ou sobre conhecimento experto. O objetivo é investigar o desenvolvimento da trajetória rumo à expertise (lajoie, 2003) e, a partir das evidências encontradas através de estudos de natureza empíricoexperimental, aplicá-las à formação de tradutores. A noção de trajetória rumo à expertise foi introduzida por Lajoie (2003) para explicar o percurso de um sujeito novato que, através da experiência e prática profissional, desenvolve um tipo de comportamento especializado até atingir um desempenho consistente de alto nível. Com base na proposta de

Corpora no Ensino de Línguas Estrangeiras | 185

Lajoie (2003), Shreve (2006) argumenta que no caso da tradução, a trajetória em direção à expertise precisa incluir um aumento no desempenho cognitivo em quatro domínios distintos, quais sejam, (a) conhecimento linguístico em l1 e l2; (b) conhecimento das culturas de partida e de chegada, incluindo conhecimento de domínio de assuntos especializados; (c) conhecimento das convenções textuais das línguas de partida e de chegada; (d) conhecimentos sobre tradução, a saber, conhecimentos sobre como traduzir usando estratégias e procedimentos, ferramentas tecnológicas e estratégias de busca de informação. Evidências empíricas apresentadas por Shreve (2006) apontam que esses quatro domínios cognitivos precisam ser integrados para permitir que o tradutor novato complete com sucesso sua formação. Buscando aproximar os estudos da tradução dos estudos sobre conhecimento experto, Shreve (2006) sugere que o termo competência tradutória, visto da perspectiva dos estudos sobre expertise, pode ser definido como a habilidade do tradutor de usar múltiplos recursos cognitivos relevantes a fim de desempenhar uma tarefa de tradução. Nesse contexto, continua Shreve (2006), esses recursos podem, ao longo do tempo, evoluir e se tornar o que Ericsson e Charness (1997) definem como sendo um desempenho consistente de alto nível, ou seja, um tipo de desempenho altamente especializado capaz de lidar com sucesso com condições adversas e manter, ainda assim, um alto padrão de qualidade. De acordo com a proposta de Ericsson e Charness (1997), este tipo especial de desempenho pode ser investigado como decorrência de prática deliberada, conceito que pressupõe o engajamento de aprendizes em atividades de treinamento desenhadas especialmente com o propósito de desenvolver o desempenho consistente de alto nível em determinado domínio e mantê-lo consistente nesse mesmo domínio. Ericsson (2002) aplica o conceito de prática deliberada para estudar o comportamento de intérpretes de conferência que executam tarefas complexas de interpretação simultânea. Na literatura sobre conhecimento experto, não há estudos desta natureza sobre o desempenho em tradução escrita. Considerando as reflexões de Shreve (2006) e as restrições cognitivas previstas pelo conceito de prática deliberada (ericsson e charness, 1997; ericsson, 2002), a noção de uma competência tradutória genérica torna-se impraticável, haja vista que o conhecimento experto não é transferido através de domínios. E, no caso da tradução, o processo envolve necessariamente mudanças de domínio segundo as especificidades da prática tradutória,

186 | Corpora no Ensino de Línguas Estrangeiras

seja por questões de conhecimento genérico, de adequação ao gênero, de direcionalidade, de mídia, de tecnologia etc. Isto explica porque um tradutor experiente na elaboração de um glossário técnico com base em corpus tenha seus padrões de desempenho reduzidos ao traduzir um texto literário cuja prática rotineira não lhe seja familiar. Nossa proposta pretende aplicar os pressupostos teóricos da prática deliberada (ericsson e

charness, 1997; ericsson, 2002) à elaboração

de um glossário técnico com base em corpus. Entendemos que esse tipo de atividade presta-se de forma excelente ao desenvolvimento das habilidades tradutórias do tradutor novato. Isso porque se trata de uma prática motivante por propor uma tarefa real, pois grande parte das áreas técnicas carece de obras de referência bilíngues confiáveis, quer por estarem desatualizadas, quer por terem sido compiladas sem critérios científicos. No primeiro caso, com a velocidade em que se dão as inovações nos campos técnicos e tecnológicos, é praticamente impossível manter um dicionário ou glossário impresso atualizado, pois o tempo de confecção somado ao tempo de publicação (revisão, diagramação e impressão) já bastam para que novos conceitos, novas técnicas, novos produtos tenham sido criados nesse ínterim. Assim, qualquer obra de referência técnica estará sempre desatualizada. No segundo caso, observa-se que a maioria dessas obras em áreas de especialidade foi compilada visando principalmente a vocábulos monossêmicos, ignorando, muitas vezes, as chamadas colocações e, principalmente, as fraseologias mais longas. Desta forma, um trabalho com corpus pode produzir um glossário bilíngue bem mais confiável e de melhor qualidade por extrair todas as suas informações de textos autênticos de determinada área de especialidade. No escopo da prática deliberada aqui abordada, descreveremos as tarefas propostas, vinculando-as às condições necessárias para que ela ocorra (ericsson, 1996, p. 21), quais sejam, (a) deve haver uma tarefa bem definida; (b) a tarefa deve ser de dificuldade apropriada ao indivíduo, (c) deve haver um feedback informativo, e (d) deve haver oportunidade para repetição e correção. A construção de um glossário bilíngue como insumo para prática deliberada Nesta seção, adotamos o projeto de construção de um glossário bilíngue como fonte de insumo para o desenvolvimento de prática deliberada na elaboração de um glossário técnico com base em corpus. Com o propósito de desenvolver

Corpora no Ensino de Línguas Estrangeiras | 187

atividades específicas para o aperfeiçoamento de determinadas habilidades em tradução técnica, nossa proposta consiste em seis principais pontos. Determinação da área de pesquisa É muito comum o aprendiz escolher uma área por demais genérica, como, por exemplo, medicina ou informática. Ao dar início à segunda etapa, ou seja, à coleta de textos, logo perceberá a necessidade de restringir sua área de busca. Assim, a primeira tarefa consiste em escolher uma área de especialidade dentro de um universo maior: quanto mais específica essa área, melhor será seu produto. Muito útil nesse momento é a construção de um mapa da área em questão, ou seja, de uma árvore de domínio, a partir da qual o aprendiz poderá selecionar os nódulos (subáreas) que lhe interessam. A tabela de áreas do conhecimento do cnpq pode ser um bom ponto de partida para se estabelecer a subárea de interesse. Ela consiste de oito grandes áreas, a saber, Ciências Exatas e da Terra; Ciências Biológicas; Engenharias; Ciências da Saúde; Ciências Agrárias; Ciências Sociais e Aplicadas; Ciências Humanas; Linguística, Letras e Artes; e uma última denominada Outros. Já dentro das Ciências da Saúde, por exemplo, temos as seguintes áreas: Medicina, Odontologia, Farmácia, Enfermagem, Nutrição, Saúde Coletiva, Fonoaudiologia, Fisioterapia e Terapia Ocupacional, e Educação Física (cf. Figura 1). Áreas do Conhecimento Ciências da Saúde Medicina

Odontologia

Farmácia

etc.

Clínica Odontológica Cirurgia Buco-Maxilo-Facial Ortodontia Odontopediatria Periodontia Endodontia Radiologia Odontológica Ciências Exatas e da Terra etc.

Figura 1: Áreas do conhecimento com base na tabela do cnpq (extrato)

188 | Corpora no Ensino de Línguas Estrangeiras

Como pode ser visto na Figura 1, a área de Odontologia, por sua vez, engloba as subáreas de Clínica Odontológica, Cirurgia Buco-Maxilo-Facial, Ortodontia, Odontopediatria, Periodontia, Endodontia e Radiologia Odontológica. Dependendo do escopo que pretende dar a seu glossário, o aprendiz pode focar uma dessas subáreas ou, eventualmente, uma parte ainda menor. Coleta dos textos que comporão os corpora Para realizar esta tarefa, o aprendiz deverá conhecer algumas palavras da sua área de pesquisa, que lhe servirão de ‘sementes’ na busca de textos. Essas ‘sementes’ podem vir, por exemplo, dos nódulos da árvore de domínio. Essa etapa é, aparentemente – apenas aparentemente –, simples, pois uma vez encontrado um texto, é preciso averiguar sua confiabilidade, detectando sua procedência e, se possível, sua autoria. Em outras palavras, é preciso verificar se os textos procedem de sites institucionais, acadêmicos, governamentais e, por vezes, até comerciais, dependendo do tema a ser pesquisado. Textos provindos de blogs, chats ou similares provavelmente não seriam adequados para a elaboração de um glossário técnico. Dessa forma, vários textos serão descartados por não atenderem aos critérios acima. Nota-se aqui a dificuldade exigida de uma tarefa para que contribua ao conhecimento experto, assim como a possibilidade de feedback informativo e correção de erros. A seguir, se o texto for considerado confiável, o pesquisador deverá fazer uma ‘limpeza’ (eliminando todo material não textual, ou seja, quadros, tabelas, figuras etc.) para fazer parte do corpus. Essa limpeza visa preparar o texto para que possa ser lido pelas ferramentas computacionais usadas no processo de investigação do corpus. Esse procedimento deverá se repetir até ser atingido o número estipulado de palavras do corpus, número esse que dependerá do objetivo do corpus e do tema a ser investigado. É de se supor que, quanto mais específica a área, menor o número de textos para cobrir todo o seu vocabulário1. O mesmo processo será aplicado na segunda língua. Balanceamento do corpus Como o produto a ser criado é um corpus comparável, isto é, um corpus com conteúdo similar nas duas línguas, é preciso haver um balanceamento dos

1

Para mais detalhes ver Atkins, Clear e Ostler (1992).

Corpora no Ensino de Línguas Estrangeiras | 189

textos que o compõem quanto ao tema, tipologia textual, data, autoria (caso seja possível determiná-la), número de textos, número de palavras ou quaisquer outros critérios que forem considerados relevantes para aquela área. Em um corpus de direito contratual, por exemplo, devido a diferenças nos sistemas jurídicos, o balanceamento não pode ser feito por número de palavras, pois os textos em inglês são muito mais longos do que os em português; assim, convém fazer o balanceamento pelo número de textos. Em algumas áreas, o aprendiz poderá ter dificuldade de encontrar textos com definição de conceitos básicos por esses já serem de conhecimento geral. Por exemplo, será difícil encontrar um texto atual que defina um computador. Nesse caso, o pesquisador terá de recorrer a textos mais antigos, publicados à época de lançamento dessa máquina. Durante esse processo, o aprendiz estará se familiarizando com conceitos e termos de sua área de pesquisa, aumentando seu conhecimento experto. Extração dos candidatos a termos Construído o corpus, o aprendiz passará a extrair os termos, colocações e fraseologias nas duas línguas. Esse processo se dá em três etapas. Primeiramente, gera-se uma lista das palavras mais frequentes no corpus.2 Em seguida, a lista é comparada com outra de um corpus mais geral, ou seja, não específico do tema investigado, para identificar as palavras peculiares ao corpus de estudo. Essas seriam os assim chamados candidatos a termos. Finalmente, produzem-se listas de concordâncias para validar esses candidatos, pois essas listas apresentam a palavra de busca em contexto, permitindo ao aprendiz/ tradutor novato verificar, pela recorrência e pelo contexto se, de fato, trata-se de termo ou não. Devemos lembrar que a frequência leva à identificação de padrões fraseológicos (colocações) cuja repetição, por sua vez, pode levar à identificação de características do cotexto. Essas, ao se repetirem, constituem importantes indícios sobre o contexto para o tradutor novato. Além disso, nesse exame, poderão surgir colocações e outras fraseologias. Esse procedimento exige do aprendiz noção das convenções das línguas (tagnin, 2005), que observará estruturas e combinações lexicais

2

É de se supor que os textos gerados apresentem outras informações que não apenas as relacionadas às ‘sementes’. Consideramos que as sementes são ‘pontos de partida’, e que, a partir desses textos, o tradutor novato possa encontrar outras ‘sementes’ que, por sua vez, podem servir para buscar novos textos.

190 | Corpora no Ensino de Línguas Estrangeiras

recorrentes. Nisso, será auxiliado por software especializado, no nosso caso, o WordSmith Tools (scott, 1986). Vejamos abaixo parte das 1301 linhas de concordância para a palavra renal do site do CorTec, Projeto comet.3 01 02 03 04 05 06 07 08

te, nem sempre o tratamento da doença ria quantitativa, avaliação da função urografia excretora, ou cintilografia podem determinar a natureza da doença o exame de urina e a medida da função dismorfismo eritrocitário, com função núria ausente ou discreta e disfunção m estágios avançados de insuficiência

renal, renal renal) renal. renal renal renal, renal,

quando existe, resulta em reversão (creatinina sérica ou depuração da c podem determinar a natureza da doen Eventualmente, métodos adicionais, do hipertenso provável nefropata. Po alterada ou não, leva à hipótese dia deve-se pensar em nefropatia túhulo tem condições de fazer avaliações e

Podemos observar que renal é, de fato, um termo e que co-ocorre com outras palavras, formando termos complexos como insuficiência renal, função renal e doença renal. Notamos também biópsia renal e disfunção renal, mas esses teriam de ser comprovados por outras ocorrências, que de fato ocorrem: biópsia renal tem 7 ocorrências e disfunção renal, 25. Nessa fase, espera-se que o aprendiz desenvolva habilidades metacognitivas a respeito da linguagem de sua área de pesquisa, mais uma vez expandindo seu conhecimento de domínio sobre o tema. 3.5) Identificação de equivalentes O passo seguinte será o da identificação dos equivalentes, para o que aprenderá determinados procedimentos, vários dos quais são discutidos e exemplificados em Tagnin (2007). Em linhas gerais, essa identificação é feita pela observação do termo e suas colocações. Por exemplo, em um corpus de culinária, o termo pimenta ocorre, entre outras, nas seguintes fraseologias: sal e pimenta, tempere com sal e pimenta, sal e pimenta a gosto, pimenta branca e pimenta-do-reino, entre outros. Se examinarmos uma concordância para

3 O comet – Corpus Multilíngue para Ensino e Tradução () é composto de três subcorpora: o cortec (Corpus Técnico), que disponibiliza 15 corpora técnicos bilíngues (inglês e português) para consulta on-line, o comaprend (Corpus Multilíngue de Aprendizes), com redações de aprendizes em cinco línguas (alemão, espanhol, francês, inglês e italiano) e o cortrad (Corpus de Traduções), com textos paralelos (originais e respectivas traduções), que está em fase de implantação.

Corpora no Ensino de Línguas Estrangeiras | 191

pepper, tradução de pimenta, num corpus de culinária comparável, em inglês, encontraremos, respectivamente, salt and pepper, season with salt and pepper, salt and pepper to taste e white pepper, mas nada que à primeira vista possamos julgar ser equivalente a pimenta-do-reino. Quando esse procedimento não revela os equivalentes, outra possibilidade é fazê-lo por meio das concordâncias dos colocados. Assim, se examinarmos os colocados mais frequentes de pepper, encontraremos black, formando black pepper. Na realidade, essa colocação ocorre numa fraseologia bem maior freshly ground black pepper. Se o aprendiz sabe que ground significa moída, poderá procurar, no corpus em português, por pimenta com o colocado moída e encontrará, além de pimenta branca moída, pimenta-do-reino moída na hora. Dessa forma pode estabelecer black pepper como equivalente de pimenta-do-reino, além de freshly ground como moída na hora. Compilação do glossário A última etapa é a inclusão dos termos encontrados num glossário, cuja estrutura dependerá do objetivo a que se propõe. Fromm (2007) levantou as necessidades dos tradutores quanto a informações terminológicas e elaborou um programa denominado VoTec (Vocabulário Técnico),4 que permite ao tradutor, a partir dos campos de um verbete (por exemplo, definição, categoria gramatical etc.), já preenchidos e inseridos no banco de dados pelo administrador com os dados extraídos de excertos de um corpus inserido no programa, estruturar a visualização desse verbete conforme a informação de que necessita para sua tarefa tradutória (por exemplo, a definição, o equivalente etc.). Assim, pode optar por pesquisar, por exemplo, apenas o equivalente, apenas a definição, um exemplo ou uma combinação desses elementos. No caso que estamos relatando, foi solicitado aos alunos do curso5 compilarem o glossário a partir das palavras mais frequentes e suas respectivas colocações. A entrada deveria consistir do termo, sua categoria gramatical, a tradução para o português e uma explicação ou exemplo, se necessários.

4

O votec está disponível em .

5

A tarefa foi realizada pelos alunos do Curso de Especialização em Tradução da

fflch-usp.

192 | Corpora no Ensino de Línguas Estrangeiras

O layout deveria seguir os moldes de uma coleção de glossários técnicos publicados por uma editora local. Essa proposta deu-lhes um objetivo real, pois, dependendo da qualidade do produto final, o glossário poderia ser encaminhado à respectiva editora para apreciação e eventual publicação.6 Um estudo de caso como ilustração dos efeitos da prática deliberada Retomando as propostas de Lajoie (2003) e de Shreve (2006), entendemos que a expertise em tradução pode se desenvolver de diferentes formas, dependendo de variações na experiência e na forma como habilidades são adquiridas em determinado domínio do conhecimento. Portanto, manipulando propositalmente a natureza da prática deliberada, acreditamos ser possível desenvolver trajetórias pautadas por esta prática que levem a um desempenho consistente de alto nível. A título de ilustração, apresentamos nesta seção um estudo de caso que avalia, através de uma análise retrospectiva, o impacto da prática deliberada na formação de dois tradutores. Esta prática foi especialmente desenhada com base nos pressupostos e ferramentas da Linguística de Corpus visando à elaboração de um glossário técnico. Como foi mencionado na seção anterior, um dos glossários resultantes do desenvolvimento da aplicação dessa prática deliberada em tradução foi submetido a uma editora comercial e publicado. Trata-se do Vocabulário para Química (perrotti-garcia e rebechi, 2007), parte da coleção Mil & Um Termos, da editora sbs. Inicialmente, o trabalho deveria ter sido desenvolvido por uma equipe de quatro pessoas. Contudo, ao longo da interação, por razões diversas a equipe ficou reduzida a dois participantes, nomeados doravante tradutor 1 e tradutor 2. O tradutor 1 tem graduação em Odontologia e título de Especialista em Cirurgia Buco-Maxilo-Facial. É também Bacharel em Tradução e Interpretação e tem título de Especialista em Tradução por uma universidade brasileira. Tem aprovação no certificado Proficiency in English pela Universidade de Cambridge (Inglaterra) e cursa atualmente mestrado em Linguística Aplicada e Estudos da Linguagem.

6

O Vocabulário para Química de Perroti-Garcia e Rebechi (2007) é fruto dessa tarefa.

Corpora no Ensino de Línguas Estrangeiras | 193

O tradutor 2 é Bacharel em Tradução e Interpretação e tem título de Especialista em Tradução por universidade brasileira. Tem aprovação no certificado Proficiency in English pela Universidade de Michigan (Estados Unidos) e cursa atualmente o mestrado em Estudos da Tradução. Para fins da análise dos sujeitos em suas respectivas trajetórias rumo à expertise (lajoie, 2003; shreve, 2006), é relevante observar que tanto o tradutor 1 quanto o tradutor 2 têm sólida formação acadêmica em tradução e comprovação de proficiência linguística em inglês. A única diferença significativa entre ambos os perfis é a formação do tradutor 1 em uma outra área do conhecimento ligada às Ciências da Saúde. Cabe indagar se esse segundo conhecimento de domínio teria um impacto diferencial no desenvolvimento do conhecimento experto em tradução em sua relação específica com a prática deliberada aqui proposta. A fim de aferir o impacto desta e outras possíveis diferenças nas respectivas trajetórias rumo à expertise, o tradutor 1 e o tradutor 2 responderam, após a conclusão dos respectivos trabalhos, perguntas formuladas em um questionário desenhado especificamente para averiguar esse tipo de impacto. Consoante Ericsson (1996), buscou-se averiguar através dessas respostas se (a) a tarefa foi bem definida; (b) a tarefa apresentou dificuldade apropriada; (c) há possibilidades de um feedback informativo; e (d) há oportunidade para repetição e correção e, consequentemente, para aperfeiçoamento da prática tradutória. Em primeiro lugar, tanto o tradutor 1 quanto o tradutor 2 foram unânimes em afirmar nas suas respostas que a tarefa fora bem definida. No entanto, como devia ser realizada em grupo, houve problema nesse sentido, a ponto de o grupo original de quatro pessoas ficar reduzido a dois membros. Infelizmente, é raro haver sintonia perfeita entre os elementos de um grupo, mas a solução encontrada por este teve bons resultados: decidiram pautarse pela divisão da química em duas áreas, química orgânica (principalmente petróleo e derivados, por solicitação do mercado) e química inorgânica, ficando cada integrante do grupo responsável pela coleta e limpeza dos textos em uma das áreas. Embora o tradutor 1 tivesse alguma familiaridade com a área da química por ter “estudado bioquímica por um ano durante o curso de odontologia, e [tivesse sido] estagiária de química durante o ensino médio”, o tradutor afirma que “certamente aprendi [aprendeu] muito com o trabalho com os textos”. Por

194 | Corpora no Ensino de Línguas Estrangeiras

outro lado, o tradutor 2 praticamente “não conhecia nada sobre química”, de modo que “era mais difícil selecionar os textos realmente significativos para o trabalho, portanto alguns tiveram que ser descartados posteriormente”. Nota-se, através do relato retrospectivo, que a tarefa apresentou um grau de dificuldade apropriado para ambos. Não se pode, contudo, afirmar que o conhecimento de domínio em química teve um impacto diferencial no desenvolvimento do conhecimento experto em tradução do tradutor 1 em sua relação específica com a prática deliberada aqui proposta. Mais relevante parece ser a afirmação desse tradutor quando diz que aprendeu muito com o trabalho com os textos, atestando o impacto positivo da prática proposta para o desenvolvimento de suas habilidades. Em resposta à pergunta sobre como avaliam a tarefa de tradução dois anos após sua realização, o tradutor 1 comenta: “claro que hoje, passados dois anos, e com os conhecimentos adquiridos desde então, eu faria coisas novas para acrescentar ao livro, trabalharia com colocados e com cluster, certamente, mas isso não significa que o que fizemos tenha sido insuficiente, apenas poderia ser mais rico”. Corroborando a afirmação anterior, o tradutor 2 percebe que “teríamos ‘apanhado’ bem menos se já tivéssemos essa experiência na época”. O tradutor reconhece, no entanto, que “isso faz parte da aprendizagem.” Observase que os relatos apontam para o fato de a experiência com a elaboração de corpora ter sido positiva e incorporada pelos dois tradutores em sua prática profissional, atestando novamente o impacto positivo da prática proposta. As etapas seguintes parecem não ter apresentado problemas. Coletados os textos, os tradutores juntaram o material e passaram à extração dos termos a partir das listas de palavras-chave, buscando também combinações (n-gramas ou clusters) de duas e três palavras para coletar termos compostos. Na sequência, o trabalho passou por uma avaliação da docente encarregada do desenho curricular, que o julgou apto a ser submetido à editora.7 Uma vez entregue e aprovado, o tradutor 1 e o tradutor 2 passaram a receber um feedback informativo, pois a editora manteve contato constante, solicitando correções, em especial, ortográficas.

7

Cabe esclarecer que todos os trabalhos passaram por avaliação e receberam comentários e sugestões da docente, permitindo aos aprendizes corrigir ou ampliar seu material.

Corpora no Ensino de Línguas Estrangeiras | 195

Na fase seguinte, o trabalho passou por revisão de uma especialista, com novo feedback, o que levou ao ajuste de alguns conceitos. Interessante ressaltar aqui que essa especialista (tradutora e engenheira química) comentou que “jamais conseguiria ter coletado os termos como [o fizeram]”, o que, segundo o tradutor 1 “mostrou que o processo realmente funcionou, e que o uso de corpus pode superar as dificuldades inerentes de se trabalhar com uma área que conhecemos, mas na qual não somos especialistas”. Esta última observação é um ponto importante para a discussão proposta neste capítulo. No caso da tradução técnica, os tradutores são sempre chamados a atuar em campos cujas especificidades lhes são desconhecidas em termos de domínio de conhecimento disciplinar. Trata-se de uma discussão importante no escopo da formação de tradutores uma vez que coloca frente a frente duas necessidades sempre presentes no campo da tradução técnica, quais sejam, os conhecimentos teóricos sobre tradução como parte de uma área do conhecimento per se e o conhecimento técnico/disciplinar de áreas distintas como conhecimento imprescindível para lidar com o conteúdo a ser traduzido. Certamente, o percurso aqui exposto ilustra bem como as tarefas propostas foram eficazes para alcançar o resultado esperado – a compilação de um glossário – e como ambos os tradutores se beneficiaram tanto desse processo quanto do autêntico feedback da editora e da especialista, contribuindo para o aprimoramento de sua prática tradutória. Considerações finais Retomando a questão da prática deliberada na perspectiva dos estudos sobre conhecimento experto, o objetivo da proposta esboçada neste capítulo é levar o aprendiz em direção ao que Glaser (1996) denomina comportamento autorregulatório, ou seja, um tipo de comportamento intimamente associado à expertise. Comportamento autorregulatório é resultado de um aumento na rotinização de processos cognitivos em determinado domínio acompanhado respectivamente por um aumento nos níveis de automonitoramento metacognitivo. Metacognição é a percepção consciente sobre como os processos mentais funcionam, incluindo, por exemplo, estratégias para auxiliar o desempenho da memória. Inclui regulagem metacognitiva e se refere a uma variedade de processos que podem ser tanto conscientes quanto inconscientes. Incluem, por exemplo, monitoramento, alocação de recursos e planejamento.

196 | Corpora no Ensino de Línguas Estrangeiras

Nesse contexto, os relatos dos dois sujeitos, utilizados como exemplo no escopo da análise aqui apresentada, revelam a eficácia da prática deliberada na modificação de seus respectivos padrões de monitoramento e alocação de recursos e planejamento. Comentários feitos por eles, tais como referências ao impacto dos conhecimentos adquiridos, gerando um efeito facilitador decorrente da elaboração do glossário, são indicadores do impacto positivo da prática no desenvolvimento de um comportamento autorregulatório acompanhado por níveis mais altos de metacognição. Corroboram assim as evidências encontradas nos estudos sobre conhecimento experto que a metacognição tende a aumentar na medida em que a expertise aumenta. Atrelando considerações de cunho teórico sobre conhecimento experto à experiência tradutória pautada pela prática deliberada, o presente trabalho reforça a relevância dos pressupostos da Linguística de Corpus no âmbito de processos de aprendizagem e destaca a importância do automonitoramento e da metacognição na formação de tradutores. A sequência das tarefas aqui apresentadas, desde que cuidadosamente elaboradas e seguidas, proporciona uma experiência autêntica ao aprendiz, permitindo-lhe aplicar esse conhecimento procedimental a qualquer outra área em que venha a trabalhar. Referências bibliográficas

alves, f. Tradução, cognição e contextualização: triangulando a interface processo-produto no desempenho de tradutores novatos. delta, v. 19, n. especial, p. 71-108, 2003. ______; magalhães, c. Using small corpora to tap and map the process-product interface in translation. TradTerm, v. 10, p. 179-211, 2004.

atkins, s.; clear, j.; ostler, n. Corpus design criteria. Literary and Linguistic Computing, v. 7, n. 1, p. 1-16, 1992.

buchweitz, a.; alves, f. Cognitive adaptation in translation: an interface between language direction, time, and recursiveness in target text production. Letras de Hoje, v. 41, p. 241-272, 2006.

ericsson, k. a. The road to excellence: the acquisition of expert performance in arts and sciences, sports and games. Mahwah, nj: Erlbaum, 1996. ______. Expertise in interpreting: an expert-performance perspective. Interpreting, v. 5, n. 2, p. 187-220, 2002.

Corpora no Ensino de Línguas Estrangeiras | 197

______; charness, n. Cognitive and developmental factors in expert performance. In: feltovich, p.; ford, k. m.; hoffman, r. r. (Eds.). Expertise in context: human and machine. Cambridge, ma: mit Press, 1997. p. 3-41.

fillmore, c. j. Innocence: a second idealization for linguistics. Berkeley Linguistic Society, v. 5, p. 63-76, 1979. fromm, g. votec: a construção de vocabulários eletrônicos para aprendizes de tradução. 2007. 210 f. Tese (Doutorado em Letras) – Faculdade de Filosofia, Letras e Ciências Humanas, Universidade de São Paulo, São Paulo. glaser, r. Changing the agency for learning: acquiring expert performance. In: ericsson, k. a. (ed.). The road to excellence: the acquisition of expert performance in arts and sciences, sports and games. Mahwah, nj: Erlbaum, 1996. p. 303-311.

lajoie, s. Transitions and trajectories for studies of expertise. Educational Researcher, v. 32, n. 8, p. 21-25, 2003. magalhães, c.; alves, f. Investigando o papel do monitoramento cognitivo-discursivo e da metarreflexão na formação de tradutores. Cadernos de Tradução, v. 17, p. 71-128, 2006. pagano, a.; magalhães, c.; alves, f. (Orgs.). Competência em tradução: cognição e discurso. Belo Horizonte: Editora da ufmg, 2005. perrotti-garcia, a. j.; rebechi, r. r. Vocabulário para química. Série Mil & Um Termos. São Paulo: sbs Editora, 2007. shreve, g. The deliberate practice: translation and expertise. Journal of Translation Studies, v. 9, n. 1, p. 27-42, 2006.

scott, m. WordSmith Tools. Versão 1. Oxford University Press, 1986. tagnin, s. e. o. O jeito que a gente diz. São Paulo: Disal, 2005. ______. A identificação de equivalentes tradutórios em corpora comparáveis. In: congresso internacional da abrapui, 1., 2007, Belo Horizonte. Anais... Belo Horizonte: ufmg, 2007. Disponível em: . Acesso em: 12 jun. 2010.

198 | Corpora no Ensino de Línguas Estrangeiras

ARTIGOS DE CARDIOLOGIA EM PORTUGUÊS E ALEMÃO:

contribuições da pesquisa em corpus para o ensino de leitura instrumental1 Maria José Bocorny Finatto (ufrgs) Leonardo Zilio (ufrgs) Elisandro José Migotto (ufrgs)

abstract: This chapter proposes some pedagogical methods in teaching reading skills for academic purposes in German for Brazilian undergraduates who have to deal with papers from the area of cardiology. We aim at presenting methods from Corpus Linguistics, which allow a comparison between cardiology papers in German and Brazilian Portuguese. With support of the software WordSmith Tools (scott, 2004), we created a comparable corpus of 493 texts in German and 490 texts in Brazilian Portuguese. Through the investigation of this corpus, the macro and microstructural features of the papers were identified. Macrostructurally we took subsections of the papers and the length of sentences and paragraphs into consideration. From a different perspective, we also made a comparison between lists of most frequent words in each of the languages. Contexts of recurrent and systematic combinations of three cardiology terms and distinct adjectives were examined. Finally, we conclude that the methods used here allow us to highlight important structural features of cardiology papers and the usage of German in relation to texts of the same area in Brazilian Portuguese. We can also say that these methods of comparison can provide the teacher with many useful resources for application in class. Introdução Associamos aqui o ensino de leitura instrumental em língua alemã com a pesquisa baseada em corpus, que se dedica a reconhecer padrões de

1

A elaboração deste trabalho beneficiou-se do apoio do cnpq sob a forma de bolsas de iniciação científica, mestrado e produtividade em pesquisa, pelo que muito agradecemos. Agradecemos também aos pareceristas desta publicação, que muito contribuíram para a maior clareza do nosso texto. Registramos também o nosso obrigado à colega Profa. Minka Beate Pickbrenner, cujo trabalho de mestrado inspirou várias partes deste texto

Corpora no Ensino de Línguas Estrangeiras | 199

linguagem em um gênero textual2 específico. Nossas atenções recaem sobre textos técnicos da área de Cardiologia, especialmente os textos das categorias identificadas como artigo e artigo original,3 os quais foram explorados de acordo com metodologias da Linguística de Corpus (doravante lc). Genericamente reconhecido pelo anglicismo paper, o artigo técnico de Cardiologia é um gênero textual produzido por médicos para relatar pesquisas de experimentação de técnicas cirúrgicas, para revisar o estado da arte de determinados temas ou para apresentar resultados de tratamentos específicos. Os leitores desses papers são, em geral, médicos, pesquisadores ou aprendizes da especialidade em foco. Ao trazer artigos de Medicina para uma situação de ensino de leitura em língua estrangeira (le), fixamos um cenário de ensino/aprendizagem peculiar no qual seriam aproveitados os contrastes alemão/português para uma familiarização inicial dos estudantes. Esses contrastes são realizados a partir do exame de corpora comparáveis e procedidos conforme os princípios da lc. As ilustrações advêm de dois planos: (a) um geral da organização do texto, e (b) um mais nuclear da frequência de palavras e da associação dessas em torno de expressões que correspondem a três noções-chave de Cardiologia em alemão e em português. A ferramenta utilizada para nossas observações foi o programa WordSmith Tools (scott, 2004). Nesse cenário de exploração contrastiva das palavras que perfazem os textos, o papel do aprendiz de le é representado por um estudante de Medicina brasileiro que inicia a sua formação em Cardiologia e em leitura de textos em língua alemã. É um aprendiz de leitura instrumental cujos conhecimentos de alemão se situam em um nível entre razoável e bom. É, assim, um sujeito que precisa ler e compreender textos que tratam justamente da sua temática de estudos. Esse estudante, devidamente acompanhado por um professor, utilizaria textos de Cardiologia em língua estrangeira, alguns textos de temática similar escritos originalmente em português, mas teria também acesso a uma

2

Para mais informações sobre a noção de gênero textual, recomendamos a leitura de Marcuschi (2005; 2006).

3

Os artigos de revistas médicas ainda comportam outros tipos como, por exemplo, o estudo de caso e artigo de revisão. Artigos originais são aqueles que não foram previamente apresentados em congressos ou publicados em outras revistas, caracterizando uma contribuição original para a área; já artigos são estudos que podem ter sido previamente apresentados em congressos ou em anais de eventos.

200 | Corpora no Ensino de Línguas Estrangeiras

série de dados obtidos a partir dos mais variados tipos de textos que usa para estudo em aula no curso de Medicina. Esses materiais, aliados a uma série de fatores e recursos, integram o seu conhecimento prévio da área e do tipo de registro de linguagem envolvidos nos textos que agora lerá em língua alemã. Do ensino de leitura à leitura instrumental Ao relacionar leitura e ensino e associá-los à feição da linguagem médica realizada tal como vista em corpora, torna-se importante explicitar, ainda que brevemente, algumas das concepções teóricas básicas aqui envolvidas. Entendemos leitura como processo e produto. Assim, não concebemos um leitor que seja um sujeito passivo, mero decodificador. Oposto a um simples ‘recebedor de informação’, o leitor (o que, naturalmente, inclui o nosso estudante de Medicina aprendiz de leitura de artigos de Cardiologia em alemão) constrói a significação do texto que lê junto com o sujeito produtor e com o produto concretizado. Nessa concepção, o leitor também produz significados a partir do que lê, conforme já destacou Leffa (1996, p. 24). O nosso futuro cardiologista traz uma série de conhecimentos prévios, tem domínio da terminologia em português, já leu muitos textos de sua área em inglês, visto que o inglês tem estatuto de língua franca em Medicina, e já é capaz de identificar com facilidade equivalências alemão-português, partindo de inferências decomposicionais das palavras e expressões nessa língua estrangeira. Entendemos, entretanto, que ele não separa a terminologia do todo dos conteúdos com o qual se relaciona via texto. Além disso, supomos que esse aprendiz ainda não seja capaz de perceber que essa terminologia, reiterada ao longo do texto em língua alemã, na condição de uma estrutura morfológica ou de núcleo de uma cadeia sintagmática, tem um papel muito importante e recorrente para a coesão textual e para o seu entendimento do texto. Essa percepção, acreditamos, será facilitada e desenvolvida ao longo do seu processo de aprendizagem e do seu contato com os dados e metodologias de ensino com corpus aqui exemplificados. Assim, partimos da situação em que o aprendiz de leitura instrumental em língua alemã como língua estrangeira, o que o situa em um cenário de ensino de línguas estrangeiras para propósitos específicos (tipo de ensino de le normalmente referido pela sigla lsp4), lida com o par de línguas

4

A sigla corresponde, em inglês, a ‘languages for specific purposes’.

Corpora no Ensino de Línguas Estrangeiras | 201

alemão-português, e supomos que ele ainda não teria percebido que os termos em português e que os Komposita5 que lhes correspondem em alemão oferecem uma chave de referência para a sua compreensão de frases e de segmentos maiores do texto. Perceber diferentes realizações ou mesmo diferenças da incidência de determinados termos ou palavras em dado texto/ discurso6, conforme acreditamos, possibilitar-lhe-á verificar diferentes modos de apropriação da linguagem médica em alemão, indo isso além de uma mera estratégia de leitura. A esse respeito, Kleiman (1997, p. 49), ao relacionar leitura e coesão, observa que os vários laços coesivos, representados por repetições, substituições, pronominalizações, pelo uso de dêiticos, permitem que o leitor construa um cenário enxuto, com poucos elementos, devido à expectativa de que se trata dos mesmos objetos, ou eventos, ou fatos referidos várias vezes mediante léxico diversificado. Esse procedimento é guiado por um princípio de economia, chamado de princípio de parcimônia (cf. kleiman, 1997, p. 49). Um texto que permite uma redução graças a abundantes marcas formais é considerado um texto coeso. Porém, como isso, certamente, funciona de um modo peculiar na leitura em língua estrangeira, acreditamos que a percepção da repetição de um mesmo item lexical ao longo do texto é um dos passos iniciais que o aprendiz dá nessa trajetória. Em função dessa condição inicial, nossa exploração dos corpora de Cardiologia será feita justamente na direção de verificar os diferentes modos de ocorrência e de sintagmatização, tomando como base apenas um conjunto reduzido de três termos em alemão e em português.

5

Komposita equivale a palavras compostas, sendo o singular Kompositum. Um exemplo de Kompositum é o termo ‘Muskelkontraktion’, integrado pelo substantivo masculino ‘Muskel’ (‘músculo’) + o substantivo feminino ‘Kontraktion’ (‘contração’); o gênero do conjunto é o feminino. As possibilidades de tradução para ‘Muskelkontraktion’ seriam ‘contração do músculo’ ou ‘contração muscular’, de tal modo que a interpretação do sentido da unidade é feita da direita para a esquerda. Pelo estilo nominal da linguagem especializada alemã, é comum a situação em que termos técnicos que em português são sintagmas nominais de dois ou três elementos correspondem a um único composto em alemão. Trata-se aqui das célebres ‘palavras longas’ do alemão. 6

Sabemos da distinção teórica importante entre texto e discurso. Não fazemos a distinção aqui a título de simplificação.

202 | Corpora no Ensino de Línguas Estrangeiras

Partindo dessa imagem de aprendiz, acreditamos que ele deva ser orientado a realizar objetivamente um pré-reconhecimento do artigo de Cardiologia em alemão, sendo importante também localizar diferenças e semelhanças com textos em português7. Sendo os textos de Cardiologia uma esfera específica da atividade e da comunicação especializada, caracterizamse por ter um estilo próprio, a ser reconhecido no processamento da leitura. O conhecimento das estruturas textuais mais recorrentes que constituem este gênero textual auxiliará o leitor a reconhecer a forma de organização global deste discurso na língua estrangeira, dando-lhe suporte para definir suas expectativas em relação ao seu objeto de leitura. Dito de outro modo por Stubbs (2001, p. 3), o conhecimento da linguagem e dos textos não se restringirá a um conhecimento das palavras isoladas, mas de combinatórias possíveis e do conhecimento cultural que essas combinatórias frequentemente contêm. Assim, em síntese, caberá ao professor orientar o aluno/leitor a reconhecer os elementos macroestruturais que constituem o texto, observando os títulos, as paragrafações, o início e o fim de cada texto, o que possibilitará reunir informações estratégicas de articulação e de sequenciamento temático do texto. Com base no reconhecimento de tópicos, do núcleo semântico de cada segmento do artigo, torna-se viável a construção de um significado global, que revelará, em linhas gerais, o conteúdo textual. Os elementos microestruturais, por sua vez, poderão ser associados a sentenças, combinatórias lexicais ou palavras mais recorrentes. O ensino de leitura instrumental e a busca por textos reais Para tentar desenhar uma trajetória do ensino de leitura de textos técnicos e científicos em alemão no Brasil, ainda que de um modo breve, é necessário recuperar o desenvolvimento do ensino de inglês instrumental, visto que ele o impulsionou e precedeu. É um tipo de ensino e aprendizagem da língua estrangeira focado em necessidades específicas, para os fins voltados à profissionalização e à especialização (cf. augusto, 1996). Esse tipo de

7 Dada a relativa proximidade do alemão com o inglês e o, em geral, bom conhecimento prévio dessa língua pelo aprendiz estudante de Medicina, poder-se-ia imaginar uma situação em que textos nas três línguas seriam utilizados. Embora isso, como ideia, seja muito interessante, restringiremos nossas consideração apenas à dupla alemãoportuguês, supondo o acionamento privilegiado da língua materna e não de uma segunda le.

Corpora no Ensino de Línguas Estrangeiras | 203

tradição de ensino fornece uma moldura para o estudo dos textos reunidos em corpora que apresentaremos a seguir. No início da década de 1970, ocorreu uma grande expansão do ensino de inglês instrumental pela qual se desenvolveu a visão de que o inglês necessário para um grupo de aprendizes específicos poderia ser identificado através da análise das características linguísticas de sua área especial de trabalho ou de estudo. Junto a isso, passou-se a observar o aprendiz como o foco do ensino, considerando-se que cada indivíduo possui necessidades e interesses distintos, além de manifestar uma atitude diversa quanto à aprendizagem, o que teria influência sobre a motivação e eficácia do aprendizado (cf. augusto, 1996, p. 93). No cenário desse tipo de ensino de língua estrangeira, o texto tal qual ocorre no dia a dia das trocas profissionais passou a figurar como objeto de estudo, sem qualquer facilitação didática de sua apresentação. O foco torna-se, assim, o enfrentamento do texto da vida real, um texto que o aprendiz realmente precisa ler no cotidiano do seu trabalho ou da sua formação para o trabalho. Em Craesmeyer (1996, p. 119-122), por exemplo, já víamos uma boa revisão dos diferentes procedimentos associados a esse tipo de ensino. Em síntese, estão relacionados aos seguintes pontos: (a) atender às necessidades de comunicação reais dos aprendizes considerando as áreas de conhecimento e de trabalho em que se inserem; (b) aproveitar as metodologias e procedimentos das próprias áreas de conhecimento para as atividades de ensino; (c) centrar as atividades de ensino na linguagem que é apropriada no âmbito da área de conhecimento em foco, tratando de elementos lexicais, gramaticais, de gênero textual, de estilo, como também com ênfase para as habilidades e estratégias mais requeridas nas situações diárias de trabalho do aprendiz. No macrocenário teórico e metodológico oferecido por esses princípios, a autora já trazia o tema da percepção da coesão como estratégia de leitura em cursos de inglês instrumental. Na abordagem específica apresentada por ela, que resgata, nos anos 1990, apenas uma pequena porção de toda uma tradição de ensino instrumental focado na habilidade de compreensão de leitura, o texto é considerado como unidade de ensino e os itens gramaticais são trabalhados como estratégias, como itens ensinados no próprio texto em que ocorrem. Os reconhecimentos, que vão da percepção da estrutura textual ao reconhecimento dessa estrutura como integrada a um gênero, quando empregados como instrumentos de auxílio para a compreensão da

204 | Corpora no Ensino de Línguas Estrangeiras

leitura, conforme relatava a autora, tornaram-se importantes ferramentas de aproximação e identificação do leitor com seu objeto de estudo. A propósito de algumas referências feitas até aqui, cabe ressaltar que os trabalhos de Craesmayer (1996) e de Augusto (1996), como se observa, não são recentes, tampouco devem ser tomados como marcos teóricos da grande área de lsp. Entretanto, sua presença neste trabalho, longe de desconsiderar toda uma produção de teóricos e de ‘práticos’ da atualidade – a qual recomendamos conhecer – quer apenas exemplificar reflexões e procedimentos, existentes de longa data, por parte de autores-professores de le. Esses, como toda uma geração de professores e teóricos brasileiros, apropriaram-se desses referenciais teóricos em prol da qualificação das práticas pedagógicas.8 Em relação à língua alemã, o ensino de leitura instrumental desenvolveu-se nesses mesmos moldes no Brasil, mas diferenciou-se do ensino de inglês por exigir uma base de conhecimento prévio sobre o funcionamento da língua alemã por parte dos aprendizes. Isso foi e ainda é necessário principalmente em função da, em geral, pouca familiaridade dos estudantes brasileiros com o alemão. Assim, a crença dos estudos de lsp na validade do ensino de leitura que parte apenas de textos reais, sem simplificações didáticas, só se realiza após uma aquisição de um quadro razoavelmente completo e suficiente das estruturas da língua (cf. buhlmann e fearns, 1987; pickbrenner, 2006, p. 60). Sem tal lastro de conhecimento prévio do funcionamento da língua alemã, torna-se muito difícil a aprendizagem de leitura baseada em estratégias ou em inferência de regras. Ao longo dessa trajetória de ensino instrumental e de reflexão sobre ele, permaneceram, entretanto, desde os anos 1980, dificuldades na obtenção de subsídios reais para o professor, que sejam gerados de um conjunto de textos igualmente reais, pertencentes ao cotidiano da leitura na situação de trabalho ou de formação profissional do aprendiz. É necessário, para o professor, dispor de textos em quantidade e de qualidade que possam oferecer uma apreensão

8 Algumas referências fundamentais da área de ensino de inglês instrumental e, por extensão, da área de ensino de línguas instrumentais podem ser obtidas, por exemplo, em Hutchinson e Waters (1987). Uma referência bem mais recente e de acesso relativamente facilitado para um contato inicial para professores de le não muito familiarizados com o tema de lsp é um capítulo de Basturkmen e Elder (2004). Outra obra igualmente útil e ainda mais atual, mas bem mais extensa, é o livro Languages for specific purposes: searching for common solutions (gálová, 2007).

Corpora no Ensino de Línguas Estrangeiras | 205

mais ampla da língua alemã em diferentes temas e situações da comunicação profissional do seu aprendiz. Nesse ponto, acreditamos que a pesquisa baseada em corpus já se fazia presente no cenário acadêmico. Essa pesquisa, tal como uma consequência natural, associou-se ao ensino centrado no dia a dia das necessidades do aluno. Atualmente essa contribuição aparece como algo ainda mais produtivo, dada a expansão de relacionamentos entre Linguística de Corpus (lc), estudos de Terminologia e o ensino instrumental de línguas estrangeiras. Infelizmente, a história e os fundamentos desse tipo de ensino não são, em geral, muito conhecidos pelos professores brasileiros9 formados nos dias de hoje. Esse desconhecimento poderia levá-los a supor, equivocadamente, que uma associação entre princípios da lc e o ensino de le seja uma novidade ou algo que precise começar desde o marco zero. Muitos desconhecem, por exemplo, os trabalhos fundamentais de Holmes (1981) e Barbara et al. (1996). Por isso, este modesto trabalho e a pequena amostra de tópicos para exploração em corpus aqui trazidos como exemplos têm apenas a intenção de resgatar alguns passos importantes de toda uma trajetória histórica de ensino de leitura instrumental em le. Queremos, assim, evidenciar o quanto a inter-relação entre ensino e corpus é importante e produtiva para a prática docente. Do corpus a explorar Nossa exploração baseou-se em um corpus bilíngue, que foi subdividido em dois subcorpora: um em alemão e outro em português. O material em alemão atinge a marca que fica em torno de 1,3 milhão de palavras e o em português, 1,6 milhão de palavras. Esse material alemão-português, frisamos, não envolve tradução, pois ambos subcorpora foram originalmente produzidos nessas línguas embora sejam vinculados tematicamente. Essas características nos dão um corpus comparável conforme terminologia corrente da lc. Tivemos em mente as recomendações da lc ao compilar esse corpus comparável: observamos critérios como o tipo do corpus, a representatividade, a extensão, a especificidade e a sua adequação para nossos propósitos. Examinamos

9

Para o professor interessado em conhecer um pouco da história do esp no Brasil, recomendamos a consulta da preciosa obra The Brazilian esp project: an evaluation (celani et al., 1988), disponível na íntegra na Internet.

206 | Corpora no Ensino de Línguas Estrangeiras

textos de revistas classificadas, segundo o Portal de Periódicos da capes, na área de Cardiologia e Doenças Cardiovasculares. Essa categoria de texto pode ser inserida como um recurso da comunicação entre especialistas, na qual “se assume que autor e leitor compartilham da mesma língua e que, quando certas palavras e fraseologias são utilizadas, ambos entendem o significado”10 (pearson, 1998, p. 36). Subcorpus em alemão O subcorpus em alemão é constituído por 493 textos extraídos de três revistas originalmente escritas em alemão e editadas na Alemanha, sendo elas vinculadas a órgãos nacionais e estaduais. Esse subcorpus tem um total de 1.363.286 itens. Somente entraram para o conjunto textos classificados como Artikel ou Originalarbeiten [artigos ou artigos originais].11 Dados sobre as revistas e sobre sua participação com artigos no nosso corpus estão resumidos na Tabela 1. Tabela 1: Características dos periódicos alemães

Periódico Herz [Coração] Zeitschrift für Herz-, Thoraxund Gefäßchirurgie [Revista de Cirurgia Cardíaca, Torácica e Vascular] Zeitschrift für Kardiologie [Revista de Cardiologia] Total

Período dos textos Número Itens do subcorpus de textos Mar/2004 – Jan/2007 170 474.548 Fev/2002 – Jan/2007

165

429.466

Jan/2001 – Set/2004

158

459.272

Jan/2001 – Jan/2007

493

1.363.286

Procuramos manter um balanceamento de fontes, de maneira que cada revista contribuiu de forma muito parecida para o número de total de itens ou palavras. Em virtude da dificuldade de conceituação do que seja uma palavra,

10 No original: “It is assumed that author and reader share a common language and that when certain words or phrases are used, each understands what is meant”. Tradução nossa. 11 Não reproduzimos a subcategorização dos textos no subcorpus por acreditar que, para fins deste trabalho, bastaria uma aproximação inicial ao gênero em foco. Em um estudo mais detalhado, caberia, por exemplo, opor os procedimentos de escrita entre artigos de revisão, artigos originais e estudos de caso. Cada categoria poderia compor um subconjunto de dados específico se a necessidade do aprendiz fosse reconhecer e reproduzir suas especificidades.

Corpora no Ensino de Línguas Estrangeiras | 207

vale reparar que na Tabela 1 mencionam-se não palavras mas itens. Os textos estão todos compreendidos no período que vai desde janeiro de 2001 até janeiro de 2007. A Zeitschrift für Kardiologie somente apresenta textos em alemão até setembro de 2004, pois posteriormente mudou seu nome para Clinical Research in Cardiology e passou a aceitar e a publicar somente trabalhos em língua inglesa. Subcorpus em português O subcorpus em português é composto por 490 textos extraídos de 3 revistas originalmente escritas em português e editadas no Brasil, vinculadas a órgãos nacionais e estaduais. Esse corpus tem um total de 1.615.269 itens12. Foram também selecionados somente textos classificados pelas revistas como artigos ou artigos originais (doravante denominados genericamente apenas como artigos). As revistas e os dados mais gerais dos textos selecionados são apresentados na Tabela 2 a seguir. Tabela 2: Características dos periódicos brasileiros

Periódico Revista da Sociedade de Cardiologia do Estado de São Paulo Revista da Sociedade de Cardiologia do Estado do Rio de Janeiro Arquivos Brasileiros de Cardiologia Total

Período dos textos Número do subcorpus de textos158

Itens

Jan/2004 – Out/2006

206

697.339

Jan/2005 – Jan/2007

112

322.346

Jan/2005 – Fev/2007

172

595.584

Jan/2004 – Fev/2007

490

1.615.269

12

O fato de haver mais de 250.000 itens no subcorpus em português em relação ao subcorpus em alemão não significa, de forma alguma, um problema no balanceamento. Não podemos deixar de considerar que a língua alemã apresenta uma sintaxe altamente diferente da portuguesa, incluindo-se aí a grande facilidade de criar compostos, diferentemente do português. 13

A disparidade perceptível entre o número de textos e, consequentemente, o número de itens (tokens) no corpus em português se deu pelo fato de a Revista da Sociedade de Cardiologia do Estado do Rio de Janeiro somente apresentar artigos de revisão nos números anteriores a janeiro de 2005. Como artigos de revisão não estavam previstos na conformação do corpus por deixar o número de textos dessa revista inferior ao das outras.

208 | Corpora no Ensino de Línguas Estrangeiras

Estipulamos aqui o período compreendido entre janeiro de 2004 e fevereiro de 2007 como um dos parâmetros para a seleção dos textos. A diferença entre os períodos de recolhimento dos textos em português e em alemão se deu em prol de podermos obter uma quantidade aproximada e equilibrada apenas de artigos nos períodos. Dessa forma, obtivemos 493 textos em alemão e 490 textos em português. O artigo de Cardiologia em foco i: macro e microestruturas Passamos agora a uma apresentação de dois planos fundamentais do artigo de Cardiologia. Na perspectiva de seu todo estrutural, examinaremos a macroestrutura, ao passo que nas diversas partes que o perfazem temos a microestrutura. Vale salientar que a microestrutura é um plano de sucessivas subdivisões que comporta desde uma seção, um parágrafo, até uma sentença ou uma palavra em meio ao todo do texto. A palavra gráfica e sua reiteração maior ou menor em termos absolutos e relativos será aqui privilegiada como a menor parte da microestrutura. Macroestrutura: as divisões do artigo de Cardiologia Para a observação da macroestrutura, utilizamos dois procedimentos complementares: primeiro, uma análise visual, atentando para as diferenças entre as revistas e procurando usar amostras aleatórias de diferentes volumes das revistas selecionadas. Em seguida, utilizamos o recurso de visualização de distribuição de palavras (plot) da ferramenta Concord do WordSmith Tools (scott, 2004) para verificar a distribuição dos títulos de subseções mais frequentes no corpus. Como nossos textos não foram previamente etiquetados14, apenas buscamos as palavras ou expressões que mais titulavam as seções dos artigos nas amostras. As revistas brasileiras, exceto a Revista da socesp, utilizam a primeira página do texto do artigo como uma forma de apresentação geral do todo do trabalho ao leitor. Nela vemos o título do artigo em português, os nomes dos

14 A etiquetagem de um texto é a atribuição de uma categorização a cada uma das palavras que o compõem. Uma etiquetagem morfológica, por exemplo, indicaria ao lado de cada verbo o rótulo v. Assim, seria possível fazer buscas exclusivas de verbos em um corpus. No caso específico do presente estudo, poder-se-ia, na etapa de compilação do corpus, ter criado uma etiqueta que identificasse automaticamente todos os títulos de seções em cada um dos artigos, por exemplo.

Corpora no Ensino de Línguas Estrangeiras | 209

autores, o título em inglês e os resumos em português e em inglês. A Revista da socesp, por ser on-line15, opta por separar os resumos dos artigos em arquivos próprios interligados, os quais podem ou não ser abertos pelo usuário após um acesso inicial do texto, mas as outras informações constam igualmente. Ela também não apresenta título do artigo em língua estrangeira. Essas diferenças do periódico em questão, naturalmente, dificultaram a organização dos dados, mas não impediram sua observação. Em alemão, as revistas do subcorpus seguem o padrão de indicação de informações parecido com o da grande maioria das revistas em português, sem exibir qualquer exceção. Temos, sempre nesta ordem, o título do artigo, os nomes dos autores, o título em inglês e os resumos em alemão e inglês. Os artigos de Cardiologia, tanto em português quanto em alemão, seguem um padrão bastante parecido, pois as revistas têm normas de publicação bastante similares. Assim, após a página de apresentação, seguem as divisões do artigo propriamente dito, consistindo, via de regra, de um texto introdutório, que nem sempre apresenta um título específico como ‘Introdução’. Os objetivos são frequentemente apresentados integrados à introdução, sem haver uma divisão própria denominada ‘Objetivos*’. Isso se percebe pela distribuição no corpus, predominantemente inicial, da palavra de busca ‘objetivo*’ conforme mostra a Figura 1 a seguir.

Figura 1: Distribuição da palavra de busca ‘objetivo*’

15 Os formatos on-line das revistas são muito semelhantes aos das revistas impressas; há, entretanto, o recurso de expansão e de links diretos entre menções e citações bibliográficas.

210 | Corpora no Ensino de Línguas Estrangeiras

Na Figura 1, temos o recurso de visualização de distribuição de palavras (plot) da ferramenta Concord do WordSmith Tools (scott, 2004). Cada traço representa a ocorrência mais ou menos concentrada do termo de busca (‘objetiv*’). Esse, vale lembrar, geralmente aparece como título da seção correspondente nas amostras aleatórias de artigos do nosso corpus. Naturalmente, o recurso oferece apenas uma ideia da presença da palavra, que pode estar em diferentes pontos do texto que não apenas nos título de seções. Restará a verificação de sua função de título através do uso de concordâncias, o que permite uma exibição sintética de cada um dos seus contextos. Após a seção de introdução do texto, segue-se a apresentação dos métodos utilizados. É a parte do artigo em que se apresentam as técnicas, os cálculos estatísticos empregados, os pacientes e suas subdivisões (como idade e peso). Essa parte depende muito do tipo de estudo desenvolvido e é introduzida pelo título ‘Métodos’ ou ‘Metodologia’. É comum a parte dedicada à metodologia apresentar várias subdivisões. À metodologia seguem os resultados, introduzidos por título homônimo. Nessa parte do texto são expostos os achados do estudo. Geralmente essa parte é complementada por figuras, tabelas, quadros etc. Depois há a discussão acerca dos achados. A discussão é, geralmente, o segmento de texto em que se concentra a maioria das citações bibliográficas dos artigos16. Em seguida, há a seção de conclusões do estudo. A conclusão, em geral, é uma porção bastante curta no artigo, escrita de forma objetiva. Em alguns casos, por serem muito breves, as conclusões são integradas à discussão, na forma de um parágrafo final. Após as conclusões, alguns autores apresentam agradecimentos e devem indicar se há ou não uma possível existência de conflitos de interesse. Isso poderia ocorrer, por exemplo, quando um determinado laboratório farmacêutico financia alguma experiência com seus medicamentos. Como última seção do artigo, temos as referências bibliográficas. É uma parte presente em todos os artigos.

16

É interessante observar que o movimento retórico de revisão da literatura geralmente é concentrado, em artigos de Medicina, na parte destinada à introdução, na qual se situa o estado da arte sobre um problema e se instaura a necessidade de ampliação de conhecimento desse problema. Nos textos de Cardiologia, porém, a maior concentração de citações bibliográficas ocorreu na discussão. Para maiores detalhes sobre esses procedimentos, vistos como passos de composição e movimentos retóricos da escrita acadêmica, recomendamos a consulta a Swales (1990).

Corpora no Ensino de Línguas Estrangeiras | 211

É possível ter-se uma ideia inicial sobre as divisões canônicas dos textos e de seus títulos de seções ao se consultar as listas de frequências de palavras dos subcorpora. Após essa consulta, será imprescindível, ainda, confirmar, com o auxílio da verificação de contextos, se as palavras em foco realmente são títulos de seções. Mas, de qualquer modo, vale notar as diferentes presenças das palavras ‘introdução’ (348)17, ‘métodos’ (833) / ‘metodologia’ (187), ‘resultados’ (2.474), ‘discussão’ (346) e ‘conclusão(ões)’ (577) no nosso subcorpus em português, o qual é composto por 490 textos. De modo aproximado e igualmente variável em termos de números absolutos de ocorrências nos artigos de Cardiologia em alemão, temos: ‘Einleitung’ [introdução] (470) / ‘Einführung’ [introdução] (171), ‘Methodik’ [metodologia] (187) / ‘Methoden’ [métodos] (475), ‘Ergebnisse’ [resultados] (1.821), ‘Diskussion’ [discussão] (350) e ‘Schlussfolgerung(en)’ [conclusão(ões)] (314) em um universo de 493 textos. Considerando-se uma média de 490 textos em cada língua, vê-se que tanto ‘resultados’ como seu correspondente ‘Ergebnisse’ são muito mais utilizados nos textos do que os outros itens buscados nos corpora. Isto é, pode-se supor que a menção dessas palavras certamente ultrapassa a função de titulação de seções. A partir desses dados iniciais e com o exame detalhado de correspondências e de frequências relativas18 dessas palavras em alemão e em português, o que se depreendeu, basicamente, é que o artigo, ao longo de todo o nosso corpus, segue um mesmo roteiro básico nas duas línguas. Naturalmente, é preciso considerar que o número de ocorrências de uma dada palavra em um texto precisa ser ponderado em relação ao número total de palavras que perfaz um texto. Isto é, a repetição de uma dada palavra num texto, digamos 20 vezes, será diferenciada à proporção que o texto em

17

Os valores entre parênteses correspondem ao total absoluto de ocorrência nos subcorpora. 18

A partir dos valores absolutos, pode-se também obter os valores relativos, ou seja, o quanto essas palavras ocupam do total do subcorpus. O valor relativo pode ser obtido com a divisão do valor absoluto pelo tamanho total do subcorpus e multiplicando-se o resultado por 100. Para se ter maior base da importância dessas palavras nos subcorpora, basta lembrar que os 1° e 2° substantivos mais frequentes nos subcorpora representam respectivamente, em português, 0,74% e 0,27% e, em alemão, 0,99% e 0,13% do total de itens.

212 | Corpora no Ensino de Línguas Estrangeiras

que se encontra tenha um tamanho de 200 ou 2 mil palavras. Será importante, então, considerar frequências relativas em função do número de unidades de palavras (o que se chama usualmente de tokens na terminologia de lc) e do número de formas diferentes de palavras que se reiteram ao longo de um texto (conhecidas como types). Além do mais, entra em questão a consideração de flexões das palavras, como os casos de singular e plural acima aglutinados em um único número. Microestrutura: parágrafos, sentenças e palavras A microestrutura do texto será aqui entendida como sendo composta por seus parágrafos e frases. Observando os dois subcorpora, obtivemos alguns dados interessantes. Verificamos especialmente o número médio de palavras por sentença, o número médio de palavras por parágrafo, a riqueza lexical e as primeiras 20 palavras de cada um dos subcorpora. A riqueza lexical corresponde a uma medida dada pela razão entre o número de palavras diferentes (formas) existentes no corpus com o número total de palavras (itens). Começando com o número médio de palavras presentes em cada sentença, o subcorpus em português apresentou um total de 38.924 sentenças19, de forma que o número médio foi de 39,1920 palavras por sentença. Em alemão, as sentenças se apresentaram menores quanto ao número médio de palavras, somente 23,01 palavras por sentença. O número absoluto de sentenças, porém, foi muito maior, atingindo 55.303. As sentenças do português seriam, portanto, 1,7 vez maiores que as do alemão. Essa diferença, no entanto, diminui um pouco se olharmos para o número de caracteres e não mais para o número de palavras. Nesse caso,

19

Usamos, como parâmetro para início e fim de sentença, para os dois subcorpora, a opção padrão do WordSmith Tools (scott, 2004), ou seja, um ponto final seguido de espaço e letra maiúscula. 20

O WordSmith Tools (scott, 2004) separa o número total de itens em dois: itens nos textos, que é o número total de palavras do corpus, e itens utilizados para a WordList, que é o número utilizado como base para os cálculos estatísticos neste artigo. Isso se dá em virtude da existência de caracteres que não são considerados palavras, tais como números e símbolos. Dos 1.363.286 itens presentes no subcorpus em alemão, 1.272.624 itens foram utilizados na WordList. O descarte deve-se a esse ajuste do software que visa a não considerar números e símbolos como palavras.

Corpora no Ensino de Línguas Estrangeiras | 213

o português apresenta, em média, 215,15 caracteres por sentença, enquanto o alemão apresenta 156,47, deixando as sentenças portuguesas somente com um tamanho 1,375 vez maior. Isso se dá porque as palavras em português têm uma extensão média de 5,49 caracteres, enquanto as palavras em alemão, 6,8 caracteres. Apesar do número menor de palavras e caracteres por sentença, o subcorpus em alemão apresenta uma média maior de palavras por parágrafo. O subcorpus em português apresentou uma média de 85,42 palavras por parágrafo, enquanto no em alemão há 97,62 palavras. A partir dessas diferenças, percebese que os textos em alemão têm menor tendência à criação de parágrafos em relação ao português. Os dados do corpus (tamanho dos subcorpora em número de palavras e o tamanho dos parágrafos) permitem a conferência dessa tendência. Basta dividir um pelo outro para perceber que o português tem cerca de 4.000 parágrafos a mais que o alemão. Enquanto os valores referentes aos números médios de palavras em sentenças e parágrafos foram, de certa forma, aproximados, não chegando nunca a ultrapassar um tamanho 2 vezes maior de um em relação ao outro, no que diz respeito à riqueza lexical, os resultados são distintos. Em alemão, verificamos um número absoluto de 76.283 formas, já em português constataram-se 37.900 formas. Isso se refletiu em uma riqueza lexical de 5,99% em alemão, enquanto em português foi de 2,48%, ou seja, um valor 2,4 vezes menor. Para realização desses cálculos, foi utilizada uma razão regular, sem ponderação. Não discutiremos essa opção de cálculo, mas é importante destacar, para um professor interessado em conhecê-la, que há toda uma gama de metodologias para obtenção desses valores estatísticos de um modo proporcional e matematicamente correto também em função da dimensão do corpus que se tenha e dos diferentes tipos de repetitividade das palavras ao longo de um texto. Mais detalhes sobre esses procedimentos podem ser vistos em Berber Sardinha (2004). Entre as palavras mais frequentes do corpus, podem-se observar algumas semelhanças entre os subcorpora de cada língua. Isso pode ser visto na Tabela 3.

214 | Corpora no Ensino de Línguas Estrangeiras Tabela 3: Palavras mais frequentes em cada conjunto de textos

N° 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Alemão Palavra der die und in mit bei von eine Patienten des einer zu den im nach ist für werden das auf

Freq. 51.282 41.785 30.541 20.605 17.926 16.990 16.160 15.624 13.503 11.890 10.819 9.515 9.255 9.051 8.390 7.994 7.892 7.814 6.923 6.910

Freq. (%) 3,76 3,06 2,24 1,51 1,31 1,25 1,19 1,15 0,99 0,87 0,79 0,70 0,68 0,66 0,62 0,59 0,58 0,57 0,51 0,51

Português Palavra de a e o da do em com que os para pacientes no na dos por ou as foi é

Freq. 88.882 50.090 45.925 28.921 26.823 25.877 23.613 23.238 19.915 14.238 13.596 12.024 11.825 11.264 9.751 9.195 8.162 7.948 7.734 7.559

Freq. (%) 5,50 3,10 2,84 1,79 1,66 1,60 1,46 1,44 1,23 0,88 0,84 0,74 0,73 0,70 0,60 0,57 0,51 0,49 0,48 0,47

Percebe-se, por exemplo, que o substantivo de maior frequência em alemão é ‘Patienten’ [pacientes], enquanto em português temos ‘pacientes’; os verbos de maior frequência, em português foram ‘foi’ e ‘é’, enquanto o alemão exibe ‘ist’ [é] e ‘werden’ [ser/tornar-se], sendo que todos eles são formas utilizadas para a formação de voz passiva. Isso pode ser indício de que a voz passiva pode ser frequente nas duas situações de convenção de escrita científica. Esse indício, no entanto, deve ser verificado no futuro, visto que é possível imaginar, por exemplo, que esses verbos desempenham uma função relacional na voz ativa. Alertamos que apenas a maior presença de um item isolado numa listagem não é um dado seguro para essa afirmação. A verificação, por si só, já pode render um bom exercício de exploração para os aprendizes que se colocarem, entusiasmados pelo professor, na posição de investigadores dos corpora. No que diz respeito às palavras gramaticais, a comparação torna-se também produtiva à medida que o aprendiz possa perceber as gramáticas diferentes do par de línguas. Em português, por exemplo, a palavra mais frequente é ‘de’, uma preposição, já em alemão temos ‘der’, que pode ser tanto

Corpora no Ensino de Línguas Estrangeiras | 215

artigo (‘o’, ‘a’, ‘lhe’, ‘de’, ‘do’, ‘da’, esses três últimos entendidos como artigos no caso genitivo etc.) quanto conjunção (‘que’) ou pronome (‘este’, ‘esta’, ‘esse’, ‘essa’). Em vários casos, porém, o ‘der’ do alemão cumpre função muito parecida com a da preposição ‘de’ no português, como no caso de ‘tratamento de insuficiência cardíaca’ vs. ‘Behandlung der Herzinsuffizienz’. Vários contrastes podem ser destacados a partir da mesma lista de palavras de cada corpus. Um caso interessante a explorar também é o da conjunção coordenativa ‘e’, visto que encontra sua contrapartida em alemão, ‘und’, na mesma posição no ranking da lista de palavras mais frequentes. Esse tipo de indício pode levar o aprendiz a querer empreender, junto com seu professor, uma exploração contrastiva para a construção dos seus conhecimentos sobre as línguas envolvidas. Desvelam-se, assim, sucessivas pistas que podem ser seguidas em observações com outros conjuntos de textos ou em determinados textos que chamem mais a atenção do aluno. De um mesmo corpus reunido pelo professor (o que pode ser feito em colaboração com os próprios alunos) obtém-se um vasto material que poderá render inúmeras atividades de ensino. Assim, podemos dizer, sem medo de errar, que organizar um corpus é uma tarefa relativamente trabalhosa, mas é um investimento com retorno garantido e contínuo. Além das diferenças naturais entre as duas línguas, especialmente os contrastes das palavras gramaticais mais frequentes, acreditamos que a simples observação, com o aprendiz, sobre usos e combinatórias mais frequentes nesse vasto conjunto de textos, já pode instigar a percepção de padrões da organização da linguagem e dos textos. Essa simples ponderação sobre regularidades já seria algo importante para o professor estimular outra visão dos textos. Essa visão, acreditamos, é a abordagem de corpus, a que permite uma perspectiva panorâmica e extensiva do uso das duas línguas nesse gênero textual. Em síntese, o que mais valeria explorar com o aprendiz, muito antes dos rigores da manipulação estatística de presença e de combinações de itens ou formas, é justamente a reflexão sobre o quanto uma dada especificidade de construção de um ou de alguns textos pode significar em meio a todo um conjunto de textos. Vale o mesmo para o quanto um dado traço ou característica repercute, como um padrão, em meio ao todo de um conjunto de artigos que trate de determinados temas. Entraria aqui em cena, sobretudo, uma reflexão sobre o que são contingências e obrigatoriedades nas línguas e nas práticas de escrita a elas associadas.

216 | Corpora no Ensino de Línguas Estrangeiras

O artigo de Cardiologia em foco ii: associações lexicais em torno de terminologias Partimos do pressuposto de que, dentre as várias descrições que se pode oferecer do nosso corpus, as associações lexicais em torno da terminologia mais básica de Cardiologia podem ser especialmente úteis para um aproveitamento didático. Descrevemos, a seguir, as associações mais ou menos fixas entre, no mínimo, um termo de Cardiologia (neste caso, representado por um item em português e por seu equivalente em alemão) e um adjetivo.21 Esses critérios seguem uma proposta de Sinclair (1991), com a diferença de que utilizamos uma janela de uma palavra para cada lado da palavra de busca como parâmetro no WordSmith Tools (scott, 2004). Escolhemos essa redução do contexto por trabalharmos, neste caso, somente com adjetivos na posição de colocado22 e não com outras classes gramaticais. Assim, o que nos interessa focar são as palavras à esquerda do termo em alemão e à direita em português. Sabemos que a redução da dimensão dos contextos implica uma possível geração de silêncio nos resultados, porém, nos parece suficiente fornecer apenas algumas informações instigantes sobre a língua e não fazer uma análise exaustiva. Além dessa busca, utilizamos dois cálculos estatísticos para ajudar a determinar se uma dada associação entre a palavra de busca e o seu colocado não ocorre por acaso. É preciso ressaltar que esses dois cálculos não são suficientes para avaliar as colocações de forma completamente objetiva, servindo, porém, como bons indicativos antes que se faça uma avaliação mais ponderada. O primeiro é o de informação mútua (im) e o segundo é o escore

t (t)23. Esses cálculos, dito de um modo muito simples, visam mostrar se as associações são relevantes em termos de sua presença reiterada e se ocorrem de modo sistemático ao longo dos textos.

21

Para outras considerações sobre o artigo de Cardiologia em alemão, recomendamos consultar Zilio (2007). 22

Por ‘colocado’ entende-se a palavra que está em torno da ‘palavra de busca’ dentro de uma janela de contexto. 23

Esses cálculos estatísticos são propostos por Stubbs (1995) e Berber Sardinha (2004), de forma que maiores esclarecimentos sobre eles podem ser encontrados nessas referências.

Corpora no Ensino de Línguas Estrangeiras | 217

Outro critério observado foi o de que a colocação não ocorresse somente em um único artigo do corpus, pois, nesse caso, não teríamos como discernir entre uma colocação e uma opção pessoal do autor. Por último, em posse dos resultados, observamos os contextos para fazer julgamentos acerca das colocações encontradas. Os critérios que utilizamos para a seleção das associações foram, portanto, os seguintes: – apresentar frequência maior que 1 em uma janela de 1:1;24 – apresentar im > 3; – apresentar t > 2; – ocorrer em mais de um artigo do corpus; – ponderação subjetiva25 sobre resultados numéricos das associações estatisticamente identificadas e de seus papéis nos textos. É importante salientar o fato de que reunimos, manualmente, as diferentes ocorrências de um mesmo adjetivo sob uma forma lemática para fazer nossos cálculos. Assim, a ocorrência, por exemplo, de ‘chronischer Herzinsuffizienz’ [‘insuficiência cardíaca crônica’, com a forma declinada do adjetivo ‘crônico’] foi considerada como mais uma ocorrência da palavra base ou lema ‘chronische Herzinsuffizienz’. Essa opção se deu pelo fato de o alemão ser uma língua com casos morfológicos, o que resulta em várias realizações possíveis para uma mesma palavra. Optamos por colocar como lemas somente formas que ocorressem no corpus e privilegiamos a forma do nominativo. Não foram lematizadas, porém, formas de singular e plural, no caso dos termos estudados, pois essas realizações da palavra, em muitos casos, refletem uma mudança no status terminológico da unidade lexical.

24 Cabe aqui uma explicação: como as expressões de busca em português geralmente são compostas de mais de uma palavra, como em ‘insuficiência cardíaca’, considera-se que, no caso de ‘insuficiência cardíaca associada’, ‘associada’ seja a primeira palavra à direita, pois a consideração da dimensão da janela é em relação à expressão de busca completa. 25

Essa ponderação subjetiva significa examinar os dados obtidos e poder aceitar que alguns resultados excluídos através de cálculos estatísticos objetivos possam ser importantes e aproveitados quando for necessário ou válido. Implica, assim, uma ponderação, via leitura de contextos de uso de uma dada palavra, sobre seu papel ao longo dos textos do conjunto em foco. Não se deve, assim, excluir elementos em um ponto de corte absoluto sem antes ponderar o que são e como funcionam nos textos os itens excluídos.

218 | Corpora no Ensino de Línguas Estrangeiras

Esse processo de lematização das formas diferentes que assumem as palavras em um corpus (como, por exemplo, os itens em português ‘dos’ e ‘do’ ou ‘dorme’ e ‘dormi’) pode ser feito com o auxílio de software específico. Tratase, assim, de reunir uma diferenciação relativa de forma sem uma diferença de sentido, em tese, digna de destaque. No nosso caso, essa reunião das formas diferentes de um mesmo item foi feita sem auxílio informatizado. A dupla de segmentos abaixo serve como uma referência para o ambiente textual que procuramos explorar. Os destaques são nossos e marcam um termo em torno do qual podemos salientar associações lexicais recorrentes no corpus como um todo com ênfase para as colocações adjetivais. Salientamos que os elementos em destaque têm seu relevo ao longo do corpus e não somente em cada texto. Daí porque não há várias repetições do item em questão nos trechos a seguir. Trecho 1 – português Mecanismos de Morte e Função Ventricular na Fase Crônica da Doença de Chagas Foram considerados óbitos de origem cardíaca os causados por: a) Morte súbita: definida como morte natural introduzida por perda súbita da consciência no período de 1 hora do início dos sintomas agudos, em paciente previamente estável; b) Morte por insuficiência cardíaca: definida como óbito ocorrendo em paciente com quadro de insuficiência cardíaca descompensada, geralmente secundário a baixo débito cardíaco ou suas complicações; c) Morte por um evento embólico: definido como óbito decorrente de embolia pulmonar ou de um episódio isquêmico sistêmico presumivelmente embólico. (Fonte: Revista da Sociedade de Cardiologia do Estado do Rio de Janeiro, v. 6, maio de 2004)

Trecho 2 – alemão Geschlechtsspezifische Aspekte nach pulmonalem Autograft (Ross-Operation) Frauen waren in dieser Studie älter, hatten einen höheren Anteil an Komorbiditäten (wie Diabetes mellitus, arterieller Hypertonus, Vorhofflimmern), an Herzinsuffizienz und instabiler Angina pectoris; zudem waren die Frauen kleiner. Sie erhielten trotz vergleichbarer Rate koronarer Dreigefäßerkrankung weniger Bypässe und A. mammaria interna-Grafts sowie häufiger einen Mitralklappenersatz als eine -rekonstruktion. Die Hospitalletalität betrug bei den Frauen 7% gegenüber 4% bei den Männern. Die höchste Gesamtmortalität lag bei der Kombination Mitralklappenersatz und Bypassoperation. Unabhängige Risikofaktoren für Hospitalletalität waren Mitralklappenersatz und Alter, während weibliches Geschlecht ein unabhängiger Risikofaktor für die Kombination Morbidität und Mortalität bei Bypassopera plus Klappenchirurgie war. (Fonte: Zeitschrift für Herz-, Thorax- und Gefässchirurgie, v. 6, dezembro de 2006)

Corpora no Ensino de Línguas Estrangeiras | 219

Ao reparar que nos trechos acima apresentados há apenas poucas ocorrências das expressões destacadas (‘insuficiência cardíaca’ e ‘Herzinsuffizienz’), vale enfatizar mais uma vez que elas atravessam os dois subcorpora. Daí a sua condição de recorrente. Conforme já fez Pickbrenner (2006), a nossa exploração sobre associações recorrentes de palavras no corpus também parte da incidência de uma dada terminologia. Essa terminologia, conforme é fácil perceber, ocorre basicamente sob a forma de compostos. Embora esses compostos, especialmente os nominais, sejam característicos da língua alemã e sua presença predomine em textos especializados de diferentes áreas do conhecimento, o tratamento que recebem, principalmente em materiais de ensino de alemão como língua estrangeira, é, via de regra, vago e insuficiente, tal como já verificou Leipnitz (2005). Assim, acreditamos que dados como os que serão apresentados na seção seguinte, associados à distribuição de compostos nominais, podem ser especialmente úteis para o professor. Resultados Vejamos agora como ocorrem adjetivos em torno de três termos em português e de seus equivalentes nos textos do conjunto em alemão. São itens de alta frequência no corpus: ‘insuficiência cardíaca’ – ‘Herzinsuffizienz’, ‘valva aórtica’ – ‘Aortenklappe’ e ‘infarto do miocárdio’ – ‘Myokardinfarkt’. Verificamos o que é recorrente nos textos em português e tentamos localizar suas possíveis correspondências nos textos em alemão. Dentre os adjetivos que não atingiram índice estatístico, realmente poucos se mostraram relevantes.26 Ocorreram casos como, por exemplo, ‘infarto do miocárdio perioperatório’, em que o adjetivo ‘perioperatório’ teria sido desconsiderado por atingir um escore t de somente 1,71. No contraste com o alemão ‘perioperativer Myokardinfarkt’, ‘perioperativer’, além de satisfazer os outros critérios, atingiu escore t de 3,7. Assim, descartar ‘perioperativo’ nos pareceu ser muito precipitado. Houve poucos casos também em que os colocados passavam nos testes estatísticos que demonstraram que a associação era recorrente, mas eram

26

Relevante aqui significa que pareceram importantes constar no estudo, ou seja, estavam, de modo sistemático, em relação direta com o termo buscado e apresentavam considerável contraste entre as línguas.

220 | Corpora no Ensino de Línguas Estrangeiras

descartados. Um caso, por exemplo, foi o de ‘insuficiência cardíaca associada’, pois na maioria dos contextos apresentava a doença associada a alguma coisa. Esse dado pode ser relevante para outro tipo de estudo, mas não parecia sê-lo quando analisado em contraste nas duas línguas. As Tabelas 4, 5 e 6 mostram os adjetivos encontrados para cada um dos termos em cada subcorpus. A ordenação das palavras indicadas não tem relação com frequências, seguindo a ordem alfabética da coluna em português. Tabela 4: ‘Insuficiência cardíaca’ / ‘Herzinsuffizienz’

Insuficiência cardíaca    aguda avançada crônica descompensada diastólica estável grave progressiva refratária sintomática sistólica

Herzinsuffizienz manifeste terminale zunehmende akute fortgeschrittene chronische dekompensierte diastolische stabiler schwere progrediente therapierefratäre symptomatische systolische

Na Tabela 4, vale observar que há uma homogeneidade de correspondências entre a maioria dos adjetivos nas duas línguas presentes no corpus em torno dos elementos nominais ‘insuficiência cardíaca’ / ‘Herzinsuffizienz’. Os pontos com vazios mostram as não correspondências. Na Tabela 5, vemos situação semelhante, mas em menor escala, visto que há menos abundância de adjetivos em torno de ‘valva aórtica’ / ‘Aortenklappe’. Tabela 5: ‘Valva aórtica’ / ‘Aortenklappe’

Valva aórtica  bicúspide

Aortenklappe trikuspide bikuspide

Corpora no Ensino de Línguas Estrangeiras | 221

Como se observa, não ocorre o adjetivo ‘tricúspide’, correspondente à forma em alemão ‘trikuspide’. A Tabela 6, por sua vez, apresenta os resultados comparativos para ‘infarto do miocárdio’ e ‘Myokardinfarkt’. Tabela 6: ‘Infarto do miocárdio’ / ‘Myokardinfarkt’

Infarto do miocárdio   Não fatal perioperatório prévio recente

Myokardinfarkt frische akuter nichttödlicher perioperativer früher ou vorgegangener 

Um fato que chama muito a atenção na Tabela 6 é a ausência de equivalente em português para ‘akuter Myokardinfarkt’, já que foi o adjetivo mais frequente em alemão. Isso se deu justamente pela diferença de possibilidades nas duas línguas. O alemão, por oferecer o recurso da composição de palavras em um único bloco, adjetiva essas unidades como se fosse uma palavra ‘normal’, não composta. Assim, ‘akuter’ está na posição onde os adjetivos geralmente estão: à esquerda do composto. No português, esse é um caso bastante interessante, pois o adjetivo não se encontra à direita do termo, como esperado, mas sim em seu interior. O equivalente em português de ‘akuter Myokardinfarkt’ é ‘infarto agudo do miocárdio’, com o adjetivo se referindo não ao todo, como no alemão, mas sim a uma parte do termo. Embora pouco frequente, já que foi o único caso observado entre os três termos, é algo que se destaca e inclusive pode ser um tópico para pesquisas futuras. As diferentes combinatórias dos termos em português e em alemão com tais ou tais adjetivos mostram para o aprendiz diferentes convenções e pontos de vista do fazer científico envolvido. Ao considerar que cada adjetivo pode representar uma especificação ou detalhamento maior do termo técnico a que se associa, chamam atenção as diferentes categorizações, mais empregadas nos textos em alemão que em português, função que também cumprem as ausências de correspondências. Vale aqui uma analogia ligeira com os diferentes tipos ou tons de branco da neve percebidos em apenas determinadas culturas e em outras não. Lembramos disso porque a cultura de escrita médica

222 | Corpora no Ensino de Línguas Estrangeiras

de Cardiologia de cada país parece utilizar adjetivações diferentes para termos que têm um conteúdo nocional equivalente. Considerações finais Este capítulo teve o intuito de explicitar algumas das tantas potencialidades do contraste de corpora formados por textos que interessam aos aprendizes e aos professores de leitura instrumental em língua alemã. Tivemos também o objetivo de dar a conhecer um pouco da trajetória histórica do ensino de lsp no Brasil, capitaneada por um grupo de professores universitários de inglês instrumental. Desde o início desse percurso, já se valorizava o trabalho baseado em corpus à medida que se preconizava o uso de textos reais, não facilitados, em atividades de ensino de leitura em le. Entretanto, nosso objetivo maior foi demonstrar, para um professor de le, como resultados relativamente detalhados, obtidos de dois corpora, um em alemão e outro em português, de acordo com as técnicas e princípios da lc e com os procedimentos da observação estatística da linguagem, podem revelar dados úteis para o ensino.27 Além de recorrer ao exemplo do paper de Cardiologia nos dois idiomas, quisemos, acima de tudo, ilustrar uma metodologia de exploração extensiva de usos de língua construída sobre concepções da lc. Para facilitar o que pode parecer muito complicado, há, hoje, vários recursos on-line gratuitos28 para a geração de listas de frequência de palavras, que indicam em menos de um minuto quantos types e tokens há num texto. Há, também online e gratuitamente, outras ferramentas que mostram apenas as combinatórias de palavras mais usuais em um corpus e as que calculam automaticamente

27

No site do Projeto termisul (), é possível ter acesso parcial ao corpus de estudo utilizado neste trabalho. 28

O site do Prof. Tony Berber Sardinha () oferece vários recursos, inclusive algumas ferramentas para a preparação de atividades de aula baseadas em um corpus carregado pelo usuário. Também os sites dos grupos textquim/textecc () e termisul () oferecem tanto acesso a corpora quanto a ferramentas para sua exploração em atividades de ensino de leitura em Química, Legislação Ambiental, Cardiologia, Enfermagem e Pediatria. No que se refere ao ensino de tradução da língua alemã, vale também conhecer os recursos do ambiente Virtualern ().

Corpora no Ensino de Línguas Estrangeiras | 223

medidas estatísticas complexas como a Informação Mútua ou o Escore t. Tendo-se o corpus organizado, encontram-se com facilidade as ferramentas para explorá-lo e até ferramentas para a geração automática de atividades de ensino a partir dele. Principais resultados da exploração nos corpora de Cardiologia Os principais achados em termos de padrões macro e microestruturais aqui exemplificados revelam que o artigo de Cardiologia, independente da língua, tende a seguir um mesmo roteiro, uma mesma organização em seções. As diferenças, contudo, ficam por conta das preferências por determinadas palavras, pela paragrafação e pela extensão das frases. O texto em alemão, como percebemos, cultiva parágrafos longos, porém, com frases mais curtas em relação ao português. No plano das associações de palavras, aqui singelamente representado pela vinculação entre três termos de Cardiologia e adjetivos, a exploração mostrou dois rendimentos importantes. Primeiro, os colocados adjetivais, conforme vimos, não são igualmente selecionados pelas duas línguas, de modo que o aprendiz e o professor, ao utilizarem esses dados, perceberão que nem sempre o que se esperaria a partir do português se encontra em alemão. O segundo rendimento obtido é indireto, pois parte de um dado conhecido previamente. Entretanto, em que pese o fato já dado, sinaliza-se para a validade de se enfatizar que a posição do adjetivo é diferente no português e no alemão. Essa é uma sistematicidade das gramáticas dessas línguas que adquirirá mais relevo à medida que percebamos camadas de adjetivos sucessivos em torno de um único núcleo nominal nos textos de Cardiologia e à medida que possamos ver que, para além dessas camadas, há verbos mais ou menos reiterados. A experiência do contraste extensivo entre mais de 400 artigos em alemão e em português, seja pela observação do que é mais presente e significativo em termos estatísticos, seja pela identificação do que é único ou peculiar ou pouco presente num dado texto do corpus, mostra o potencial de auxílio da lc. Partindo dos dados levantados, acreditamos que o aprendiz possa ser levado a perceber padrões de associação recorrentes que contribuem para caracterizar o gênero artigo científico nesse par de línguas e de culturas de escrita.

224 | Corpora no Ensino de Línguas Estrangeiras

Repercussões das metodologias da LC sobre o modo de ensinar Em que pese o detalhamento do que examinamos nos dois subcorpora, que à primeira vista pode assustar o professor que busca alternativas práticas e rápidas, é importante saber que o trabalho maior, para quem queira adotar estudos em corpora em suas atividades de ensino, tende a ser a seleção do conjunto de textos que mais vai interessar aos alunos e a produção dos seus arquivos em um formato29 que permita o uso de ferramentas informatizadas. Entretanto, vale salientar, de um mesmo trabalho e de um mesmo corpus podem ser produzidas inúmeras atividades diretas e instigadas outras tantas. A comparação de listas de frequências de palavras, os critérios de significância estatística para destacar associações recorrentes entre unidades diferentes são apenas alguns recursos entre vários. Assim, uma repercussão para o método de ensinar é o grande rendimento e a reusabilidade de uma mesma base de dados que o professor organiza previamente ou em parceria com seus alunos. Obtido um bom corpus, haverá mais tempo para que sejam colocadas questões a partir dos dados observados e para que o próprio aluno siga o que lhe pareceu ser mais interessante em meio aos dados que vê no corpus. Paralelamente, a condição de se poder contrastar, em blocos, muitos textos, com resultados que podem ser imediatamente visualizados pelo aprendiz, tanto em materiais impressos levados pelo professor, quanto nas telas do computador, revela uma nova dimensão sobre os usos das línguas, assim como também é trazida uma nova dimensão para a interação professoraluno em torno de um objeto de estudo. O principal efeito do uso de corpora, reiteramos, é o de poder instigar a curiosidade sobre o que mais haveria além do que se vê numa lista de palavras, o poder de transformar professores e aprendizes em potenciais exploradores-pesquisadores. A observação da língua em uso, em grande escala, é uma das principais recomendações metodológicas da lc. Essa visão ampla que um corpus nos oferece com certeza modifica também o jeito de considerarmos os textos de que trataremos nas aulas de leitura instrumental em le. Afinal, sabemos que um texto estará sempre acompanhado por outros tantos. Além da visão panorâmica e em detalhe, o corpus também nos permite uma perspectiva sobre

29

Geralmente é preciso gerar arquivos em formato somente texto (com a extensão

txt) para que se possa utilizar ferramentas para sua exploração.

Corpora no Ensino de Línguas Estrangeiras | 225

combinatórias recorrentes entre as palavras do texto e nos alerta que as palavras também nunca estarão sozinhas nesse mar de língua que nos é mostrado. Cabe dizer também que, em meio à tradição do ensino de leitura instrumental, que prioriza os textos da vida real do mundo do trabalho do aprendiz, a produção de material didático de qualidade, que contemple essa realidade, tem muito a ganhar com o auxílio da pesquisa baseada em corpus. Os estudos em corpora, independentemente da maior familiaridade do professor e de seus alunos com metodologias estatísticas, é capaz de levar ambos a um pensar totalmente novo sobre os textos, as escritas e o funcionamento das línguas. Do corpus vem o desafio da descoberta sobre fatos da língua, dos desafios, novos corpora. Por fim, importa repetir que o encontro entre ensino de le e lc produz uma alteração significativa para os modos de se olhar o funcionamento das línguas e para os modos de se ensinar essas línguas. A consideração em grande escala de muitos textos ao mesmo tempo mostra que o texto, quando se transforma em corpus, fica diferente. Há padrões e há especificidades que, de outro jeito, não seriam percebidos. Esperamos que, cada vez mais, os professores de le disponham-se à aventura de explorar para aprender e para ensinar e que percebam que ensinar a explorar é uma mudança imprescindível. Referências bibliográficas

augusto, e. h. O ensino instrumental é comunicativo? In: encontro de professores de línguas estrangeiras, 4., 1996, São Paulo. Anais... São Paulo: Arte e Ciência, 1996. p. 92-98.

barbara, l. et al. A survey of communication patterns in the Brazilian business context. English for Specific Purposes, v. 15, n. 1, p. 57-71, 1996.

basturkmen, h.; elder, c. The practice of lsp. In: davies, a.; elder, c. (Eds.). The handbook of applied linguistics. Oxford: Blackwell, 2004. p. 672-694.

berber sardinha, t. Linguística de corpus. Barueri: Manole, 2004. buhlmann, r.; fearns, a. Handbuch des Fachsprachenunterricht. Berlin: Langenscheidt, 1987.

celani, m. a. et al. (Eds.). The Brazilian esp project: an evaluation. São Paulo: educ, 1988. Disponível em: . Acesso em: 4 abr. 2009.

226 | Corpora no Ensino de Línguas Estrangeiras

craesmeyer, g. s. m. A coesão usada como estratégia de leitura no inglês instrumental. In: encontro de professores de línguas estrangeiras, 4., 1996, São Paulo. Anais... São Paulo: Arte e Ciência, 1996. p. 119-122.

gálová, d. (Ed.). Languages for specific purposes: searching for common solutions. Cambridge: Cambridge Scholars Publishing, 2007.

holmes, j. What do we mean by esp? São Paulo: puc-sp, 1981. Disponível em: . Acesso em: 13 jun. 2010.

hutchinson, t.; waters, a. English for specific purposes: a learner-centered approach. Cambridge: Cambridge University Press, 1987.

kleiman, a. Texto e leitor: aspectos cognitivos da leitura. 5. ed. Campinas: Pontes, 1997.

leffa, v. O conceito de leitura. In: ______. Aspectos da leitura: uma perspectiva psicolinguística. Porto Alegre: Sagra-Luzzato, 1996. p. 9-24.

leipnitz, l. Compostos nominais em língua alemã em medicina em tradução para o português. 2005. 138 f. Dissertação (Mestrado em Estudos da Linguagem) – Faculdade de Letras, Universidade Federal do Rio Grande do Sul, Porto Alegre. marcuschi, l. A. Gêneros textuais: definição e funcionalidade. In: dionisio, a. p. et al. (Orgs.). Gêneros textuais & ensino. 4. ed. Rio de Janeiro: Lucerna, 2005. p. 19-36. ______. Gêneros textuais: configuração, dinamicidade e circulação. In: karwoski, a. m. et al. (Orgs.). Gêneros textuais: reflexões e ensino. 2. ed. Rio de Janeiro: Lucerna, 2006. p. 23-36.

pearson, j. Terms in context. Amsterdã / Filadélfia: John Benjamins, 1998.

pickbrenner, m. Termos compostos em língua alemã: uma contribuição para o ensino de leitura instrumental em Direito. 2006. 266 f. Dissertação (Mestrado em Estudos da Linguagem) – Faculdade de Letras, Universidade Federal do Rio Grande do Sul, Porto Alegre. scott, m. WordSmith Tools. Versão 4.0. Oxford: Oxford University Press, 2004.

Corpora no Ensino de Línguas Estrangeiras | 227

sinclair, j. Corpus, concordance, collocation. Oxford: Oxford University Press, 1991.

stubbs, m. Collocations and semantic profiles: on the cause of the trouble with quantitative studies. Functions of language, v. 1, n. 2, p. 23-55, 1995. Disponível em: . Acesso em: 12 jun. 2010. ______. Words in use: introductory examples. In: ______. Words and phrases: corpus studies of lexical semantics. Oxford: Blackwell, 2001. p. 3-23.

swales, j. m. Genre analysis: English in academic and research settings. Cambridge: Cambridge University Press, 1990.

zilio, l. Contraste alemão-português de fraseologias especializadas em textos de cardiologia. In: encontro de linguística de corpus, 6., 2007, São Paulo. Anais... São Paulo: usp, 2007. Disponível em: . Acesso em: 12 jun. 2010.

228 | Corpora no Ensino de Línguas Estrangeiras

APLICAÇÃO DO CONCEITO DE TRANSCATEGORIALIDADE AO ENSINO DE FRANCÊS COMO LÍNGUA ESTRANGEIRA:

o caso da marca ‘mas’ Adriana Zavaglia (usp) Marion Celli (usp)

abstract: This chapter aims at presenting a new proposal for teaching grammatical items in the context of French as a foreign language (ffl) in Brazil. Given the lack of definition and contextualization in bilingual dictionaries and ffl methodologies, this study argues that each and every grammatical item presents a different pattern, which varies according to its context of use. The research, based on a parallel corpus, focused on the relationships between the markers ‘mas’ (in Portuguese) and ‘mais’ (in French). The results showed a relevant number of equivalents when compared to what is offered by bilingual dictionaries for ‘mas’. As a consequence, the linguistic investigation revealed a strong relationship between the semantic and translation variations of ‘mas’ into French, which is usually not taken into account by ffl methodologies. For this reason, this study proposes a way of showing ffl teachers and students how the complex semantic chain of ‘mas’ reflects upon a wide range of equivalents in French. Introdução O ensino de gramática em sala de aula de francês como língua estrangeira (doravante fle) ainda parece estar pautado em concepções normativas ou tradicionais. Como bem observam Cuq e Gruca (2005, p. 384), na França, mesmo se o discurso é geralmente favorável a uma metodologia de tipo comunicativo, como a apresentada pelo Quadro Europeu Comum de Referência (doravante qecr), a realidade da aula e dos manuais mostra práticas com muito mais nuanças. Essas diferenças podem ser observadas em diversos níveis como, por exemplo, na distância entre o dizer teórico (raciocínio intuitivo, cálculo da gramática implícita e construção do saber) e o fazer empírico (inferência dedutiva, observação da gramática explícita e saber construído) nas relações entre professores e professores em formação, manuais e professores, manuais e alunos, e professores e alunos. Como o aprendizado da gramática está ligado ao aprendizado do léxico, uma vez que as relações gramaticais são representadas por palavras, é prática

Corpora no Ensino de Línguas Estrangeiras | 229

comum que sejam utilizados como apoio, além das gramáticas especiais dirigidas a aprendizes, dicionários bilíngues, que tentam fornecer, ao consulente, o suporte lexical para a compreensão dessas relações. O uso constante dessas obras acaba por formar no aprendiz a ilusão de que existem equivalências interlinguísticas semânticas e categoriais que ligam automática e biunivocamente as palavras de duas línguas diferentes. O artigo indefinido masculino singular do português brasileiro ‘um’, por exemplo, tem como tradução para o francês em dicionários bilíngues o artigo indefinido masculino singular ‘un’.1 Ocorre que essas duas marcas nem sempre são traduzíveis uma pela outra, tanto por questões mais simples, como as morfológicas (“Eu tenho um carro”, artigo masculino / “J’ai une voiture”, artigo feminino), quanto por questões mais complexas, como as semânticas (veja abaixo os exemplos (1) e (1a)). A realidade enunciativa que se observa fora do contexto das gramáticas e dicionários dos aprendizes, portanto, é outra. Desse modo, devido ao caráter transcategorial das palavras, um verbo em uma língua não terá como correspondente noutra língua necessariamente um verbo. Dependendo de diversos fatores (semânticos, contextuais, estruturais, estilísticos etc.), ‘chorar’, por exemplo, poderá ser expresso em francês, dentre outras possibilidades, por ‘pleurer’ ou por ‘larmoyant(e)’. Uma preposição, por sua vez, poderá estabelecer um paralelismo em outra língua por meio de uma expressão nominal ou verbal (‘vers’ – ‘na direção de’, ‘conduzido a’). A tradução é um ótimo observatório para esse gênero de relações interlinguísticas, como indicado a seguir.2 (1) Olhe aqui seu Ramiro: eu quero é que o senhor me empreste um dinheiro. Uns dois contos de réis… Feito? (1a) Voici ce qui m’amène, m’sieu Ramiro: ce que je veux, c’est que vous me prêtiez de l’argent. Disons deux mille… Ça marche?

1

Algumas dessas publicações correspondem às obras de Azevedo (1978), Burtin-Vinholes (1972, 2003), Corrêa (1973), Florenzano (19--), Pereira e Signer (1993), Rousé e Cardoso (1986) e Valdez (2000). 2

Enunciados extraídos do corpus paralelo português-francês (cpf – Projeto dire/usp) de cerca de um milhão de palavras, organizado e coordenado por Adriana Zavaglia (dlm/ fflch/usp). O cpf contempla as obras Os Sertões, de Euclides da Cunha, e sua tradução Hautes Terres: la Guerre de Canudos, de Jorge Coli e Antoine Seel; Macunaíma, de Mário de Andrade, e Macounaïma, traduzido por Jacques Thiériot; Sagarana, de Guimarães Rosa, e sua tradução homônima para o francês de Jacques Thiériot; e Tereza Batista cansada de guerra, de Jorge Amado, e sua versão em francês Tereza Batista, a cargo de Alice Raillard.

230 | Corpora no Ensino de Línguas Estrangeiras

No exemplo acima, ‘um’ e ‘uns’ não são traduzidos por ‘un’ e ‘des’, como indicam os dicionários bilíngues e as gramáticas para aprendizes. Esses artigos indefinidos masculinos singular e plural, respectivamente, são traduzidos pelo partitivo em francês, ‘de l’’, e por ‘disons’, verbo no modo imperativo na primeira pessoa do plural. A tradução automática e biunívoca de ‘um’ por ‘un’ e de ‘uns’ por ‘des’ nesse trecho resultaria em uma incoerência em francês. Outros casos semelhantes podem ser observados. Nota-se, por exemplo, que em determinados campos semânticos marcas gramaticais funcionam como unidades centrais, em torno das quais circulam outras unidades, sinônimas ou quasi-sinônimas, como o ‘quando’ circunstancial, o ‘se’ condicional e o ‘mas’ adversativo do português. Talvez por sua versatilidade semântica, essas unidades centrais tendem a ser mais utilizadas que as outras no discurso, o que pode ser observado, em valores de frequência, em diferentes corpora. Analisando tais valores no corpus paralelo português-francês (doravante cpf), de cunho literário (cf. Nota 2), e no Lácio-Ref, de abrangência geral, notou-se uma discrepância entre as frequências dos pares ‘quando’ e ‘tão logo’, ‘se’ e ‘caso’, e ‘mas’ e ‘entretanto’ dentro de cada corpus.3 Uma tendência de uso preferencial de marcas gramaticais centrais verifica-se, também, como uma transposição, em produções escritas e – sobretudo – orais de aprendizes brasileiros de francês,4 cujo discurso neutraliza-se em detrimento do emprego de outras unidades condicionadas a diferentes registros linguístico-textuais. Ocorre que cada uma dessas marcas detém uma polissemia particular que não é passível de ser transposta, tal como vimos em (1) e (1a), para o francês. Se ‘quando’, ‘se’ e ‘mas’ funcionam bem em diversos contextos em português, nada garante que ‘quand’, ‘si’ e ‘mais’ exercerão as mesmas funções e papéis em francês. Pelo contrário, a redução de possibilidades tradutórias pode gerar uma série de mal-entendidos, principalmente relacionados à articulação lógica dos enunciados. Desse modo, se, no discurso, as palavras interpretam semântica e funcionalmente papéis distintos, a dimensão discursiva deve ser levada em consideração

3

A unidade ‘quando’ apresentou 955 ocorrências no cpf e 14.536 no Lácio-Ref ao passo que ‘tão logo’ não apareceu nenhuma vez no primeiro e apenas 20 no segundo. Do mesmo modo, constataram-se 7.660 (cpf) e 61.972 (Lácio-Ref) ocorrências para ‘se’ contra 153 (cpf) e 5.535 (Lácio-Ref) para ‘caso’. Um resultado similar foi obtido para ‘mas’ e ‘entretanto’, em que foram obtidas 1.911 (cpf) e 27.333 (Lácio-Ref) ocorrências para ‘mas’, e apenas 87 (CPF) e 2.326 (Lácio-Ref) para ‘entretanto’. 4

Produções de aprendizes de francês da fflch-usp.

Corpora no Ensino de Línguas Estrangeiras | 231

também no ensino de línguas estrangeiras, cujos agentes (professores ou manuais, dicionários e gramáticas), muitas vezes com noções equivocadas de equivalência interlinguística, não explicam esse tipo de relação. Nesse sentido, a noção de transcategorialidade, pela qual léxico e gramática são integrados, parece ser fundamental no âmbito do ensino e aprendizagem de línguas, por conta notadamente de seus aspectos epilinguísticos (culioli, 1999a), já que estes são de natureza cognitiva. Assim, considerando que as palavras gramaticais, como articuladoras lógicas do discurso,5 são peças-chaves para a compreensão e a expressão de uma língua estrangeira, trataremos neste artigo da problemática que envolve a transposição direta do uso prototípico de marcas gramaticais da língua materna para a estrangeira, em especial da relação entre ‘mas’ em português e ‘mais’ em francês.6 Levando em consideração, de um lado, o conceito de transcategorialidade culioliano e, de outro, os aportes da Linguística de Corpus, este capítulo propõe-se a discutir a possibilidade de se desenvolver em sala de aula de fle um trabalho diferencial, pautado na detecção de problemas advindos da visão simplista do aprendiz de francês de que o português brasileiro, sua língua materna, tem uma relação transparente, dicotômica e biunívoca com a língua estrangeira que aprende. Para desenvolver a discussão pretendida, apresentaremos a seguir uma breve revisão das diversas metodologias de ensino do fle, com destaque para a proposta de ensino das palavras gramaticais apresentada pelo qecr, observações sobre o conceito de transcategorialidade e uma discussão a propósito do trabalho diferencial acima mencionado. Breve histórico das metodologias de ensino de francês como língua estrangeira (fle) Os objetivos perseguidos ao longo dos séculos de história da didática do ensino de línguas estrangeiras, em particular do francês, objeto de atenção deste texto, variaram muito por conta do avanço tecnológico e

5

Por exemplo, nos enunciados “Ele foi ao cinema, mas não me ligou”, entende-se que ir ao cinema independe de ligar (esperado) ou de não ligar (realizado), já em “Ele foi ao cinema porque não me ligou”, a relação entre ir ao cinema e não ligar é obrigatória. 6

Os dados apresentados neste artigo serão extraídos dos resultados da pesquisa de Marion Celli (2007-2008): “Estudo da variação semântica de mas, porém e todavia e a observação de suas traduções em francês para uma aplicação lexicográfica diferencial” (fapesp – proc.07/55009-1).

232 | Corpora no Ensino de Línguas Estrangeiras

do desenvolvimento da linguística e de outras áreas afins em cada uma das épocas. Como se pode perceber nas obras de referência sobre as metodologias de línguas estrangeiras (cf. puren, 1988; cuq e gruca, 2005), o estudo do latim clássico pela análise da gramática e da retórica em obras literárias como as de Ovídio, Virgílio ou Cícero foi o modelo para o ensino do francês entre os séculos xviii e xix, como língua materna e estrangeira, quando o objetivo era, em comunhão com o entorno sócio-histórico, apenas cultural. Pela metodologia tradicional, também chamada clássica ou gramatical, a língua era concebida como um conjunto de regras e de exceções, para cujo aprendizado dava-se destaque ao estilo dos autores dos textos, pela imitação, com o auxílio da tradução e da memorização. É nesse período que se expande no ensino das línguas estrangeiras, segundo Puren (1988) e Seara (2001), o uso da metalinguagem gramatical, a qual persiste, embora de forma diversa, até os dias de hoje. No século xix, a tradução foi introduzida como ponto de partida para o estudo teórico da gramática, que não era progressiva, ou seja, os pontos gramaticais a serem tratados pelo professor não obedeciam a nenhum tipo de hierarquização pré-estabelecida. As diretrizes da educação nacional francesa de 18 de setembro de 1840, uma espécie de parâmetro curricular francês da época, como os pcns brasileiros atuais, explicam a metodologia tradicional e a sua aplicação ao ensino de línguas estrangeiras na França (puren, 1988, p. 50). Na segunda metade do século xix, porém, alguns estudiosos como Gouin (1880) perceberam que a observação do aprendizado da língua materna pela criança poderia ser de grande serventia para o ensino das línguas estrangeiras O método das séries7 (gouin, 1880), também chamado de método natural (méthode naturelle), surgiu, segundo Seara (2001), de uma observação paralela: de um lado, o

7

Segundo Seara (2001), “uma ‘série linguística’ seria para ele [Gouin] uma sequência encadeada de narrações, descrições, temas que reproduziriam em ordem cronológica todos os momentos e fenômenos conhecidos do tema em questão. Foi assim que ele traçou uma ‘série’ de frases que representavam em ordem cronológica todas as ações necessárias para, por exemplo, ir tirar água do poço. Ele estabeleceu uma progressão de temas da vida cotidiana por complexidade”. No original: “Une ‘série linguistique’ étant pour lui une suite enchaînée de récits, de descriptions, de thèmes qui reproduisent dans l’ordre chronologique tous les moments et phénomènes connus de ce thème. C’est ainsi qu’il dresse une ‘série’ de phrases qui représentent dans l’ordre chronologique toutes les actions nécessaires pour, par exemple, aller puiser de l’eau. Il établit une progression de thèmes de la vie quotidienne par difficultés.” Para mais detalhes sobre essa metodologia, ver Gouin (1880) e Puren (1988).

Corpora no Ensino de Línguas Estrangeiras | 233

aprendizado do próprio Gouin do alemão como língua estrangeira pela metodologia tradicional baseada na gramática e na tradução e, de outro, a aquisição do francês como língua materna de uma criança de sua família em ambiente natural. Desse modo, o autor percebeu a necessidade de se considerar, do ponto de vista pedagógico, um conceito mais bem definido de língua e do processo de aprendizagem de uma língua. Foi assim que, ainda segundo Seara (2001), o ensino da língua oral passou a ser tão importante no contexto do ensino de línguas estrangeiras quanto o da língua escrita; além disso, foi a partir das ideias de Gouin (1880) que a didática de línguas estrangeiras começa a basear-se, na França, em teorias de aprendizagem de diversos campos do conhecimento, como a Psicologia, a Sociologia e a Linguística. Em 1902, entretanto, as diretrizes do país impõem aos professores de línguas estrangeiras o abandono da metodologia tradicional e a adoção da metodologia direta. Mescla da tradicional e da natural, segundo Puren (1988), Seara (2001) e Cuq e Gruca (2005), a metodologia direta surgiu como resposta aos desejos nacionais da França de desenvolvimento e de interação com outros países. Valorizando a língua oral sobre bases fortemente estruturalistas, a continuidade histórica da metodologia direta foi mantida na França pela metodologia ativa,8 que reintroduziu a língua materna – no caso, a francesa – na explicação das regras gramaticais e do vocabulário no ensino de línguas estrangeiras. A aprendizagem de uma língua era, contrariamente às práticas do século anterior, indutiva, ou seja, o aluno é levado, por um raciocínio particular, a construir generalizações a propósito das regras da língua que aprende. Depois da Segunda Grande Guerra, com o avanço do inglês no cenário mundial,9 o Ministério Francês da Educação faz da difusão do francês o seu principal objetivo. Para tanto, nos anos 1950, pesquisadores desenvolveram o que se denominou Francês Fundamental, proposta na qual a progressão do ensino da gramática e do vocabulário é elaborada pela noção de frequência

8

Segundo Seara (2001), a metodologia ativa era também chamada, entre outros, de metodologia eclética ou mista, uma vez que fundia elementos da metodologia tradicional e da direta, tentando equilibrar, entre língua estrangeira e língua materna, os objetivos formadores, culturais e práticos da época, incorporando a eles as inovações técnicas, vis-à-vis o ensino e a aprendizagem de uma língua estrangeira na França. 9

Para mais detalhes sobre essa questão, ver Collès (1988) e Richards e Rodgers (1992).

234 | Corpora no Ensino de Línguas Estrangeiras

de uso da língua falada.10 Em meados dessa década, é criado o método sgav (structuro-global audio-visuelle) ou audiovisual, que predominou na França nas décadas de 1960 e 1970. Com base na teoria da Gestalt,11 o aprendizado era visto como algo que se dava pela visão (imagens) e pelo ouvido (som), e o ensino da gramática, como algo intuitivo. Embora positiva sob inúmeros aspectos, a metodologia audiovisual apresentava muitas lacunas, principalmente situacionais. Seus expedientes ainda não eram suficientes para que o aluno fosse capaz de expressar-se adequadamente em diferentes situações na língua que aprendia. A partir da teoria austiniana,12 por volta dos anos 1970, os atos de fala passam a conduzir, pela pragmática, o ensino e o aprendizado do francês como língua estrangeira. Essencialmente funcionalista, a abordagem comunicativa pressupõe a adaptação da metodologia à competência comunicativa do aprendiz. Mesmo que o ensino da gramática seja implícito, ele se pauta em procedimentos metalinguísticos classificatórios ainda ligados às categorias tradicionais da gramática, como as morfológicas e sintáticas. Preocupada com a aprendizagem das línguas e com a elaboração de políticas linguísticas para uma Europa multilíngue e multicultural, a Divisão de Línguas Vivas do Conselho da Europa iniciou, em 1995, a elaboração do Quadro Europeu Comum de Referência (qecr) como base para o ensino de línguas estrangeiras no continente europeu, um dos balizadores para os professores de fle no Brasil. Dirigido tanto a formadores quanto a aprendizes, o qecr descreve, do ponto de vista da comunidade europeia, uma série de competências a serem adquiridas para aprender uma língua estrangeira, mais especificamente as

10

Segundo Seara (2001), o francês fundamental foi “concebido como uma gradação gramatical e lexical elaborada a partir da análise da língua falada” (“Conçu comme une gradation grammaticale et lexicale élaborée à partir de l’analyse de la langue parlée”), tendo sido elaborado por meio de listas de palavras por uma equipe da qual faziam parte o linguista Gougenheim e o pedagogo Rivenc. 11

Segundo essa teoria da Psicologia, também chamada de Teoria da Forma, o todo, do ponto de vista de nosso sistema sensório-perceptivo, é muito mais do que a simples soma de suas partes. Para mais detalhes sobre a Gestalt, ver Koffka (1975). 12 A teoria dos atos de fala de Austin (1962) pressupõe que a enunciação produz, pelos atos locutórios, enunciados segundo as regras de uma dada língua e, ao mesmo tempo, pelos atos ilocutórios, enunciados segundo as intenções pragmáticas do enunciador.

Corpora no Ensino de Línguas Estrangeiras | 235

línguas faladas atualmente na Europa. Para tanto, estabelece níveis comuns de referência que descrevem os graus de proficiência do aprendiz na língua estrangeira que estuda: os utilizadores elementar (a), independente (b) e proficiente (c). Em (a), há os níveis de iniciação (a1), em que o aprendiz é capaz de comunicar-se de maneira simples e direta, e elementar (a2), em que é hábil o suficiente para articular ideias que descrevem experiências e ambições. Em (B), encontram-se os níveis limiar (b1) e de vantagem (b2), em que o aprendiz é capaz, respectivamente, de expor, de maneira clara, diferentes pontos de vista a falantes nativos e de construir uma argumentação coerente de acordo com uma dada situação comunicativa. Em (c), há os de autonomia (c1) e de maestria (c2), esse relacionado ao desenvolvimento da autonomia linguística adquirida em c1, atingindo o auge da fluência comunicativa e da adequação aos contextos situacionais de produção. Assim, tendo como referência tais níveis de aprendizagem, o qecr descreve as competências linguísticas que devem ser adquiridas ou desenvolvidas de acordo com o estágio (a1-c2) em que o aprendiz se encontra. Trata-se das competências (a) lexical, relacionada à capacidade do estudante de utilizar o vocabulário da língua que aprende e compreender elementos lexicais e gramaticais; (b) gramatical, que consiste no entendimento da gramática daquela língua; (c) semântica, referente ao conhecimento e controle da organização dos significados lexicais e gramaticais; (d) fonológica, em que são trabalhados aspectos de pronúncia e entoação da língua estrangeira; (e) ortográfica, relacionada à ortografia das palavras, assim como a questões de pontuação e convenções tipográficas; e (f) ortoépica, referente à associação das duas competências anteriores que permitem, ao aprendiz, pronunciar corretamente uma palavra mesmo desconhecendo seu significado. Apesar de o qecr apresentar uma competência denominada gramatical, isolada das demais, inclui, na competência lexical, considerações referentes não apenas aos elementos lexicais, com as expressões fixas e as palavras isoladas, como também aos gramaticais, com as classes fechadas. Além disso, na competência semântica, o qecr ainda remete ao que chama de semântica gramatical, a qual trata do significado de elementos, categorias, estruturas e processos gramaticais. Todavia, apesar de o qecr remeter a tais elementos gramaticais também nos âmbitos lexical e semântico, ele não discute o papel desses elementos na composição do vocabulário e na construção dos sentidos. Como consequência, isso implica a ideia geral apresentada por

236 | Corpora no Ensino de Línguas Estrangeiras

grande parte das gramáticas e dicionários monolíngues e bilíngues tradicionais de que as marcas gramaticais, diferentemente dos itens lexicais, não possuem particularidades semânticas que variam de acordo com seu contexto enunciativo e posicionamento sintático. Desse modo, ainda em relação ao qecr, podemos notar que, na descrição da competência gramatical, evidenciam-se as estruturas gramaticais e as relações sintáticas em detrimento das especificidades de uso de cada um dos elementos, os quais são apresentados apenas como um suporte relacional para os itens lexicais, sem descrição de seu comportamento enunciativo. Assim, apesar de a semântica gramatical ser citada como base para o tratamento do significado de elementos, categorias, estruturas e processos gramaticais, não há detalhes que o explicitem empírica e teoricamente. Vale notar, portanto, a existência, no qecr, de um posicionamento ambíguo em relação à visão tradicionalista que separa léxico de gramática, uma vez que, ao mesmo tempo em que os apresenta em competências distintas, inclui, nas competências lexical e semântica, breves considerações sobre os elementos gramaticais. O que desejamos ressaltar, porém, é a necessidade de se explorar o diálogo entre tais âmbitos, fato introduzido mas não explorado pelo qecr. Na próxima seção, procuraremos explicitar, a partir dos conceitos de Culioli (1990, 1999a, 1999b), a importância da noção de transcategorialidade para o ensino da gramática, integrada ao léxico, de língua estrangeira, mais especificamente o francês. Transcategorialidade e ensino O

qecr apresenta, ao ser consultado de forma sistemática, certo

desequilíbrio entre os seus objetivos e o seu discurso. Embora as palavras uso e autêntico apareçam repetidas vezes no decorrer de todo o texto do qecr, inclusive em contextos digitais, causa estranhamento a palavra corpus aparecer apenas uma vez em suas versões portuguesa ou inglesa e duas vezes na versão francesa13, uma vez que, em 2001, ano de publicação do qecr, já havia diversos

13

qecr em francês. Disponível em: . Acesso em: 5 jul. 2008. qecr em inglês. Disponível em: . Acesso em: 5 jul. 2008.

Corpora no Ensino de Línguas Estrangeiras | 237

trabalhos, principalmente no Reino Unido, sobre a aplicação da Linguística de Corpus ao ensino de línguas.14 No que diz respeito às abordagens de ensino de língua estrangeira, por exemplo, o qecr (conselho da europa, 2001, p. 200-201) enumera maneiras a partir das quais o aprendiz poderá aprender a outra língua, quase todas baseadas em seu uso autêntico. Nota-se, entretanto, que as referências bibliográficas enumeradas não trazem nenhuma remissão à Linguística de Corpus ou a abordagens de ensino baseadas em corpora. Outras questões ainda mais problemáticas podem ser levantadas. Veja-se, a título de exemplificação, o seguinte trecho (conselho da

europa, 2001, p. 186 – grifos nossos): Por exemplo, muito do que é incluído no “conhecimento do mundo” pode ser entendido como conhecimento prévio, pertencente já à competência geral do aprendente como resultado da sua experiência de vida anterior ou da sua formação em língua materna. O problema pode, então, ser simplesmente encontrar o equivalente correcto em l2 para uma categoria nocional em l1. Deve, pois, decidir-se o que é conhecimento novo a ser aprendido e o que deve ser dado como adquirido.

O recorrente aparecimento de vocábulos como “equivalente correcto”, de noções ilusórias sobre a relação entre duas línguas como a sugerida por “simplesmente” e de ambiguidades com relação ao sujeito que age no processo do ensino e aprendizagem como a de “deve [...] decidir-se” reflete uma visão ainda normativa acerca do ensino de línguas estrangeiras. Ressalte-se, ademais, que o trecho acima sugere que as representações físico-culturais construídas no contexto da língua materna receberão simplesmente denominações diferentes em língua estrangeira, o que não é, de forma alguma, o caso. Segundo Culioli (1990, 1999a, 1999b), os universos de representação, referenciação e regulação aos quais remete cada língua são diferentes. O linguista e anglicista francês propõe que os textos são uma cadeia de arranjos interdependentes e ao mesmo tempo variável cuja lógica particular rege a sua construção, tanto no processo de produção quanto no de interpretação intersubjetiva, não sendo nem fixos nem estanques, nem dicotômicos

14

Para maiores detalhes sobre os estudos acerca da aplicação de corpora ao ensino de línguas estrangeiras, ver Berber Sardinha (2004, p. 251-296).

238 | Corpora no Ensino de Línguas Estrangeiras

nem biunívocos. Como muitos outros estudiosos que contribuíram para o desenvolvimento dos estudos da linguagem (benveniste, 1966, 1974, com seu aparato formal da enunciação; piaget, 1983, com sua psicologia construtivista; vygotsky, 1984, com o interacionismo), a abordagem enunciativa culioliana subverte a organização acomodada dos sumários e conteúdos das gramáticas e dicionários tradicionais. Isso se dá pelo fato de ser justamente o conhecimento humano internalizado da gramática e do léxico, a fonte da textualização das relações lógico-nocionais organizadas segundo os usos de uma língua. O conceito de transcategorialidade questiona, pelo uso real e autêntico das línguas, as fronteiras estabelecidas pela tradição gramatical e linguística. As categorias das línguas não são apenas objetos construídos, elas implicam uma dinâmica processual e cognitiva que foge aos sistemas classificatórios (culioli, 1999a, p. 164). Essa dinamicidade categorial conduz a análise semântica das palavras para além do que é puramente linguístico e etiquetado, ou seja, as palavras são vistas como marcas que representam a atividade epilinguística. De natureza cognitiva, essa atividade é o processo revelador das operações de linguagem que sustenta os diferentes níveis de variabilidade linguística, permitindo as reformulações ou glosas que se operam nas e entre as línguas. Segundo a perspectiva construtivista de Culioli (1990, 1999a, 1999b), parece-nos que os processos cognitivos de produção e interpretação de formas devem ser levados em conta nas práticas didático-pedagógicas do ensino de línguas materna ou estrangeiras. Mesmo que o ensino de língua materna15 seja essencialmente diferente do ensino de línguas estrangeiras, e em especial do fle,16 ambas as práticas podem explicitar em seus procedimentos didático-pedagógicos a atividade epilinguística. Considerar essa atividade significa, para o professor, transcender conteúdos metalinguísticos tradicionais e classificatórios; e para o aluno, colocar-se frente ao seu aprendizado de modo

15

Para questões relacionadas ao ensino da gramática no contexto da língua materna, no caso o português do Brasil, ver Franchi (2006), Perini (2005a, 2005b), Neves (1990, 2004) e Possenti (1996). 16

Para um maior aprofundamento sobre o ensino de fle, ver Cuq e Gruca (2005), Germain e Seguin (1998), Chartrand (1995) e Puren (2001).

Corpora no Ensino de Línguas Estrangeiras | 239

que possa construir relações diferenciais entre a sua língua materna e a língua estrangeira que aprende. Para levar a cabo essa empreitada, o professor pode lançar mão dos produtos que a informática coloca à sua disposição. Desse modo, ele poderá conjugar a manipulação de grandes volumes de texto à observação quantitativa e qualitativa do uso real de uma dada língua pleiteada pelas teorias linguísticas mais recentes. Nisso inclui-se a exploração de corpora, a partir da qual o professor poderá aprimorar suas práticas pedagógicas e, consequentemente, o aluno poderá exercitar suas capacidades gerais em língua estrangeira, ambos investigando diversos aspectos linguístico-culturais envolvidos nesse processo, como veremos adiante com mais detalhes. Valor prototípico das palavras gramaticais As palavras tradicionalmente conhecidas como gramaticais variam semanticamente tanto quanto as lexicais, apresentando valores distintos e relações paradigmáticas específicas. Se considerarmos a marca ‘mas’ em português, ela é descrita semanticamente por grande parte das gramáticas17 apenas pelos valores de contraste e oposição. Em nossa pesquisa, no entanto, essa marca remete a uma ampla rede de significações que depende de seu contexto enunciativo e de valores semântico-distribucionais específicos, tal como a polissemia que as palavras lexicais apresentam. Assim, é desejável que, ao aprender uma língua estrangeira, o estudante seja capaz de diferenciar, passiva e ativamente, os diversos valores das palavras gramaticais e seus diferentes usos. Apesar de possuir diferentes significações, algumas dessas palavras são utilizadas em todo e qualquer contexto. No conjunto das palavras gramaticais que marcam a adversidade, ‘mas’ e ‘mais’ interpretam esse papel em português e em francês, respectivamente. Palavras tradicionalmente conhecidas como lexicais também podem assumir esse valor semântico de exemplaridade numa classe. A palavra do português ‘sapato’, por exemplo, representa de maneira prototípica os objetos que calçam os pés, podendo ser

17

Algumas das gramáticas que adotam essa linha são Silva (1906), Bueno (1958), Luft (1987), Sacconi (1999), Perini (1998), Bechara (2004), Cunha e Cintra (2001) e Neves (2000).

240 | Corpora no Ensino de Línguas Estrangeiras

eles chinelos, sandálias, tênis, sapatilhas e, dentre outros, os próprios sapatos. Por insuficiência vocabular, aprendizes de língua estrangeira tendem a fazer uso dessas palavras prototípicas muito frequentemente. É desejável, entretanto, que desenvolvam sua competência lexical de modo que enriqueçam pouco a pouco sua performance. Partindo da hipótese de que ‘mais’ é utilizado pelo aprendiz brasileiro de francês prototipicamente em suas produções orais ou escritas em detrimento de ‘cependant’, ‘néanmoins’, ‘toutefois’, entre outros, influenciado pelo uso de ‘mas’ de sua língua materna, pretendemos abordar a questão do valor prototípico, da variação semântica e da dizibilidade interlinguística pela teoria de Culioli (1990, 1999a, 1999b) e pela Linguística de Corpus (berber

sardinha, 2004). A prototipicidade de ‘mas’ e ‘mais’ pôde ser observada por meio da comparação entre dois corpora on-line. Para o português, utilizamos como base um subcorpus de supergênero literário, gênero prosa e subgênero romance do Lácio-Ref, totalizando 2.088.343 itens. Para o francês, utilizamos o corpus eletrônico Frantext,18 composto por 500 obras literárias francesas, também romances, datadas do século xvi ao xx que somam 7.335.882 itens. Em ambas as pesquisas, utilizamos os concordanciadores disponibilizados juntamente com os corpora para o levantamento das ocorrências das palavras de busca.19 A Tabela 1 resume o resultado quantitativo da pesquisa – a primeira coluna de cada língua apresenta, respectivamente, as formas conjuntivas pertencentes às famílias de ‘mas’ e ‘mais’ indicadas pelas gramáticas tradicionais; a segunda mostra N, o número total de ocorrências encontrado em cada corpus; e a terceira, a frequência relativa das formas.

18 19

Disponível em: . Acesso em: 25 jan. 2009.

No caso do Lácio-Ref, dada a impossibilidade de o concordanciador processar um (sub)corpus com mais de 1 milhão de palavras, tivemos que selecionar os romances gradativamente para realizar a concordância. Assim sendo, fizemos algumas pesquisas por meio da opção ‘pesquisa personalizada’, pela qual conseguimos selecionar o corpus desejado em instâncias que não ultrapassassem a cota de processamento da ferramenta.

Corpora no Ensino de Línguas Estrangeiras | 241 Tabela 1: A prototipicidade de ‘mas’ e ‘mais’: distribuição quantitativa das marcas conjuntivas em pb e fr

Português

Francês

Marcas

n

Frequência relativa

Marcas

n

Frequência relativa

Mas

10.997

0,52659%

Mais

29.312

0,39957%

Porém

1.618

0,07748%

Cependant

3.672

0,05005%

Entretanto

702

0,03361%

Pourtant

1.905

0,02597%

Todavia

257

0,01230%

Toutefois

399

0,00544%

Contudo

247

0,01183%

Néanmoins

356

0,00485%

Proporcionalmente, os dados acima mostram uma considerável frequência de uso de ‘mas’ (português) e ‘mais’ (francês) em relação às demais unidades classificadas pela gramática tradicional como adversativas em português e em francês. Não é de todo estranho, portanto, que sua ocorrência como forma prototípica consolide-se também na realidade enunciativa do estudante brasileiro de francês. É desejável, no entanto, que esse mesmo estudante não seja capaz apenas de utilizar coerentemente as marcas ‘porém’, ‘entretanto’, ‘contudo’ e ‘todavia’ em português, mas que saiba, ao mesmo tempo, estabelecer entre as marcas uma diferenciação mínima, ligada, sobretudo, aos registros de língua, aos gêneros textuais e aos seus posicionamentos para que, em francês, também consiga empregar as outras marcas da família de ‘mais’. Variação semântica e dizibilidade Apesar de ‘cependant’, ‘pourtant’, ‘toutefois’ e ‘néanmoins’ (cf. Tabela 1) serem tomados como membros da família que expressa a ideia adversativa, notamos, a partir do cpf, outras 30 formas que traduziam ‘mas’ em português. Assim, para conduzir seu aluno a utilizar em suas produções textuais a variedade de formas que marcam a adversidade em francês,20 o professor poderá elaborar exercícios baseados nos expedientes da teoria enunciativa

20 Como veremos posteriormente, as marcas da adversidade, tanto em português como em francês, não se resumem ao paradigma apresentado pelas gramaticais, ilustrado aqui na Tabela 1.

242 | Corpora no Ensino de Línguas Estrangeiras

culioliana e da Linguística de Corpus. O primeiro passo é mostrar ao aprendiz que ‘mas’ não é equivalente a ‘mais’, uma vez que a palavra equivalente remete a uma relação de igualdade que exclui a variação semântico-tradutológica de ‘mas’ para o francês. É preciso, por outro lado, mostrar que ‘mas’ varia semanticamente e tem uma dizibilidade diversificada nessa língua estrangeira, caracterizada por sua dinamicidade transcategorial (cf. Seção 1). Essa ampla rede de significações implica dois conceitos fundamentais de Culioli (1990): os de noção e forma esquemática. Culioli (1990) define noção como representação mental construída a partir da interação entre as pessoas e as propriedades que elas extraem do mundo físico-cultural que as rodeia. Essa representação acerca de uma propriedade físico-cultural específica será quantitativa e qualitativamente construída como um predicado, chamado de p, que se organiza de forma singular constituindo-se num polo de referência. Cada uma das palavras de uma língua remete a um ou mais predicados, os quais englobam toda a gama de valores que uma palavra pode assumir enunciativamente em organizações textuais específicas. Porém, como o valor de uma palavra só é determinado numa dada situação enunciativa, na qual se estabiliza, ele só se atualizará num dado cotexto e contexto. Ademais, Culioli (1990) afirma ainda que o sujeito tipifica as noções, em que apenas uma de suas propriedades é tomada como polo de referência. A partir de p, então, constrói-se uma ramificação de propriedades que se organiza de forma a estabelecer um domínio nocional. Dessa forma, o domínio nocional de /mas/, por exemplo, é o conjunto das propriedades de /mas/, representadas formalmente por pi, pj, ... pn e textualmente pelas diferentes ocorrências de ‘mas’. Assim, exemplificam essas relações alguns enunciados retirados aleatoriamente de Macunaíma, uma das obras que compõe nosso corpus: “Mas não tinha ninguém por ali, não chorou não”, “Mas a joia da coleção era uma frase indiana que nem se fala”, “Esta escapuliu fácil mas o herói pôde pegar o filhinho dela que nem não andava quase...”, “O gigante estava mas era querendo brincar com a francesa” e “Mas nem assim mesmo a francesa saiu”. Tendo em vista o conceito de noção, podemos fazer referência ao conceito de forma esquemática, como

Corpora no Ensino de Línguas Estrangeiras | 243 uma representação formal que busca relacionar a variação semântica dos marcadores operacionais com suas propriedades distribucionais no enunciado de forma a encontrar nessa relação regularidades. Em outras palavras, trata-se de buscar pela observação a organização interna de determinada lexia que permite seus diversos usos externos. (celli e zavaglia, 2008, p. 6-7)

Assim, dependendo de sua posição no enunciado e de seu cotexto, ‘mas’ varia, funcional e semanticamente, de diferentes maneiras. Apesar disso, é possível construir uma esquematização que dê conta de definir a forma pela qual tal unidade funciona em qualquer cotexto ou contexto. Foi a partir desses conceitos culiolianos que nossa busca pela variação semântica de ‘mas’ se baseou. Tal empreitada, no entanto, só foi possível graças à ferramenta Concord do programa WordSmith Tools21 (scott, 1996), pela qual pudemos realizar a análise enunciativa de todas as 1.911 ocorrências de ‘mas’ encontradas nos dados em português de nosso corpus (cpf). Vale ressaltar que, nesta fase da pesquisa, lidamos apenas com os textos em português para observar o comportamento enunciativo de ‘mas’. Além disso, vale também observar que a escolha de um corpus literário baseou-se tanto na disponibilidade do material traduzido na direção escolhida, do português para o francês, quanto na representatividade cultural e pragmática dos textos (como, por exemplo, o contraste entre o modo de dizer dos narradores e das personagens). Ao observarmos os dados, percebemos que, ao mesmo tempo que ‘mas’ apresentava diversas especificidades comportamentais, a marca demonstrou uma regularidade funcional em todas as ocorrências. Esse padrão poderia ser definido, a partir dos conceitos culiolianos, pela seguinte forma esquemática: ‘mas’ introduz uma ruptura com referência a um evento e no continuum construído por um sujeito S pela saída de um domínio p e pela entrada num domínio q, cujas propriedades podem ser simétricas ou assimétricas. Assim, é na passagem de p para q que a ruptura introduzida por ‘mas’, presente em todos os enunciados, se instaura. Há, no entanto, diferentes maneiras pelas quais tal ruptura se dá, maneiras essas caracterizadas por diferentes propriedades, as quais são representadas por valores semântico-

21

Programa disponibilizado pelo comet (fflch/usp).

244 | Corpora no Ensino de Línguas Estrangeiras

funcionais. A seguir, apresentamos, a partir dos dados retirados de nosso corpus em português, a definição e contextualização de cada valor. (a) Mudança de assunto Há nesse caso uma incidência da ruptura sobre o tópico, com retomada do discurso anterior. Em outras palavras, falava-se sobre x, muda-se para y, espera-se que se continue a falar de y, ‘mas’ volta-se para x. ‘Mas’, portanto, introduz a retomada de x. – Arreia êste burro também, Francolim! – Sim senhor, seu Major. Só que o burrinho está pisado, e quase que não enxerga mais... – Que manuel-não-enxerga, Francolim! – e o Major Saulo parou, pensando, com um dedo, enérgico, rodante dentro do nariz; mas, sem mais, se iluminou (Sagarana).

Aqui temos o seguinte esquema: mas .22 (b) Mudança de alvo Neste caso, temos o mesmo agente que, através da ação de ‘mas’ (segunda instância no fragmento abaixo), estabelece um alvo diferente, incidindo, assim, sobre o predicado p da relação. Octaviano pediu a seu Saulinho para mandar o pretinho calar a bôca. Mas seu Saulinho tinha tirado da algibeira o retrato da patroa, e ficou espiando, mais as cartas... Porque seu Saulinho não sabia ler, mas gostava de receber cartas da mulher, e não deixava ninguém ler para êle: abria e ficava só olhando as letras, calado e alegre, um tempão. (Sagarana).

Nesse trecho, temos mas . (c) Mudança prosódica Este valor apresenta uma incidência sobre a varredura, ou seja, o percurso realizado para buscar a ocorrência que mais se identifica com a

22

Segundo Culioli (2000), toda ocorrência do predicado (p) é designada pela expressão . Por isso, após a exemplificação dos valores encontrados para ‘mas’, os verbos aparecerão no infinitivo.

Corpora no Ensino de Línguas Estrangeiras | 245

situação enunciativa requerida. Assim, é como se, nesse caso, ‘mas’ varresse todas as possibilidades de p (ou seja, o predicado ao qual cada noção se refere) para chegar à ocorrência mais significativa segundo a visão do enunciador. – [...] Então, eu acho que cheguei a dormir, mas não sei... (Sagarana). Considerando o exemplo, temos: mas . (d) Mudança de equilíbrio Nesse valor, ‘mas’ introduz uma ruptura em relação à continuidade do enunciado anterior, proferido por um enunciador A, a qual é bloqueada por um enunciador B. A mudança de equilíbrio apresenta duas subdivisões. (d.1) Incidência sobre a relação intersubjetiva, ou seja, entre enunciador e enunciatário, em que ‘mas’ incide na mudança do enunciador a para o enunciador b, a fim de refutar a afirmação proferida por a. – O resto eu vi, Francolim. Mas os dois não brigaram, e tudo acabou bem, como eu gosto que acabe. – Desculpe, seu Major, mas ainda não acabou, não... Eu acho que ainda está até começando. (Sagarana).

Nesse caso, temos mas . (d.2) Incidência sobre a localização discursiva do predicado, de modo que ‘mas’ altera a localização espaço-temporal da ocorrência. – Você acha que Silvino respeita muito o Tote, irmão dêle? – Até ontem, eu sabia que sim, seô Major. Mas aí êles tiveram uma discussão, e estão sem falar um com outro. (Sagarana).

Assim, nesse trecho, temos mas . (e) Mudança de intensidade Este valor é caracterizado pela incidência sobre o grau, quando é feita uma referência a um evento sob o enfoque qualitativo, ou seja, pelo alto grau ou pela asserção. (e.1) A incidência sobre o alto grau é definida como a ocorrência que se destaca dentre todas as possibilidades do predicado (p), o qual organiza

246 | Corpora no Ensino de Línguas Estrangeiras

enunciativamente a noção. Assim, dentre todos os valores possíveis e imagináveis de /mas/, o marcador ‘mas’ com incidência sobre o alto grau estabiliza um percurso que qualifica uma das ocorrências de p como a medida máxima de referência. E, ao trompear intercadente do berrante, já ecoam as canções: “O Curvelo vale um conto, / Cordisburgo um conto e cem. / Mas as Lages, não têm preço, / Porque lá mora o meu bem.” (Sagarana).

Assim, temos , , mas . (e.2) A incidência sobre a asserção, apesar de também evidenciar uma das propriedades de P, apenas intensifica o gradiente qualitativo dessa ocorrência já presente no enunciado. – Que é que é, Francolim Fonseca? – Francolim Ferreira, seu Major... O que é, é que eu sei, no certo, mas mesmo no certo, que Silvino vai matar o Badú, hoje. (Sagarana).

Em relação ao exemplo, temos mas . (f) Mudança de propriedade Neste caso temos a incidência sobre o preconstruto.23 Aqui a relação é de soma, como de x para x+y. O continuum estabelecido pelo sujeito é, portanto, quebrado na passagem de um domínio para outro de modo a incidir sobre o preconstruto da relação. – [...] Meu compadre Sete-de-Ouros está velho... Mas ainda pode aguentar uma viagem, vez em quando... Arreia êste burro também, Francolim! (Sagarana).

No exemplo acima, temos mas .

23

Segundo Culioli (1985, p. 64), pode-se dizer que um elemento é um preconstruto quando ele permite ou provoca o retorno a uma representação culturalmente estabilizada. No exemplo em questão, ‘velho’ remete a uma representação cujas propriedades normalmente conduzem à inferência de que o indivíduo qualificado não aguenta uma viagem.

Corpora no Ensino de Línguas Estrangeiras | 247

(g) Mudança de percurso Este valor indica a incidência sobre a relação predicativa. – [...] O senhor não leve a mal eu dizer, mas a gente devia de determinar alguma energia nesses dois, porque, se não, o Silvino vai matar o Badú, hoje! (Sagarana).

No exemplo anterior, temos mas assim mesmo. (h) Mudança de foco Indica a incidência sobre o termo de partida da relação predicativa. Fala-se de Francolim e espera-se que se continue a falar dele, mas a perspectiva é alterada e o foco é transferido para outro termo, Maria Camélia. – São só quatro léguas: o João Manico, que é o mais leviano, pode ir nêle. Há-há... Agora, Francolim, vá-s’embora, que eu já estou com muita preguiça de você. Mas a preta Maria Camélia se foi, ligeira, levando o decreto do Major Saulo de novidade para a cozinha, onde arranchavam ou labutavam três meninas, quatro môças e duas velhas, afora gatos e cachorros que saíam e entravam [...] (Sagarana).

Desse modo, temos mas ; mas . (i) Mudança de situação Temos aqui um exemplo de incidência sobre a condição, em que o enunciador faz uma ressalva de acordo com uma dada situação enunciativa. Assim, apesar de obedecer ao percurso inicial esperado pelo enunciatário, o enunciador apresenta, para sua efetivação, uma condição. – Só conto porque é o meu compadre Sebastião quem está pedindo, mas não é para vocês fazerem teatrinho aqui, numa hora destas. (Sagarana).

Em que mas . (j) Mudança de direção Neste valor, temos a incidência sobre a orientação da relação predicativa, em que há mudança de termo de origem.

248 | Corpora no Ensino de Línguas Estrangeiras – Silvino está com ódio do Badú... E Badú está acabando de saber que tem de montar o poldro. Não reclama. Fica ressabiado, observando. – ... por causa que Silvino também gosta da môça, mas a môça não gostou dêle mais. (Sagarana).

Aqui temos mas . Nota-se, assim, uma inversão na ordem dos termos da relação de Silvino-moça para moça-Silvino. Quanto à forma esquemática, entende-se que ‘mas’ introduz uma ruptura com referência a um evento E no continuum construído por um sujeito s pela saída de um domínio p e pela entrada num domínio q, cujas propriedades podem ser simétricas ou assimétricas. Na Tabela 2 a seguir, temos os dez valores semântico-funcionais encontrados para ‘mas’, seguidos, em ordem decrescente, pelo número de ocorrências de cada valor e o seu respectivo percentual. Tabela 2: Variação semântica de ‘mas’

Valores semântico-funcionais

Nº de Percentual ocorrências

Mudança de assunto (tópico)

407

21,3%

Mudança de alvo (predicado)

401

21,0%

Mudança prosódica (varredura)

236

12,3%

Mudança de equilíbrio (relação intersubjetiva e localização)

215

11,3%

Mudança de intensidade (alto grau e asserção)

162

8,5%

Mudança de propriedade (preconstruto)

141

7,4%

Mudança de percurso (relação predicativa)

136

7,1%

Mudança de foco (termo de partida)

125

6,5%

Mudança de situação (condição)

61

3,2%

Mudança de direção (orientação da relação predicativa)

27

1,4%

1.911

100%

Total

A partir dos valores semântico-funcionais acima mencionados, podese observar que ‘mas’ possui uma variação semântica complexa que transpõe os limites da descrição tradicional observável na maioria das gramáticas (cf. Nota 15). Tal problemática se estende aos dicionários bilíngues

Corpora no Ensino de Línguas Estrangeiras | 249

português-francês (cf. Nota 1) que, ao apresentar os possíveis correspondentes para ‘mas’ em francês, apenas enumeram as possibilidades tradutórias para o paradigma adversativo da marca sem atentar às variações semânticas que dele decorrem. Tendo em vista a dizibilidade de ‘mas’ em francês, fizemos uma busca em nosso corpus paralelo de seus correspondentes tradutórios. Para tanto, utilizamos o utilitário Aligner do programa WordSmith Tools (scott, 1996). Diferentemente das possibilidades tradutórias tradicionalmente disponibilizadas nas entradas de ‘mas’ em dicionários bilíngues portuguêsfrancês, como vimos acima, encontramos as seguintes traduções, indicadas na Tabela 3, distribuídas pelos valores semântico-funcionais delineados em português por ordem decrescente de frequência. Tabela 3: Relação entre os valores semântico-funcionais e suas traduções24

24

Valores semânticofuncionais

‘Mas’ traduzido para o francês

Número de ocorrências

Intensidade

Mais Ø x qui n’avait qu’une y Vraiment D’abord Plutôt Sûrement Sur le point de Pas de ça Quoi! Des chevreuils! donc pas pour demain Bien

128 20 2 2 2 2 1 1 1 1 1 1

Os valores semântico-funcionais são ordenados na Tabela 3 de acordo com a variação observada para a tradução de ‘mas’. Em outras palavras, o valor que apresenta o maior número de possibilidades de tradução aparece no topo da lista, enquanto os últimos correspondem àqueles nos quais se encontrou somente um correspondente em língua francesa.

250 | Corpora no Ensino de Línguas Estrangeiras

Propriedade

Mais Ø Et Cependant Bien que À vrai dire Néanmoins Plus La beauté du diable Je me trompe Tout juste

123 8 1 1 2 1 1 1 1 1 1

Assunto

Mais Ø Et Pourtant Cependant Alors Du reste Car Or

389 7 3 3 1 1 1 1 1

Alvo

Mais Ø En tout cas Pourtant Encore que Pourvu que

393 3 2 1 1 1

Foco

Mais Et Alors Au fait

121 2 1 1

Equilíbrio

Mais Ø Allons Voyons

210 3 1 1

Corpora no Ensino de Línguas Estrangeiras | 251

Prosódica

Mais Allez donc Dis-moi

234 1 1

Percurso

Mais Ø

132 4

Situação

Mais

61

Direção

Mais

27

Total

34 correspondentes diferentes

1.911 traduções no total

Como podemos observar na Tabela 3 acima, ‘mas’ possui uma dizibilidade abrangente em francês, uma vez que nosso corpus revelou a possibilidade de 34 opções de tradução para ‘mas’ em português. Nessa tabela, procuramos demonstrar a relação entre os valores semântico-funcionais estipulados na primeira fase da pesquisa com a variação tradutológica de ‘mas’ na língua francesa, marcada pela sua dinamicidade transcategorial. Aplicação da proposta: elaboração de exercícios Com base em nossa pesquisa sobre a variação semântica de ‘mas’ e sua dizibilidade em francês, propomos nesta seção a aplicação do conceito de transcategorialidade ao ensino do fle através de duas atividades diferenciais, a serem executadas em sala de aula. O objetivo primeiro de ambos os exercícios é mostrar, ao aluno brasileiro intermediário de fle, que marcas gramaticais, em especial ‘mas’, possuem redes semânticas complexas dizíveis de várias maneiras em francês. Como consequência, pretende-se que, ao fim dos exercícios, o aprendiz de fle adquira um posicionamento crítico sobre a tradução automática e biunívoca de ‘mas’ por ‘mais’. Para isso, serão utilizados enunciados contextualizados do cpf, pelos quais os alunos analisarão o uso de ‘mas’ em português e suas traduções para o francês, além de verbetes on-line do Centre National de Ressources Textuelles et Lexicales (disponível em ), pelos quais os estudantes se posicionarão criticamente em relação à contextualização e à definição semântico-tradutológica da entrada. O primeiro exercício, que seria realizado numa primeira aula de 50 minutos sobre variação semântica e relações interlinguísticas, sem qualquer introdução

252 | Corpora no Ensino de Línguas Estrangeiras

ao tema para não prejudicar seu caráter intuitivo, compõe-se de três fases, que apresentamos a seguir. (ia) Separe intuitivamente os enunciados abaixo de acordo com a variação semântica da marca ‘mas’. (1a) – Você gostava dele, você trabalhou lá? – Mas muito, seô Major. (Sagarana) (2a) – Já vi disso, Manico. É a mesma coisa que quando êles estouram na estrada... Um assusta, com qualquer bobagem atôa, e sai na carreira, e os outros todos desandam atrás dêsse, correndo por informação, sem nem saber direito do quê... Adianta querer cercar, quando êles desembestam?... Derrubam paredes de tijolo, vão se matando uns aos outros. – E, mas a pior de tôdas é a arrancada do gado triste, querendo a querência... Boi apaixonado, que desamana, vira fera... Saudade em boi, eu acho que ainda dói mais do que na gente... (Sagarana) (3a) Constituiu-se, desta maneira favorecida, a extensa zona de criação de gado que já no alvorecer do século 18 ia das raias setentrionais de Minas a Goiás, ao Piauí, aos extremos do Maranhão e Ceará pelo ocidente e norte e às serranias das lavras baianas, a leste. Povoara-se e crescera autônoma e forte, mas obscura, desadorada dos cronistas do tempo, de todo esquecida não já pela metrópole longínqua senão pelos próprios governadores e vice-reis. (Os Sertões) (4a) Subiu esperto pela capistrana pra não cansar porém a vaca era de raça Guzerá muito brava. Escondeu o leitinho pobre. Mas Macunaíma fêz uma oração assim: Valei-me Nossa Senhora, Santo Antônio de Nazaré, A vaca mansa dá leite, A braba dá si quisé! (Macunaíma) (5a) E Lalino buscava as figuras e fotografias de mulheres. É, devia de ser assim... Feito esta. Janelas com venezianas... Ruas e mais ruas, com elas... Quem foi que falou em gringas, em polacas?... Sim, foi o Sizino Baiano, o marinheiro, com o peito e os braços cheios de tatuagens, que nem turco mascate-de-baú... Mas, os retratos, quem tinha era o Gestal guarda-freios: uma gorda... uma de pintinhas na cara... uma ainda quase menina... Chinelinhos de salto, verdes, azuis, vermelhos... Quem foi que falou isso? Ah, ninguém não disse, foi ele mesmo quem falou... E aquela da turma, acreditando em tudo, e gostando! Mas, deve de ser assim. Igual ao na revista, claro... (Sagarana) (6a) – Fui picado de cobra... Fui picado de cobra... Ô mundo! – Mas, sossega, Primo Ribeiro... Já lhe jurei que não faltei nunca ao respeito a ela... Nem eu não era capaz de cair num pecado dêsses... (Sagarana)

Corpora no Ensino de Línguas Estrangeiras | 253

(7a) “Negra danada, siô, é Maria: ela dá no coice, ela dá na guia, lavando roupa na ventania. Negro danado, siô, é Heitô: de calça branca, de paletó, foi no inferno, mas não entrou!” (Macunaíma)25 (ib) Observe a variação semântica de ‘mas’ e as suas diferentes traduções em relação ao trecho original. (1b) – Tu l’aimais bien, t’as travaillé là-bas? – Vraiment beaucoup, m’sieu le Major. (2b) – J’ai déjà vu ça, Manico. C’est la même chose que quand un troupeau se débande en route... Un qui prend peur, pour un pourquoi stupide, et se met à détaler, et v’là les autres qui lui filent le train, à courir s’informer sans même savoir au juste de quoi... A quoi ça avance d’essayer de les parquer, quand ils chargent ?... Ils démolissent des murs de briques, ils se tuent les uns les autres. – Et le pire de tout, c’est la ruée du bétail triste, en mal de son bercail... Un boeuf amoureux, qui «se désarrange», se change en bête fauve... La saudade, chez un boeuf, moi je suis d’avis qu’elle fait encore plus mal que chez les gens... (3b) Grâce à ces avantages, une vaste zone d’élevage de bétail se constitua, qui, des l’aube du xviii siécle, s’étendait des confins septentrionaux du Minas au Goiás, au Piauí et aux extrémités du Maranhão et du Ceará, vers l’occident et le nord, et jusqu’aux montagnes des cultures bahianas vers l’est. Cette zone s’était peuplée et développée, autonome et forte, bien qu’obscure et hale par les chroniqueurs de l’époque, completement oubliée non seulement par la métropole lointaine, mais aussi par les gouverneurs et les vice-rois eux-mêmes. (4b) Comme il était futé, il prit le trottoir dallé pour ne pas se fatiguer, mais la vache était une méchante vache de la race Gujarât et elle se garda son petit lait. Alors Macounaïma récita cette oraison jaculatoire: Ayez pitié de moi Sainte Mère de Dieu Saint Antoine de Nazareth! La bonne vache donne son lait La méchante que si elle veut!

25

Resposta possível à primeira fase do exercício: mudança de intensidade, enunciados (1) e (2); de propriedade, (3); de assunto, (4); de alvo, (5); de equilíbrio, (6); de situação, (7).

254 | Corpora no Ensino de Línguas Estrangeiras

(5b) Et Lalino de chercher images et photographies de femmes. Ouais, c’était sûrement le genre... Comme celle-là. Des fenêtres à stores... Des rues et encore des rues, avec elles... Qui c’est qui a parlé de gringas, de Polaques ? Ah oui, Sizino le Bahianais, le marin, la poitrine et les bras couverts de tatouages, comme un colporteur libanais... Mais, les photos, c’était Gestal le garde-frein qui les avait : une boulotte... une avec des taches de son sur la figure... une encore presque gamine... Petits escarpins à talons, verts, bleus, rouges... Qui est-ce qui a parlé de ça? Ah, c’était personne, c’était lui-même qui lávait dit... Et les gars de l’équipe qui gobaient tout, et que ça leur plaisait! En tout cas, c’était sans doute comme ça. Pareil qu’on voyait dans la revue, pour sur... (6b) – J’ai été mordu par un serpent... J’ai été mordu par un serpent... Ó monde! – Allons, calmez-vous, cousin Ribeiro... Je vous ai déjà juré que je lui avais jamais manqué de respect... J’étais pas du tout capable de tomber dans un péché pareil... (7b) «Sacrée négresse, m’sieu, la Maria: elle donne du sabot et de la galoche, lavant son linge dans l’ouragan. Sacré noiraud, m’sieu, ce Heitó: Pantalon blanc et paletot, va en enfer sans y entrer.». (ic) Reflita, com outros três colegas, sobre os resultados obtidos.

Este primeiro exercício propõe que se transcendam as fronteiras delimitadas pela gramática tradicional e que sejam buscadas alternativas lógico-discursivas baseadas na transcategorialidade.26 Desse modo, o aprendiz será conduzido, a partir de seu conhecimento de mundo, a desvendar relações semânticas em sua própria língua materna das quais antes não tinha consciência. Em seguida, ainda pela explicitação de sua atividade epilinguística

26

Embora o exercício tenha sido fundamentado numa reflexão semântico-enunciativa pela teoria de Culioli (1990, 1999a, 1999b) e pela Linguística de Corpus, o aluno não precisa ser a elas introduzido, do mesmo modo que não lhe são apresentadas as teorias didático-pedagógicas que estão por detrás da elaboração dos métodos de aprendizagem de línguas (maternas ou estrangeiras).

Corpora no Ensino de Línguas Estrangeiras | 255

pelas observações, análises, críticas e justificativas feitas, será estimulado a instaurar uma alteridade referencial entre as duas línguas de maneira prática, já que os enunciados em português e em francês são dados paralelamente. Nesse momento, o estudante deparará com traduções autenticamente bilíngues da marca em português, conhecendo reais usos interlinguísticos. Perceberá, assim, que (a) as palavras ditas gramaticais variam semanticamente tanto quanto as lexicais, (b) a sua dizibilidade na outra língua também varia, havendo para tanto uma vasta rede de alternativas da qual ele pode se utilizar em sua produção na língua estrangeira, (c) o antes único correspondente utilizado ‘mais’ nem sempre traduz ‘mas’ em francês. Ademais, o exercício trará, para o professor, um retorno da aplicação da abordagem pela linha de raciocínio de seus alunos e suas considerações sobre o corpus e a atividade em geral. O segundo exercício foi elaborado para ser desenvolvido em um laboratório de computação com acesso à Internet. Composta de quatro fases, a atividade deve ser desenvolvida em duas aulas de cinquenta minutos. (iia) Vá até o site do Centre National de Ressources Textuelles et Lexicales – doravante cnrtl – (), busque os verbetes de ‘mais’, ‘cependant’, ‘pourtant’, ‘néanmoins’ e ‘toutefois’, e procure observar como cada um é apresentado. Você acha possível estabelecer uma diferenciação entre ‘mais’, ‘cependant’, ‘pourtant’, ‘néanmoins’ e ‘toutefois’? Para responder essa questão, observe se há definição e contextualização nos verbetes em análise. (iib) Ainda no cnrtl, faça a concordância de cada uma das unidades. Descreva os resultados quantitativos da pesquisa e, em seguida, escolha cinco exemplos co(n)textualizados de cada marca, ou seja, com seu respectivo cotexto – palavras que aparecem ao redor da unidade, tanto à direita quanto à esquerda – e contexto enunciativo, ou seja, com os elementos que compõem a situação enunciativa (enunciador – quem fala; enunciatário – para quem se fala; aspecto – relações temporais; modalidade – relações intersubjetivas (apreciações, ordens, afirmações, interrogações etc.); voz – ativa ou passiva; e determinação – relações de localização).

256 | Corpora no Ensino de Línguas Estrangeiras

(iic) Com base nos exemplos escolhidos, procure estabelecer relações entre as marcas, considerando a frequência, o posicionamento, o cotexto, o contexto e o seu funcionamento semântico. Faça um breve esboço sobre o assunto para discussão em classe. (iid) Traduza os contextos escolhidos para o português. Em seguida, justifique as traduções para as marcas em estudo. Compare suas traduções com correspondentes dos dicionários bilíngues do mesmo site. O que você conclui a partir dessa comparação?

O segundo exercício desdobra-se em tarefas que levarão o aprendiz a refletir sobre questões complexas diretamente ligadas à língua estrangeira. A pesquisa inicial sobre a definição e a contextualização de ‘mais’, ‘cependant’, ‘pourtant’, ‘néanmoins’ e ‘toutefois’ fará com que o estudante perceba a sua complexidade e variação semântica e, ao mesmo tempo, o que essas marcas têm em comum. Pela concordância, obterá um leque de exemplos contextualizados sobre cada unidade que o auxiliará a estabelecer graus de diferenciação entre as marcas e a exercitar seu conhecimento da língua francesa. Ao realizar a tradução dos enunciados escolhidos, o aprendiz mergulhará em provas reais de situações de uso, confrontando-se com a grande problemática dos dicionários bilíngues (schmitz, 1998), cujas lacunas em suas macro e microestruturas não apresentam, ao consulente, a devida contextualização das formas para sua compreensão.27 Considerações finais Complementando as propostas do qecr, que parecem desconsiderar os avanços tecnológicos da informática e os desenvolvimentos das teorias da linguagem mais recentes, nossa proposta apresenta-se como uma contribuição para resolver, com o auxílio da tradução, da Linguística de Corpus e da teoria enunciativa de Culioli (1990, 1999a, 1999b), problemas pontuais no ensino de línguas estrangeiras como o da influência da língua materna em problemas relacionados ao uso prototípico de palavras gramaticais, abordado neste

27

Para um maior aprofundamento sobre tal problemática, ver Zavaglia (2004).

Corpora no Ensino de Línguas Estrangeiras | 257

capítulo. Na qualidade de abordagem complementar, outras problemáticas podem ser por ela trabalhadas (cf. zavaglia, 2006, 2007). Como o professor necessita sistematizar o aleatório, mantendo-se numa posição intermediária entre uma abordagem totalmente assistemática, ou seja, que dependa exclusivamente das produções dos aprendizes, e outra somente sistemática, que deixe de considerar essas variáveis,28 a abordagem complementar aqui desenvolvida parece responder a esse propósito. Ela desperta no aprendiz a sua capacidade de observação e análise linguísticocultural e enriquece, ao mesmo tempo, o seu vocabulário e suas organizações lógico-discursivas em língua estrangeira. Referências bibliográficas

austin, j. l. How to do things with words. Oxford: Clarendon, 1962. azevedo, d. Grande dicionário francês–português, português–francês. Lisboa: Livraria Bertrand, 1978.

bechara, e. Moderna gramática portuguesa. 37. ed. rev. e ampl. 14. reimpr. Rio de Janeiro: Lucerna, 2004.

benveniste, e. Problèmes de linguistique générale. v. 1. Paris: Gallimard, 1966. ______. Problèmes de linguistique générale. v. 2. Paris: Gallimard, 1974.

berber sardinha, t. Linguística de corpus. São Paulo: Manole, 2004.

bueno, f. da s. Gramática normativa da língua portuguesa: curso superior. 5. ed. São Paulo: Saraiva, 1958.

burtin-vinholes, s. Dicionário francês–português, português–francês. 26. ed. Porto Alegre: Globo, 1972. ______. Dicionário francês–português, português–francês. Com a colaboração de Laurence Curtenaz e Maria José Nonnenberg. 40. ed. São Paulo: Globo, 2003.

28

No ensino do português como língua materna a abordagem aleatória é preterida em prol da sistemática (cf. travaglia, 2000). No contexto do ensino de língua estrangeira, no entanto, não se pode desconsiderar as influências assistemáticas ou aleatórias que a língua materna pode ter sobre as produções em língua estrangeira do aprendiz.

258 | Corpora no Ensino de Línguas Estrangeiras

celli, m.; zavaglia, a. Estudo da variação semântica da conjunção mas em português e suas traduções em francês. In: encontro de linguística de corpus, 6., 2008, São Paulo. Anais... São Paulo: usp, 2008. p. 1-20. Disponível em: . Acesso em: 12 jun. 2010.

chartrand, s. g. Pour un nouvel enseignement de la grammaire. Montréal: Editions Logiques, 1995.

collès, l. Petite histoire de l’enseignement des langues étrangères. Français 2000, v. 114, p. 48-52, fév. 1988.

conselho da europa. Quadro europeu comum de referência para as línguas: aprendizagem, ensino, avaliação. Porto: Edições asa, 2001. Disponível em: . Acesso em: 5 jul. 2008.

corrêa, r. a. Dicionário escolar francês–português, português–francês. 5. ed. Rio de Janeiro: mec, 1973. culioli, a. Séminaire de dea 1983-1984. Notes prises par des étudiants. Paris / Poitiers: Université de Paris 7 / Université de Poitiers, 1985. ______. Pour une linguistique de l’énonciation: opérations et représentations. v. 1. Paris: Ophrys, 1990. ______. Pour une linguistique de l’énonciation: formalisation et opérations de repérage. v. 2. Paris: Ophrys, 1999a. ______. Pour une linguistique de l’énonciation: domaine notionnel. v. 3. Paris: Ophrys, 1999b.

cunha, c.; cintra, l. Nova gramática do português contemporâneo. 3. ed. Rio de Janeiro: Nova Fronteira, 2001.

cuq, j.-p.; gruca, i. Cours de didactique du français langue étrangère et seconde. Grenoble: pug, 2005. florenzano, e. Dicionário Ediouro francês–português, português–francês. 17. ed. Rio de Janeiro: Ediouro, 19--.

franchi, c. Mas o que é mesmo gramática? São Paulo: Parábola, 2006.

germain, c.; seguin, h. Le point sur la grammaire. Paris: Clé International, 1998.

Corpora no Ensino de Línguas Estrangeiras | 259

gouin, f. L’art d’enseigner et d’étudier les langues. Paris: Sandoz et Fischbacher, 1880.

koffka, w. Princípios da psicologia da Gestalt. São Paulo: Cultrix, 1975.

luft, c. p. Moderna gramática brasileira. Rio de Janeiro: Globo, 1987. neves, m. h. m. Gramática na escola. São Paulo: Contexto, 1990. _____. Gramática de usos do português. São Paulo: Editora da unesp, 2000. _____. Que gramática estudar na escola? Norma e uso na língua portuguesa. 2. ed. São Paulo: Contexto, 2004.

pereira, h. b. c.; signer, r. Michaelis: minidicionário francês–português, português–francês. São Paulo: Melhoramentos, 1993. perini, m. a. Gramática descritiva do português. 3. ed. São Paulo: Ática, 1998. ______. Para uma nova gramática do português. São Paulo: Ática, 2005a. ______. Sofrendo a gramática. São Paulo: Ática, 2005b.

piaget, j. Psicogênese dos conhecimentos e seu significado epistemológico. In: piatelli-palmarini, m. (Org.). Teorias da linguagem. Teorias da aprendizagem. São Paulo: Cultrix, 1983. p. 39-49. possenti, s. Por que (não) ensinar gramática na escola. Campinas: Mercado de Letras, 1996. puren, c. Histoire des méthodologies de l’enseignement des langues. Paris: Nathan-Clé Internationale, 1988. ______. (Ed.). Pratiques de l’enseignement et de l’apprentissage de la grammaire: études de linguistique appliquée. Paris: Didier Erudition, 2001.

richards, j.; rodgers, t. Approaches and methods in language teaching: a description and analysis. New York: Cambridge University Press, 1992.

rousé, j.; cardoso, e. Dictionnaires Bertrand: portugais–francais. Venda Nova: Bertrand, 1986.

sacconi, l. a. Nossa gramática: teoria e prática. 25. ed. São Paulo: Atual, 1999.

260 | Corpora no Ensino de Línguas Estrangeiras

schmitz, j. r. A problemática dos dicionários bilíngues. In: oliveira, a.; isquerdo, a. n. (Ed.). As ciências do léxico: lexicologia, lexicografia, terminologia. Campo Grande, MS: Editora da ufms, 1998. p. 59-168.

scott, m. WordSmith Tools. Versão 3. Oxford: Oxford University Press, 1996.

seara, a. r. L’évolution des méthodologies dans l’enseignement du français langue étrangère depuis la méthodologie traditionnelle jusqu’à nos jours. Cuadernos del Marqués de San Adrián, n. 1, nov. 2001. Disponível em: . Acesso em: 12 jun. 2010.

silva, a. f. Grammatica portugueza. 9. ed. São Paulo: Augusto Siqueira & Cia, 1906.

travaglia, l. c. Gramática e interação: uma proposta para o ensino de gramática no 1° e 2° graus. 5. ed. São Paulo: Cortez, 2000. valdez, j. f. Dicionário francês–português português–francês. Rio de Janeiro: Livraria Garnier, 2000. vygotsky, l. s. Pensamento e linguagem. São Paulo: Martins Fontes, 1984.

zavaglia, a. Lexicografia bilíngue e tradução: por uma abordagem diferencial. In: congresso ibero-americano de tradução e interpretação, 3., 2004, São Paulo. Anais... São Paulo: Unibero, 2004. p. 1-11. ______. Uma abordagem enunciativa do ensino de língua estrangeira pela tradução de aprendizes. In: rezende, l. m.; onofre, m. b. (Orgs.). Linguagem e línguas naturais: diversidade experiencial e linguística. São Carlos: Pedro & João Editores, 2006. p. 109-123. ______. A teoria das operações enunciativas e a tradução no ensino de línguas estrangeiras. In: rezende, l. m.; cagliari, g. m.; barbosa, j. b. (Orgs.). O que são língua e linguagem para os linguistas? Araraquara: Cultura Acadêmica/unesp, 2007. p. 101-117.

Corpora no Ensino de Línguas Estrangeiras | 261

GRAMATICALIZAÇÃO DA DOR EM PORTUGUÊS E ESPANHOL:

uma abordagem comparada com subsídios da linguística de corpus e da linguística sistêmico-funcional Adriana Silvina Pagano (ufmg) Giacomo Patrocínio Figueredo (ufmg)

abstract: This chapter presents a corpus-based description and comparison of some of the lexicogrammatical resources whereby Portuguese and Spanish construe the experience of pain in language. Drawing on Halliday’s (1998, 2002, 2005) exploration of the grammar of pain, a study was designed in order to search for patterns in these two languages on the basis of corpora compiled for this purpose. The corpora were first queried for lexical frequency and concordance of the lemmas ‘dor’ and ‘dolor’. Concordance lines were then analyzed into clauses and transitivity functions were manually annotated. Data retrieved from the annotated corpora allowed mapping the types of processes and participants used to construe the experience of pain in each language. A comparison of lexicogrammatical resources in the two languages pointed to a high frequency in the construal of pain as a participant in both languages, a major difference being a greater percentage of instances of pain being construed as process in Spanish. The study points to the potential of a corpus-based, systemic-functional approach to the description and comparison of languages for language learning and development of translation skills. Introdução Já vem de longa data o debate sobre os benefícios da comparação de línguas maternas e estrangeiras no ensino/aprendizagem e na tradução, entre outros campos da linguística aplicada. Pioneiros nesse sentido e claramente favoráveis à ideia foram os linguistas formados na tradição firthiana, reconhecidos há mais de cinco décadas na abordagem teórica conhecida como linguística sistêmico-funcional, cujo expoente-mor é o teórico Michael Halliday. Em um texto fundacional de 1964, Halliday, McIntosh e Strevens abordam, dentre outras, a questão da comparação de sistemas linguísticos, perguntando

262 | Corpora no Ensino de Línguas Estrangeiras

de que maneira duas línguas podem ser correlacionadas de forma a se obter maiores benefícios para a formação de aprendizes de língua e tradutores. Dois princípios, segundo os autores, são fundamentais nesse sentido: o primeiro é que toda comparação deve ser precedida por uma descrição das línguas em pauta; o segundo é que devemos circunscrever a comparação a aspectos específicos, passíveis de serem observados através de padrões identificados nas descrições prévias, e não a sistemas linguísticos como um todo. As observações de Halliday, McIntosh e Strevens (1964) foram feitas numa época em que os recursos computacionais eram muito incipientes, como também o era a viabilidade de uma descrição linguística com base em corpus de textos autênticos, de dimensões significativas, passíveis de serem indagados de forma automática e semiautomática. Também era emergente à época a teorização linguística do próprio Halliday, a qual amadurece progressivamente ao longo das décadas até alcançar a magnitude que possui no momento atual. Retomar aquela ideia pioneira de comparação linguística, com impacto na formação de professores e tradutores, é sem dúvida altamente viável no momento presente, em que a Linguística de Corpus se encontra consolidada como abordagem teórica e metodologia de análise textual, e a linguística sistêmico-funcional nos oferece um arcabouço teórico abrangente, com orientações claras sobre o que, como e para que descrever e comparar. No espírito dessa proposta, este trabalho se apoia nos princípios apontados por Halliday, McIntosh e Strevens (1964), de descrever primeiro para depois comparar e, em seguida, selecionar um espaço para circunscrever tal comparação. Visa-se apresentar um percurso teórico-metodológico de descrição e comparação de duas línguas – o português e o espanhol – tendo como ponto focal a gramática da dor (como veremos adiante, o conjunto de recursos gramaticais empregados para a representação da experiência de dor dos quais dispõem os falantes) como espaço semântico realizado na linguagem através de diversos recursos léxico-gramaticais. O objetivo deste trabalho é, assim, ensaiar uma descrição da gramática da dor em português e espanhol, com base em corpora nas duas línguas, visando mapear os recursos léxico-gramaticais que cada sistema disponibiliza para que a experiência da dor possa ser construída pelos falantes. A descrição e comparação apresentadas pretendem-se tarefas relevantes na formação de professores e tradutores, com potencial para sugerir aplicações em sala de aula e projetos amplos de descrição e comparação nas bases aqui demonstradas.

Corpora no Ensino de Línguas Estrangeiras | 263

Este artigo consta de cinco seções, além desta introdução. Na Seção 2, são apresentados brevemente os pressupostos teóricos que norteiam a descrição e comparação linguística realizadas. A seguir, é descrita a metodologia utilizada para a compilação do corpus e para a análise de dados. Na Seção 4, tem-se a apresentação e a discussão dos resultados. Posteriormente, são apresentadas sugestões de aplicações do percurso teórico e metodológico exposto para o ensino/aprendizagem de língua e para a tradução. A Seção 6 tece considerações finais sobre o trabalho apresentado; encerrando o artigo, são apresentadas as principais referências bibliográficas. Fundamentação teórica A primeira versão da gramática da dor, datada de 1991, tinha por objetivo analisar como a experiência da dor é construída pela gramática da língua inglesa (cf. halliday, 2005). Encontrando na Linguística de Corpus a principal orientação para seu trabalho, Halliday (2005) examina expressões relacionadas às palavras ‘pain’, ‘hurt’, ‘ache’ e ‘sore’ em investigações de frequência, concordância, colocações e ambientes gramaticais para as ocorrências. A partir dos dados provenientes dessa investigação, o autor analisa, no âmbito da teoria sistêmico-funcional, formas de representação da dor no sistema da transitividade. No ano de 1995, Halliday apresenta, em um simpósio sobre Análise Crítica do Discurso, uma segunda versão do trabalho, na qual explora mais detidamente como a experiência da dor é construída no que o autor chama de “gramática do cotidiano”, isto é, a semiótica ou conjunto de recursos que nos permite levar nossa vida cotidiana, dando sentido tanto ao mundo que percebemos fora de nós, quanto ao mundo interior ou da nossa consciência (cf. halliday, 2002). Nessa nova versão de sua abordagem da dor, o autor se propõe a demonstrar como a linguagem humana é capaz de criar categorias e relações para construir a realidade. O argumento principal desse trabalho é que os recursos gramaticais empregados em qualquer situação cotidiana são a fonte de produção de significado que possibilita aos falantes construir a realidade dessas situações. Assim, a experiência de dor, por exemplo, é construída pelos recursos gramaticais que criam o significado de ‘dor’ em determinada comunidade de falantes. A última versão da discussão hallidayana sobre a dor, dessa vez publicada em artigo em 1998, reúne aspectos das duas apresentações anteriores.

264 | Corpora no Ensino de Línguas Estrangeiras

Nela, Halliday (1998) apresenta a forma pela qual a dor é construída dentro do ambiente mais amplo da gramática da língua inglesa como um todo, sendo compreendida como um aspecto particularizado da forma como a experiência humana é representada pela linguagem. A escolha de Halliday para a exploração da representação linguística da experiência de dor se deve ao fato de que “para compreendermos aspectos complexos da nossa experiência como seres humanos é importante adotarmos uma forma de pensamento gramatical dessa experiência”1 (halliday, 2005, p. 307). Além disso, o autor enfatiza ser natural a relação entre os mundos material e linguístico. A forma de se compreender como a linguagem estabelece relação com o plano material reside no entendimento de como representamos linguisticamente a nossa experiência. A representação da experiência Halliday (1978) afirma que a linguagem humana evoluiu (tanto como instrumento de organização do mundo à nossa volta, quanto como forma de estabelecimento de relações sociais) segundo suas principais funções: produzir significado e transmiti-lo a outros seres humanos. Essa concepção de linguagem leva à conclusão importante de que sua relação com o mundo material não é arbitrária, mas, na realidade, natural. O caráter natural dessa relação obrigou o sistema linguístico a desenvolver mecanismos de modo a representar dentro da própria gramática a sua relação natural com o mundo. Do ponto de vista da organização da realidade, o primeiro desses mecanismos foi separar dentro da gramática a representação da experiência de permanência daquela de transitoriedade. Em linhas gerais, a experiência linguística de permanência representa os seres que estão no mundo ao passo que a de transitoriedade corresponde aos eventos que nele ocorrem. A permanência é representada na linguagem pela função dos participantes enquanto a transitoriedade é realizada pelos processos. Isso significa dizer que, em um texto, os participantes são sempre mais duradouros, já os processos ocorrem apenas uma vez. A seguir, o Exemplo 1,

1

Nossa tradução para: “in order to understand any complex aspect of the human condition it is helpful to think about it grammatically”.

Corpora no Ensino de Línguas Estrangeiras | 265

retirado do corpus deste trabalho,2 ilustra como a gramática do português, de forma natural, representa a experiência da dor.

exemplo 1 (i) Eu nunca tive dor de cabeça... sempre via as pessoas se queixando mas nunca entendia como era ter uma dor de cabeça... no natal de 2003 tive uma crise tão forte que perdi o sentido de locomoção, nunca havia sentido uma dor igual. [fórum português] (ii) Uma dica boa é trocar ideia com a galera que escala a mais tempo, mostrar aonde e como que dói, que as vezes já passaram pelo mesmo e pode orientar um pouco no que fazer. [fórum português]

Observando-se o Exemplo 1, é possível entender como a gramática do português distingue os elementos permanentes (destacados em sublinhado) dos transitórios (destacados em itálico), além da forma como se relacionam. Os elementos permanentes se repetem ao longo do texto e participam de eventos distintos. Por isso, eles funcionam na gramática como participantes, como, por exemplo, a ‘dor’. Nesse texto, a experiência material de ‘dor’ é representada na linguagem como um atributo de posse no primeiro participante (‘tive dor de cabeça’), como um fato no segundo participante (‘era ter uma dor de cabeça’) e como um fenômeno de percepção no terceiro participante (‘sentido uma dor igual’). Já os elementos transitórios representam os próprios eventos na linguagem e, exatamente por esse motivo, conservam natureza transitória. São representados na gramática como processos. Por exemplo, ‘dói’, representa uma instância apenas do evento ‘doer’. Cabe ressaltar que se o processo ‘doer’ ocorresse novamente, seria outro evento distinto, conservando, dessa maneira, seu caráter transitório.

2

Os exemplos utilizados neste capítulo foram retirados do corpus compilado nesta pesquisa e não foram editados de forma a preservar as características da linguagem autêntica, em uso. Para a linguística sistêmico-funcional, linguagem é toda realização produzida pelos falantes e é através dela que podemos mapear o sistema linguístico e observar mudanças e tensões no uso. Como Halliday e Matthiessen (2004, p. 34) explicam, retomando reflexões de Halliday, McIntosh e Strevens (1964), na fala espontânea e autêntica, observamos realizações que mostram que a linguagem utilizada de fato pelos falantes é muito diferente daquela que eles acreditam utilizar e difere, ainda, muito mais daquela que eles acham que deveriam utilizar.

266 | Corpora no Ensino de Línguas Estrangeiras

A partir dessa compreensão, quando se fala em ‘gramática da dor’, é preciso entender esse conceito como uma parte da representação da experiência humana, aquela responsável pela representação da experiência da dor pelo estrato gramatical do sistema linguístico. A gramática da dor Halliday (1998) inicia suas reflexões sobre a gramaticalização da dor com um exemplo concreto do cotidiano. Alguém observa que não estamos nos sentindo muito bem e pergunta se está tudo bem conosco. Ao respondermos, por exemplo, que estamos com muita dor de cabeça, podemos chegar a pensar que fomos nós que escolhemos uma forma determinada de exprimir linguisticamente essa dor (‘estou com muita dor de cabeça’) e que a linguagem simplesmente veicula nossa condição. Todavia, Halliday (1998) explica, milhões de falantes utilizam a mesma verbalização, o que nos leva a pensar que não somos nós que construímos nossa condição; essa é “construída para nós pela gramática da nossa língua”3 (halliday, 2005, p. 308). Isso tem impactos significativos sobre como cada língua constrói significados para se vivenciar a dor, aspecto que Halliday (2005) considera muito propício para se abordar numa perspectiva da análise crítica do discurso, por exemplo. Afinal, de todos os domínios da experiência humana, a dor é certamente uma das vivências mais complexas e que mais temor suscita. De acordo com a linguística sistêmico-funcional, a gramática de um sistema linguístico é a disposição dos recursos linguísticos que codificam os significados. O que se entende, então, por ‘gramática da dor’ é o conjunto de recursos que representam a experiência de dor na língua. Assim, se o sistema de transitividade for tomado como exemplo, a dor é representada linguisticamente por tipos diferentes de participantes e de processos. Como foi visto anteriormente no Exemplo 1, a dor como participante pode ser um atributo de posse, um fato e um fenômeno de percepção. Diante disso, cabe perguntar se a dor pode ser construída na gramática de outras formas e, caso a resposta seja afirmativa, quais seriam. Na qualidade de processo (‘dói’), a dor funciona no Exemplo 1 como processo material: alguma coisa dói num determinado lugar e com uma determinada intensidade. Já a dor

3

Nossa tradução para: “construed for you by the grammar”.

Corpora no Ensino de Línguas Estrangeiras | 267

funciona como participante de um processo relacional em ‘tive dor de cabeça’, numa relação de posse entre alguém e essa dor. Explorar esses e outros recursos do sistema linguístico e observar quais deles são utilizados para representar a dor constitui, pois, uma forma de mapear uma gramática da dor. Nosso trabalho teve como ponto de partida os estudos de Halliday (1998, 2002, 2005) sobre a gramaticalização da dor, em uma proposta de comparação linguística orientada ao ensino/aprendizagem de línguas e à tradução. Buscou-se aqui ensaiar um percurso teórico e metodológico, baseado em corpus, que permitisse descrever como a experiência da dor é construída em português e espanhol e compará-la nessas duas línguas. A seguir, é apresentada a metodologia empregada para a compilação do corpus e a geração de dados. Metodologia Para esta pesquisa, compilou-se um corpus em português e outro em espanhol com textos de produção recente e circulação livre na Internet, que atendessem ao campo da experiência humana que se visava investigar: a construção linguística da dor física. Os corpora foram compilados tendo como palavras de busca ‘dor’ e ‘dolor’ em português e espanhol, respectivamente. Tendo em vista que buscas iniciais permitiram constatar que as referidas palavras ocorriam mais frequentemente em textos vinculados a três processos sociossemióticos em particular (cf. halliday, 1978), a compilação foi baseada nesse critério. Os textos incluídos nos corpora são a entrevista (diálogo oral e diálogo escrito),4 associada ao processo sociossemiótico relatar, o texto informativo (escrito), associado ao processo explicar, e o fórum de discussão (diálogo escrito), associado ao processo compartilhar. Foram constituídos, assim, três subcorpora, rotulados como ‘entrevista’, ‘informativo’ e ‘fórum’. O objetivo desses três subcorpora foi contemplar, tanto em registros mais próximos da oralidade quanto em registros escritos, um escopo amplo de processos sociossemióticos nos quais a experiência de dor é representada.

4

As entrevistas foram compiladas a partir de transcrições existentes na Internet, com exceção de uma delas, que foi transcrita de um arquivo digital de um programa de rádio. A principal motivação em utilizar duas fontes para as entrevistas foi a possibilidade de se contar com textos atuais e espontâneos em que fosse reproduzida a fala de pessoas sobre dores físicas. Diante da escassez de textos, recorreu-se àqueles que se enquadravam no tópico buscado, sendo que se tornou necessário contemplar entrevistas de esportistas de renome em rádio e jornal impresso.

268 | Corpora no Ensino de Línguas Estrangeiras

Cumpre ressaltar que foram selecionados textos que construíssem representações da dor física somente. Dor emocional ou outros tipos de dor não foram contemplados. Cabe observar também que os textos selecionados foram de domínios claramente identificados como vinculados a instituições e grupos localizados no Brasil e na Argentina, de forma a focalizar as variantes de língua utilizadas nesses dois países. Com base no conceito de processos sociosemióticos e tipos de textos associados a eles (cf. herke-couchman, 2006), foram selecionados textos com vistas a constituir um corpus total, em cada língua, com um tamanho mínimo de 10.000 palavras (ou ‘itens’, termo corrente na Linguística de Corpus). Pela sua disponibilidade na Internet, os textos de maior frequência pertencem ao tipo de texto informativo (textos de divulgação científica visando à promoção de alguma terapia ou produto), representados no corpus com o maior número de itens. Esses foram seguidos pelos textos do tipo entrevista (entrevistas de esportistas publicadas em jornais on-line ou veiculadas em programas de rádio) e fórum de discussão (interação em fórum on-line sobre tópicos de lesões esportivas e dor). A Tabela 1 abaixo apresenta o número de itens do corpus e dos respectivos subcorpora em cada língua. Tabela 1: Número de itens dos subcorpora

Subcorpus

Português

Espanhol

Informativo

6.030

6.284

Entrevista

4.140

3.604

Fórum

1.808

2.070

Total

11.978

11.958

Ressalta-se que a diferença no número de itens entre os subcorpora das duas línguas é decorrente da decisão metodológica tomada de privilegiar textos na íntegra e não amostras parciais. Todos os textos dos três subcorpora foram convertidos para o formato txt e analisados com o auxílio do software WordSmith Tools 5.0 (scott, 2007). Utilizando-se a ferramenta WordList, foram extraídas as listas de palavras de cada subcorpus por frequência e ordem alfabética, além dos dados quantitativos de cada texto dos subcorpora e do corpus total. Foram identificadas nas listas de palavras as ocorrências das palavras ‘dor’ e ‘dolor’,

Corpora no Ensino de Línguas Estrangeiras | 269

‘doer’ e ‘doler’, e suas formas flexionadas (como ‘doloroso’ e ‘dói’; ‘doloroso’ e ‘dolía’). Com o uso da ferramenta Concord, foram observados os seus respectivos ambientes linguísticos. Ocorrências das palavras de busca ‘dor’ e ‘dolor’ enquanto qualificadores em grupos nominais (por exemplo, ‘tratamento da dor’, ‘presença da dor’, ‘medicina del dolor’ etc.) foram eliminadas, uma vez que ‘dor’ nesses casos qualifica um outro elemento (‘tratamento’, ‘presença’, ‘medicina’, etc.) e não se refere à experiência da dor em si mesma. As linhas de concordância restantes foram localizadas nos textos de cada subcorpus e as orações correspondentes compiladas para a análise com base na linguística sistêmico-funcional. Essa etapa foi de fundamental importância uma vez que a unidade de análise aqui adotada é a oração, entendida como aquela através da qual se constrói a experiência da realidade, com participantes e processos, numa situação de interação, organizada como linguagem (halliday e matthiessen, 2004). As orações correlacionadas às linhas de concordância foram analisadas seguindo a metodologia de Halliday (1998). As funções processo e participante foram manualmente anotadas, juntamente com a especificação do tipo de processo e de participante associado a cada processo (material, mental, verbal, comportamental, relacional e existencial).5 Adicionalmente, foram anotados os tipos de circunstâncias nas quais a palavra de busca era utilizada (por exemplo, Acompanhamento, Lugar, Propósito, Razão, Meio, Assunto, Favor e Papel). As linhas de concordância extraídas com as ferramentas do WordSmith Tools foram copiadas e coladas em um arquivo em formato txt, o qual foi incorporado ao banco de textos do software uam CorpusTool (o’donnell, 2008). Esse programa foi escolhido para a anotação das linhas, por permitir a criação de categorias dentro de uma estrutura hierárquica e sua fácil inserção no texto para geração de dados quantitativos. As etiquetas tomam como primeiro elemento o tipo de processo e, como segundo, o participante específico

5

Para efeitos da discussão enfocada neste trabalho, os participantes associados a cada tipo de processo são abordados de forma genérica. Uma análise num nível de delicadeza maior permitiria observar tipos específicos de participantes, mas tal análise encontra-se fora do escopo da presente discussão. Para uma descrição detalhada dos participantes associados a cada um dos tipos de processos, ver Halliday e Matthiessen (2004). Cabe destacar que, na gramática hallidayana, falamos em participantes materiais, mentais, existenciais etc., pois todos os participantes são derivados ou associados a um processo, sendo que o processo é o elemento primário ou central na representação da experiência.

270 | Corpora no Ensino de Línguas Estrangeiras

associado ao processo (por exemplo, Material: Escopo, Material: Cliente etc.), bem como as circunstâncias adjacentes a estes. Realizações elípticas também foram anotadas com etiquetas referentes ao tipo de participante, uma vez que essas orações, nas quais ‘dor’ ou ‘dolor’ não se encontravam realizadas por um substantivo ou pronome, envolviam processos e participantes relativos à análise em pauta. A detecção da elipse foi feita analisando-se as orações correlacionadas às linhas de concordância extraídas. Uma vez concluída a anotação, as etiquetas foram computadas para efeitos de observação de frequência e agrupamento das realizações léxico-gramaticais. Para cada categoria observada nas duas línguas, foram calculadas (i) a frequência de ocorrências em relação ao número total de itens dos três subcorpora em cada língua; (ii) as porcentagens dentro do número total de ocorrências da categoria em pauta (frequência relativa em relação às ocorrências); e (iii) a porcentagem dentro do número total de itens dos subcorpora da respectiva língua (frequência relativa em relação à língua). Os dados obtidos a partir da análise desses agrupamentos permitiram a comparação da experiência da dor nas duas línguas, conforme é apresentado a seguir. Análise e discussão dos dados No corpus em português, a partir da análise das linhas de concordância, foram encontradas orações com ocorrências de representação da experiência da dor, as quais distribuem essa representação em participante e processo, como se vê na Tabela 2. Tabela 2: Ocorrências do lema ‘dor’ em português

Função

Número de ocorrências

Frequência relativa quanto ao número de ocorrências

Frequência relativa quanto ao número total de itens para a língua

Participante

177

98,88%

1,48%

Processo

2

1,12%

0,01%

Total

179

100%

1,49%

Corpora no Ensino de Línguas Estrangeiras | 271

A Tabela 2 mostra claramente o uso predominante de ‘dor’ como Participante nos textos analisados em português. Como foi explicado na Seção 2.1, em relação à representação da experiência numa abordagem sistêmicofuncional da linguagem, os processos constroem a experiência de fluxo no tempo como transitoriedade. Já os participantes constroem a experiência de permanência no espaço e no tempo. Assim, os participantes possuem maior estabilidade e podem inclusive estar envolvidos em diversos processos. O fato de a dor ser construída majoritariamente como participante em português mostra que o processo ‘doer’ foi adquirindo, na língua, estatuto de objeto, isto é, foi objetificado, como afirmam Halliday e Matthiessen (2004, p. 178).6 Assim, é construído no discurso como um fenômeno permanente que pode agir, receber a ação de alguma outra coisa, ser objeto de fala, sensação, percepção e relações de identidade e de posse. Ao ser objeto, a dor como participante pode construir novas experiências da realidade, possibilitando significados metafóricos complexos. No corpus em espanhol, foram encontradas orações com a seguinte distribuição da representação da dor como participante e processo, como indicado na Tabela 3. Tabela 3: Ocorrências do lema ‘dolor’ em espanhol

Função

Número de ocorrências

Frequência relativa quanto ao número de ocorrências

Frequência relativa quanto ao número total de itens para a língua

Participante

123

76,40%

1,03%

Processo

38

23,60%

0,32%

Total

161

100%

1,35%

Esses dados indicam que, tanto em português como em espanhol, com base nos corpora analisados, a experiência da dor é mais frequentemente

6

Para o conceito de ‘objeto’ no sistema linguístico inglês, ver Halliday e Matthiessen (1999); e no sistema do português, Figueredo, Araújo e Pagano (2008).

272 | Corpora no Ensino de Línguas Estrangeiras

construída como ser permanente (participante) do que como evento transitório (processo). Todavia, observa-se uma diferença nas percentagens de ocorrência da dor como participante e processo nas duas línguas. No caso da função processo, há uma representação ínfima em português, ao passo que essa é maior em espanhol, onde a dor é representada como processo nos três subcorpora, conforme mostra a Tabela 4 a seguir. Tabela 4: Distribuição de ocorrências por subcorpus do lema ‘dolor’ como processo em espanhol

Subcorpus

Número de ocorrências

Frequência relativa quanto ao número de ocorrências

Frequência relativa quanto ao número total de itens em cada subcorpus

Informativo

15

39,47%

0,24%

Entrevista

1

2,63%

0,03%

Fórum

22

57,90%

1,06%

Total

38

100%

1,33%

Nota-se, no entanto, que a frequência do lema ‘dolor’ como processo é proporcionalmente maior no Fórum do que no Informativo e na Entrevista. De acordo com Halliday e Matthiessen (1999), a nominalização de processos é uma característica da linguagem da ciência. A gramaticalização da dor como processo no Fórum com maior frequência poderia ser explicada pelo fato de o processo sociossemiótico compartilhar ser constituído por interações espontâneas entre assinantes, as quais estão mais próximas das interações da linguagem falada. Cabe ainda ressaltar que a função sociossemiótica principal do Fórum é compartilhar – i.e., estabelecer e fortalecer laços sociais entre os membros da comunidade e, secundariamente, resolver problemas médicos. No subcorpus Informativo, encontramos textos que constroem significados para divulgar estudos médicos, ou seja, textos do que se poderia chamar popularização da ciência. Neles observamos, por um lado, características de textos científicos, cuja linguagem técnica dos especialistas (gramaticalmente metafórica) permite abordar a dor como um participante, uma nominalização de um processo, a qual se torna objetificada para que dela se possa falar (e medir, calcular, prever,

Corpora no Ensino de Línguas Estrangeiras | 273

curar etc.); e por outro, características de linguagem mais próxima do coloquial, menos técnica dos não especialistas, na qual a dor é construída como processo. Um caso interessante, nesse sentido, é o subcorpus de Entrevistas, nas quais, diferentemente do esperado da linguagem interativa, a dor é construída mais como participante, o que parece indicar que os entrevistados, todos esportistas reconhecidos, se referem à própria dor como objeto, como algo ou alguém que interfere na performance deles. Gramaticalmente, os textos das entrevistas tendem à linguagem técnica especialista, o que estabelece uma relação desigual de expertise entre os produtores do texto – os atletas – e seus receptores. A objetificação ocorre porque, a princípio, a dor não é um objeto que se encontra no mundo, como se encontram livros, cadeiras, camisas. Diferentemente, a dor é a manifestação do ‘processo de dolorimento’. Este fato faz com que a ação de doer seja a forma congruente (não metafórica) para a nossa experiência de dor. Congruentemente, ‘doer’ é um processo assim como respirar, andar, rir (e não como livro, cadeira ou camisa). De outro modo, podemos ver que ‘dor’ não é propriamente um processo, mas uma abstração de um processo, no caso ‘doer’. Exatamente como ‘respiração’ é uma abstração do processo de respirar, ‘caminhada’ é uma abstração de andar e ‘riso’ de rir. Neste ponto, cabe perguntar como a gramática realiza essa operação de abstração. Isso é feito por uma operação de metaforização: o grupo nominal é, assim, uma metáfora [gramatical] para o grupo verbal. Em português e espanhol, ocorre na ordem da palavra um processo de derivação: o verbo ‘doer’ perde sua desinência de infinitivo e a vogal temática ‘-er’, substituídos por ‘r’ (português) e ‘or’ (espanhol), que no caso indicam se tratar do substantivo. Dor é metáfora (nominalização) de doer. O objeto ‘dor’ é metáfora para o evento ‘doer’. Comparando as duas línguas, verifica-se que, em português, ocorrências como as do Exemplo 2 a seguir são mais frequentes do que ocorrências como as do Exemplo 3.

exemplo 2 (i) me sinto bem à vontade e quando começo a cansar começo a sentir uma dorzinha. [entrevista português] (ii) É um incômodo, mas não é uma dor que me impossibilita de fazer os movimentos. [entrevista português]

274 | Corpora no Ensino de Línguas Estrangeiras

exemplo 3 (i) Não dói, eu não sinto nada, mas não consigo me levantar sozinha. [entrevista português] (ii) mostrar aonde e como que dói [fórum português]

Já no espanhol, apesar de a dor ser representada no corpus mais frequentemente como participante (ver Exemplo 4), há uma percentagem importante de representações da dor como processo (cf. Exemplo 5).

exemplo 4 (i) pero estamos tratando de que baje un poco el dolor y todo eso [entrevista espanhol] (ii) En caso de que un chico sufra frecuentes dolores de cabeza hay que consultar al pediatra para encontrar la causa [informativo espanhol]

exemplo 5 (i) ¿Le duelen las mandíbulas después de comer? [informativo

espanhol] (ii) Al comienzo me dolían los empeines externos y los piecitos salían muy marcados de las zapatillas [fórum espanhol]

Nas seções seguintes, veremos mais detalhadamente aspectos da representação da dor como participante e processo nas duas línguas sob análise. Representação da dor como participante Quanto ao tipo de participante, pode ocorrer em mais de uma ordem: pode ser na ordem da oração, quando a dor é representada em português associada a participantes de determinados processos, como participantes plenos na estrutura [por exemplo, em ‘a dor vai passar logo’]. Mas também podem ser participantes que estão na ordem do grupo, encaixados dentro de uma circunstância [por exemplo, em ‘estou com dor de cabeça’ ‘dor’ está encaixado dentro da circunstância de acompanhamento ‘com dor de cabeça’], ou mesmo dentro de um grupo nominal como qualidade de participantes [por exemplo, em ‘região dolorida’, a dor é uma qualidade de região], como se vê na Tabela 5.

Corpora no Ensino de Línguas Estrangeiras | 275 Tabela 5: ‘Dor’ como participante em português

Participantes em relação à ordem

Número de ocorrências

Frequência relativa quanto ao número de ocorrências

Frequência relativa quanto ao número total de itens para a língua

Participante pleno na estrutura de transitividade

148

83,62%

1,24%

Participante encaixado em circunstâncias

19

10,73%

0,16%

Qualidade de participante

10

5,65%

0,08%

Total

177

100%

1,48%

Os números desta tabela mostram como a experiência ‘de dolorimento’ não se vê restrita a representar um evento do mundo (realizado por um processo). A alta frequência de ocorrência de ‘dor’ como participante (lembremos dos dados da Tabela 2) e as configurações nas quais esse participante ocorre, como podemos ver na Tabela 5, nos levam a concluir que o fato de a experiência ter sido ‘objetificada’ como participante permitiu que pudesse ocorrer em muitos ambientes oracionais distintos. Ela não só se tornou um participante, mas também parte de um participante. Assim, em ‘estou com dor de cabeça’, a dor me faz companhia (exatamente como ‘estou com você’; ‘estou com o celular’ etc.). Trata-se de um participante encaixado numa circunstância e esse encaixe o torna uma espécie de ‘participante indireto’, uma vez que ela se encontra num grupo nominal dentro de uma frase preposicionada, por sua vez, relacionada a um grupo nominal maior. Por fim, a dor também pode ser parte de um participante, num grupo nominal, onde a dor qualifica ou classifica. Assim, por exemplo, uma ‘região dolorida’ é uma região na qual um ‘processo de dolorimento’ acontece. Se bem a ocorrência de ‘dor’ em uma estrutura encaixada ou qualificando ou classificando outro participante é proporcionalmente menor à de ‘dor’ como participante pleno, os dados indicam que as três configurações estão representadas no corpus e são possíveis na gramática do português.

276 | Corpora no Ensino de Línguas Estrangeiras

No que diz respeito à dor como participante pleno na estrutura de transitividade, como a Tabela 6 a seguir mostra, há variadas formas de representar a dor: material (experiência no mundo físico – ‘a dor vai passar logo’), mental (experiência cognitiva, emotiva e/ou sensitiva – ‘sinto um pouco de dor na perna direita’), relacional (a dor representada em relação a outros conceitos – ‘a dor pode ser considerada um sintoma’). Sua ‘objetificação’ nos possibilita, na linguagem, a chance de lidar com a dor assim como lidamos com outros objetos desta maneira, a dor ataca e machuca mas também pode ser tratada e eliminada (note que nada disso pode acontecer com o processo ‘doer’, se não for ‘objetificado’). Tabela 6: ‘Dor’ como participante pleno na estrutura de transitividade em português

Tipo de participante segundo o processo

Número de ocorrências

Frequência relativa quanto ao número de ocorrências

Frequência relativa quanto ao número total de itens para a língua

Material

73

49,33%

0,61%

Relacional

55

37,16%

0,46%

Mental

18

12,16%

0,15%

Existencial

2

1,35%

0,02%

Total

148

100%

1,24%

Esses dados implicam dizer que, na maioria dos casos, a dor é construída como um participante ou ser associado a um processo material, como se vê no Exemplo 6. Além disso, para a dor, podem ser estabelecidas relações de identidade, posse e atribuição, como se vê no Exemplo 7. Em menor quantidade, a dor também é sentida, sendo participante associado a um processo mental, como mostra o Exemplo 8 e, finalmente, em menor frequência também é construída como um ser existente, como se vê no Exemplo 9.

exemplo 6: participante material (i) Não se preocupe, a dor vai passar logo. [fórum português] (ii) Não posso beber que dá a maior dor de cabeça. [fórum português] (iii) o quê fazer para prevenir ou melhorar esse dolorimento. [fórum português]

Corpora no Ensino de Línguas Estrangeiras | 277

exemplo 7: participante relacional (i) relação de identidade: A dor pode ser considerada como um sintoma ou manifestação de uma doença. [informativo português] (ii) relação de posse: Quando tenho dor de cabeça, durmo que passa. [fórum português] (iii) relação de atribuição: a dor é tanto constante quanto intermitente [informativo português]

exemplo 8: participante mental (i) começo a sentir uma dorzinha. [entrevista português] (ii) Sinto um pouco de dor na perna direita, que foi muito castigada no acidente. [entrevista português]

exemplo 9: participante existencial (i) É dor de cabeça, dor na barriga, indisposição, parece que vai estourar. [fórum português]

Analogamente ao português, a dor também é construída em espanhol como participante pleno na estrutura de transitividade, como participante encaixado em circunstâncias e como qualidade de participante, de acordo com a distribuição a seguir. Tabela 7: ‘Dolor’ como participante em espanhol

Participantes em relação à ordem

Número de ocorrências

Frequência relativa quanto ao número de ocorrências

Frequência relativa quanto ao número total de itens para a língua

Participante pleno na estrutura de transitividade

95

77,24%

0,80%

Participante encaixado em circunstâncias

24

19,51%

0,20%

Qualidade de participante

4

3,25%

0,03%

Total

123

100%

1,03%

A Tabela 7 mostra que, proporcionalmente, ‘dolor’ em espanhol ocorre com maior frequência como participante pleno na estrutura de transitividade.

278 | Corpora no Ensino de Línguas Estrangeiras

Se comparamos as Tabelas 5 e 7, observamos que a frequência relativa de ‘dolor’ como participante encaixado em circunstâncias é maior em espanhol e que, no caso de qualidade de participante, a frequência é levemente inferior à do português. Todavia, cabe ressaltar que, nas duas línguas, estão presentes as três configurações e que a maior proporção em ambas é a de dor como participante pleno na estrutura de transitividade, sendo que sua frequência relativa quanto ao número total de itens para a língua é maior em português do que em espanhol. No que diz respeito à dor como participante pleno na estrutura de transitividade, temos a seguinte distribuição por tipo de processo. Tabela 8:‘Dolor’ como participante pleno na estrutura de transitividade em espanhol

Tipo de participante segundo processo

Número de ocorrências

Frequência relativa quanto ao número de ocorrências

Frequência relativa quanto ao número total de itens para a língua

Material

43

45,26%

0,36%

Relacional

32

33,69%

0,27%

Mental

14

14,74%

0,12%

Verbal

5

5,26%

0,04%

Existencial

1

1,05%

0,01%

Total

95

100%

0,80%

A Tabela 8 mostra a proporção de ocorrência de ‘dolor’ como participante de determinado processo. Há uma maior frequência de ‘dolor’ como participante de processos materiais (cf. Exemplo 10) e relacionais (cf. Exemplo 11). Além disso, observa-se uma frequência também importante para a dor como participante de processos mentais (cf. Exemplo 12). A seguir são apresentados exemplos de cada um desses participantes.

exemplo 10: participante material (i) pero el dolor solamente me llegaba al glúteo [fórum espanhol] (ii) desapareciéndome el dolor más o menos hasta donde yo pueda aguantar puedo llegar a jugar [entrevista espanhol]

Corpora no Ensino de Línguas Estrangeiras | 279

exemplo 11: participante relacional (i) relação de identidade: el dolor es una sensación desagradable subjetiva [informativo espanhol] (ii) relação de posse: tengo dolor en el nervio ciático [fórum espanhol] (iii) relação de atribuição: eran dolores muy intensos e insoportables [entrevista espanhol]

exemplo 12: participante mental (i) los primeros días senti dolor en las plantas de los pies [fórum espanhol] (ii) En caso de que un chico sufra frecuentes dolores de cabeza hay que consultar al pediatra [informativo espanhol]

exemplo 13: participante verbal (i) La Bioenergética propone escuchar este dolor [informativo

espanhol] (ii) [el dolor] Puede estar avisándonos que hay que parar [informativo

espanhol] exemplo 14: participante existencial (i) También existen muchos dolores que son refractarios a los fármacos [informativo espanhol]

Para uma interpretação dos dados obtidos nas duas línguas, é preciso estabelecer uma diferença entre ‘nominalização do processo de dor’ e ‘recursos que a gramática desenvolveu para empregar a nominalização do processo de dor’. Em português, há maior quantidade de nominalização, porém com recursos mais restritos. Recorre-se basicamente a participantes Materiais e Relacionais, com poucas ocorrências de participantes Mentais (sendo apenas do tipo perceptivo: sentir – ‘sinto dor’). Em espanhol, há menor quantidade de nominalização quando comparado ao uso em português, porém um maior número de recursos é empregado. Os usuários da língua lançam mão de participantes Materiais e Relacionais, mas também empregam participantes Verbais e Mentais (de dois tipos: perceptivo: sentir – ‘siento dolor’ –, e emotivo: impingente – ‘me duele’). Cumpre observar que gramaticalmente ‘me duele’ em espanhol é análogo a ‘me encanta’, ‘me gusta’, ‘me emociona’ etc.; por isso, é emotivo. Em português, a gramática dos processos emotivos é majoritariamente metafórica quando trata da dor. Por exemplo, ‘me dói a pobreza’, ‘me dói a injustiça’; mas em menor proporção ‘me dói o ombro’ (cf. figueredo, 2007). Uma comparação das Tabelas 6 e 8 evidencia aproximação entre as duas línguas no que diz respeito à frequência relativa de ocorrência de

280 | Corpora no Ensino de Línguas Estrangeiras

participantes associados a processos mentais e existenciais quanto ao número total de itens para cada língua. Já em relação a participantes relacionados a processos materiais e relacionais, as diferenças são mais acentuadas e podem ser observadas relacionando-se os dados das Tabelas 6 e 8 aos das Tabelas 2 e 3. Como já foi apontado, há uma diferença entre a frequência relativa de ocorrência de ‘dor’ e ‘dolor’ como processo quanto ao número total de itens nas respectivas línguas (cf. Tabelas 2 e 3: 0,01% em português; 0,32% em espanhol) e participante (1,48% em português; 1,03% em espanhol). Essa diferença pode ser investigada em sua possível relação com a ocorrência de determinados tipos de participantes nas duas línguas. A percentagem maior de participantes associados a processos materiais, relacionais e mentais em português (cf. Tabela 6: 0,61%, 0,46% e 0,15%, respectivamente), se comparada com o espanhol (cf. Tabela 8: 0,36%, 0,27% e 0,12%, respectivamente) pode ser vinculada à frequência mais alta de ‘dor’ como participante nessa primeira língua. Cabe lembrar que esse número maior de ocorrências não necessariamente envolve variedade no tipo de participante: apesar de haver menor diversidade em português, a frequência dos três principais tipos é maior do que no espanhol, sobretudo no que diz respeito aos participantes materiais e relacionais. De fato, os dados parecem indicar que a dor é construída com maior frequência em português como participante que age no mundo exterior à nossa consciência (material) ou como uma parte de nossa experiência que pode ser relacionada com outra, classificada, qualificada (relacional). A menor frequência desses dois tipos de participantes em espanhol pode ser atribuída a uma maior frequência, comparativamente ao português, de representação da dor em espanhol, como processo (cf. Tabelas 2 e 3), e, sobretudo, como processo mental (ver Tabela 11 mais adiante), construída como registro de uma vivência interna à nossa consciência e percepção. Isso pode ser observado, sobretudo, no subcorpus Fórum em português, quando seus assinantes manifestam a experiência da dor física majoritariamente através do uso de ‘dor’ como participante de processos materiais e relacionais. Já em espanhol, os assinantes do Fórum constroem sua vivência da dor física como processo mental. No que tange aos tipos de participante, nos dois sistemas linguísticos, a nominalização da dor ainda se constitui amplamente como um fenômeno material em primeiro lugar e, em seguida relacional. Contudo, é possível observar também que o sistema espanhol emprega recursos mais diversos para representar a dor que o português, apesar de nominalizar menos frequentemente.

Corpora no Ensino de Línguas Estrangeiras | 281

Além de atuar como participante pleno na estrutura de transitividade, também foram constatadas ocorrências no corpus em português da ‘dor’ como um participante encaixado dentro de uma circunstância (cf. Tabela 5). Como já vimos, o processo é o elemento central na construção da experiência na linguagem e o participante se relaciona a ele, possibilitando que esse processo tenha lugar ou recebendo a ação ou impacto dele. Já as circunstâncias possuem um caráter mais periférico nessa configuração experiencial. A construção da experiência da dor numa circunstância constrói esse participante como objeto, mas esse participante se relaciona de forma indireta ao processo principal, e não como participante pleno. A experiência da dor torna-se, assim, um coadjuvante de outro processo. A Tabela 9 mostra a distribuição das circunstâncias na língua portuguesa. Tabela 9: ‘Dor’ como participante encaixado em circunstância em português

Circunstância

Número de ocorrências

Frequência relativa Frequência quanto ao número relativa quanto ao de ocorrências número total de itens para a língua

Acompanhamento

7

36,85%

0,06%

Lugar

4

21,06%

0,03%

Propósito

3

15,79%

0,02%

Razão

1

5,26%

0,01%

Meio

1

5,26%

0,01%

Assunto

1

5,26%

0,01%

Favor

1

5,26%

0,01%

Papel

1

5,26%

0,01%

Total

19

100%

0,16%

Acompanhamento, lugar e propósito são os três tipos de circunstâncias com maior número de ocorrências em português. As circunstâncias de acompanhamento juntamente com a maior ocorrência de participantes associados a processos relacionais, conforme já foi apontado, indicam uma representação importante da ‘dor’ em português como significado relacional. Por isso, é comum observar exemplos em português do tipo ‘estou com dor de’ (cf. Exemplo 15), o que não se verifica no espanhol (‘estoy con dolor de’).

282 | Corpora no Ensino de Línguas Estrangeiras

Exemplos dessas e das demais circunstâncias encontradas podem ser vistos a seguir.

exemplo 15: acompanhamento (i) Tô há umas boas 26 horas com uma dor de cabeça forte [fórum português] exemplo 16: lugar (i) expressões no rosto como o enrugamento ou contração muscular [...] principalmente na dor aguda, uma vez que na dor crônica o organismo muitas vezes está “acostumado” com estas sensações. [informativo português]

exemplo 17: propósito (i) A mesma técnica pode ser utilizada no controle da dor causada por uma lesão. [informativo português]

exemplo 18: razão (i) Primeiramente, eles interferem no sistema das prostaglandinas, um sistema de substâncias interativas que são parcialmente responsáveis pela sensação de dor. [informativo português]

exemplo 19: meio (i) Algumas doenças se manifestam pela dor [informativo

português] exemplo 20: assunto (i) À medida que os indivíduos envelhecem, eles queixam-se menos da dor [informativo português] exemplo 21: favor7 (i) Eles me deram alguns remédios contra dor até chegar o helicóptero. [entrevista português]

exemplo 22: papel (i) Deste local, o estímulo (a mensagem) é levado até diferentes regiões do cérebro, onde é percebido como dor. [informativo português]

O corpus em espanhol também revelou instâncias de representação da dor encaixadas em circunstâncias, com uma distribuição relativamente

7 Na gramática sistêmico-funcional, circunstâncias de favor (‘behalf’) dizem respeito a entidades em cujo favor, por cuja causa ou contra quem se leva a cabo uma determinada ação. (cf. halliday e matthiessen, 2004, p. 270-271).

Corpora no Ensino de Línguas Estrangeiras | 283

aproximada àquela do português, no que diz respeito ao número total de itens da língua. Parece haver, contudo, diferenças na escolha do sistema de circunstanciação, como se vê a seguir. Tabela 10: ‘Dolor’ como participante encaixado em circunstâncias em espanhol

Circunstância

Número de ocorrências

Frequência relativa quanto ao número de ocorrências

Frequência relativa quanto ao número total de itens para a língua

Assunto

9

37,50%

0,07%

Acompanhamento

7

29,16%

0,06%

Lugar

4

16,66%

0,03%

Razão

1

4,17%

0,01%

Meio

1

4,17%

0,01%

Papel

1

4,17%

0,01%

Favor

1

4,17%

0,01%

Total

24

100%

0,20%

Diferentemente do português, o subcorpus em espanhol evidenciou circunstâncias de assunto (cf. Exemplo 23), nas quais a dor é participante encaixado em relação indireta com processos verbais ou mentais, nos quais se fala ou se pensa sobre a dor. Se considerado juntamente com a presença de ‘dolor’ como participante associado a um processo verbal no corpus em espanhol (cf. Tabela 8),8 os dados de participantes plenos e encaixados em circunstâncias podem indicar uma representação importante da dor como significado verbal

8

De acordo com a gramática sistêmico-funcional, as circunstâncias de assunto formam quase que exclusivamente padrão com os processos mentais (pensamento) e verbais (fala). Por isso, em certa medida, elas podem ser realizadas como o conteúdo (matter) do processo, seja como o conteúdo de um pensamento (pensar sobre alguma coisa – o assunto), ou o conteúdo de uma fala (falar sobre alguma coisa – o assunto). Note-se que não é possível haver assunto de processos materiais, por exemplo [doer sobre alguma coisa (?); comer sobre alguma coisa (?); andar sobre alguma coisa (?) etc.].

284 | Corpora no Ensino de Línguas Estrangeiras

em espanhol, a qual deveria ser explorada em futuros trabalhos. São exemplos das circunstâncias encontradas os excertos a seguir.

exemplo 23: assunto (i) Si el chico se queja de dolor de cabeza, y además tiene fiebre, vómitos y postración... [informativo espanhol]

exemplo 24: acompanhamento (i) [...] comence con dolor de rodillas... [fórum espanhol]

exemplo 25: lugar (i) Stress y depresión se observa más en el dolor en la mujer [informativo espanhol]

exemplo 26: razão (i) existen más de 7900 publicaciones de suicidios por dolor [informativo espanhol]

exemplo 27: meio (i) Incluso hay quienes sólo logran sentir su cuerpo a través del dolor [informativo espanhol]

exemplo 28: papel (i) Aparecen como dolores corporales [informativo espanhol]

exemplo 29: favor (i) está dedicada especialmente a la lucha contra el dolor [informativo

espanhol] Os resultados de nossa análise das ocorrências de ‘dor’ como participante nas duas línguas evidenciaram que ambos os idiomas possuem recursos léxico-gramaticais para representar a dor física em duas ordens relacionadas hierarquicamente: aquela superior da oração e a do grupo nominal.9 Essas duas ordens revelam a produtividade do processo de objetificação da dor, ao possibilitar que aquilo que era primariamente um

9

Os corpora também revelaram que, tanto em português como em espanhol, a dor pode ser construída como qualidade de um participante, podendo funcionar como uma classe ou uma qualidade (epíteto), de acordo com sua função na ordem do grupo nominal, seja ajudando a estabelecer uma taxonomia (‘área dolorosa’, ‘área dolorida’, ‘estímulo doloroso’) ou qualificando (‘estoy dolorido’). Para uma discussão detalhada destas duas funções, ver Figueredo (2007).

Corpora no Ensino de Línguas Estrangeiras | 285

processo (‘doer’) se tornasse um objeto com progressiva inserção em ordens hierarquicamente inferiores, como é o caso do grupo nominal dentro de uma frase preposicionada, relacionada a um grupo nominal maior. Representação da dor como processo No que diz respeito à representação da dor como processo, já foi apontado acima que a frequência no português é muito pequena e está basicamente restrita, nas duas ocorrências registradas no corpus,10 à dor como processo material (cf. Exemplo 3). Já em espanhol, dada a maior frequência de representação da dor como processo, verifica-se a ocorrência de dois tipos de processo, como indicado na Tabela 11. Tabela 11: ‘Dolor’ como processo em espanhol

Tipo de processo

Número de ocorrências

Frequência relativa quanto ao número de ocorrências

Frequência relativa quanto ao número total de itens para a língua

Mental

30

78,95%

0,25%

Material

8

21,05%

0,07%

Total

38

100%

0,32%

Como os exemplos a seguir mostram, é precisamente esse espaço da gramática da dor do espanhol que evidencia especificidade de recursos na construção de significados. A diferença entre as línguas portuguesa e espanhola se materializa não somente em um maior número de ocorrências na segunda como na existência de duas possibilidades de representação da experiência da dor como processo, quais sejam, material e mental. O Exemplo 30 mostra duas ocorrências de ‘dolor’, nas quais o corpo ou uma parte dele é participante de um processo material de fazer. Se observarmos outros significados que são construídos em espanhol com recursos gramaticais

10

A frequência relativa quanto ao número total de itens para a língua é igual a 0,01% nesse caso.

286 | Corpora no Ensino de Línguas Estrangeiras

análogos (o que a gramática sistêmico-funcional denomina de expressões agnatas), vemos que ‘el cuerpo duele’ [o corpo dói] é construído com recursos gramaticais análogos a expressões com processos materiais como ‘el sol brilla’ [o sol brilha].

exemplo 30: processo material (i) Y el cuerpo, cuando duele, nos está avisando algo. [informativo

espanhol] (ii) Estimado! si que duele eso [fórum espanhol]

Já no Exemplo 31, a dor é construída como um processo com impacto sobre um participante, numa configuração mental. Significados que são construídos em espanhol com recursos gramaticais análogos aos desses exemplos (‘me duele’) seriam ‘me gusta’ e ‘me impresiona’.

exemplo 31: processo mental (i) Cuando corro no me duele [fórum espanhol] (ii) y cuando desperté en terapia intensiva me dolía todo el cuerpo [entrevista espanhol]

Expressões agnatas nesses dois casos permitem compreender dois usos do processo ‘doler’ em espanhol que as gramáticas publicadas dessa língua não contemplam em suas descrições e que os falantes da língua não conseguem explicar. ‘Algo duele’ e ‘algo me duele’ são geralmente tratados como meras expressões semelhantes. A linguística sistêmico-funcional, através de sua percepção de tipos de processos, possibilita entender os dois usos – o material e o mental – e, ao dar significado a essa diferença, justifica a existência de ambos no sistema do espanhol. O maior número de ocorrências do lema ‘dolor’ como processo mental em espanhol (aproximadamente 79% das ocorrências de ‘dor’ como processo no corpus e 0,25% em relação aos itens do corpus nessa língua) sinaliza claramente para uma forma de construir a experiência da dor diferenciada daquela na língua portuguesa. Diferenças entre as línguas, como a apontada acima, juntamente com as diferenças nos usos dentro de cada sistema linguístico, mostram-se relevantes para diferentes campos do saber que necessitam de conhecimento sobre a linguagem. Dentre esses, destacamos o ensino de línguas e a tradução, sobre os quais teceremos maiores considerações na seção seguinte.

Corpora no Ensino de Línguas Estrangeiras | 287

5) Aplicações de uma abordagem combinando subsídios da Linguística de Corpus e da linguística sistêmico-funcional A escolha da linguística sistêmico-funcional enquanto teoria que embasa a indagação do corpus pesquisado justifica-se, como tentamos mostrar, por sua abrangência, possibilitando explicar usos da linguagem que as gramáticas tradicionais não contemplam em suas descrições. Isso porque a teoria examina a função de determinado elemento linguístico em sua relação com outros elementos dentro do sistema. Essa operação permite explicar diferenças como ‘estou com dor na perna’ e ‘minha perna está doendo’ e abordar perguntas cujas respostas não são contempladas pelas gramáticas, como a relativa à diferença no espanhol entre ‘me duele el cuerpo’ e ‘el cuerpo duele’. Também permite apontar semelhanças e diferenças entre o português e o espanhol em relação aos recursos mais frequentes de cada sistema para construir a experiência da dor. Uma das dificuldades que o aprendiz de língua estrangeira geralmente enfrenta no início de sua aprendizagem é tentar formular questões sobre o sistema que está aprendendo (cf. halliday e burns, 2006). A língua estrangeira se lhe apresenta como um espaço vasto, que os materiais de ensino e referência descrevem como um inventário de formas e funções. As gramáticas disponíveis não lhe fornecem orientação sobre os significados passíveis de serem construídos em relação a processos sociossemióticos compartilhados pela sua cultura e pela cultura da língua estrangeira. Nesse sentido, explorar campos semânticos específicos, como o da gramática da dor, a gramática da emoção, a gramática do medo etc., lhe permite construir gramáticas parciais que podem se somar à construção de uma gramática comparada. Pensar a gramática de forma comparada ou, em outras palavras, contrastar os significados passíveis de serem construídos nas línguas materna e estrangeira envolve descobrir como são realizados determinados significados, com base nas frequências de ocorrência num corpus. A tarefa pode ser realizada pelo professor ou tutor de forma a construir essas gramáticas parciais e utilizar os resultados na aula de língua estrangeira ou bem pode ser uma tarefa a ser levada a cabo conjuntamente pelos alunos e pelo tutor, que poderá orientar a execução dessa tarefa, conforme os passos assinalados a seguir. Cabe fazer aqui dois esclarecimentos importantes. O primeiro diz respeito à acessibilidade da teoria sistêmico-funcional para aqueles ainda não familiarizados com ela. Se a terminologia pode parecer complexa, já há

288 | Corpora no Ensino de Línguas Estrangeiras

numerosos trabalhos e introduções para distintos tipos de leitores, tanto em inglês como em português (cf., a título de exemplo, eggins, 1994; martin, matthiessen e painter, 1997; magalhães, 2005; pagano, 2007; figueredo, 2007, dentre outros). Além disso, a forte orientação semântica e discursiva da teoria, voltada para a compreensão da linguagem em seu contexto de uso, favorece a aceitação por parte dos estudantes. Um segundo ponto que merece destaque é a viabilidade desse tipo de análise, tendo-se em vista a acessibilidade de amostras de linguagem espontânea em bancos de dados e páginas da Internet (como é o caso de fóruns temáticos), o que possibilita que o professor e o estudante de língua estrangeira montem seus corpora de acordo com seus interesses. As etapas a serem seguidas são aquelas ilustradas neste trabalho, as quais poderiam ser sistematizadas da forma descrita a seguir. (a) Selecionar um âmbito da experiência humana que se deseja explorar em cada língua e comparar entre ambas. (b) Observar em que esferas ou atividades sociais os significados associados a essa experiência são mais proeminentes. Por exemplo, ao selecionar a experiência da dor, percebemos que esta era tópico frequente associado aos processos sociossemióticos relatar e compartilhar, estava vinculada ao campo do esporte e podia ser mapeada em textos que informavam e aconselhavam na Internet, em fóruns nos quais as pessoas interagiam e procuravam aconselhamento e dicas, e nas entrevistas a esportistas famosos. (c) Procurar e selecionar textos, tanto em registros mais próximos da oralidade quanto em registros escritos, para montar um corpus equilibrado, de preferência com número de palavras semelhante entre os diferentes tipos de texto. (d) Preparar o corpus em formato txt para poder ser acessado por um software com ferramentas de lista de palavras e concordância como o WordSmith Tools (scott, 2008). (e) Extrair dados quantitativos sobre os itens em foco e analisar as linhas de concordância nas quais ocorrem. (f) Anotar, com auxílio de software específico, as linhas de concordância com as etiquetas previamente definidas de acordo com as categorias que se deseja mapear, como, por exemplo, processos e participantes. (g) Observar, com base nos dados gerados pelo software de anotação, que padrões emergem em cada língua e compará-los, buscando semelhanças e diferenças.

Corpora no Ensino de Línguas Estrangeiras | 289

Além dos benefícios para a aprendizagem de línguas estrangeiras, como os dados analisados neste trabalho mostram, os resultados deste mapeamento podem ter impacto também para o desempenho em tarefas de tradução. A linguística sistêmico-funcional propõe uma concepção da tradução, não como transferência de significados, mas como ressignificação, isto é, identificação do contexto de uso do texto original e geração de um contexto de uso análogo na língua de chegada (cf. catford, 1965; matthiessen, 2001). Esse processo demanda a percepção dos diferentes espaços semânticos em cada sistema linguístico e das seleções que podem ser feitas. As probabilidades mostradas pelo corpus, mesmo que pequeno, são fortes indicadores de padrões de uso. Na análise apresentada, quando a dor é materializada em português e mentalizada em espanhol, vê-se como essas construções não são ocorrências casuais ou instanciais encontradas em textos individuais, mas a expressão de um sistema de opções pautado pela probabilidade de ocorrências conforme a função. O tradutor que desenvolve a habilidade de ressignificar, isto, é, de identificar o contexto de uso do texto original e assim gerar um contexto de uso análogo na língua de chegada, trabalha com probabilidades associadas aos contextos de uso. Nesse sentido, as probabilidades e seu lugar num sistema linguístico lhe permitem compreender e explicar, para depois poder traduzir e consubstanciar as escolhas realizadas. Conclusões Este trabalho buscou aplicar um percurso teórico e metodológico que possibilitasse empreender uma descrição de um aspecto específico de duas línguas – a forma como elas gramaticalizam a experiência da dor –, para poder realizar uma comparação dos recursos léxico-gramaticais mais utilizados em cada uma delas e identificar espaços de analogia e diferença. Os resultados apontam para analogias na representação da dor como participante de processos majoritariamente materiais e relacionais nas duas línguas. A diferença relaciona-se à maior representação da experiência da dor como processo na língua espanhola quando comparada ao uso em português, com destaque para processos mentais. Esse dado, juntamente com a maior frequência de ocorrências de ‘dolor’ como participante encaixado em circunstâncias de assunto em espanhol parece apontar para um espaço de representação mental da experiência da dor. Já em português, a recorrência de participantes associados a processos materiais e relacionais, e de circunstâncias

290 | Corpora no Ensino de Línguas Estrangeiras

de acompanhamento pode ser interpretada como indicativa de um espaço de representação material da dor. Halliday (2002, p. 364) destaca o papel da linguagem humana como reveladora, em sua gramática, de uma ‘teoria da experiência humana’, que se desenvolve nas interações do cotidiano. O autor também enfatiza a necessidade de se estudar a gramática do cotidiano, a qual geralmente passa despercebida ou recebe pouca atenção por parte do analista, diferentemente de outros usos aos quais se atribui maior valor e prestígio, como é a linguagem da ciência e da tecnologia. Essa gramática do cotidiano aceita, e inclusive, como Halliday (2002, p. 402) aponta, ‘celebra’ a indeterminação, a variação e a mudança. Ela constitui nosso recurso para transformar a experiência em significado. Seu estudo significa não apenas observar quais recursos léxico-gramaticais são empregados, mas também que formas de experiência podem ser construídas na língua. A perspectiva ensaiada neste trabalho incorpora, assim, ao estudo de uma língua e à comparação entre sistemas linguísticos, uma dimensão de transcendência maior. Propõe-se uma abordagem da linguagem, não como um inventário de formas ou funções, mas como possibilidades de significados, que em última instância podem explicar o potencial de uma língua para interagir com nossos pares e nosso ambiente. Os resultados aqui apresentados precisam, sem dúvida, ser ampliados através da exploração de outras formas de lexicalização da dor, além daquela feita pelos itens ‘dor’ e ‘dolor’, bem como através da expansão do corpus e da incorporação de outros tipos de textos além daqueles aqui contemplados. Todavia, apontam, por um lado, para o potencial desse percurso metodológico e teórico em termos das percepções obtidas em relação aos sistemas linguísticos, circunscritas a um espaço semântico específico, neste caso, a dor. Por outro lado, os resultados apontam para o potencial da metodologia adotada, a qual combina o trabalho com corpus para a geração de dados de forma automática com a anotação manual, neste caso de funções. A anotação representa uma operação fundamental para uma análise sistêmico-funcional da linguagem, que demanda a participação do analista, haja vista a incipiência de uma possível abordagem sem mediação humana que possa gerar dados de forma automática. A escolha de um espaço específico da semantização da experiência humana – como é a dor – e a circunscrição da descrição e comparação das

Corpora no Ensino de Línguas Estrangeiras | 291

duas línguas aos recursos lexicogramaticais na construção desse espaço experiencial atende à recomendação de Halliday, McIntosh e Strevens (1964), de circunscrever comparações entre línguas a aspectos específicos. À gramática da dor, como apontamos, podem se somar outras gramáticas relativas a outros domínios da experiência humana, como a emoção, o prazer, ou o medo. A observação de ocorrências e regularidades em conjuntos de textos compilados para fins específicos, isto é, corpora, permite capturar aquilo que Halliday reitera, ao longo de sua obra, como sendo a própria natureza da linguagem: padrões de uso e construção de significados. Desafiando concepções estabelecidas do que seja ‘apreender uma língua estrangeira’ e ‘traduzir’, este trabalho convida a repensar o significado dessas tarefas enquanto operações de ressignificação, sustentadas por corpora de textos em sistemas cuja arquitetura é pautada pela funcionalidade natural da nossa experiência. Referências bibliográficas

catford, j. c. A linguistic theory of translation: an essay in applied linguistics. Oxford: Oxford University Press, 1965. eggins, s. An introduction to systemic functional linguistics. London: Continuum, 1994. figueredo, g. Uma descrição sistêmico-funcional da estrutura do grupo nominal em português orientada para os estudos linguísticos da tradução. 2007. 292 f. Dissertação (Mestrado em Linguística Aplicada) – Faculdade de Letras, Universidade Federal de Minas Gerais, Belo Horizonte. ______; araújo, c., pagano, a. Principles underlying the experiential and the logical structures of the nominal group in Portuguese. In: european systemic functional linguistics conference, 19., 2008, Saarbruecken. Proceedings… Saarbruecken: Universidade do Sarre, 2008. Disponível em :. Acesso em: 12 jun. 2010.

halliday, m. a. k. Language as social semiotic. London: Arnold, 1978. ______. On the grammar of pain. Functions of Language, v. 5, n. 1, p. 1-32, 1998. ______. Grammar and daily life: concurrence and complementarity. In: webster, j. j. (Ed.). The collected works of M. A. K. Halliday. v. 1 (On grammar). London: Continuum, 2002. p. 369-382.

292 | Corpora no Ensino de Línguas Estrangeiras

______. On the grammar of pain. In: webster, j. j. (Ed.). The collected works of m. a. k. Halliday. v. 7 (Studies in English Language). London: Continuum, 2005. p. 306-336. ______; burns, a. Applied linguistics: thematic pursuits or disciplinary moorings? A conversation between Michael Halliday and Anne Burns. Journal of Applied Linguistics, v. 3, n. 1, p. 113-128, 2006. ______; matthiessen, c. Construing experience through meaning. London: Continuum, 1999. ______; ______. An introduction to functional grammar. London: Edward Arnold, 2004. ______; mcintosh, a.; strevens, p. The linguistic sciences and language teaching. London: Longman, 1964.

herke-couchman, m. sfl, corpus and the consumer: an exploration of theoretical and technological potential. 2006. 329 f. Tese (Doutorado em Linguística Aplicada) – Departamento de Linguística, Macquire University, Sidney. magalhães, c. Da coesão como recurso de continuidade do discurso. In: pagano, a.; magalhães, c.; alves, f. (Eds.). Competência em tradução: cognição e discurso. Belo Horizonte: Editora da ufmg, 2005. p. 209-240.

martin, j. r.; matthiessen, c. m. i. m.; painter, c. Working with functional grammar. London: Arnold, 1997.

matthiessen, c. The environments of translation. In: steiner, e.; yallop, c. (Eds.). Exploring translation and multilingual text production: beyond content. Berlin: Mouton de Gruyter, 2001. p. 41-124.

o’donnell, m. uam corpus tool. Madrid: Universidad Autónoma de Madrid, 2008.

pagano, a. s. Abordagens sistêmicas da tradução. In: caldascoulthard, c. r.; scliar-cabral, l. (Eds.). Desvendando discursos: conceitos básicos. Florianópolis: Editora da UFSC, 2007. p. 255-288.

scott, m. WordSmith Tools. Versão 5.0. Oxford: Oxford University Press, 2007.

Corpora no Ensino de Línguas Estrangeiras | 293

COMO USAR A LINGUÍSTICA DE CORPUS NO ENSINO DE LÍNGUA ESTRANGEIRA POR UMA LINGUÍSTICA DE CORPUS EDUCACIONAL BRASILEIRA1 Tony Berber Sardinha (pucsp)

abstract: This chapter is divided into two main parts. In the first one, I present three different types of foreign language teaching materials (mainly in English) based on corpora, which are concordance-based, text-centered and multi-media/multi-genre. Details of each one are discussed, as well as practical aspects relating to their use in the classroom. In the second part, I provide a brief overview of the field of corpora in language teaching in Brazil, highlighting some key players and tendencies, in addition to pointing out some areas that may deserve attention in the larger context of Brazilian educational Corpus Linguistics. Introdução Neste capítulo, pretendo enfocar dois assuntos amplos: (1) como preparar materiais de ensino de língua (especialmente estrangeira, mas não limitada a esta variedade) com corpus e (2) refletir sobre como anda a Linguística de Corpus educacional no país, quais são algumas de suas virtudes e mazelas, e sugerir maneiras de torná-la mais atuante no cenário nacional. A ordem dos temas, embora possa ser invertida, tem sua razão de ser: julgo que acima de qualquer consideração de ordem teórica, histórica, estratégica ou política está o imperativo de fazê-la acontecer nas aulas, e para tanto é condição sine qua non ter apoio em materiais de ensino. Precisamos lembrar que,

1

Agradeço ao cnpq (Brasília, Brasil) e à Fapesp o apoio recebido. Além disso, sou grato a meus alunos, pois juntos pensamos as questões apresentadas aqui. Meus agradecimentos também aos editores do volume, Stella Tagnin e Vander Viana, pela paciência, sugestões e revisão cuidadosa do texto; quaisquer problemas restantes são de minha responsabilidade.

294 | Corpora no Ensino de Línguas Estrangeiras

ao contrário de outros meios de ensinar, com a Linguística de Corpus é necessário ter dados, concordâncias, enfim, alguma informação concreta derivada de corpus. Em outras palavras, o professor / linguista de corpus não pode depender apenas de si mesmo, de sua oratória e do quadro negro, para dar aula. Os materiais de ensino são análogos aos instrumentos de um cirurgião, aos exames de um médico, ao software cad de um engenheiro ou arquiteto, enfim, a todos os artefatos que transformam trabalhadores em profissionais modernos. Sem tais artefatos, a prática dos professores se parece com a dos artistas, que precisam realizar uma obra única a cada vez que se apresentam. Muitos professores gostam de se enxergar como artistas, sendo essa uma das muitas metáforas que subjazem ao trabalho do professor (berber sardinha, 2007). Além disso, pelo que sabemos, cada aula é única e irreproduzível; então, nesse sentido o trabalho do professor é essencialmente uma arte mesmo. Porém, a realidade também nos mostra que o dia a dia da vida do professor é feito de muitas horas em sala de aula, diante do que é quase impossível ser artista continuamente e produzir arte de boa qualidade. As duas metáforas (do profissional e do artista) estão presentes, se complementam e entram em conflito, muitas vezes. De qualquer modo, minha convicção é de que a prática do professor deva ser sustentada por artefatos prontos e/ou de rápida confecção, de preferência reutilizáveis, preferencialmente com base em corpus. É isso que a primeira seção tenta mostrar. Como preparar materiais de ensino com corpus A Linguística de Corpus vem sendo usada no ensino de língua estrangeira há muito tempo, pelo menos desde meados dos anos 1980 e início dos anos 1990, com o que foi chamado de classroom concordancing e culminou com o volume seminal editado por Johns e King (1991a) na Universidade de Birmingham (Reino Unido). Não é coincidência que a aplicação ao ensino tenha surgido nessa universidade, pois na mesma época estava em operação o projeto Cobuild, liderado por John Sinclair, que também tinha como peça-chave a concordância, usada pelos lexicógrafos para descrever o significado das palavras com base nos padrões de uso e na frequência. Como o nome diz, classroom concordancing fundamenta-se no uso das concordâncias (listagens de palavras de um corpus, ladeadas por porções dos textos em que ocorrem, feitas por computador) como instrumento de ensino. Antes da invenção dos computadores, as concordâncias eram feitas à

Corpora no Ensino de Línguas Estrangeiras | 295

mão e serviam como meio de pesquisa e localização de conteúdos específicos de um corpus (normalmente textos de prestígio, como os religiosos). Em seguida, com a geração de concordâncias por computador, passaram a ter diversos usos, especialmente na lexicografia (com o projeto Cobuild) ajudando na tarefa de descrever os usos e sentidos de palavras de uma língua com a finalidade de criar dicionários. A introdução das concordâncias na sala de aula ainda traz resquícios de sua origem, pois um dos pressupostos do classroom concordancing é que o aluno se transforme em pesquisador, descobrindo os sentidos das palavras e expressões da língua estrangeira como se fosse uma espécie de lexicógrafo. Essa é a ênfase de trabalhos como Tribble e Jones (1990) e Murison-Bowie (1993), repletos de atividades baseadas em concordâncias, com as quais os alunos devem se engajar como pesquisadores, formulando hipóteses sobre os dados apresentados e tentando buscar respostas que confirmem ou rejeitem suas hipóteses. Os materiais atuais de ensino de línguas com corpora ainda são profundamente marcados pelo classroom concordancing, especialmente pelo data-driven learning (ddl /

johns, 1991), um de seus desdobramentos

(cf. Seção 2.1). Por exemplo, Römer (2009) enfoca alguns problemas da prática do professor, como dar feedback e preparar materiais, e mostra algumas maneiras pelas quais tais tarefas podem ser realizadas com apoio em corpora. Entretanto, as sugestões são quase todas baseadas em concordâncias. Bennett (2010), por sua vez, é um livro de apoio e divulgação, inteiramente dedicado a mostrar como usar corpora na sala de aula de inglês, com mais de 100 páginas de exemplos de materiais. No entanto, praticamente todos os exemplos e atividades são feitos com base em concordâncias. Chamarei os materiais de ensino criados na filosofia do classroom concordancing de ‘centrados na concordância’, visto que ela é a peça central, senão a única, da atividade. Há, porém, outras alternativas, que incorporam instrumentos além das concordâncias, como listas de palavras, palavras-chave e pacotes lexicais/ clusters, e não se restringem à concordância como o ‘texto de trabalho’ da atividade, enfocando textos escritos, música e vídeo, por exemplo. Assim, neste trabalho, proponho mostrar três tipos de atividades de ensino com corpora: (a) centradas na concordância, (b) centradas no texto e (c) multimídia / multigênero. Há muitas variações desses três tipos básicos e possivelmente muitos outros tipos além desses, mas para efeitos de apresentação e

296 | Corpora no Ensino de Línguas Estrangeiras

de recorte do escopo do trabalho, tratarei dessas três modalidades apenas. Os três tipos estão ordenados em ordem cronológica, de acordo com seu aparecimento no cenário da Linguística de Corpus, com as atividades centradas na concordância sendo as mais antigas (décadas de 1980/1990), seguidas pelas centradas no texto (década de 2000) e pelas multimídia / multigênero (década de 2010). Existe uma diferença importante entre a primeira e as demais: enquanto na modalidade centrada na concordância a Linguística de Corpus é constitutiva da atividade, ou seja, sem ela a modalidade não existiria; as outras duas poderiam existir (e existem) mesmo sem os corpora. Qual seria, então, a necessidade de acoplar a Linguística de Corpus a essas duas outras modalidades? Em primeiro lugar, as razões para usar a Linguística de Corpus com essas outras modalidades são as mesmas que justificam o uso dela no ensino de modo geral e incluem as delineadas abaixo. • A frequência e a co-ocorrência de itens lexicais, fontes primordiais de dados da Linguística de Corpus, são elementos vitais do sistema linguístico. Como peças-chave da lexicogramática (berber sardinha, no prelo), respondem por características vitais do discurso, tais como a maneira como ‘as coisas’ são ditas e como são montadas em sequência todas as construções de uma língua. As pesquisas com corpora mostram que a linguagem é usada de modo padronizado (isto é, de modo reconhecido como ‘esperado’ ou ‘típico’ por seus usuários), com correlações entre uso e contexto – contextos diferentes são expressos de maneiras distintas, com suas próprias probabilidades de uso, muitas vezes ajustadas de modo bastante específico (fine tuning) ao contexto social, situacional, falante, período histórico etc. A isso chamamos de linguagem como sistema probabilístico (halliday, 1992; berber sardinha, 2004). Assim, por meio de uso de corpora no ensino, podemos trazer aos alunos esse sistema de modo mais claro do que com aportes de outras teorias e metodologias da linguística. • A natureza do conhecimento de uma língua se altera com a pesquisa em corpora. ‘Saber uma língua’ implica conhecer como dizer e escrever segundo as convenções de variedades específicas da língua (um gênero ou registro específico em um contexto determinado); para isso, é preciso conhecer a lexicogramática das escolhas necessárias e desejadas para aquela situação específica. Para usar a lexicogramática com eficiência, é necessário conhecer as probabilidades daquelas escolhas, isto é, as frequências dos elementos, suas combinatórias e as frequências destes.

Corpora no Ensino de Línguas Estrangeiras | 297

• O centro do conhecimento acerca da língua desloca-se do professor, do dicionário e da gramática para o corpus. Isso ocorre porque a informação detalhada da lexicogramática não é acessível via intuição humana. Dicionários e gramáticas, por sua vez, quando baseados em corpora, trazem informação lexicogramatical preciosa, mas geralmente de uma língua como um todo e não de contextos específicos que possam ser de interesse para o ensino. Além disso, a grande maioria dos dicionários e gramáticas feitos com corpora são restritos à língua inglesa. Há poucos materiais desse tipo para outras línguas muito ensinadas, como o espanhol e o francês. • O falante nativo, que é o centro mor de conhecimento da língua, perde sua primazia. Isso porque as probabilidades da lexicogramática não são capazes de serem preditas por nenhum falante (nativo ou não), a não ser, algumas vezes, de modo muito geral (‘isso não soa bem’, ‘é comum / raro / ocorre mais do que aquilo’ etc.). Por outro lado, até de modo paradoxal, ao usarem a língua, a maioria dos falantes nativos tende a seguir padrões lexicogramáticos semelhantes, na maioria das vezes, o que aparece nas análises de corpora como sendo os padrões mais típicos de uma variedade linguística em particular. Ou seja, a lexicogramática pode ser acessada confiavelmente por meio da produção linguística em si, mas não por meio da intuição a respeito da produção. Isso deixa de ser uma surpresa quando consideramos que a lexicogramática de qualquer língua é de uma dimensão fabulosa, pois registra as probabilidades de escolha de todos os itens de uma língua, isoladamente e em conjunto (de vários tipos e extensões). A lexicogramática, ao contrário da gramática, não pode ser bem representada de modo econômico, com poucas regras e elementos que se juntam e produzem qualquer estrutura. Não sendo econômica, podemos dizer que seja extravagante, pois é composta de uma quantidade infinita de elementos, em contínua modificação. Isso poderia nos levar a crer que se trata de um sistema caótico, com opções em demasia que fogem ao nosso controle – mas, como sabemos por meio da exploração de corpora, a lexicogramática é um sistema estável, pois poucas opções respondem pela maioria das escolhas. • Os aprendizes, munidos dos conceitos acima e capacitados a lidar com as ferramentas e artefatos de análise de corpora, tornam-se pesquisadores e não meros ‘receptores’ da língua. A atividade de pesquisa, seja da ‘língua como um todo’, seja de variedades específicas que lhes sejam pertinentes, os empodera, tornando-os capazes de assumir o controle de seu próprio aprendizado,

298 | Corpora no Ensino de Línguas Estrangeiras

visto que eles mesmos podem definir metas, criar hipóteses, coletar e fazer levantamento de dados, observar padrões e tirar suas próprias conclusões. Ou seja, é um processo que encoraja a autonomia, mas não o individualismo, o trabalho solitário; pelo contrário, é desejável que seja conduzido em equipes, pois ao colaborarem, os alunos podem ajudar uns aos outros a superar dificuldades técnicas e conceituais e a entender melhor o próprio processo, sem falar no enriquecimento da interpretação dos achados. Contudo, o professor não é, ao contrário do que pode parecer, dispensável; é ele quem faz a mediação e colabora com o grupo auxiliando o aprendizado. Tampouco são dispensáveis outros elementos do contexto de ensino como dicionários, gramáticas, falantes nativos e/ou mais experientes. Todos esses elementos enriquecem o contexto, mas seu papel é muito menos determinista do que em outras abordagens, já que não mais detêm a palavra final sobre a linguagem. Em segundo lugar, as modalidades centradas em texto e em gênero são, por assim dizer, compostas da própria matéria-prima dos corpora, que são os textos e as variedades linguísticas. Em outras palavras, todo corpus é composto de textos (orais, escritos, verbo-visuais) de uma ou mais variedades da linguagem. Sendo assim, por definição, toda análise de corpus traz à luz achados importantes sobre textos e variedades linguísticas. Os instrumentos disponíveis para a análise de textos e gêneros já estão disponíveis no arsenal da Linguística de Corpus, como listas de palavras, palavras-chave, segmentadores textuais, etiquetadores etc. Assim, o ensino de línguas com textos ou gêneros pode se beneficiar, de imediato, desse aparato. Outras ferramentas podem ser desenvolvidas para complementar as já existentes, inclusive visando especificamente ao ensino, mas com as já disponíveis, especialmente as on-line, que dispensam instalação, é possível criar materiais de ensino sofisticados e focados em texto e gênero. O restante do trabalho tratará de cada um desses tipos. O foco é em aspectos práticos, para que o professor possa ter uma base para preparar suas próprias atividades. As implicações teóricas são uma faceta fundamental do uso da Linguística de Corpus na sala de aula, a que os professores devem atentar.2

2 Devido ao escopo do capítulo, não será possível entrar no mérito da questão dos pressupostos teóricos envolvidos em cada uma, tampouco mostrar em detalhes as questões envolvidas na preparação das atividades.

Corpora no Ensino de Línguas Estrangeiras | 299

A fim de sistematizar a apresentação dos pontos a seguir, adotarei a seguinte nomenclatura (não exaustiva nem normativa) para referir-me à preparação de materiais de ensino. • Material: um objeto que veicula e dá suporte à atividade. Tal objeto pode ser folha(s) de papel, quadro negro, imagem de computador projetada, entre outros. • Atividade: uma sequência de trabalhos feitos pelos alunos na sala de aula, individualmente ou não, veiculados em um material de ensino. • Texto de apoio: parte do material que contém uma porção de linguagem a ser explorada na atividade, geralmente um exemplar (ou mais de um) de, no mínimo, um gênero (normalmente verbal, isto é, veiculado preponderantemente por meio da língua falada ou escrita) existente na sociedade, escolhido de acordo com os objetivos do curso. Esse texto, entendido de modo amplo, pode ser um documento impresso, com começo, meio e fim, reproduzido com ou sem figuras, com ou sem a diagramação original da publicação fonte; uma transcrição de diálogo, acompanhada ou não do áudio correspondente; somente o áudio; ou áudio e vídeo etc. • Instrumento de apoio: parte do material que contém (o output de) uma ferramenta de análise de corpus, como uma concordância, lista de palavras, lista de palavras-chave etc., reproduzido total ou parcialmente, com ou sem edição, ou lacunas. • Exercícios: perguntas, diagramas, quadros etc. a serem trabalhados pelos alunos, em relação ao texto de apoio. Passo agora a apresentar as três modalidades de atividades. Atividades centradas na concordância Em Johns e King (1991a), referido acima, aparecem várias sugestões de uso de concordâncias no ensino de língua estrangeira, todas sustentadas na ideia de que tais instrumentos podem ser tão úteis para aprender inglês quanto para produzir dicionários. O sustentáculo principal é o desejo de tornar o aluno um pesquisador, de tal forma que ele viesse a buscar nas concordâncias regularidades no uso autêntico da língua. Com isso, ele encontraria por si mesmo padrões de uso e notaria nesses padrões a resposta para questões importantes do aprendizado de uma língua estrangeira, como o significado de palavras e expressões, o uso de classes gramaticais, além de questões relativas ao texto acadêmico e à cultura da língua estudada.

300 | Corpora no Ensino de Línguas Estrangeiras

Dessa tradição de levar concordâncias para o aluno de inglês instrumental e/ou de colocá-lo diante da tela de um computador, deixando que ele mesmo gere e explore as concordâncias, surgiu o

ddl (do inglês,

data-driven learning), que foi definido como: o uso, em sala de aula, de concordâncias geradas por computador com a finalidade de fazer com que os alunos explorem as regularidades de padronização da língua alvo, bem como o desenvolvimento de atividades e exercícios baseados em concordâncias. (johns e king, 1991b, p. iii).3

De acordo com Granger e Tribble (1998), o ddl teve como influência as abordagens que promoviam a conscientização (language awareness), que por sua vez enfatizavam a necessidade de o aprendiz de língua ter consciência do seu aprendizado. Scott (1986, p. 2), no contexto do ensino de estratégias de leitura do Projeto Nacional Inglês Instrumental, define conscientização como: certificar-se de que os alunos compreendam, com o coração e com a mente, por que estão aprendendo e praticando as habilidades que lhes são ensinadas, como cada aluno coloca isso em prática, e até que ponto as estratégias propostas são eficientes [...].4

Outra pedra fundamental do alicerce do

ddl é, como dissemos, a

ideia de que o aluno se torne pesquisador e/ou ‘detetive linguístico’, buscando ‘pistas’ nas concordâncias que o levem a descobrir padrões e sentidos nos dados. Conforme resume Johns (1991, p. 2), “fazer pesquisa é algo sério demais para ficar restrito aos pesquisadores”.5 O professor também, por sua vez, assume outro papel, o de orientador em vez de detentor das respostas. Ele precisa aceitar que os alunos podem descobrir facetas do uso da língua que ele desconhece.

3 No original: “the use in the classroom of computer-generated concordances to get students to explore regularities of patterning in the target language, and the development of activities and exercises based on concordance output”. 4

No original: “ensuring students understand, with their hearts as well as their heads, why they are learning and practising the skills being taught, how they individually do so, and to what extent proposed strategies are effective”. 5

No original: “research is too serious to be left to the researchers”.

Corpora no Ensino de Línguas Estrangeiras | 301

Na época, o professor podia levar concordâncias prontas para a sala de aula ou dar aula em um laboratório de computação, deixando os alunos pesquisarem as respostas às suas questões e dúvidas por meio da análise de corpus. Para isso, usavam-se programas como o MicroConcord, WordCruncher,

ocp, Mini-Concordancer e outros. O ddl continua sendo usado até hoje na preparação de materiais de ensino com corpora, não somente no contexto de ensino instrumental, nem de leitura apenas. O objetivo básico de atividades de classroom concordancing (e, por conseguinte, de

ddl também) é o de fazer com que

os alunos identifiquem padrões lexicogramaticais presentes na concordância. Não é preciso que o professor saiba de antemão quais os padrões existentes no instrumento de apoio, mas ele deve poder ajudar os alunos a encontrar alguns que são relevantes e rejeitar os irrelevantes, sem, porém, fechar os olhos a outros padrões até então desconhecidos que possam existir nos dados. Se preferir, o professor pode, claro, analisar e identificar os padrões que deseja ensinar, o que pode ser uma opção melhor para os professores que precisam ‘seguir o livro’. A preparação de atividades de ensino nessa linha precisa levar em conta algumas variáveis, tais como as indicadas a seguir. • Escolha da palavra de busca: Por palavra de busca, entendemos a sequência de caracteres digitada no campo de busca do concordanciador, que pode ser composta de um ou mais itens. Também pode ser inserida uma sequência no campo de palavra de busca e outra no campo de ‘palavras de contexto’ ou ‘colocados’, formando uma busca complexa. A escolha da palavra de busca é guiada pelos objetivos da atividade, da aula, da unidade e do curso. • Modo de apresentação: Para fazer uma atividade de

ddl, é preciso

decidir se o professor vai dar aula no laboratório ou na sala de aula. Se for no laboratório, os alunos podem trabalhar na produção e análise das concordâncias nos computadores instalados no local, fazendo eles mesmos as buscas. Porém, se a aula se der na sala, onde não há computadores para os alunos, então o professor precisa trazer a concordância pronta para distribuir ou projetar. • Tipo de concordância: A versão mais básica de um material de ensino de classroom concordancing é somente a própria concordância, que pode ser de diversos modos, entre os quais se incluem os tipos abaixo:

302 | Corpora no Ensino de Línguas Estrangeiras

p integral (com todas as ocorrências do termo de busca); o selecionada (apenas algumas ocorrências, escolhidas por relevância ou aleatoriamente); p editada (as linhas são modificadas, geralmente para simplificar a linguagem ou ‘limpar’ o conteúdo, como símbolos, palavras cortadas etc.); p preenchida (com a palavra de busca exibida); p lacunada (com a palavra de busca apagada).6 • Quantidade de concordâncias: A atividade pode ser feita com apenas uma concordância ou com mais de uma. No primeiro caso, em geral, os alunos trabalham no sentido de descobrir os padrões da palavra de busca. No segundo caso, em geral vão um passo além e comparam os padrões de duas ou mais palavras de busca. • Exercícios: Como dissemos, a(s) concordância(s) pode(m) vir sozinha(s) ou acompanhada(s) de exercícios, como perguntas, diagramas, ligar colunas (matching), completar frases (sentence completion), cloze etc. O primeiro ingrediente para a preparação do material é o corpus. O professor pode usar seus próprios recursos ou recorrer a compilações já existentes, como o British National Corpus (bnc) e o Corpus of Contemporary American English (coca). O segundo ingrediente é o software para produção das concordâncias. O professor pode escolher entre programas desktop (que precisam ser instalados no computador) ou on-line, que rodam diretamente da Internet. Entre os programas desktop destaca-se o WordSmith Tools (scott, 1997) e entre os on-line podem ser citadas as ferramentas do Centro de Pesquisa, Recursos e Informação em Linguagem (cepril, da

pucsp, em corpuslg.

org/tools). Antes de levar as atividades propriamente ditas para a sala de aula, o professor deve trabalhar com o grupo algumas etapas importantes. Inicialmente, é preciso indicar como ler uma concordância. O professor deve

6

É possível combinar mais de um tipo, de tal forma que uma concordância pode ser editada e lacunada, ou selecionada e preenchida, por exemplo. A escolha do tipo de concordância depende do objetivo da atividade e demais aspectos do contexto do ensino.

Corpora no Ensino de Línguas Estrangeiras | 303

deixar claro aos alunos que a concordância é um ‘documento’ que não deve ser lido da margem esquerda para a margem direita, como um texto tradicional. Tampouco precisa ser lido linha a linha, começando pela primeira. A leitura precisa ser feita focando a área central da concordância, na região ao redor da palavra nódulo. Posteriormente, o foco deve recair no modo pelo qual se podem observar padrões lexicogramaticais. O professor precisa explicar aos alunos o que é um padrão e como pode ser encontrado. Muitas vezes os alunos se baseiam na gramática (por exemplo, a identificação de um verbo posposto a like) ou na co-ocorrência de qualquer palavra sem relevância para a resolução de tarefa (como no caso da identificação de like + the). A experiência com o uso de concordâncias na sala de aula sugere que esta seja uma das maiores dificuldades para o aluno, e o professor não deve se frustrar caso demorem a ‘se descolar’ da gramática (classes gramaticais, constituintes frasais etc.) para encontrar os padrões. É preciso lembrar, no entanto, que a gramática não deve ser esquecida, pois é necessária, muitas vezes, para interpretar as concordâncias e chegar à lexicogramática. A produção da concordância pelo professor merece alguns cuidados. O primeiro concerne ao número de linhas. Na verdade, não existe um número ideal, mas muitas atividades restringem-se a uma página impressa no máximo. O segundo cuidado tem a ver com a seleção das linhas. Quase sempre é preciso que o professor selecione quais linhas vão figurar na concordância a ser usada no material, pois na maioria dos corpora a quantidade de linhas excede o tamanho de uma página impressa. Nesses casos, é recomendável que o professor escolha as linhas mais relevantes tendo em vista o tipo de padrão necessário para atingir os objetivos da atividade. Porém, conforme adverte Johns (1994, p. 298): O princípio mais importante que se deve ter em mente ao fazer esse tipo de trabalho é o que o processo de seleção, embora inevitável, não deve distorcer a evidência – ou seja, as linhas de concordância escolhidas devem representar, na medida do possível, a extensão total das características linguísticas e comunicativas dos dados brutos. Há duas fontes principais de distorção. A primeira pode ocorrer se a seleção for feita com base em critérios linguísticos que se esperaria encontrar nos dados em vez daqueles que realmente estão nos dados. A segunda pode ocorrer se a seleção for realizada a partir de critérios pedagógicos que podem, por si só, ser perfeitamente justificáveis (por exemplo, que se

304 | Corpora no Ensino de Línguas Estrangeiras deva dar preferência a citações integrais ou autoexplicativas), mas que podem ter o efeito inesperado de enviesar a amostra em favor de certas formas ou dos sentidos que tais formam expressam.7

O terceiro cuidado relaciona-se com a questão da simplificação das linhas. Alguns professores defendem a ideia de editar linhas (em vez de eliminá-las no processo de seleção) para facilitar a compreensão dos alunos. Tendo em vista a citação acima, em que Johns (1994) argumenta em favor da preservação dos dados, pode-se considerar que seja melhor manter as linhas da concordância íntegras, pois os alunos precisam ter em mente que é normal encontrar textos difíceis de entender. Eles podem tentar adivinhar o sentido dessas linhas, perguntar aos colegas, ao grupo ou ao professor ou simplesmente ignorá-las, desde que não haja prejuízo para a realização da tarefa. Outro cuidado diz respeito à dinâmica do trabalho; tradicionalmente, as tarefas de DDL são feitas individualmente. Contudo, é importante que o professor estimule a interação em grupo para a consecução da tarefa, pois na interação os alunos podem resolver problemas e internalizar as soluções de maneira mais produtiva (magalhães, 2010). No caso de as concordâncias serem produzidas pelos próprios alunos, há cuidados adicionais a seguir. Um deles é que o professor ensine os alunos a lidar com o software de busca, mostrando como formular buscas, ordenar as linhas da concordância, apagar as indesejadas, extrair colocados, comparar resultados etc. Uma atividade básica de ddl consiste apenas em uma concordância e a pergunta geral: ‘Qual/quais padrões você identifica nessa concordância e o que eles significam?’ Para ajudar o aluno, o professor pode fornecer um quadro para ser preenchido, como o reproduzido a seguir.

7

No original: “The most important principle that has to be borne in mind in carrying out this work is that the inevitable process of selection should not distort the evidence – that is, the concordance extracts chosen should represent as far as possible the full range of linguistic and communicative features of the raw data. There are two main sources of distortions. The first can occur if selection is made on linguistic criteria that ought to be in the data rather than what is in the data. The second can occur if selection is made on pedagogic criteria that may in themselves be perfectly justifiable (for example, that preference should be given to citations that are relatively self-contained and selfexplanatory) but which have the unforeseen effect of biasing the sample in terms of the forms represented or the meanings that those forms convey.”

Corpora no Ensino de Línguas Estrangeiras | 305

Padrão

Sentido

Linhas da concordância

Atividades mais guiadas contêm perguntas e exercícios voltados para aspectos específicos da concordância, como no exemplo abaixo. In which of the contexts below is like a verb (as in I like chocolate) and in which contexts is it a preposition (as in My brother eats like a horse)?

Verb: Preposition: (tribble e jones, 1990, p. 42) Outro tipo de atividade muito comum em ddl é com concordâncias lacunadas, em que a palavra de busca é apagada, devendo o aluno descobrir qual é(são) essa(s) palavra(s). O exemplo abaixo traz uma dessas atividades, em que as palavras possíveis de serem inseridas nas lacunas são listadas.

306 | Corpora no Ensino de Línguas Estrangeiras

(johns, 2002, p. 108-109

O

ddl pode ter uma orientação indutiva ou dedutiva. Os exemplos

acima são indutivos, na medida em que o aluno precisa encontrar evidências de uso e delas formar generalizações sobre formas e sentidos da língua. Na orientação dedutiva, porém, antes de iniciar a análise da concordância, o aluno formula hipóteses sobre a questão/ponto em foco na atividade. Em seguida, procura confirmar ou rejeitar essa hipótese com base nos dados. Abaixo aparecem alguns prós e contras da utilização de classroom concordancing. A listagem, feita a partir da experiência do Grupo de Estudos de Linguística de Corpus (gelc), não é exaustiva, nem ordenada por ordem de seriedade da questão. • Prós: o O tempo de preparação de atividades pode ser bastante pequeno, caso o professor não faça uma análise prévia da concordância, ou mesmo inexistente, caso opte por deixar os alunos gerarem suas próprias concordâncias.

Corpora no Ensino de Línguas Estrangeiras | 307

o O aluno ganha independência do professor e dos materiais didáticos e adquire autonomia para aprender por si mesmo. o O aluno e o professor passam a ver a linguagem como sistema probabilístico, regido por expectativas maiores ou menores de uso de certos sentidos em certos contextos, para determinados fins, cristalizado em padrões lexicogramaticais recorrentes que exprimem tais escolhas. o O aluno descobre elementos ‘novos’ na linguagem, como frequência, probabilidade, repetição e co-ocorrência, que são geralmente ignorados na maioria dos materiais de ensino. o Muitos alunos, principalmente de ciências exatas e de computação, gostam de saber que diversos elementos importantes da linguagem são quantificáveis e que tal quantificação é possível de ser feita sem muito esforço com os softwares existentes. o O aluno conscientiza-se da correlação entre os contextos de uso e os padrões mais frequentes nesses contextos. o O aluno aprende que os padrões lexicogramaticais da língua exprimem sentidos específicos e que mudá-los implica alterar o sentido expresso por eles. • Contras: o O tempo de preparação de atividades pode ser muito alto, quando envolver a análise prévia da concordância e/ou sua modificação (seleção ou edição de linhas). Sem levar em conta a edição, formatação e impressão dos materiais. É sempre recomendável verificar ou analisar (mesmo que não exaustivamente) as concordâncias antes de levá-las para a sala de aula, para saber se os padrões contidos nelas são pertinentes ao objetivo de ensino-aprendizagem almejado. Normalmente, muitas buscas não retornam resultados úteis, sendo necessário fazer várias delas até que uma seja satisfatória. Quando o corpus é grande, as buscas podem demorar. o Os alunos, quando expostos continuamente a materiais baseados exclusivamente em concordâncias (assim como qualquer outro), ficam entediados e desmotivados a aprender. o Muitos alunos resistem à ideia de ler ‘textos em pedaços’, isto é, linhas de concordância, truncadas ou não. Eles sentem falta de ver uma situação concreta de comunicação (não fragmentada) em que aqueles padrões existem.

308 | Corpora no Ensino de Línguas Estrangeiras

o Muitos alunos buscam na concordância aquilo que já sabem, como regras gramaticais e não padrões lexicogramaticais. o Alguns professores transformam os padrões em regras: a não existência de um padrão em uma concordância é interpretada de modo equivocado como a não possibilidade de usar tal padrão e consequente ‘erro’, caso ocorra. o Alunos de cursos não instrumentais, como os de língua geral em institutos de idioma, raramente têm a mesma motivação para lidar continuamente com textos escritos e concordâncias do que os alunos de instrumental. o Alunos mais jovens dificilmente têm a disciplina e a concentração necessárias para analisarem com cuidado as concordâncias. Atividades centradas no texto Nesta vertente de materiais de ensino com corpora, a concordância não é o centro da atividade; o foco passa a ser o texto de apoio (cf. Seção 2). A concordância, por sua vez, transforma-se em mais um elemento da atividade, assumindo um papel secundário. Isso não quer dizer que ela deixe de ser importante, ou mesmo indispensável, até porque o objetivo precípuo da maioria das atividades de ensino com corpora é aprender a lexicogramática, e a concordância é um bom instrumento para engajar o aluno nesse aprendizado. As atividades centradas no texto surgem como resposta a algumas das desvantagens do classroom concordancing indicadas acima, notadamente a relacionada à falta de ligação entre as concordâncias e uma situação concreta de uso da língua, onde os padrões estejam representados. Um texto contextualiza o uso linguístico em uma dada situação social, histórica, de produção, de reprodução, em um gênero (mais ou menos) determinado, enfim, com as características que tornam a linguagem discurso. Muitos alunos sentem-se mais confortáveis lidando com textos, devido à familiaridade com eles dentro e fora da escola, do que com concordâncias. Com isso, quebra-se uma barreira psicológica que, em certos contextos, pode dificultar ou impedir o uso efetivo de corpora. Basta lembrar que, mesmo com um texto focal, a essência da atividade não muda significativamente em relação a atividades baseadas em concordância, pois os corpora e os padrões (que são os pilares do ensino com corpora) ainda estão presentes. Uma proposta de atividade centrada no texto é a de Moreira Filho (2007), que passo a enfocar abaixo. Ela é instrumentalizada por um software

Corpora no Ensino de Línguas Estrangeiras | 309

especificamente desenvolvido para esse fim, chamado de Reading Class Builder. Esse programa, disponível no sítio do autor, em corpuslg.org/software/ downloads, cria automaticamente tais atividades, as gerencia em uma biblioteca e permite a personalização de várias opções. O programa, em si, vem em resposta a outra desvantagem de classroom concordancing: o tempo excessivo despendido na preparação de materiais. Com esse programa, o tempo de preparação é drasticamente reduzido e a reutilização de materiais é encorajada pela organização das atividades na sua biblioteca interna. Embora não seja a única opção em termos de atividades centradas no texto, acredito que ilustre muito bem o que seria essa vertente de materiais baseados em corpora, com a vantagem de ser feita automaticamente. É preciso que fique claro, contudo, que o professor pode criar esse tipo de atividade sem utilizar esse software específico, usando outros programas de análise de corpus e editores de texto para chegar a resultados parecidos. Como o nome indica, o programa foi criado visando ao ensino de leitura, em inglês. Foi inspirado no ensino de leitura instrumental levada a cabo pelo Projeto Nacional Inglês Instrumental (celani et al., 1988), que tinha como uma de suas linhas mestras o ensino de estratégias de leitura. Sua base é uma atividade padrão, isto é, um modelo (template) fixo de atividade, também proposto no contexto do Projeto Nacional Inglês Instrumental. Esse modelo é preenchido com os resultados da análise de corpus realizada pelo programa. Como as atividades podem ser editadas depois de geradas, elas podem ser adaptadas para ensinar outras habilidades também.8 A criação de uma atividade começa com o acionamento de uma rotina sequencial de auxílio ao usuário (wizard), que passa pelas etapas a seguir. 1. O usuário determina o tamanho da atividade, em três opções (pequena, média ou grande). Cada tipo tem uma quantidade diferente de exercícios e concordâncias. 2. O usuário seleciona um texto para ser o foco da atividade, que deve ser escrito em inglês, pois os recursos de análise linguística do programa são do inglês somente. O texto é um arquivo de computador em formato txt, que pode ser salvo na biblioteca do programa para uso posterior.

8

A descrição detalhada da criação, funcionamento e avaliação do programa está em Moreira Filho (2007). Aqui aparecem apenas os elementos principais.

310 | Corpora no Ensino de Línguas Estrangeiras

3. O programa retorna uma análise preliminar, contendo uma série de estatísticas (cf. Figura 1), como o tamanho do texto, a dificuldade presumida (com base no Flesch Reading Ease Score), a densidade lexical (quantidade de substantivos), a riqueza vocabular (razão forma/item), entre outros. O usuário pode usar a análise preliminar para avaliar a pertinência da escolha daquele texto em relação ao objetivo da atividade. Caso deseje ignorar tais estatísticas, pode fazê-lo e continuar gerando a atividade normalmente.

Figura 1: Tela de estatísticas do Reading Class Builder

4. O programa oferece a possibilidade de o usuário customizar a atividade, digitando o título dela; escolhendo a língua dos enunciados (português ou inglês), o corpus/corpora, e as palavras de busca para a concordância; além de outras opções, como a de incluir o texto fonte. O texto a ser possivelmente incluído no material provém do arquivo txt e não contém a diagramação original com eventuais figuras, gráficos e tipografia que existem em textos de revistas, jornais e da web, e que podem ser úteis para inferir significado durante a leitura. O professor pode pedir ao programa para não incluir esse texto e levar uma reprodução mais fiel do texto à classe. 5. O programa gera e mostra a atividade, baseada nas escolhas do usuário (vide abaixo). 6. O usuário pode editar, salvar, arquivar (na biblioteca interna do programa) ou imprimir o material.

Corpora no Ensino de Línguas Estrangeiras | 311

Aparece abaixo um exemplo de material produzido com o Reading Class Builder.

activity i Reading strategies • Before reading the text, pay attention to the most frequent words and try to answer the questions: Lexical Words

Grammatical Words

01. other

4 (01,78%)



01. and

9 (04,00%)

02. average

3 (01,33%)



02. to

6 (02,67%)

03. is

3 (01,33%)



03. that

4 (01,78%)

04. be

3 (01,33%)



04. more

4 (01,78%)

05. increase

3 (01,33%)



05. on

3 (01,33%)

06. years

2 (00,89%)



06. the

21 (09,33%)

07. climate

2 (00,89%)



07. a

2 (00,89%)

08. effects

2 (00,89%)



08. in

2 (00,89%)

09. °c

2 (00,89%)



09. between

2 (00,89%)

10. temperature

2 (00,89%)



10. over

2 (00,89%)

1. Can you predict the topic of the text? 2. What kind of text / genre would show the words above? • Skim the text and try to answer the following questions: 3. Are there pictures, symbols, graphs or other clues which may help you understand the text? 4. Read the list of words given below and mark the ones you believe are cognates. Can you find more cognates in the text? If so, what are their translations?

climate – temperature – global – effects – climatic – oceans – polar – severity – gases – interactive

312 | Corpora no Ensino de Línguas Estrangeiras

5. These are some important words of the text. Which ones are you familiar with? Try to group them according to a pattern of meaning.

average – increase – climate – warming – temperature – global – believed – effects – other – climatic 6. What kind of text is this? 7. What is the text layout like and its importance to this kind of text? 8. What is the aim of the text? 9. Who could be interested in reading this text? • Read the text and answer: 10. What is the general idea of the text? Compare with your answer in question 3. 11. What are the main ideas? 12. The computer believes that 55,56% are repeated words, 38,4% are cognates and it classifies the text as fairly easy. Do you agree? Why? Lexicogrammar 1. Check if the words below have prefixes or suffixes. List them.

interactive including information include resulting 2. What is the function of the following words in the text? Try to identify their grammatical class. Function

Grammatical Category

while and than that as 3. Look at the concordances below and try to figure out the patternsof use and the meanings or each word in the center (the search word).

Corpora no Ensino de Línguas Estrangeiras | 313

01 02 03 04 05 06 07 08 09 10

regrouping of forces might allow the drove in 86 runs on a .255 freshman its in 46 at-bats for a .130 batting was 30-30. Willie's lifetime batting day's losses in the Associated Press ound 675 in the Dow Jones industrial ower taxes. The Dow Jones industrial On $1.1 billion of 90-day bills, the o dealers are experiencing are above ally forecast at 129% of the 1947-49

average voter a better pull at the right le average, completes the Birds' spring squad average in the first 12 games. He took a mi average of .318 is 11 points beyond Mickey’ average and making the largest gain in abou average. It was a level at which some of th average advanced 7.19 to 687.87. Of 1,253 i average yield was 2.325%. The rate a week a average for their business, farm equipment average, three points higher than the July

01 02 03 04 05 06 07 08 09 10

iday in voting itself a $10 per day n whether the "quickie" vote on the he event Congress does provide this s and Sen Parkhouse. The bill would ocial security costs. outlays would ent said he will recommend later an sident said he will ask Congress to he asked a 20 million dollar a year ance of the nuclear deterrent. This ed since 1948, each year showing an

increase increase increase increase increase increase increase increase, increase increase

01 02 03 04 05 06 07 08 09 10

n Oslo, the ministers have met in a racted new attention to the ethical nd of the year if the international ting, not because the international ed and organized, and the political k had ended. Long after the erratic , ancestor worship and animism. The make calendars and there's not much Greg's shoulders. "But this goddamn embling other cities whose habitual

climate of candor, and made a genuine attemp climate of his home state. A reader of the B climate were favorable and schedules permitt climate was improving, but precisely because climate was favorable. They had the unspoken climate and the washed-out final round on Su climate ranges from the steamily equatorial climate here, so none of us know how long an climate. It's for carabao not airplanes". "W climate was cold, instead of the sprawling b

01 02 03 04 05 06 07 08 09 10

ettled on the sofa with his coffee, warming his hands on the cup, although the r He said he could do it. Rector was warming to his over-all strategy by the time sun warmed her, as it seemed to be warming everything, perhaps even the undersi He was eyeing the Anniston catcher warming up his pitcher before the inning beg this, to me, strikes an especially warming note- it shall avail the vandals nau Fanny", into a delightful and heart-warming film. The task of taking the raw mat e story over and over again, always warming ourselves with a glow of complacency recently, this heat pump method of warming air was efficient only in areas of m e lengths in decanting, chilling or warming, or banishing without further invest dinal sin which may be committed in warming a wine is to force it by putting it

in expense allowances. Pelham said can be repealed outright or whether in federal funds", the State Board from $5,000,000 to $15,000,000 the Officials estimated the annual tax in funds for programs under the chi grants to states for vocational reh from 30 to 50 millions, in matchin in the "threshold", as the conventi in offenders. Among arrests reporte

314 | Corpora no Ensino de Línguas Estrangeiras

01 02 03 04 05 06 07 08 09 10

ad little tolerance for changes in f countless numbers of people. The mises. Hastening to the attic, the the hypothalamus- near the body's when they have a wide variation of e fruit is then cooled to 42`f , a ing of the fruit until a grovelike r waxing or gassing needed. If the s, tastes best when served at room ing the pool a sudden high rise in

temperature temperature temperature temperature, temperature, temperature temperature temperature temperature temperature

and pressure; he was considerate dropped to twenty below at night of which was easily hotter than t sleep and water-balance controls very warm followed by cool in th at which it lapses into a sort of (room temperature) is restored. t is controlled properly, the avoca For sweet-sour sauce, cook onion will turn your pool poison green

Critical reading • What’s your opinion about the text? Do you agree with it? Why? Why not? All About Global Warming Global warming is the term used to describe a gradual increase in the average temperature of the Earth’s atmosphere and its oceans, a change that is believed to be permanently changing the Earth’s climate forever. While many view the effects of global warming to be more substantial and more rapidly occurring than others do, the scientific consensus on climatic changes related to global warming is that the average temperature of the Earth has risen between 0.4 and 0.8 °c over the past 100 years. The increased volumes of carbon dioxide and other greenhouse gases released by the burning of fossil fuels, land clearing, agriculture, and other human activities, are believed to be the primary sources of the global warming that has occurred over the past 50 years. Scientists from the Intergovernmental Panel on Climate carrying out global warming research have recently predicted that average global temperatures could increase between 1.4 and 5.8 °c by the year 2100. Changes resulting from global warming may include rising sea levels due to the melting of the polar ice caps, as well as an increase in occurrence and severity of storms and other severe weather events. For more information on global warming, including the long-term effects of global warming, the causes of global warming, the latest global warming news, and more, just select any global warming article or other interactive feature below. (Source: )

Corpora no Ensino de Línguas Estrangeiras | 315

Alguns dos prós e contras de atividades baseadas em texto, especialmente as realizadas com o Reading Class Builder, são descritos a seguir. • Prós: o O uso de um texto focal ajuda a contextualizar os padrões enfocados no material. o Professores com cargas horárias intensas podem economizar tempo preparando materiais inéditos em minutos e organizando esses materiais rapidamente para uso futuro. o O Reading Class Builder pode ser usado como programa de análise de corpora, pois dispõe de um concordanciador; um listador de colocados, de frequência de palavras, de n-gramas; e um extrator de palavras-chave. o As atividades são flexíveis, podendo ser editadas a contento pelo professor. o A performance do programa, nas análises automáticas, é muito boa (moreira filho, 2007). • Contras: o Em relação à modalidade de atividade:  Com o foco no texto e em sua compreensão, o ensino de padrões lexicogramaticais pode ficar em segundo plano.  Muitos dos padrões exibidos nas concordâncias podem não estar presentes no texto. Dessa forma, a contextualização desses padrões pode não ocorrer de fato. o Em relação à operacionalização dessa modalidade pelo Reading Class Builder:  O foco geral dos materiais é na leitura e, portanto, para serem usados para ensinar outras habilidades, é preciso fazer mudanças substanciais na atividade gerada.  As atividades têm um forte apelo a cursos de inglês instrumental, sendo, portanto, menos úteis em outros contextos de ensino.  As atividades podem ser vistas como uma versão informatizada de materiais de ensino de inglês instrumental feitos anteriormente sem computador. Em outras palavras, podem ser entendidos mais como materiais de inglês instrumental e menos como materiais de ensino baseados em corpora.  O foco específico do material corresponde às estratégias de leitura; em cursos que não têm essas estratégias no currículo, o material não é diretamente aplicável, a não ser com modificações.

316 | Corpora no Ensino de Línguas Estrangeiras

 O programa Reading Class Builder possui alguns bugs em versões recentes do Windows.  Sua análise automática comete alguns erros, como, por exemplo, mostrar erroneamente cognatos. Atividades multimídia/multigênero As vertentes anteriores baseiam-se fundamentalmente em textos escritos, sejam originalmente veiculados pela escrita, sejam falados e posteriormente transcritos. Embora a Linguística de Corpus atual seja essencialmente limitada a arquivos-texto, sem som ou imagens, não há razão para que os materiais de ensino nela inspirados também tenham essa limitação. Afinal, os alunos de língua estrangeira (particularmente os de língua geral) terão de lidar com uma ampla variedade de meios, veiculados em mídias de muitos tipos. Entre os meios atuais, pode-se citar o escrito para ser lido (ex. texto de jornal), o escrito para ser ouvido (ex. notícia de

tv),

o preparado para ser visto como se fosse espontâneo (ex. cinema), o escrito para ser lido como se tivesse sido ouvido (ex. muitos emails, tweets etc.), entre muitos outros. E entre as mídias, pode-se citar tanto as tradicionais, como jornal, revista, livro, telefone, música, rádio e tv; quanto as novas, surgidas no ambiente digital, como

www, podcast, twitter, Youtube, email, entre

tantas outras. Como se sabe, existem incontáveis gêneros e subgêneros. Ao mesmo tempo, do ponto de vista teórico, há inúmeras teorias de gênero, que concordam em certos aspectos, mas divergem em outros. Berber Sardinha (2009) elencou as seguintes características centrais das diversas teorias de gênero, tendo em vista a Linguística de Corpus. 1. São ‘tipos relativamente estáveis’ (bakhtin, 1997 [1953], p. 279) de comunicação que formam dimensões (biber, 1988), com os membros individuais se aproximando mais de uns do que de outros, o que significa dizer que não há nenhum gênero absolutamente independente. Todos se relacionam com todos os outros, em maior ou menor grau. 2. São socialmente estabelecidos (fairclough, 1989). Ou seja, surgem da necessidade humana de comunicação em sociedade, para atingir certos fins (martin, 1992) em diversas esferas de organização da sociedade, e

Corpora no Ensino de Línguas Estrangeiras | 317

revelam as atividades sociais e intelectuais de seus usuários (bazerman, 1988, p. 4). 3. São culturalmente definidos (halliday e

matthiessen, 2000).

Por cultura, entende-se tanto sua manifestação no nível macro (cultura brasileira, por exemplo), quanto nos seus níveis micro (cultura da empresa, da escola, do departamento, da repartição etc.) (swales, 1998). 4. São historicamente marcados e seu conteúdo, organização interna, lexicogramática e demais aspectos se alteram ao longo da história (bakhtin, 1997 [1953]; biber e finegan, 1989). 5. São sequenciados internamente (halliday e HASAN, 1989). Exemplares de um mesmo gênero possuem uma organização interna relativamente recorrente (bhatia, 1993;

martin, 1992; swales, 1990), que se

mostra por meio de estágios, ou segmentos, cujo conjunto representa coerentemente os temas e subtemas enfocados (berber

sardinha,

1997) e as finalidades a serem cumpridas, passo a passo. 6. São muito numerosos. Isso nos impede de chegar a um inventário definitivo de todos os gêneros existentes no mundo, em qualquer época. Nossa intuição linguística é falha (sinclair, 1991), muito embora nos dê a ilusão de que somos conhecedores plenos do gênero. Há uma quantidade potencialmente grande de características que fogem à nossa percepção e que somente podem ser levantadas de modo confiável por meio de ferramentas de análise de corpora eletrônicos. 7. São compostos por uma lexicogramática distinta, que se revela pela probabilidade diferenciada de emprego de palavras, padrões e estruturas gramaticais típicas (biber, 1988; bronckart, 1985; scott e tribble, 2006). A quantidade de mídias e gêneros é muito grande e tende a crescer, além de tornar-se mais complexa, com a translação de gêneros de uma mídia para outra (geralmente das analógicas para digitais), à medida que novas tecnologias vão surgindo (e outras desaparecendo ou tornando-se obsoletas). A Figura 2 traz exemplos desses gêneros (limitando-se a três exemplos de cada) em algumas mídias comuns atualmente.

318 | Corpora no Ensino de Línguas Estrangeiras

Mídia

Gêneros

Livro

Romance Conto Biografia

Jornal

Editorial Notícia Carta dos Leitores

Revista

Artigo Coluna Infográfico

www

Versões on-line de jornais, revistas etc. Websites de escolas, empresas, pessoas etc. Blogs

Twitter

Tweets pessoais Tweets corporativos Comentários

Email

Email pessoal Email corporativo / institucional Spam

Videogame

Jogos de plataforma Jogos de ação Jogos de simulação (avião, corrida de automóveis, esportes etc.)

Book readers (Kindle, Sony, iPad etc)

Livro em versão de book reader Revista em versão de book reader Dicionário em versão de book reader Figura 2: Exemplos de mídias e seus gêneros

É nesse contexto de uma profusão e complexidade cada vez maior de gêneros e mídias que surge essa proposta de materiais de ensino baseados em corpus. Uma de suas justificativas é a de que a sociedade se modifica, assim como os gêneros que nela circulam. Desse modo, os alunos e professores estarão cada vez mais expostos a esses gêneros (seja como produtores ou receptores), ao mesmo tempo em que tais gêneros se tornam parte de seu dia a dia, no lazer, em casa e no trabalho. A sala de aula precisa, então, capacitar os alunos a terem bom desempenho no contato com esses gêneros, sob pena de ficar ultrapassada e, como já sabemos, acusada de ser um lugar anacrônico e desestimulante; sem falar que pode ser questionada em relação a constituir um local de formação

Corpora no Ensino de Línguas Estrangeiras | 319

de cidadãos capazes de enfrentar os desafios de uma sociedade cada vez mais globalizada, digital e em transformação. É verdade, porém, que, por outro lado, não dispomos ainda de corpora da maioria dos gêneros apontados na Figura 2 e, via de regra, sempre haverá um espaço de tempo relativamente grande entre o surgimento e a utilização em massa de certos tipos de texto e sua disponibilidade de corpora. Com os analógicos, há muitos casos assim. Basta ver a conversação, um dos gêneros mais antigos de que se tem notícia (se não o mais antigo!), que é também um dos mais difíceis de conseguir em formato de corpus eletrônico. Com os digitais, contudo, o acesso a grandes quantidades de texto é menos complicado, visto que muitos existem por natureza em formato de arquivo de computador. É o caso de emails, tweets, blogs e outros gêneros escritos. Contudo, já se percebe que, com a facilidade cada vez maior de gravar vídeos e disponibilizálos nessa mídia via Internet, fica mais difícil encontrar transcrições em texto de debates, entrevistas e teleconferências, que antes eram veiculadas transcritas (pois era custoso guardar arquivos grandes de vídeo, além de ser rara a Internet banda larga, o que dificultava baixar e visualizar tais arquivos, entre outros motivos). De qualquer modo, com a abundância de arquivos em formato digital em rede, os praticantes da Linguística de Corpus não precisam mais, em muitos casos, esperar para que terceiros criem e disponibilizem corpora. Pelo contrário, eles mesmos podem criar seus próprios corpora para seus propósitos. Isso é positivo, visto que o cenário dos gêneros digitais modifica-se rapidamente, sempre atrelado ao desenvolvimento de novas tecnologias e à melhoria da infraestrutura de transmissão de dados. Por conseguinte, os corpora ‘oficiais’ (Brown, bnc, anc etc.) invariavelmente se desatualizam, seja pela ‘idade’ dos textos contidos neles, pelos temas tratados, pela falta de gêneros contemporâneos, ou pela presença de gêneros obsoletos, entre outros motivos. Outra característica importante que marca os materiais multigênero / multimídia é que eles ‘conversam’ cada vez mais entre si. Assim, ao se engajar com um dos gêneros, o usuário muitas vezes passa a interagir com outro, geralmente em torno de uma mesma atividade social9 ou assunto. Por exemplo, uma pessoa que queira desempenhar a atividade social ‘jogar videogame’ pode

9

Propomos o termo ‘atividade social’ para diferenciá-lo de ‘atividade’, que usamos aqui com o sentido de ‘atividade de ensino de língua estrangeira’.

320 | Corpora no Ensino de Línguas Estrangeiras

precisar de ajuda para decidir se vale a pena comprar determinado jogo ou não. Para auxiliá-lo, existem gêneros como game reviews (textos ou vídeos com comentários) que avaliam os jogos e podem servir de base para a decisão de investir ou não em determinado título. Depois de efetuada a compra, o usuário, ao jogar, engaja-se com o gênero videogame, podendo encontrar textos representando diálogos entre os personagens (no caso dos

rpgs, role

playing games), que lhe dizem o que é preciso fazer para conseguir ‘ganhar’ ou passar de nível. Ocorre que esse mesmo usuário necessita em muitas ocasiões buscar ajuda para atingir esses objetivos e, atualmente, dispõe de auxílio na Internet, na forma de gêneros como os walkthroughs (textos com instruções detalhadas sobre como completar os níveis de jogos) e os let’s plays (vídeos mostrando jogadores habilidosos, normalmente com comentários deles, que ilustram como vencer os desafios da partida), além de outros. Caso seja um gamer inveterado, pode ser que queira conhecer melhor a história do jogo, dos personagens que o compõem e/ou de seus produtores. Para tanto, pode vir a se engajar com outros gêneros que têm essa finalidade como, por exemplo, wikis (textos enciclopédicos interativos que fornecem diversas informações sobre o assunto), bestiaries (relação dos inimigos encontrados nos jogos e dicas sobre como vencê-los), além de textos em revistas especializadas ou no próprio website da empresa que produz o jogo. O exemplo acima, embora fictício, ocorre muitas vezes na vida real e exemplifica esse ‘caminho’ seguido no universo dos gêneros. Nem todo percurso precisa ser assim, obviamente, podendo variar substancialmente de pessoa para pessoa, mesmo dentro da mesma atividade. O percurso também pode envolver a produção de gêneros e não somente sua recepção: o usuário imaginado acima pode, por exemplo, escrever um email para um grupo de discussão de jogos, ou fazer uma entrada em um blog ou discutir com amigos e outros jogadores, in loco, questões relativas às partidas. A popularização da produção de exemplares de gêneros, a meu ver, tende a crescer no mundo contemporâneo, pelo menos entre os digitais. Com a difusão de canais de veiculação de texto, som, imagem e vídeo, aumentam as chances de qualquer pessoa deixar registrada de modo público sua produção textual, como emails, tweets, vídeos de youtube etc. Antigamente, com gêneros analógicos, os canais de difusão de produção eram limitados, muitas vezes pagos e restritos a uma pequena parcela da população. Muitas

Corpora no Ensino de Línguas Estrangeiras | 321

pessoas produziam poucos textos, geralmente textos escolares, diários, cartas e outros afins. Atualmente, tanto a produção quanto a divulgação de textos foram democratizadas, embora exijam conhecimento de muitos gêneros novos. Assim, no contexto de ensino, faz muito mais sentido hoje do que antigamente (pois se aproxima mais da realidade) pedir a um aluno escrever uma notícia, pois atualmente essa notícia pode ser de fato veiculada ao público em um website (pessoal ou de uma instituição, por exemplo), ao passo que no passado as chances de ver sua notícia publicada em um jornal ou revista impressa eram mínimas. A questão que surge é como operacionalizar esse percurso multigênero / multimídia em atividades de ensino com corpora. Não há na literatura disponível, até o momento, propostas sobre como colocar em prática essas ideias, por isso apresentaremos, a seguir, nossa própria tentativa de como levá-las a cabo. Há propostas disponíveis sobre como ensinar gêneros, mas embora à primeira vista a nossa proposta possa ser confundida com o ensino de gêneros, ela é distinta. A principal diferença é a de que ela não almeja tornar os alunos proficientes em um ou mais gêneros; ou seja, ao final da atividade, o objetivo não é tornar o aluno mais bem preparado para receber ou produzir gêneros, mas que se torne capaz de interagir com os gêneros, mesmo de uma forma casual, para poder ter elementos linguísticos que lhe permitam desempenhar a atividade social enfocada, que, por sua vez, depende do encontro com muitos gêneros. Em outras palavras, esta proposta visa capacitar os alunos a lidar com (produzir e/ou receber) a linguagem envolvida em determinada atividade social. O que segue abaixo é apenas uma sugestão. Os exercícios são fornecidos como possíveis exemplos e não como elementos definitivos ou obrigatórios. As questões podem ser alteradas e tornadas mais ou menos específicas para cada gênero enfocado. Foram incluídas perguntas as mais gerais possíveis para que possam servir para diferentes gêneros, necessitando de pouca adaptação. O professor deve complementá-las sempre que necessário, seja no planejamento da atividade, seja durante a sua execução, na interação com os alunos. Isso pode significar inclusive trazer exercícios visando à produção do próprio gênero, caso seja relevante no contexto do curso em questão. Além disso, é fundamental que os alunos saibam os conceitos de atividade social (social activity) e de gênero (genre) para poderem fazer a atividade.

322 | Corpora no Ensino de Línguas Estrangeiras

O material mostrado a seguir foi criado com base em quatro critérios. • Modularidade: O material, embora extenso, é dividido em partes distintas, que podem ser preparadas independentes umas das outras. • Reaplicabilidade: O conteúdo é composto por enunciados gerais que podem ser aplicados a muitos outros materiais sem necessidade de alteração. A intenção é diminuir o tempo gasto na preparação do material e aumentar sua reusabilidade. • Curso: O material foi criado tendo em mente um curso de inglês geral, nível avançado. • Conhecimento prévio: Os alunos devem conhecer conceitos como gênero, atividade social, padrão, frequência, significado e terem familiaridade em lidar com instrumentos da Linguística de Corpus, como concordâncias, listas de frequência, palavras-chave, agrupamentos de palavras ou pacotes lexicais etc. É importante que eles tenham tido oportunidade de se conscientizar da importância desses conceitos para o aprendizado e o funcionamento da língua. O material compreende quatro partes básicas, conforme descrição a seguir. 1. Foco na atividade social: A atividade social é compreendida como aquela normalmente realizada em sociedade que envolve o uso de gêneros relacionados. Por exemplo, de forma a permitir a ação de jogar videogame, a sociedade dispõe de vários gêneros, como o próprio videogame, mas também outros que ‘gravitam’ ao seu redor, como explicado anteriormente. No material descrito a seguir, foram mencionadas as tarefas de escolher um jogo e de aprender a jogar melhor como sendo relacionadas. 2. Foco no gênero: Nesta parte, a atenção é voltada ao contexto de uso de cada gênero em questão, mais especificamente no contexto físico e social de produção e de recepção (bronckart, 1999). 3. Foco no texto: Aqui, enfocam-se os exemplares de texto que ilustram os gêneros, mais especificamente na lexicogramática de itens selecionados. Caso os alunos tenham acesso a corpora na aula, eles mesmos podem selecionar itens e rodar as concordâncias e outros artefatos (listas de palavras e de categorias gramaticais, pacotes lexicais e gráficos de distribuição). Caso contrário, o professor deve trazer alguns desses elementos prontos para a aula. Os elementos linguísticos escolhidos como foco não precisam ser diretamente relacionados às atividades sociais. Por exemplo, em relação a

Corpora no Ensino de Línguas Estrangeiras | 323

‘aprender a jogar’ via o gênero let’s play do YouTube, o foco das expressões não é necessariamente nos itens lexicogramaticais usados para permitir que se jogue melhor, ou para entender o que é preciso fazer para vencer as etapas. Embora possa ser feito, o professor não deve se restringir a isso, visto que o objetivo do material não é ensinar a prática de videogame, mas ensinar a língua estrangeira, o que não se correlaciona com a habilidade de usar videogame. Até porque isso poderia ser aprendido sem a necessidade da interação em inglês, por meio dos colegas ou de materiais veiculados em português (embora em menor quantidade). Em um currículo baseado em tarefas, contudo, o foco poderia ser na própria tarefa de praticar videogame, mas essa não é a abordagem seguida aqui. 4. Foco no corpus: A intenção aqui é fazer um trabalho explícito de exploração de um corpus de um dos gêneros estudados. No presente exemplo, enfocamse as resenhas de jogos. Como foi dito, geralmente é difícil encontrar corpora de gêneros específicos, por isso essa seção pode ser omitida. O corpus do gênero específico não precisa ser extenso nem representativo, podendo ser constituído de uma dezena de textos apenas, como foi o caso abaixo, em que havia apenas 15 exemplares, colhidos da Internet. Por menor que seja a quantidade de textos, a sua exploração pode revelar aspectos sobre a linguagem do gênero que a leitura isolada desses mesmos exemplares não seria capaz de revelar. Por outro lado, é importante ler quantos textos for possível, para que o professor e alunos se familiarizem com o gênero. Caso os textos sejam extensos, pode-se selecionar excertos. Segue abaixo o material desenvolvido, criado como uma sugestão didática a ser posta em prática em muitas horas-aula, possivelmente mais de cinco. A descrição a seguir é composta de diversos materiais diferentes que necessitam ser apresentados aos alunos. A veiculação pode se dar em papel, em computadores de um laboratório, ou via projetor multimídia. O professor pode veicular partes da atividade de modo diferente, de acordo com a disponibilidade de recursos e de infraestrutura: worksheet/handout com perguntas e exercícios para os alunos que pode ser duplicado em xerox; texto que pode ser copiado em xerox; página da web que pode ser exibida no próprio browser e projetada em tela ou impressa e distribuída aos alunos; e vídeo on-line que pode ser mostrado também via projeção da tela do computador. Alternativamente, caso esteja disponível este recurso, todo esse material pode ser veiculado por meio de uma lousa interativa (interactive whiteboard).

324 | Corpora no Ensino de Línguas Estrangeiras

• Social activity: playing videogame • Course: General English • Level: Advanced Complete the diagram below showing how this social activity relates to other ones, and which are some of the genres that link to each activity. In the central box, write the name of the main activity and in the other boxes around it, the name of related social activities and their genres.

In the tasks below, a few related social activities and genres have already been selected. How do they compare to the ones in your diagram? Focus on the social activity • Related social activity: Choosing a game to buy 1. Work on these issues in groups or with a partner and then report to the class. (a) Who is likely to be involved in such an activity? (b) Why do they get involved in it? (c) Did you ever get involved in it? If so, do you like it? If not, why not? (d) Do you have the equipment necessary to perform the activity?

Corpora no Ensino de Línguas Estrangeiras | 325

(e) What is the social relevance of that activity? (f) What names/labels do users of that activity have in society, if any? (g) Are you a user? Do you know any users? What are they like? (h) How does society see this activity? (i) Is this activity gaining or losing popularity, in your opinion? (j) What social groups are more likely to perform this activity? (k) Any other similar issues? Talk about other relevant issues related to it. 2. What are some of the genres related to that activity? Genre 1 • Related social activity: Finding out about a game • Genre below is known in society as: _________________________ Excerpt:

326 | Corpora no Ensino de Línguas Estrangeiras

Focus on the genre • Now focus on the issues below, which are related to genres associated with this social activity. Again, work in groups or with a partner and then report to the class. Work on these questions: 1. The text/figure above illustrates an example of such a genre. Do you recognize it? Did you ever use it? What name do you think this genre has, if any? 2. Preview the genre and work on these issues in groups. (a) On what media is it conveyed? (b) Who has access to it? (c) Where is this produced? Under what circumstances? (d) Who produces it? (e) Who is the intended audience? (f) How can you have access to it? (g) Did you ever produce an exemplar of that genre? If so, explain. If not, why not? 3. Have a look at the figure above and detect some of its parts and what purpose they serve and the information they convey. (a) Major topic: ___________________________ (b) Specific topics: _________________________

Part/segment/stage

Purpose / information

(Add more lines if necessary) 4. What’s your response to the related social activity for this particular genre given the text that illustrates it?

Corpora no Ensino de Línguas Estrangeiras | 327

Focus on the text 1. Are there any cognates in the text? What do they mean? 2. Any visual clues that help you understand the text? Lexicogrammar Here are some lexical items that appear on the excerpt in concordances that illustrate their uses in English, taken from a large corpus (Corpus of Contemporary American English; ). For each one, try to work out some of the patterns that the word appears in and the meanings/functions/purposes associated with them. Work in groups or with a partner. Then report to the class. 3. Overflowing with10 01 02 03 04 05 06 07 08 09 10

oans as possible, a pot of gold both envisioned the many rooms mmer – to a garbage bin full to per (which, unsurprisingly, was r and the ss hospitals would be d library with built-in shelves ntary schoolare bulletin boards offering from his home. He was The house was always loud and nt varieties, our homestead was

Patterns

overflowing with overflowing with overflowing with overflowing with overflowing with overflowing with overflowing with overflowing with overflowing with overflowing with

riches, a scheme powered by som a large family. But now their h tape so edited, so beknuckled a laundry). # See? He knew me, un wounded. Call him a pessimist, books. I like this house. It ha worn photos, kids it has placed passion that you could just tas people. The experience of being fresh, organic, premium produce

Meaning/function/purpose/etc.

10 As concordâncias reproduzidas tiveram sua largura diminuída devido à paginação do livro; na sala de aula, entretanto, o professor pode optar por exibir mais conteúdo por linha, sempre que possível.

328 | Corpora no Ensino de Línguas Estrangeiras

4. Subplot 01 02 03 04 05 06 07 08 09 10

e watered-down Boston Legal), and a tween Lawrence and his allies. (The ows Cal to be ensnared in a dubious any movies are. The Randy-Stephanie n than the others in the historical hotly contested South. In a strange e season. With Miles's remarks as a y pointed out in lawyerspeak, " the s' shtick is overly familiar. And a audience off the hook with a comic

Patterns

subplot about star Mark-Paul Gosselaar's hai subplot involving the agents recruitment of subplot involving Anne Collins (Robin Wright subplot is unpersuasive, and the last few tw subplot Mansbach interweaves with the white subplot, Texas fans want Oklahoma State to k subplot -- and with a plane circling the sta subplot in plaintiffs' screenplay about Gord subplot involving a young boy as Williams' a subplot or a happy ending, music without Big

Meaning/function/purpose/etc.

5. Are there any other words you would like to focus on in this excerpt? If a computer and a corpus are available in class, work with a partner and run a concordance for it, then work out its patterns and meanings/etc. If this is not possible, then do this exercise at home or at a computer lab or library in school.

Genre 2 • Related social activity: Deciding to buy • Genre below is known in society as: _________________________

Corpora no Ensino de Línguas Estrangeiras | 329

Excerpt: Say hello to one of the best games for the GameCube The adventure begins conventionally enough: Princess Peach has gone missing again, and it’s up to Mario to find her. She was last seen in Rogueport, a seedy and mysterious coastal town far from the familiar reaches of the Mushroom Kingdom, and this place serves as the game’s central location. Mario will gradually uncover Rogueport’s secrets as he attempts to decipher a treasure map that Princess Peach left in his care. Soon enough, the quest develops a clear episodic structure involving the search for seven crystal stars, each one a powerful artifact. The stars are all tucked away in different parts of the world. So, in turn, the process of finding each one is like a unique and self-contained storyline in which Mario will meet some colorful new friends and foes and solve various puzzles using his ever-growing number of special abilities. That means Paper Mario is structured much like classic Mario games, in which each main level has a distinctively different tone and style to it. (continued)

Focus on the genre (Similar questions to the ones suggested above.) Focus on the text (Similar exercises to the ones suggested above.) Genre 3 • Related social activity: Learning how to play • Genre below is known in society as: _________________________

330 | Corpora no Ensino de Línguas Estrangeiras

Excerpt (video should be shown):

Focus on the genre (Similar questions to the ones suggested above.) Focus on the text (Similar activities to the ones suggested above.) Lexicogrammar 1. So anyway Have a look at the chart below, showing a distribution of this expression across different registers of American English. The figures indicate the frequency, first the total count and then the average per million words. What does this chart show?

Corpora no Ensino de Línguas Estrangeiras | 331

Now look at the concordance below and figure out its patterns and associated meanings/functions/purposes/etc. 01 02 03 04 05 06 07 08 09 10

Right. Well, I still can' t find. old for Annie. kotb: ok. gifford: an' t just have one. one. gifford: kotb: Ooh. ok. gifford: Wow. kotb: that's why God invented caller id. was an understanding between them. They're strong. They got to be. " later all is well. #1:6: ! 5:7118: e. #1:1205: Yeah, yeah. Got you. : Yeah. #1:2357: That is... : Yeah.

So anyway... gifford: It was high on your lis So anyway, I played Miss Hannigan and got to So anyway. kotb: All right. gifford: There's So anyway, if you' re on a diet and you don' So anyway, let's give it till the end of pilo So anyway, she was seeing him in his altoger So anyway, the Swede walks in and there's thi So anyway, on a Tuesday, we hung out all day So anyway, the good news for us is scientific So anyway, Emily, I know you're watching, and

Focus on the corpus The corpus for this part of the activity is a collection of 15 gamespot.com reviews of Nintendo Gamecube games, totaling 15,582 running words and 3,000 different words. Have a look at the lists below and choose items that you find convey important information for that particular genre. If a computer and a corpus are available in class, work with a partner and run a concordance for two of those items, then work out its patterns and typical uses. If this is not possible, then do this exercise at home or at a computer lab or library in school. 1. Word frequencies Below you’ll find a list of the top 50 most frequent words in the corpus. 000001 000002 000003 000004 000005 000006 000007 000008 000009 000010 000011 000012 000013

940 480 450 442 415 384 269 195 194 174 160 152 141

the of a and to you in game s is that it your

000014 000015 000016 000017 000018 000019 000020 000021 000022 000023 000024 000025 000026

136 128 126 119 113 101 90 87 84 82 78 78 77

as with for are can pokémon on but at from this ‘ll have

000027 000028 000029 000030 000031 000032 000033 000034 000035 000036 000037 000038 000039

74 74 73 68 67 65 61 55 55 55 54 54 53

there be ‘t an will one has who up all world some which

000040 000041 000042 000043 000044 000045 000046 000047 000048 000049 000050

53 53 52 50 50 47 45 45 44 44 42

or into if more games also time cards though by like

332 | Corpora no Ensino de Línguas Estrangeiras

2. Bundles Below is a list of some of the most frequent 3 and 4-word lexical bundles in the corpus. What are some of these used for in this genre? 13

you ’ll be

07

you ’ll be able

11 11 11 11 10 10 09 09 09

the world of the game is check prices users who gale of darkness a lot of wonderful life is be able to at a time

06 05 05 04 04 03 03 03 03

you ’ll need to the fact that you for the most part fans of the series at the end of you ’ll have to you ’ll find yourself there are plenty of one of the most

This may be complemented by a list of possible functions of bundles that students may use as a guide to the activity, such as those in Biber, Conrad and Cortes (2004), Allan (2008) and Hyland (2008). 3. Grammatical classes Below are lists of the top 10 words of some grammatical classes. Look at each list and try to find out if there is something special about these words. If there are ready-made concordances for some of these words, work on them and extract patterns and their meanings/functions/purposes/etc. If not, run concordances for some of them and outline their patterns and meanings etc. Top nouns, singular 195 game 101 pokémon 54 world 45 time 36 life 36 battle 34 character 30 shadow 28 series 26 story

Top verbs (except ‘be’ and ‘have’) 22 get 17 make 16 find 15 see 14 use 12 go 11 take 10 summon 10 play 10 need

Top adjectives 28 wonderful 26 new 26 good 25 different 19 other 18 powerful 17 unique 16 same 16 first 15 original

Corpora no Ensino de Línguas Estrangeiras | 333

Concordance on ‘get’: 01 02 03 04 05 06 07 08 09 10

The battles are easy to pick up and several minutes, and it can begin to gly meditative pacing to it. Once you getting paid for your efforts, you'll re's the aforementioned groove you'll e. There's probably an optimal way to kémon themselves. The pocket monsters There's some decent music, though you s more than anything as an impetus to and raise a family. You don't have to

get get get get get get get get get get

into, especially if you've been follow tedious when you have to fight several familiar with the particulars of carin into a groove where it's dangerously e into, and you can always expect Van, t peak performance out of your farming, some good attention here and are easil the sense that there was some cultural you traipsing and fighting through the married in the game, but if you choose

(Add more concordances)

Conclusion Go back to the initial social activity and reflect upon the findings you came up with along the way. How would they help someone perform better in that particular social situation? Are there other genres or information you think are necessary in order to help someone be successful in that activity? What other corpora would you like to look at in order to find appropriate answers for that?

Para concluir esta seção sobre a modalidade multimídia/multigênero, seguem abaixo alguns dos prós e contras. • Prós: o A atividade em aula tenta reproduzir tarefas do mundo real, em que os usuários têm objetivos a atingir e cuja consecução depende do engajamento com gêneros diversos. Esse engajamento, por sua vez, implica saber lidar com a lexicogramática dos vários gêneros. o Os alunos trabalham com os gêneros em diversos níveis de generalidade, partindo do contexto cultural social maior e chegando ao nível mais específico da lexicogramática. o Os alunos entram em contato com muitos padrões, além de frequências de palavras isoladas e de classes gramaticais. o O trabalho, que é extenso e minucioso, ganha coerência ao centrar-se em uma atividade social pivô. É dessa atividade social que partem todos os exercícios de ensino e para onde deve voltar a atividade, ao concluir-se.

334 | Corpora no Ensino de Línguas Estrangeiras

o Esse material pode ser feito com base em um modelo (template), o que diminui o tempo de preparação. Muitas das perguntas e dos exercícios são padrão, aplicando-se a qualquer outro gênero escolhido. O material pode, em última análise, ser produzido automática ou semiautomaticamente, com um software específico (ainda não desenvolvido). • Contras: o A preparação do material é complexa, pois requer trabalhar com uma quantidade de gêneros diferentes. o Pode ser confundida com uma abordagem para ensinar gêneros, porém ela não visa tornar os alunos hábeis produtores dos mesmos. o Pode ser vista meramente como um tipo de atividade comunicativa centrada em um tópico (no exemplo apresentado, no tópico videogame). o Pode ser tida erroneamente como uma sequência de vários estudos isolados de gêneros diferentes. o Exige muitos recursos e infraestrutura, na medida em que lida com mídias diferentes. o Necessita de professores especializados, pois além de serem versados em Linguística de Corpus, precisam ser conhecedores de diversas teorias de gênero, conforme discutido acima. Com esta seção, encerro a apresentação dos tipos de atividade com corpora e passo a enfocar questões relativas à Linguística de Corpus e ao ensino de línguas em nosso país. A Linguística de Corpus e o ensino de línguas no Brasil Para encerrar, tratarei da situação da integração da Linguística de Corpus com o ensino de línguas no Brasil. Com a documentação disponível nos currículos de pesquisadores e por meio de levantamento bibliográfico, pode-se situar o início do uso de corpora no país, para o ensino de línguas, nos últimos anos da década de 1990. Algumas palestras, comunicações, cursos e publicações marcaram oficialmente esse começo. Em 1999, Berber Sardinha apresentou a palestra “O computador e o aprendiz de línguas no Brasil: uma visão baseada em corpus” (berber sardinha, 1999c) na Universidade Anhembi-Morumbi, em São Paulo, e uma comunicação sobre o corpus br-icle (the Brazilian Sub-Corpus of the International Corpus of Learner English), no Japão (berber sardinha, 1999b). No mesmo ano, publica o primeiro artigo sobre o tema no país, intitulado “Beginning Portuguese corpus linguistics:

Corpora no Ensino de Línguas Estrangeiras | 335

exploring a corpus to teach Portuguese as a foreign language” na revista delta (berber sardinha, 1999a). O artigo relata pesquisa apresentada antes, em 1996, em um seminário da Universidade de Birmingham (Reino Unido) e no ii talc (Teaching and Learning Corpora) na Universidade de Lancaster (Reino Unido) (berber sardinha, 1996). Em 2000, assina o primeiro capítulo sobre o tema no país, intitulado “Computador, corpus e concordância no ensino da lexicogramática da língua estrangeira” (berber sardinha, 2000), parte do volume As palavras e sua companhia: o léxico na aprendizagem das línguas, editado por Vilson Leffa. Ainda em 2000, Jacobi apresenta o trabalho “Introducing concordances to teach Spanish to Brazilian students” na conferência talc, em Graz, na Áustria. Em 2001, Tagnin apresenta a palestra “Perspectivas para o ensino: on-line corpora” no ii Seminário sobre Estudos de Corpora, na usp, São Paulo. No mesmo ano, Berber Sardinha (2001) oferece a comunicação “A revolução silenciosa: computador e corpora no ensino-aprendizagem de línguas”, no xi inpla, na pucsp. Também em 2001, Jacobi defende a primeira dissertação sobre o tema no Brasil, na pucsp, intitulada Linguística de Corpus e ensino de espanhol a brasileiros: descrição de padrões e preparação de atividades didáticas (decir/hablar; mismo; mientras/en cuanto/aunque). A partir dessa época, intensifica-se a pesquisa no país, com várias dissertações sendo defendidas, notadamente na pucsp (sob orientação de Tony Berber Sardinha), na usp (sob orientação de Stella Tagnin) e na ufsc (sob orientação de Marco Rocha). A primeira (e talvez única, até o momento) tese de doutoramento sobre o uso de corpora no ensino, no país, foi defendida em 2001, por Inês dos Anjos Louro, sob orientação de Stella Tagnin, na usp. Até o momento não foi publicado no país, até onde se possa verificar, nenhum livro didático ou similar com base em corpora, embora comecem a aparecer materiais de apoio ao professor que empregam a Linguística de Corpus, como Nash e Ferreira (2010). No restante desta seção, enfocarei a produção referente ao

gelc

(Grupo de Estudos de Linguística de Corpus), com sede no Programa de Linguística Aplicada e Estudos da Linguagem da pucsp, que tem se destacado na área de ensino e corpora no Brasil. Por mais significativo que seja, esse é apenas um recorte da produção no país e não esgota a produção da área, até porque ela continua crescendo, à medida que a Linguística de Corpus se expande. Em outros termos, as informações abaixo não têm a intenção de refletir a totalidade do uso de corpora no ensino em nosso país.

336 | Corpora no Ensino de Línguas Estrangeiras

Assim como no exterior, quando da sua introdução no país, tivemos grande influência do classroom concordancing nas pesquisas envolvendo corpora e ensino de línguas. Desse modo, as primeiras dissertações que foram sendo defendidas, como as de Jacobi (2001) e de Bértoli Dutra (2002), tinham como foco o uso de concordâncias na sala de aula. Porém, as pesquisas subsequentes usaram a Linguística de Corpus em outras abordagens. Por exemplo, as de Barbosa (2004) e de Morales (2008) desenvolveram material de ensino de inglês com corpora a partir da abordagem experiencial (kohonen, 2001); a de Ferrari de Oliveira (2004) baseou-se no Sociointeracionismo (vygotsky, 1999 [1934]) para criar materiais de inglês instrumental com corpora; e a de Vicentini (2006) na Experiência de Aprendizagem Mediada (feuerstein, klein e tannenbaum, 1991), também de cunho sociocultural. Além da variedade dos aportes, também temos visto um amplo leque de corpora sendo usados nas pesquisas: Bértoli Dutra (2002) utilizou um corpus de letras de música; Vicentini (2006), Veirano Pinto (2008) e Rampazzi (2008), corpora de seriados de tv; Morales (2008), um corpus de vídeos da Internet; Condi de Souza (2005), um corpus jornalístico em hipertexto; e Boscariol-Bertollino (2008), um corpus de videogames. A língua predominante dos corpora empregados nessas pesquisas tem sido o inglês, mas também há pesquisas voltadas ao espanhol, como as de Jacobi (2001), Soto Balbás (2003), Alonso (2006) e Magalhães (2010), além do português (berber sardinha, 1999a; ferreira, 2010). Uma área em que há produção importante no país é a de avaliação de material didático com corpora, com a consequente criação de corpora compostos de livros-texto (textbook corpora; mindt, 2002; römer, 2004, 2008), cujo objetivo é o de comparar os textos e/ou explicações contidas em livros didáticos com corpora a fim de verificar até que ponto o conteúdo dos livros é fidedigno à linguagem ‘real’, não inventada para fins educacionais. Succi Jr. (2003) avaliou unidades do livro The Language of Business English: Grammar & Functions; Campos (2006), Inside Out Upper Intermediate; Contrera (2010), cinco livros: English 900, Way Ahead, Interchange, Inside Out e Touchstone; e Ferreira (2010), o volume Muito Prazer, de ensino de português para estrangeiros. Outra área muito importante que agora começa a aparecer entre nós (e me parece inédita no mundo) é a da investigação sobre o que acontece durante a aula quando são usados materiais produzidos com corpora, do ponto de vista da interação entre os alunos e entre estes e o professor. A pesquisa de

Corpora no Ensino de Línguas Estrangeiras | 337

doutoramento de Magalhães (2010) trata exatamente dessa problemática, em aulas de espanhol na universidade. Por fim, não seria possível deixar de mencionar a pesquisa com corpora de aprendizes, em que também há produção significativa, de longa data. No país residem pelo menos três corpora importantes de inglês como língua estrangeira: br-icle (berber sardinha, 1999b; ), comaprend (Corpus Multilíngue de Aprendizes, que inclui outras quatro línguas além do inglês; tagnin, 2004; ) e Cabri (Corpus de Aprendizes Brasileiros do Inglês, dutra e silero, 2009). Esses projetos nos mostraram a dura realidade da coleta de composições escritas. Embora seja uma produção corriqueira e abundante nas escolas, a prática nos revela que é muito complicado conseguir a colaboração de professores, coordenadores e diretores de escola, e efetivamente coletar os textos. Isso se dá por várias razões, como falta de interesse em colaborar com a pesquisa acadêmica de modo geral, receio de que a pesquisa aponte deficiências do método de ensino, dificuldades logísticas de busca e coleta dos textos, falta de tempo dos professores, pouca oportunidade de ‘fugir’ do programa de curso quando a coleta exige um formato ou tema específico, entre outros. Em resumo, com base nesses apontamentos, pode-se dizer que a Linguística de Corpus educacional no Brasil existe formalmente pelo menos desde o final dos anos de 1990, com o lançamento do br-icle e o artigo de Berber Sardinha (1999a). Ao longo desse tempo, vimos a publicação de vários trabalhos, a oferta de disciplinas, seminários e oficinas, e mesmo a formação de uma sessão específica sobre o tema no Encontro de Linguística de Corpus (elc) de 2009 na uerj, complementada pela seleção do tema relacionado ao uso de corpora no ensino para o elc de 2010, na pucrs, em Porto Alegre. A Linguística de Corpus educacional no Brasil tem certa feição, que pode ser resumida, talvez, por meio das seguintes características: • ênfase em classroom concordancing, mas pioneirismo em outras modalidades (como as baseadas no texto e em gêneros e mídias, apresentadas aqui); • formação de mestres; • foco em várias línguas, não se limitando ao inglês, mas englobando o espanhol e o português como línguas materna e estrangeira; • tradição em corpora de aprendizes, com o trabalho seminal do br-icle; • busca contínua de integração no contexto educacional brasileiro, com todas as suas dificuldades.

338 | Corpora no Ensino de Línguas Estrangeiras

• Ao mesmo tempo, pode-se notar áreas onde há dificuldades. • Escassez de praticantes: Embora o interesse na área seja visível, e o presente volume seja testemunho disso, quando se olha a situação nos cursos de inglês ao redor do país (escolas de idioma, universidades, empresas, rede pública, aulas particulares etc.), fica a impressão de que o número de professores que realmente utilizam a Linguística de Corpus nas aulas ainda é pequeno. E, entre os que usam, parece que a maioria não costuma fazê-lo frequentemente; alguns a abandonam, seja porque a escola não permite ‘fugir do livro’, seja porque a preparação das aulas com corpora exija pesquisa, o que leva muito tempo, tornando-se contraproducente no dia a dia dos professores, com suas cargas horárias desumanas. Não há dados empíricos sobre isso, portanto é apenas especulação; de qualquer modo, parece ser esta também a situação ao redor do mundo. Ou seja, a Linguística de Corpus educacional não é o default nas aulas de língua, nem está claro se deveria ser ou se pretende ser. Esse é um debate que ainda não começou, mas que deveria ser iniciado o quanto antes. • Falta de doutores na área: Os pesquisadores formados na área de Linguística de Corpus educacional são mestres. • Dificuldade em conseguir financiamento para projetos de uso de corpora no ensino: As agências de fomento não priorizam auxílio a projetos envolvendo a criação de corpora de aprendizes ou a produção de material de ensino. • Pouca ou nenhuma integração com a escola pública: A maior parte dos praticantes de Linguística de Corpus no ensino está nas universidades ou nos institutos de idiomas. Hoje, com a maior disponibilidade de recursos de informática nas escolas e com a autonomia dos professores do ensino oficial, esses poderiam valer-se dessa situação para inserir a Linguística de Corpus na sala de aula do ensino fundamental e médio. • Pouca presença nos cursos de formação de professor na universidade: A Linguística de Corpus não faz parte da maioria dos currículos dos cursos de graduação de Letras. • Pouca integração com educadores e especialistas em educação, assim como no mundo inteiro: Os linguistas de corpus não são, por definição, experts em teorias de ensino, nem estão necessariamente a par das tendências atuais na pedagogia e no aprendizado de línguas. Colaborar com colegas dessas áreas enriquece o trabalho e a qualidade da inserção da Linguística de Corpus no ensino.

Corpora no Ensino de Línguas Estrangeiras | 339

• Falta de materiais de ensino feitos com (base em) corpora e livros de apoio ao professor: A maioria dos professores de língua estrangeira frequenta mais as livrarias do que as bibliotecas e, portanto, tem mais facilidade de acesso a livros sobre determinado assunto do que a artigos acadêmicos publicados em periódicos. Os livros estrangeiros sobre Linguística de Corpus e ensino, embora existam, têm preço proibitivo. Como há escassez de livros nacionais da área (o presente volume é uma honrosa exceção), os professores têm dificuldade até mesmo para conhecer a Linguística de Corpus e, por conseguinte, tornase difícil ter interesse em saber como usá-la na sala de aula. Poderia arrolar ainda outros itens à lista de dificuldades acima, mas talvez o principal problema seja o sentimento de a Linguística de Corpus educacional ainda ser algo novo entre professores e alunos. Mesmo dez anos de trabalho e de divulgação ainda são pouco para torná-la conhecida. Os linguistas de corpus precisam pensar em maneiras de atender às peculiaridades do contexto nacional, que são, entre outras, a pouca infraestrutura, as altas cargas horárias de professores, o pouco tempo de preparação de aula e o desestímulo (ou proibição) da produção de materiais próprios. Por isso, é importante desenvolver ferramentas de preparação (semi)automática de materiais e encorajar uma filosofia que mescle a reutilização de material com a criação de bancos de material, e promova um design ‘modular’ (com partes intercambiáveis), para aumentar a reutilização dos materiais. Tendo em vista este cenário, nós, linguistas de corpus, poderíamos pensar em providências para tentar melhorar essa situação, algumas das quais ofereço abaixo como possível contribuição. • Oferecer mais cursos de extensão: Há um público de professores que pode ser atendido nesse contexto. O curso “Ensinando Inglês de Verdade” (criado por Márcia Veirano e Renata Condi de Souza), oferecido pela Cogeae da pucsp é um exemplo de sucesso, que traz a Linguística de Corpus para mais perto de muitos professores de inglês, com materiais voltados para o uso de vídeo, dvd e tv. • Incluir a Linguística de Corpus na graduação em Letras: Se apresentada em grades curriculares de graduação, essa área pode atrair interesse de futuros professores de língua, que podem então sentir-se atraídos a usar corpora na sala de aula. • Priorizar a Linguística de Corpus na rede pública: Os professores que atuam nesse setor gozam de maior liberdade, na maioria dos casos, do que

340 | Corpora no Ensino de Línguas Estrangeiras

professores de institutos de idiomas. Por isso, podem, em teoria, usar a Linguística de Corpus em suas aulas, se assim o desejarem. Precisamos buscar maneiras de atender a esse público, que possui muitas especificidades. Entre os professores da escola pública que desejam usar a Linguística de Corpus, um dos grandes problemas é a falta de tempo para a preparação de materiais. Precisamos desenvolver maneiras de diminuir o tempo de preparação de atividades voltadas ao ensino oficial, além de, é claro, definir melhor como os corpora podem ser úteis para pôr em prática o currículo oficial. • Priorizar o ensino a distância (ead): Essa modalidade torna-se a cada dia mais importante no país e no mundo, com mais investimentos oficiais em cursos e universidades. A Linguística de Corpus, por causa de suas raízes tecnológicas, integra-se nativamente com o ead on-line. Os materiais a distância podem facilmente levar corpora e ferramentas de análise aos alunos. Teoricamente, portanto, muitas das dificuldades e resistências mencionadas acima não existiriam neste contexto. Porém, na realidade, vemos poucos materiais de ead com alguma ligação com a Linguística de Corpus. Talvez isso se deva à falta de conhecimento sobre corpora entre os designers de curso; sendo assim, este é um público-alvo que precisa ser levado em conta o quanto antes nos cursos de divulgação de Linguística de Corpus educacional. • Atender a vários contextos: Embora o maior público de alunos e professores atualmente esteja na escola pública e nos institutos de idiomas, não devemos ignorar outros contextos, como aulas particulares, em empresa, cursos de extensão, minicursos em congressos (inpla, gel, ebralc, Abralin, Alab, Abrapui etc.). • Complementar livros didáticos com a Linguística de Corpus: Muitos professores não podem ‘sair do livro’ adotado na escola. Assim, mesmo que queiram, não é permitido que tragam novos materiais para a aula. Porém, é possível complementar os livros com concordâncias, listas de frequências, pacotes lexicais extraídos de corpora, além de outros instrumentos de visualização de dados textuais como Wordle (‘nuvens de palavras’; ) e ManyEyes (árvores e gráficos de diversos tipos; ). Esse tipo de complementação ajuda a ensinar melhor certos elementos do currículo. • Publicar mais livros didáticos feitos com corpora: Há um número crescente dessas publicações, muitas das quais propagandeiam o ‘real English’ e os

Corpora no Ensino de Línguas Estrangeiras | 341

corpora como um diferencial importante. Necessitamos, contudo, de livros que inovem mais na maneira como a Linguística de Corpus é empregada, ou seja, que não se limitem às famosas colocações enxertadas no final de cada unidade, mas que explorem os corpora como fontes de dados para a obtenção da informação sobre a qual as atividades são montadas e que também deem mais liberdade aos alunos para pesquisarem por si próprios. Por outro lado, não vejo como solução criar livros inteiros com base em concordâncias, devido aos problemas com essa modalidade já discutidos neste capítulo, tampouco ‘bitolados em corpora’, isto é, cujo conteúdo seja atrelado automaticamente às frequências e coocorrências de determinado corpus. Com certeza, criar um livro didático inovador com base em corpora não é uma tarefa fácil, pois além de ser sustentado por análises de corpora, requer a união da imaginação e da criatividade – que não faltam aos produtores de materiais de ensino –, com teorias de ensino e aprendizagem e noções de teoria linguística como gênero e mídias, como mostradas aqui. • Publicar livros de apoio a professores de inglês no Brasil: Como dito acima, os professores de língua estrangeira frequentam livrarias físicas e virtuais nacionais e consomem livros destinados a eles. Embora haja uma oferta desse tipo de material por editoras estrangeiras, elas não parecem atender bem nossos professores, seja pelo preço das publicações, seja pela falta de relação com o contexto nacional de ensino de línguas. Seria muito benéfico se tivéssemos mais publicações mostrando aos professores brasileiros como usar corpora com alunos brasileiros em escolas / empresas / aulas brasileiras. Comentários finais Neste trabalho, dividido em duas partes, enfoquei dois assuntos distintos: como preparar materiais de ensino com corpora, e a situação do que chamei de Linguística de Corpus educacional no Brasil. Em relação ao primeiro tópico, busquei mostrar como a Linguística de Corpus pode ser usada no ensino de língua estrangeira, por meio de três modalidades distintas de material de ensino: centradas na concordância, centradas no texto e centradas em multigênero / multimídia. Foram ainda apresentados e discutidos exemplos de materiais de ensino de cada uma dessas vertentes. Tentei abrir o leque de conceitos teórico-metodológicos advindos da Linguística de Corpus que podem informar a produção de materiais e a atuação

342 | Corpora no Ensino de Línguas Estrangeiras

de profissionais de ensino, e também ilustrar como diversas ferramentas de análise de corpora podem ser incorporadas aos materiais. Espero com isso ter contribuído para ampliar, de algum modo, o campo de atuação da Linguística de Corpus no ensino, indo além da tradicional concordância, dialogando com outras teorias e incorporando elementos que julgo fundamentais na aprendizagem de língua estrangeira. Em relação ao segundo tópico, tentei esboçar um histórico da Linguística de Corpus educacional no país, nos últimos dez anos, com base nos dados disponíveis. Levantei problemas e propus algumas possíveis soluções e encaminhamentos futuros, na tentativa de tornar a Linguística de Corpus mais conhecida e próxima de alunos e professores dos diversos segmentos da educação de línguas. A discussão tentou deixar clara a complexidade do assunto, na medida em que lida com muitos contextos e realidades, mas ao mesmo tempo já deixa entrever que várias dimensões do problema não foram sequer tocadas. Ao mesmo tempo, deixou claro, a meu ver, que o saldo é muito positivo – formamos muitos quadros, capacitamos pessoal, criamos e disponibilizamos corpora e ferramentas de análise, dialogamos com muitas teorias, fizemos muita pesquisa. Mas não podemos nos acomodar; tenho a convicção de que os linguistas de corpus devem refletir sobre como inserir-se mais profunda e ativamente na educação nacional. Com isso, poderemos fazer acontecer uma Linguística de Corpus educacional brasileira. Referências bibliográficas

allan, r. Can a graded reader corpus provide ‘authentic’ input? elt Journal, v. 63, n. 1, p. 23-32, 2008.

alonso, m. c. g. Corpus linguístico e a aquisição de falsos cognatos em espanhol como língua estrangeira. 2006. 253 f. Dissertação (Mestrado em Linguística Aplicada e Estudos da Linguagem) – Faculdade de Comunicação e Filosofia, Pontifícia Universidade Católica de São Paulo, São Paulo.

bakhtin, m. Estética da criação verbal. São Paulo: Martins Fontes, 1997 [1953].

barbosa, m. e. de c. Material didático para o ensino de inglês instrumental on-line: uma abordagem experiencial baseada em corpus, gênero e tarefa. 2004. 103 f. Dissertação (Mestrado em Linguística Aplicada e Estudos da Linguagem) – Faculdade de Comunicação e Filosofia, Pontifícia Universidade Católica de São Paulo, São Paulo.

Corpora no Ensino de Línguas Estrangeiras | 343

bazerman, c. Shaping written knowledge: the genre and activity of the experimental article in science. Madison, wi: University of Wisconsin Press, 1988. bennett, g. r. Using corpora in the language learning classroom: corpus linguistics for teachers. Ann Arbor: University of Michigan Press, 2010.

berber sardinha, t. A corpus for teaching Portuguese. 1996. Comunicação apresentada ao Teaching and Language Corpora (talc) 96. Lancaster, 1996. Não publicado. ______. Automatic identification of segments in written texts. 1997. 531 f. Tese (Doutorado em Língua Inglesa) – English Department, University of Liverpool, Liverpool. ______. Beginning Portuguese corpus linguistics: exploring a corpus to teach Portuguese as a foreign language. Delta, v. 15, n. 2, p. 291-302, 1999a. ______. br-icle, the Brazilian sub-corpus of the International Corpus of Learner English. 1999b. Comunicação apresentada ao Learner Corpus Workshop. Tokyo, 1999b. Não publicado. ______. O computador e o aprendiz de línguas no Brasil: uma visão baseada em corpus. 1999c. Palestra apresentada à Semana de Letras da Universidade Anhembi-Morumbi. São Paulo, 1999c. Não publicado. ______. Computador, corpus e concordância no ensino de

leffa, v. (Ed.). As palavras e sua companhia: o léxico na aprendizagem. Pelotas, rs: educat / alab, 2000. lexicogramática de língua estrangeira. In:

p. 45-72. ______. A revolução silenciosa: computador e corpora no ensinoaprendizagem de línguas. 2001. Comunicação apresentada ao

xi Intercâmbio

de Pesquisas em Linguística Aplicada. São Paulo, 2001. Não publicado. ______. Linguística de Corpus. São Paulo: Manole, 2004. ______. Metáfora. São Paulo: Parábola, 2007. ______. Pesquisa em Linguística de Corpus com WordSmith Tools. Campinas: Mercado de Letras, 2009. ______. Lexicogrammar. In: chapelle, c. (Ed.). The encyclopedia of applied linguistics. Malden, ma: Wiley-Blackwell, no prelo.

bértoli dutra, p. Explorando a Linguística de Corpus e letras de música na produção de atividades pedagógicas. 2002. 127 f. Dissertação (Mestrado

344 | Corpora no Ensino de Línguas Estrangeiras

em Linguística Aplicada e Estudos da Linguagem) – Faculdade de Comunicação e Filosofia, Pontifícia Universidade Católica de São Paulo, São Paulo.

bhatia, v. k. Analysing genre: language use in professional settings. London: Longman, 1993.

biber, d. Variation across speech and writing. Cambridge: Cambridge University Press, 1988. ______; conrad, s.; cortes, v. If you look at...: lexical bundles in university teaching and textbooks. Applied Linguistics, v. 25, n. 3, p. 371-405, 2004. ______;

finegan, e. Drift and the evolution of English style: a

history of three genres. Language, v. 65, n. 3, p. 487-517, 1989.

boscariol-bertolino, m. r. A linguagem de role playing games digitais e o ensino de inglês. 2008. 268 f. Dissertação (Mestrado em Linguística Aplicada e Estudos da Linguagem) – Faculdade de Comunicação e Filosofia, Pontifícia Universidade Católica de São Paulo, São Paulo.

bronckart, j. p. Le donctionnement des discours: un modèle psychologique et un méthode d’analyse. Neuchatel: Delachaux & Niestlé, 1985. ______. Atividades de linguagem, discursos e textos. São Paulo: educ, 1999.

campos, d. p. de. a. Confrontando o livro didático de inglês: os verbos try e like numa perspectiva da Linguística de Corpus. 2006. 220 f. Dissertação (Mestrado em Linguística Aplicada e Estudos da Linguagem) – Faculdade de Comunicação e Filosofia, Pontifícia Universidade Católica de São Paulo, São Paulo.

celani, m. a. a. et al. The Brazilian esp project: an evaluation. São Paulo: educ, 1988. Disponível em: . Acesso em: 13 jun. 2010. condi de souza, r. Dois corpora, uma tarefa: o percurso de coleta, análise e utilização de corpora eletrônicos na elaboração de uma tarefa para ensino de inglês como língua estrangeira. 2005. 191 f. Dissertação (Mestrado em Linguística Aplicada e Estudos da Linguagem) – Faculdade de Comunicação e Filosofia, Pontifícia Universidade Católica de São Paulo, São Paulo.

contrera, s. Autenticidade em livros didáticos para o ensino de inglês como língua estrangeira: um estudo diacrônico sob a perspectiva da Linguística de

Corpora no Ensino de Línguas Estrangeiras | 345

Corpus. 2010. Não paginado. Dissertação (Mestrado em Linguística Aplicada e Estudos da Linguagem) – Faculdade de Comunicação e Filosofia, Pontifícia Universidade Católica de São Paulo, São Paulo.

dutra, d. p.; silero, r. p. Uso de for em corpus de aprendizes: análise de itens linguísticos de um corpus pequeno. 2009. Comunicação apresentada ao

ix Encontro de Linguística de Corpus. Rio de Janeiro, 2009. Não publicado. fairclough, n. Language and power. London / New York: Longman, 1989.

ferrari de oliveira, j. esp, Linguística de Corpus e sociointeracionismo na elaboração de uma unidade de um material didático para comércio exterior. 2004. 112 f. Dissertação (Mestrado em Linguística Aplicada e Estudos da Linguagem) – Faculdade de Comunicação e Filosofia, Pontifícia Universidade Católica de São Paulo, São Paulo.

ferreira, t. s. b. Análise de um livro didático de português para estrangeiros utilizando a Linguística de Corpus. 2010. Não paginado. Dissertação (Mestrado em Linguística Aplicada e Estudos da Linguagem) – Faculdade de Comunicação e Filosofia, Pontifícia Universidade Católica de São Paulo, São Paulo.

feuerstein, r.; klein, p. s.; tannenbaum, a. j. Mediated learning experience (mle): theoretical, psychosocial and learning implications. London: Freund Publishing House, 1991.

granger, s.; tribble, c. Learner corpus data in the foreign language classroom: form-focused instruction and data-driven learning. In:

granger, s. (Ed.). Learner English on computer. New York: Longman, 1998. p. 199-209.

halliday, m. a. k. Language as system and language as instance: the corpus as a theoretical construct. In: svartvik, j. (Ed.). Directions in corpus linguistics: proceedings of Nobel Symposium 82. Berlin / New York: De Gruyter, 1992. p. 61-78. ______; hasan, r. Language, context, and text: aspects of language in a social-semiotic perspective. Oxford: Oxford University Press, 1989. ______;

matthiessen, c. m. i. m. Construing experience through

meaning: a language-based approach to cognition. London / New York: Continuum, 2000.

346 | Corpora no Ensino de Línguas Estrangeiras

hyland, k. As can be seen: lexical bundles and disciplinary variation. English for Specific Purposes, v. 27, p. 4-21, 2008.

jacobi, c. c. b. de. Introducing concordances to teach Spanish to Brazilian students. 2000. Comunicação apresentada ao Teaching and Language Corpora (talc) 2000. Graz, 2000. Não publicado. ______. Linguística de Corpus e ensino de espanhol a brasileiros: descrição de padrões e preparação de atividades didáticas (decir/hablar; mismo; mientras/en cuanto/aunque). 2001. 122 f. Dissertação (Mestrado em Linguística Aplicada e Estudos da Linguagem) – Faculdade de Comunicação e Filosofia, Pontifícia Universidade Católica de São Paulo, São Paulo.

johns, t. Should you be persuaded: two examples of data-driven learning. elr Journal, v. 4, p. 1-16, 1991. ______. From printout to handout: grammar and vocabulary teaching in the context of data-driven learning. In: odlin, t. (Ed.). Perspectives on pedagogical grammar. Cambridge: Cambridge University Press, 1994. p. 293-313. ______. Data-driven learning: the perpetual challenge. In: kettemann, b.; marko, g. (Eds.). Teaching and learning by doing corpus analysis. Amsterdam: Rodopi, 2002. p. 104-117. ______; king, p. (Eds.). elr Journal, v. 4, p. 1-178, 1991a. ______; ______. Editors’ preface. elr Journal, v. 4, p. i-iv, 1991b.

kohonen, v. Experiential learning in foreign language education. Harlow / New York: Longman, 2001.

louro, i. d. c. dos a. Enxergando as colocações: para ajudar a vencer o medo de um texto autêntico. 2001. 151 f. Tese (Doutorado em Língua Inglesa) – Faculdade de Filosofia, Letras e Ciências Humanas, Universidade de São Paulo, São Paulo. magalhães, c. b. Interação e mediação em aulas de espanhol com corpora. 2010. Não paginado. Tese (Doutorado em Linguística Aplicada e Estudos da Linguagem) – Faculdade de Comunicação e Filosofia, Pontifícia Universidade Católica de São Paulo, São Paulo.

martin, j. r. English text. Philadelphia/Amsterdam: John Benjamins, 1992.

mindt, d. A corpus-based grammar for elt. In: kettemann, b.; marko, g. (Eds.). Teaching and learning by doing corpus analysis. Amsterdam: Rodopi, 2002. p. 91-106.

Corpora no Ensino de Línguas Estrangeiras | 347

morales, f. p. de o. Integrando Linguística de Corpus e aprendizagem experiencial: uma proposta de atividade de ensino com conteúdo multimídia veiculado on-line. 2008. 94 f. Dissertação (Mestrado em Linguística Aplicada e Estudos da Linguagem) – Faculdade de Comunicação e Filosofia, Pontifícia Universidade Católica de São Paulo, São Paulo.

moreira filho, j. l. Desenvolvimento de um software para preparação de aulas de inglês com corpora. 2007. 161 f. Dissertação (Mestrado em Linguística Aplicada e Estudos da Linguagem) – Faculdade de Comunicação e Filosofia, Pontifícia Universidade Católica de São Paulo, São Paulo.

murison-bowie, s. MicroConcord manual: an introduction to the practices and principles of concordancing in language teaching. Oxford: Oxford University Press, 1993.

nash, m.; ferreira, w. r. Real English: explorando vocabulário, gramática e funções em inglês a partir de textos. São Paulo, sp: Disal, 2010. rampazzi, e. A Linguística de Corpus e os seriados Seinfeld e Friends como base para o ensino de verbos frasais e verbos preposicionados para alunos de língua inglesa. 2008. 168 f. Dissertação (Mestrado em Linguística Aplicada e Estudos da Linguagem) – Faculdade de Comunicação e Filosofia, Pontifícia Universidade Católica de São Paulo, São Paulo.

römer, u. A corpus-driven approach to modal auxiliaries and their didactics. In: sinclair, j. (Ed.). How to use corpora in language teaching. Philadelphia: John Benjamins, 2004. p. 185-204. ______. Corpora and language teaching. In: ludeling, a.; kytö, m. (Eds.). Corpus linguistics: an international handbook. v. 1. Berlin / New York: Walter de Gruyter, 2008. p. 112-130. ______. Corpus research and practice: what help do teachers need and what can we offer? In: aijmer, k. (Ed.). Corpora and language teaching. Amsterdam / Philadelphia: John Benjamins, 2009. p. 83-100.

scott, m. Conscientização. V. 18. São Paulo: Cepril/pucsp, 1986. ______. WordSmith Tools. Versão 3. Oxford: Oxford University Press, 1997. ______; tribble, c. Textual patterns: key words and corpus analysis in language education. Amsterdam/Philadelphia: John Benjamins, 2006.

348 | Corpora no Ensino de Línguas Estrangeiras

sinclair, j. m. Corpus, concordance, collocation. Oxford / New York: Oxford University Press, 1991.

soto balbás, m. Análise de erros, baseada na Linguística de Corpus, da escrita de aprendizes brasileiros universitários de espanhol como língua estrangeira. 2003. 147 f. Dissertação (Mestrado em Linguística Aplicada e Estudos da Linguagem) – Faculdade de Comunicação e Filosofia, Pontifícia Universidade Católica de São Paulo, São Paulo.

succi jr., o. A utilização da Linguística de Corpus e da gramática de padrões na análise de alguns adjetivos presentes em um livro didático de inglês para negócios. 2003. 145 f. Dissertação (Mestrado em Linguística Aplicada e Estudos da Linguagem) – Faculdade de Comunicação e Filosofia, Pontifícia Universidade Católica de São Paulo, São Paulo.

swales, j. m. Genre analysis: English in academic and research settings. Cambridge: Cambridge University Press, 1990. ______. Other floors, other voices: a textography of a small university building. Mawmah, nj: Lawrence Earlbaum, 1998.

tagnin, s. Perspectivas para o ensino: on-line corpora. 2001. Palestra apresentada ao II Seminário sobre Estudos de Corpora. São Paulo, 2001. Não publicado. ______. Um corpus multilíngue para ensino e tradução: TradTerm, v. 10, p. 117-141, 2004.

comet.

tribble, c.; jones, g. Concordances in the classroom: a resource book for teachers. London: Longman, 1990.

veirano pinto, m. O uso de things, thing, anything, something e everything em corpora de aprendiz. 2008. 221 f. Dissertação (Mestrado em Linguística Aplicada e Estudos da Linguagem) – Faculdade de Comunicação e Filosofia, Pontifícia Universidade Católica de São Paulo, São Paulo.

vicentini, g. p. m. A Linguística de Corpus e o seriado Friends como base para o ensino de chunks em sala de aula de língua inglesa. 2006. 135 f. Dissertação (Mestrado em Linguística Aplicada e Estudos da Linguagem) – Faculdade de Comunicação e Filosofia, Pontifícia Universidade Católica de São Paulo, São Paulo.

vygotsky, l. Thought and language. Cambridge, ma: mit Press, 1999 [1934].

Corpora no Ensino de Línguas Estrangeiras | 349

GLOSSÁRIO DE LINGUÍSTICA DE CORPUS Stella E. O. Tagnin (USP)

Alinhamento: processo semiautomático pelo qual são colocados lado a lado o original e uma ou mais de suas traduções. Por ora, o alinhamento pode ser feito por parágrafo ou por sentença. Diz-se que o processo é semiautomático porque, embora o primeiro alinhamento seja feito de modo automático, ele exige uma revisão manual. Balanceamento: processo pelo qual se garante que dois corpora sejam construídos de maneira similar quanto a origem, gênero, extensão, período de produção dos textos, ou quaisquer outros critérios que sejam relevantes para a pesquisa a que se destinam. Base (de uma colocação): refere-se ao elemento conhecido – aquele que faz parte do nosso universo –, em geral um substantivo ou verbo, de acordo com a terminologia de cunho semântico de Hausmann (1989). Por exemplo, conhece-se a palavra ‘dúvida’, mas não se sabe qual o verbo adequado para exprimir a resolução de uma dúvida, que seria ‘dirimir’. Outros exemplos seriam ‘televisão’ em ‘televisão educativa’ e ‘chorar’ em ‘chorar copiosamente’. Ver palavra de busca e colocado. Candidato a termo: palavra-chave com possibilidade de ser um termo no domínio em estudo. Ver palavra-chave. Coligação: co-ocorrência de um item lexical com uma categoria ou padrão gramatical. Colocação: co-ocorrência de duas (ou mais) palavras numa frequência maior do que seria de se esperar caso a co-ocorrência fosse aleatória. Colocado: (a) na terminologia de Hausmann (1989), de cunho semântico, o elemento desconhecido de uma colocação tal como ‘dirimir’ em ‘dirimir

350 | Corpora no Ensino de Línguas Estrangeiras

uma dúvida’, ‘educativa’ em ‘televisão educativa’ ou ‘copiosamente’ em ‘chorar copiosamente’. Ver base. | (b) qualquer elemento que co-ocorra de forma significativa com uma palavra de busca. Ver palavra de busca. Concordância: relação de todas as ocorrências de uma palavra de busca em um corpus junto com seu cotexto. Em geral, apresenta a palavra de busca em posição central, cuja formatação é denominada de kwic. Ver kwic. Concordanciador: programa que extrai todas as ocorrências de uma palavra de busca num corpus juntamente com seu cotexto, apresentando-as na forma de uma concordância. Ver concordância. Corpus (pl. corpora; também córpus sg. e pl.): coletânea de textos entendidos num sentido amplo, em formato eletrônico, compilados segundo critérios específicos para o estudo a que se propõem. • Corpus comparável bi- ou multilíngue: corpus composto por dois ou mais subcorpora com textos originais nas respectivas línguas. • Corpus comparável monolíngue: corpus composto por textos originais numa língua e traduções nessa mesma língua. Tem por objetivo comparar a linguagem produzida por falantes nativos ou fluentes e por tradutores. • Corpus de estudo: o corpus em que se baseia a pesquisa a ser desenvolvida. • Corpus de referência: corpus que serve de termo de comparação para o corpus de estudo. Em geral, deve ter três a cinco vezes o tamanho do corpus de estudo. • Corpus monitor: corpus que é constantemente atualizado a fim de representar a evolução da língua. • Corpus paralelo: corpus constituído de originais e suas respectivas traduções. • Corpus estático: corpus que não permite acrescentar material novo. • Corpus dinâmico: corpus que permite o acréscimo de material novo.

ddl: sigla para data driven learning, termo criado por Tim Johns (1991) para designar o ensino, especialmente de línguas estrangeiras, em que o aprendiz tem acesso a dados linguísticos (concordâncias) extraídos de linguagem autêntica, para examiná-los, levantar hipóteses, fazer inferências e generalizações. É o que se denomina ‘aprendizado por descoberta’. Estudo baseado em corpus: estudo em que o corpus é usado (a) para comprovar (ou não) uma hipótese ou (b) para extrair exemplos.

Corpora no Ensino de Línguas Estrangeiras | 351

Estudo direcionado pelo corpus: estudo que se desenvolve conforme dados apresentados pelo corpus, sem pressuposições teóricas. Etiquetagem: processo pelo qual o conteúdo do corpus é marcado. • Etiquetagem morfossintática (em inglês

pos-tagging): processo pelo

qual o conteúdo do corpus recebe etiquetas morfológicas, isto é, de categorias gramaticais (por exemplo, substantivo, adjetivo, verbo etc.). • Etiquetagem sintática: processo pelo qual o conteúdo do corpus recebe etiquetas sintáticas (por exemplo, sujeito, predicado, objeto direto etc.). • Etiquetagem semântica: processo pelo qual o conteúdo do corpus recebe etiquetas semânticas (por exemplo, cor, roupa, tempero, utensílio etc.). • Etiquetagem discursiva: processo pelo qual o conteúdo do corpus recebe etiquetas que demarcam as partes de um texto (por exemplo, ingredientes, modo de fazer, resumo, introdução, materiais e métodos etc.) Fraseologia: estudo de qualquer tipo de ocorrência fraseológica de uma língua como, por exemplo, as colocações, os binômios, as expressões idiomáticas etc. Horizonte: distância entre a palavra de busca e o colocado, à direita e à esquerda.

kwic (do inglês keyword in context / palavra-chave no contexto): formato de concordância em que a palavra de busca aparece centralizada. Ver concordância e palavra de busca. Lista de palavras: lista de todas as palavras do corpus. • Lista de palavras por ordem alfabética: lista em que as palavras são apresentadas em ordem alfabética. Em geral, permite também a ordem reversa, ou seja, a listagem alfabética pelo final da palavra, o que é muito conveniente para o estudo de sufixos. • Lista de palavras por ordem de frequência: lista em que as palavras são apresentadas a partir das mais frequentes até as menos frequentes. Nódulo: Ver palavra de busca. Palavra de busca: palavra a partir da qual é gerada uma concordância. Palavras-chave: resultados da comparação entre o corpus de estudo e um corpus de referência. Essa comparação elimina palavras com frequência relativa similar nos dois corpora de modo que restem as palavras cuja frequência é estatisticamente significativa. As que restam no corpus de estudo são

352 | Corpora no Ensino de Línguas Estrangeiras

denominadas ‘palavras-chave positivas’, enquanto as que sobram no corpus de referência, ‘palavras-chave negativas’. Representatividade: conceito sobre o qual ainda não há consenso, mas que pretende garantir que um corpus seja representativo daquilo que pretende estudar. Cabe ao criador do corpus estabelecer os critérios que garantam essa representatividade. Como disse Leech (1991, p. 27), a representatividade “é um ato de fé”. Testes estatísticos: medidas de significância empregadas para determinar, entre outras coisas, os colocados de uma palavra de busca.1 • Escore t (em inglês t-score): medida de significância que mede a certeza de que há alguma associação entre as palavras, ou seja, a frequência com que as palavras co-ocorrem elimina a possibilidade de essa co-ocorrência resultar de mero acaso. Para ser computada como uma ‘colocação’, costuma-se considerar um escore mínimo de dois. • Informação mútua (em inglês mutual information): medida de significância que mede a força de associação entre as palavras e privilegia palavras menos frequentes. Como co-ocorrências pouco frequentes podem resultar de usos idiossincráticos, é praxe considerar-se ‘colocação’ apenas co-ocorrências com um escore mínimo de três. WordSmith Tools: conjunto de ferramentas para a análise linguística de corpora. Consiste de três ferramentas principais: Concord, um concordanciador, WordList, um gerador de lista de palavras, e Keywords, um extrator de palavras-chave. Conta também com outros utilitários como Collocates, que apresenta os colocados da palavra de busca; Clusters, que relaciona os agrupamentos em que aparece a palavra de busca; Aligner, que alinha dois textos, dentre outros. Foi desenvolvido por Mike Scott em 1996 e está atualmente na sua quinta versão (scott, 2008).2

1 2

Maiores detalhes em Clear (1993).

Observe-se, no entanto, que o programa sofre pequenas atualizações quase que semanais.

Corpora no Ensino de Línguas Estrangeiras | 353

Referências bibliográficas

clear, j. From Firth principles: computational tools for the study of collocation. In baker, m.; francis, g.; tognini-bonelli, e. (Eds.). Text and technology: in honour of John Sinclair. Amsterdam: John Benjamins, 1993. p. 271-292.

hausmann, f. j. Le dictionnaire de collocations. In: ______ et al. (Eds.). Wörterbücher, Dictionaries, Dictionnaires. Erster Teilband. Berlin: De Gruyter, 1989. p. 1010-1019. johns, t. Should you be persuaded: two samples of data-driven learning materials. elr Journal, v. 4, p. 1-16, 1991. leech, g. The state of the art in corpus linguistics. In: aijmer, k.; altenberg, b. (Eds.). English corpus linguistics. London/New York: Longman, 1991. p. 8-29.

scott, m. WordSmith Tools. Versão 1. Oxford: Oxford University Press, 1996. ______. WordSmith Tools. Versão 5. Liverpool: Lexical Analysis Software, 2008.

354 | Corpora no Ensino de Línguas Estrangeiras

CORPORA ON-LINE1 Stella e. o. Tagnin (usp)

Esta seção apresenta alguns dos corpora que podem ser acessados gratuitamente na Internet para as línguas alemã, espanhola, francesa, inglesa, italiana e portuguesa. Alguns exigem que o usuário se registre, outros pedem também a assinatura de uma licença, a partir do que recebe uma senha e pode acessar o material livremente. São também listados aqui os corpora multilíngues, ou seja, aquelas coletâneas textuais que abrangem mais de uma língua. Alemão • Corpus Multilíngue de Aprendizes (comaprend) () Vide detalhes na Seção 7. • German Corpus Page () Desenvolvido pelo Institute of Language and Communication (isk) da Universidade do Sul da Dinamarca, é composto por um corpus jornalístico com 4 milhões de palavras e outro, de vários gêneros, com 2,5 milhões de palavras. É necessário cadastrar-se para ter acesso a ele. • Internet corpora () Vide detalhes na Seção 7.

1 Vide para todo tipo de informações sobre corpora, ferramentas, publicações etc. O site é desenvolvido e mantido por David Lee da City University de Hong Kong.

Corpora no Ensino de Línguas Estrangeiras | 355

• Web as Corpus kool ynitiative (wacky) () Vide detalhes na Seção 7. • WebCorp () Vide detalhes na Seção 7. Espanhol • Corpus de Referencia del Español Actual (crea) () Corpus com 100 milhões de palavras, que abrange todas as variantes da língua espanhola, com registros escritos e orais, em várias áreas, permitindo que o consulente faça uma busca bastante específica. O material data de 1975 até os dias de hoje. • Corpus del Español () Corpus diacrônico (de 1200 até o fim do século xx) com 100 milhões de palavras, de linguagem escrita e oral. Foi idealizado por Mark Davies e adota a mesma interface que o coca e o byu-bnc (cf. Seção 4). • Corpus Multilíngue de Aprendizes (comaprend) () Vide detalhes na Seção 7. • Internet corpora () Vide detalhes na Seção 7. • WebCorp () Vide detalhes na seção corpora multilíngues. Francês2 • Corpus Multilíngue de Aprendizes (comaprend) () Vide detalhes na Seção 7. • Internet corpora () Vide detalhes na Seção 7.

2

Alguns corpora para a língua francesa ou são pagos (Frantext: ) ou devem ser baixados para serem usados na máquina do consulente (WaCky: ).

356 | Corpora no Ensino de Línguas Estrangeiras

• Scientext () Vide detalhes na Seção 7. • Web as Corpus kool ynitiative (wacky) () Vide detalhes na Seção 7. • WebCorp () Vide detalhes na Seção 7. Inglês • Brigham Young University – British National Corpus (byu-bnc) () Interface desenvolvida por Mark Davies da Universidade Brigham Young, que se baseia na versão completa do bnc. Apresenta as linhas de concordância em formato kwic, ou seja, a palavra de busca é centralizada e realçada em negrito. Permite buscas complexas por categoria gramatical ou tipo de texto. • British National Corpus (bnc) () Corpus composto por 100 milhões de palavras. Trata-se de um corpus fechado, construído no início da década de 1990, tendo sido encerrado em 1994. O programa retorna 50 linhas de concordância aleatórias, ou seja, nova consulta similar pode gerar linhas de concordância diferentes. As linhas apresentam sentenças completas, mas a palavra de busca não é centralizada nem salientada de qualquer forma. • Cobuild () Corpus de aproximadamente 500 milhões de palavras, das quais apenas 46 milhões estão disponíveis on-line. A ferramenta retorna 40 linhas de concordância da palavra de busca, sendo essas linhas fixas, ou seja, outra busca similar retornará as mesmas 40 linhas. As linhas apresentam a palavra de busca em negrito e centralizada. O programa permite busca por categoria gramatical por se tratar de um corpus etiquetado. Também é possível fazer uma busca por colocados, que são apresentados segundo cálculos de acordo com duas fórmulas estatísticas, o escore t e a informação mútua. •

compara () Vide detalhes na Seção 7.

Corpora no Ensino de Línguas Estrangeiras | 357

• Corpus de Tradução (cortrad) () Vide detalhes na Seção 7. • Corpus of Contemporary American English (coca) () Corpus de 460 milhões de palavras de inglês americano desenvolvido por Mark Davies da Universidade Brigham Young. Apresenta as linhas de concordância em formato kwic, ou seja, a palavra de busca é centralizada e apresentada em negrito. Permite buscas complexas por categoria gramatical ou tipo de texto. • Corpus Multilíngue de Aprendizes (comaprend) () Vide detalhes na Seção 7. • Corpus Técnico-Científico (cortec) () Vide detalhes na Seção 7. • Internet corpora () Vide detalhes na Seção 7. • Scientext () Vide detalhes na Seção 7. • Web as Corpus kool ynitiative (wacky) () Vide detalhes na Seção 7. • WebCorp () Vide detalhes na Seção 7. Italiano • Corpus di Italiano scritto contemporaneo (coris/codis) () É composto de dois corpora distintos. O Corpus di Riferimento dell’Italiano Scritto (coris) pretende ser um corpus geral do italiano escrito. Conta com 120 milhões de palavras e, conforme descrição em seu site, será atualizado a cada dois anos. O Corpus Dinamico dell’Italiano Scritto (codis) permite a seleção ou exclusão de subcorpora que não sejam considerados relevantes para determinada pesquisa. Pode ser acessado gratuitamente, mas exige a assinatura de uma licença.

358 | Corpora no Ensino de Línguas Estrangeiras

• Corpus Multilíngue de Aprendizes (comaprend) () Vide detalhes na Seção 7. • Internet corpora () Vide detalhes na Seção 7. • Web as Corpus kool ynitiative (wacky) () Vide detalhes na Seção 7. • WebCorp () Vide detalhes na Seção 7. Português • Banco de Português () Corpus de português do Brasil, constantemente atualizado. Conta, na data de publicação desta obra, com aproximadamente 700 milhões de palavras, de linguagem escrita e oral. Oferece concordanciador para uma amostra de 1,1 milhão de palavras do corpus, assim como listas de palavras. •

compara () Vide detalhes na Seção 7.

• Corpus de Tradução (cortrad) () Vide detalhes na Seção 7. • Corpus do Português () Corpus diacrônico com 45 milhões de palavras, composto por textos dos séculos xv ao xx, nas variantes portuguesa e brasileira. Criado por Michael Ferreira (Universidade de Georgetown) e Mark Davies (Universidade Brigham Young), adota a mesma interface do coca e do byu-bnc (cf. Seção 4). • Corpus Técnico-Científico (CorTec) () Vide detalhes na Seção 7. • Internet corpora () Vide detalhes na Seção 7. • Lácio-Web () É composto por quatro corpora: Lácio-Ref, Mac-Morpho, Par-c e Comp-c. O Lácio-Ref é um corpus de referência para o português brasileiro com 8.291.818 itens. Conta com contador de frequência, concordanciador e

Corpora no Ensino de Línguas Estrangeiras | 359

etiquetadores. É possível fazer download do Lácio-Ref completo (dividido por domínios), assim como fazer upload de um corpus próprio para usar as ferramentas disponíveis. O Mac-Morpho é um corpus etiquetado com 1.167.183 palavras de textos jornalísticos de dez cadernos da Folha de São Paulo de 1994. O Par-c é um corpus paralelo inglês-português com textos de um ano de edições da Revista Pesquisa Fapesp. O Comp-c é um corpus comparável com amostras do gênero jurídico em português e inglês. • PorPopular () Projeto de corpus que abarcará textos de jornais populares brasileiros. Atualmente inclui material do jornal porto-alegrense Diário Gaúcho do ano de 2008. Oferece concordanciador, listador de palavras e n-gramas, e materiais didáticos sobre reconhecimento de vocabulário. Corpus aberto para compartilhamento mediante solicitação de pesquisadores. • Projeto Terminológico Cone Sul (termisul) () Desenvolvido pelo Grupo termisul da Universidade Federal do Rio Grande do Sul. Corpus multilíngue alemão, espanhol, francês, inglês e português, constituído pelos seguintes subcorpora GestAmb (gestão ambiental), Legis (legislação ambiental) e Tecno-Ciência (química, medicina e informática). Inclui o ambiente CardioTrad para apoio à tradução de textos de Cardiologia no par de línguas português-alemão. Oferece concordanciador, listador de palavras e n-gramas, assim como materiais didáticos sobre reconhecimento de terminologias em corpus. • TextQuim () Corpus construído pela Universidade Federal do Rio Grande do Sul e constituído principalmente de textos de química, mas também incluindo material de pediatria. O corpus em português conta com 1.106.015 palavras, o de inglês, com 308.988 e o de espanhol, com 69.274. Oferece a possibilidade de realizar upload de corpus para análise com concordanciador, listador de palavras e de n-gramas, além de um concordanciador alinhado para investigar uma parte paralela (inglês-português) do corpus. Será incorporado ao textecc (vide abaixo). • Textos Técnicos e Científicos (textecc) () Expansão do corpus TextQuim, que abrigará segmentos distintos: TextQuim (textos de Química), TextPed (textos de Pediatria) e TextLing (textos de Linguística).

360 | Corpora no Ensino de Línguas Estrangeiras

Corpora multilingues •

compara () Corpus paralelo bidirecional de português e inglês de textos literários desenvolvido pela Linguateca. Conta com aproximadamente 1,5 milhão de palavras em cada língua, englobando traduções e originais. Abrange variantes do português – Angola, Brasil, Moçambique, Portugal – e do inglês – África do Sul, Estados Unidos, Reino Unido e Irlanda. É um corpus com etiquetagem morfossintática e semântica (cor e roupa), permitindo buscas refinadas.

• Corpus de Tradução (cortrad) () Parte do Projeto

comet, desenvolvido pela Universidade de São Paulo.

Corpus paralelo inglês-português com originais e respectivas traduções, constituindo três subcorpora: jornalístico, literário e técnico-científico. Seu diferencial é permitir a comparação de diferentes versões de um mesmo texto (original, versões revisadas e tradução publicada). Possui mecanismos de busca diferenciados para cada gênero pesquisado de modo que o consulente pode, por exemplo, pesquisar seções específicas dos diferentes tipos textuais. • Corpus Multilíngue de Aprendizes (comaprend) () Parte do Projeto

comet, desenvolvido pela Universidade de São Paulo.

Corpus de aprendizes composto por redações de alunos em alemão, espanhol, francês, inglês e italiano. É alimentado por aprendizes de várias instituições. Acessível para pesquisadores cadastrados. • Corpus Técnico-Científico (cortec) () Parte do Projeto

comet, desenvolvido pela Universidade de São Paulo.

Corpus comparável com textos originais em inglês e português, formando 14 subcorpora técnicos: astronomia, café, computação, culinária, ecoturismo, futebol, hipertensão, informática, instrumentos contratuais, insuficiência renal, linguística, medidores eletromagnéticos de vazão, suplementos nutricionais e turismo cultural. Cada subcorpus contém, em média, 200.000 palavras em cada língua. • Internet corpora () Projeto da Universidade de Leeds encabeçado por Serge Sharoff. São corpora

Corpora no Ensino de Línguas Estrangeiras | 361

compilados a partir da Internet usando ferramentas automáticas como o BootCat () nas seguintes línguas: alemão, árabe, chinês, espanhol, francês, grego, inglês, italiano, japonês, polonês, português e russo. Os corpora são etiquetados, de modo que a interface permite buscas simples e complexas. Também permite buscas por colocados usando diversos testes estatísticos. O site dá informações sobre como compilar corpora similares. • Scientext () Corpus com etiquetagem morfossintática e textual de artigos científicos em francês e em inglês, que permite buscas semânticas e sintáticas. O material em francês consiste de 4,4 milhões de palavras e o em inglês, 33 milhões de palavras, das quais apenas 10% estão disponíveis para consulta. • Web as Corpus kool ynitiative (wacky) () A Universidade de Bologna criou vários corpora a partir de dados da Internet, aos quais chamou de

wacky. Não estão disponíveis on-line, mas podem

ser solicitados para serem baixados na máquina do usuário. Atualmente conta com corpora em alemão (dewac), francês (frwac), inglês britânico (ukwac) e italiano (itwac). • WebCorp () Emulador de concordanciador que usa toda a web como corpus de modo que serve para qualquer língua presente na web. Retorna concordâncias em vários formatos e permite vários tipos de buscas.

362 | Corpora no Ensino de Línguas Estrangeiras

SOBRE OS AUTORES Adriana Silvina Pagano ([email protected]) é professora associada de Tradução da Faculdade de Letras da Universidade Federal de Minas Gerais (ufmg). É doutora pela ufmg, e fez seu pós-doutoramento na Universidade de Massachusetts (Estados Unidos) e na Universidade do Sarre (Alemanha). Atua no Programa de Pós-Graduação em Estudos Linguísticos da ufmg e é pesquisadora do Laboratório Experimental de Tradução. É coautora de Traduzir com autonomia (São Paulo: Contexto, 2000), Competência em tradução: cognição e discurso (Belo Horizonte: Editora da ufmg, 2005) e organizadora de Metodologias de pesquisa em tradução (Belo Horizonte: fale, 2001). Possui artigos e capítulos em diversas publicações nacionais e estrangeiras. Adriana Zavaglia ([email protected]) tem pós-doutorado em Linguística (Université de Paris vii) e em Estudos Tradutológicos (Universidade de São Paulo-usp/Fapesp), é doutora em Linguística e Língua Portuguesa (Universidade Estadual Paulista Júlio de Mesquita Filho – unesp). Atualmente é professora doutora da usp, na qual ministra aulas de Tradução para os alunos de francês do Curso de Letras da Faculdade de Filosofia, Letras e Ciências Humanas. É também autora de capítulos de livros e artigos científicos sobre Linguística, Lexicografia, Ensino de Línguas e Estudos da Tradução. Andréa Geroldo dos Santos ([email protected]) é graduada em Letras pela Universidade de São Paulo. Ministra aulas de inglês e português para estrangeiros, e elabora cursos e material didático nessas áreas há quinze anos. Já participou de bancas de correção de concursos e vestibulares. Atualmente, é mestranda do Programa de Pós-Graduação em Estudos Linguísticos e Literários em Inglês da Universidade de São Paulo. O tema de sua dissertação

Corpora no Ensino de Línguas Estrangeiras | 363

de mestrado (a ser defendida no primeiro semestre de 2011) é o ensino das colocações adverbiais em inglês para negócios. Também é pesquisadora do Projeto comet – Corpus Multilíngue para Ensino e Tradução (). Carmen Dayrell ([email protected]) é pós-doutoranda no Departamento de Letras Modernas da Universidade de São Paulo, cuja pesquisa é supervisionada pela Profa. Dra. Stella e. o. Tagnin. É doutora pelo Centro de Tradução e Estudos Interculturais da Universidade de Manchester (Inglaterra), sob orientação da Profa. Dra. Mona Baker. Seus projetos de pesquisa concentram-se na área de Linguística Aplicada, com enfoque na utilização dos recursos e metodologias da Linguística de Corpus para investigações nas áreas de Tradução e Ensino-Aprendizagem de Inglês como Língua Estrangeira. Elisandro José Migotto ([email protected]) é graduado em Direito pela Universidade Regional do Noroeste do Estado do Rio Grande do Sul (UNIJUÍ), e cursa, atualmente, Letras – Bacharelado com ênfase em Espanhol, na Universidade Federal do Rio Grande do Sul (ufrgs). Atuou como bolsista de iniciação científica (pibic –

cnpq/ufrgs) no Projeto Terminológico

Cone Sul (termisul). É servidor público do Poder Judiciário do Estado do Rio Grande do Sul. Fabio Alves ([email protected]) é professor associado de Estudos da Tradução na Faculdade de Letras da Universidade Federal de Minas Gerais (ufmg). É mestre em Língua Inglesa pela

ufmg, doutor em Linguística

Aplicada pela Ruhr Univerisität Bochum (Alemanha), e tem pós-doutorado na Universidade Autônoma de Barcelona (Espanha). Junto com Adriana Pagano e Célia Magalhães, é autor de Traduzir com autonomia: estratégias para o tradutor em formação (São Paulo: Contexto, 2000). Em conjunto com as mesmas autoras, é um dos organizadores de Competência em tradução: cognição e discurso (Belo Horizonte: Editora da ufmg, 2005). É também o organizador de Triangulating translation (Amsterdã: John Benjamins, 2003) e, junto com Susanne Göprefich e Inger Mees, do volume Methodology, technology and innovation in translation process research (Copenhague: Samfundslitteratur, 2009).

364 | Corpora no Ensino de Línguas Estrangeiras

Giacomo Patrocinio Figueredo ([email protected]) é formado em Letras e mestre em Estudos Linguísticos pela Universidade Federal de Minas Gerais (ufmg). Atualmente desenvolve sua pesquisa de doutoramento na ufmg sobre tradução e descrição gramatical do português, tendo feito seu estágio de doutorado, sob orientação do professor Christian Matthiessen, na University of New South Wales (Austrália) e na Hong Kong Polytechnic University (Hong Kong). Possui artigos em diversas publicações nacionais e estrangeiras. Atua também no mercado editorial como tradutor freelance. Leonardo Zilio ([email protected]) é bacharel em Letras, com habilitação para tradução português/alemão. Mestre em Estudos da Linguagem, na linha de Lexicografia e Terminologia: Relações Textuais. Bolsista cnpq na modalidade pibic e, posteriormente, pesquisador colaborador vinculado Grupo termisul desde 2004. Bolsista cnpq na modalidade iti-a vinculado ao Projeto comunica do Instituto de Informática da ufrgs desde setembro de 2009. Tradutor e revisor freelance. Marcia Veirano Pinto ([email protected]) é mestre em Linguística Aplicada e doutoranda do Programa de Pós-Graduação em Linguística Aplicada e Estudos da Linguagem da Pontifícia Universidade Católica de São Paulo (puc-sp). Tem experiência na área de Letras, com ênfase em Línguas Estrangeiras Modernas, atuando principalmente nos seguintes temas: Linguística de Corpus, Tradução, capacitação de professores e ensino/ aprendizagem de língua estrangeira. Maria José Bocorny Finatto ([email protected]) é professora do Departamento de Linguística, Filologia e Teoria da Literatura do Instituto de Letras da Universidade Federal do Rio Grande do Sul (ufrgs). É também pesquisadora do Grupo termisul desde 1995, no qual investiga padrões de terminologias e de linguagens especializadas em português e em alemão. Atua como orientadora de trabalhos de iniciação científica, de mestrado e de doutorado junto ao programa de Pós-Graduação em Letras da ufrgs desde 2001. Possui bolsa de produtividade em pesquisa do cnpq. Marion Celli ([email protected]) é bacharel em Letras (Português-Inglês) pela Universidade de São Paulo, e é atualmente mestranda do Programa de

Corpora no Ensino de Línguas Estrangeiras | 365

Pós-Graduação da Área de Estudos Linguísticos, Literários e Tradutológicos em Francês da mesma universidade. Em 2009, fez estágio de mestrado na Université Sorbonne Nouvelle – Paris 3, onde participou do grupo de pesquisa syled-cediscor (apoio Embaixada da França). Realiza pesquisa na área de Lexicografia bilíngue associada à Linguística Aplicada e aos Estudos Tradutológicos (apoio fapesp), com ênfase nas direções português-inglês e português-francês. Mike Scott ([email protected]) tem formação como especialista em ensino de línguas, tendo atuado no ensino de inglês no Brasil (Projeto de Inglês Instrumental) e no México. Desde os anos 1990, tem dado uma crescente atenção à Linguística de Corpus. Produziu o programa MicroConcord com Tim Johns em 1993 e, desde 1996, dedica-se ao WordSmith Tools. É autor de livros e artigos sobre ensino e sobre Linguística de Corpus, além de desenvolvedor de software (cf. ). Atualmente procura aplicar a análise de corpora ao ensino na Aston University, Birmingham, Inglaterra. Renata Condi de Souza ([email protected]) é doutoranda e mestre em Linguística Aplicada e Estudos da Linguagem pela Pontifícia Universidade Católica de São Paulo (puc-sp), possui especialização em Tecnologias Interativas Aplicadas à Educação e graduação em Letras – Inglês e em Tradução. Suas principais áreas de atuação são Ensino de Inglês como Língua Estrangeira, Novas Tecnologias Aplicadas à Educação e Tradução. Tem experiência como docente no ensino médio, no ensino superior e em cursos livres, e como coordenadora de línguas estrangeiras em escola regular. Stella e. o. Tagnin ([email protected]) é professora aposentada da Universidade de São Paulo (usp), mas continua ativa na pós-graduação. É mestre, doutora e livre-docente pela usp. Lecionou no curso de especialização em Tradução por mais de 25 anos. É autora de O jeito que a gente diz, e de artigos e capítulos de livros em publicações nacionais e internacionais. Também organizou diversas coletâneas de artigos sobre Linguística de Corpus, sendo o mais recente deles Avanços da Linguística de Corpus no Brasil (São Paulo: Humanitas, 2008). É coordenadora do Projeto comet (), que compreende três corpora: cortec (Corpus Técnico), cortrad (Corpus de Traduções) e comaprend (Corpus Multilíngue de Aprendizes), todos eles de

366 | Corpora no Ensino de Línguas Estrangeiras

acesso gratuito pela Internet. Suas áreas de pesquisa são: Linguística de Corpus, Tradução, Terminologia e Ensino. Tony Berber Sardinha ([email protected]) é doutor pela Universidade de Liverpool (Reino Unido), pesquisador do cnpq, professor associado do Departamento de Linguística e do Programa de Pós-Graduação em Linguística Aplicada e Estudos da Linguagem (lael) da Pontifícia Universidade Católica de São Paulo (puc-sp), com pós-doutorado em Linguística de Corpus pela Northern Arizona University (eua). Coordenador do Corpus Brasileiro (Fapesp/puc-sp), dedica-se ao desenvolvimento de corpora e à pesquisa em Linguística Aplicada, enfocando ensino de língua estrangeira, metáfora, Linguística Forense, Tradução, Linguística Sistêmico-Funcional, além de desenvolver programas on-line para análise de corpora no sítio do Centro de Pesquisa, Recursos e Informação em Linguagem (cepril). Vander Viana ([email protected]) é mestre em Letras (Estudos da Linguagem) pela Pontifícia Universidade Católica do Rio de Janeiro (puc-Rio) e graduado em Letras (Inglês – Literaturas) pela Universidade do Estado do Rio de Janeiro (uerj). Atualmente cursa o doutorado em Língua Inglesa pela Queen’s University Belfast (Reino Unido). Faz parte, desde 2005, da Diretoria da Associação de Professores de Língua Inglesa do Estado do Rio de Janeiro, e tem ampla experiência no ensino de inglês. Atua principalmente nas áreas de Linguística de Corpus, Língua Inglesa, Linguística Aplicada e Ensino/Aprendizagem, tendo contribuído com artigos e capítulos para periódicos e coletâneas nacionais e internacionais. Participou, como editor, de diversos projetos de livros, e integra a Comissão Editorial de sete periódicos internacionais. Vera Lúcia Menezes de Oliveira e Paiva ([email protected]) é professora titular da Faculdade de Letras da Universidade Federal de Minas Gerais (ufmg) e pesquisadora do cnpq. É mestre em Inglês pela ufmg e doutora em Letras, área de Linguística e Filologia, pela Universidade Federal do Rio de Janeiro. Atua na graduação e na pós-graduação, em duas linhas de pesquisa da área de concentração em Linguística Aplicada: (a) ensino/ aprendizagem de línguas estrangeiras e (b) linguagem e tecnologia, tendo orientado, até 2010, 20 dissertações de mestrado e 17 teses de doutorado. Foi

Corpora no Ensino de Línguas Estrangeiras | 367

presidente da apliemge (1995-1997), da alab (2001-2003) e da Comissão de Especialistas de Ensino de Letras da sesu-mec (2000-2002). Coordena o grupo de pesquisa intitulado “Linguagem e Tecnologia”, registrado no cnpq. Seu projeto de pesquisa atual, Projeto amfale, conta com vários colaboradores nacionais e estrangeiros. É presidente da Comissão Editorial da Revista Brasileira de Linguística Aplicada, organizadora de vários livros e autora de inúmeros artigos e capítulos de livros publicados no Brasil e no exterior.