Professora Maria Fernanda Bacelar do Nascimento – Centro de Linguística da Universidade de Lisboa
Agradeço aos organizadores o terem-me convidado na minha qualidade de membro do Centro de Linguística da Universidade de Lisboa. É hoje indiscutível a necessidade de se promoverem estudos e de se criarem produtos sobre o português, e que isso deve fazer parte de uma política global da língua. Essa necessidade constitui, ainda, um problema de carácter social, económico, cultural e educacional que importa resolver. Numa sociedade de informação global, é imperioso oferecer a todo o cidadão a possibilidade de aceder a essa informação e de nela participar, utilizando a sua própria língua. Para tal é indispensável que se promova a realização de esforços concertados com vista, quer à constituição de recursos linguísticos e informáticos, quer ao desenvolvimento de programas de investigação, quer à construção de aplicações e de produtos. De facto, a própria definição de uma política da língua exige, também, a definição dos meios para a realizar, sendo que o contributo da investigação na área do processamento computacional da língua é, inegavelmente, um desses meios. Assim sendo, é natural que nos congratulemos com o facto de este tema ter sido identificado como um tema de interesse público, para o qual se prevêem financiamentos específicos. Aplaudimos, portanto, desde já, o processo desencadeado que convergiu para este debate e que tem sido útil a vários níveis. Sublinhamos particularmente a abertura de um fórum na rede, que possibilitou um início de discussão, e os levantamentos já iniciados sobre recursos humanos e materiais existentes . Esperamos, sinceramente, que esse fórum permaneça aberto para continuação do debate entre todos os intervenientes no processo, no sentido de reforçar a necessária convergência de esforços nesta área de carácter eminentemente interdisciplinar.
A tónica desta minha intervenção poderia ser posta em diversos aspectos que exigem medidas de fundo como são, por exemplo: a comprovada necessidade de formação em certas áreas, principalmente ao nível da pós-graduação; a imperiosa necessidade de continuidade nos trabalhos de investigação e de continuidade de emprego, que não se compadece com a proliferação de projectos de curta duração; a crucial necessidade de que as instituições que intervêm neste processo sejam dotadas de financiamentos estáveis e continuados que lhes permitam uma planificação e estruturação consequente e controlada das suas actividades. No tempo de que disponho para esta intervenção seria impossível aflorar todos estes problemas que, de resto, têm sido referidos de uma forma que me pareceu consensual no fórum. Proponho-me por isso pôr a tónica nalguns outros aspectos que constituem efectivas preocupações da instituição a que pertenço, o Centro de Linguística da Universidade de Lisboa e que desejo constituam um contributo construtivo para este debate. São eles: uma necessidade de confluência de esforços; a importância crucial da investigação fundamental como base do desenvolvimento de aplicações e de produtos de qualidade, e, finalmente, a defesa do legítimo e indiscutível direito do público a aceder aos materiais disponibilizáveis. Isto deve ser feito sem prejuízo dos direitos de propriedade intelectual dos diversos tipos de participantes, cuja protecção tem que ser respeitada por obediência aos imperativos legais nacional e internacionalmente estabelecidos e, que mais não fosse, por obediência a princípios éticos e deontológicos.
No que se refere ao primeiro aspecto, julgamos, de facto, imprescindível que se comece por fazer a "radiografia" e o "diagnóstico" da situação das equipas que já se ocupam das diversas disciplinas em jogo (e de potenciais novos intervenientes) e, seguidamente, concertar esforços para dinamizar os sectores, para promover investigação coordenada e para a realização de trabalho conjunto. O trabalho a fazer em conjunto deverá, em nosso entender, visar, principalmente, a definição de prioridades nesta área, a definição de parcerias e a definição de métodos de avaliação e validação, a realizar por equipas com alta competência nas diversas disciplinas.
Outro aspecto importante diz respeito ao facto de considerarmos que nesta área - relativamente recente em Portugal - se revela indispensável que o desenvolvimento da investigação fundamental (a par do desenvolvimento experimental) desempenhe um papel básico na consecução, com êxito e qualidade, das aplicações e dos produtos. Permitimo-nos considerar mais demoradamente este assunto, uma vez que no CLUL, no Centro de Linguística, trabalhamos em vários domínios da área em debate. Com efeito, quer em projectos "individuais", quer no âmbito de parcerias nacionais e internacionais, realizamos trabalhos disciplinares e interdisciplinares, particularmente com equipas de informática, em investigação fundamental (nomeadamente conducentes à representação do conhecimento linguístico) em desenvolvimento de vastos recursos linguísticos (particularmente corpora e léxicos) assim como no desenvolvimento de aplicações e construção de produtos (por exemplo, o dicionário electrónico, método de ensino assistido por computador, síntese da fala para comunicação alternativa ou aumentativa) e são alguns exemplos. Quer no plano da investigação fundamental, quer no plano das aplicações, é exactamente quando há que dar conta das especificidades da língua portuguesa que nos apercebemos das lacunas que existem no conhecimento do português e da necessidade de descrições para muitos aspectos desta língua. Constatamos, também, que a qualidade dos produtos nunca melhora sem informação fundamental. Se, na verdade, existe já capital de conhecimentos suficiente para desenvolver certos produtos (veja-se, por exemplo, a quantidade e, em certos casos, a qualidade de anotadores morfológicos), nalgumas áreas, como a sintaxe ou a semântica, os conhecimentos actuais permitem apenas resolver aspectos parcelares das questões. Se pensarmos na pretendida interacção homem/máquina importa, ainda, salientar que, para o português, as ferramentas de anotação automática ou semi-automática existentes apresentam, em geral, desempenhos insuficientes e muito principalmente quando se trata de língua falada espontânea e isto mesmo em situações de interacção controlada. Há, ainda, áreas em que, mesmo os aspectos parcelares, estão longe de alcançar soluções. Darei, como exemplos, os que decorrem da ausência de conciliação de métodos entre a investigação linguística baseada em conhecimentos matemáticos, indispensável para as estruturas de modelização linguística computáveis, ou as carências que se fazem notar na área da fala em que, por exemplo, a imprescindível anotação multilinear integrada está a ser feita manualmente e com evidente falta de meios humanos com preparação adequada.
Finalmente, no que se refere à desejável disponibilização dos recursos existentes, permito-me apresentar um caso concreto por ser o que melhor conheço e por me parecer paradigmático, o da disponibilização de corpora. Sabemos todos muito bem que a utilização de corpora de grandes dimensões e de vastos conjuntos dos seus textos anotados tem vindo a adquirir grande importância e se torna hoje indispensável para a realização de variadíssimos tipos de estudo. O Centro de Linguística vem, desde há muitos anos, (e, durante muito tempo, contra todas as correntes dominantes), a constituir o chamado Corpus de Referência do Português Contemporâneo, corpus que atingiu já os 83 milhões de palavras e contém amostragens de vários tipos de português falado e escrito em Portugal, predominantemente, e também no Brasil, nos cinco países africanos de língua oficial portuguesa e em Macau. Esta importante infra-estrutura linguística, juntamente com as ferramentas que lhe estão associadas, foi concebida – e cito os termos do projecto desde o seu início – "com o fim de se estabelecer uma base de dados constituída por documentos linguísticos organizados e informatizados, acessíveis aos investigadores, professores, tradutores e a todos aqueles que, em Portugal e no estrangeiro, desejam aceder a bases de dados linguísticos para realizarem trabalhos de carácter teórico ou prático em que intervenha a língua portuguesa". Para além dos vários projectos nacionais e comunitários realizados ou em curso no Centro de Linguística, tendo como base este corpus, temos procurado concretizar este objectivo: disponibilizar os materiais a todos os interessados. Para tanto, utilizámos dois tipos de procedimentos. Um, que sabíamos não pôr em causa a legislação vigente, consiste em dar resposta (e gratuitamente, devido ao estatuto da nossa instituição) a todos quantos nos solicitam a consulta do corpus para trabalhos que não tenham fins lucrativos. Essas respostas implicam trabalho desenvolvido no próprio Centro (especialmente extracção quantitativa e estatística, também extracção de concordâncias, extracção de associações lexicais, etc.) trabalho que é feito apoiando os interessados para, definido o objectivo da investigação, se desenharem os sub-corpora adequados e os programas a utilizar. Parte destes trabalhos têm tido como resultado teses de mestrado e de doutoramento, outros enquadram-se em projectos de diversas áreas, que vão desde a biomatemática à lexicografia: não poderei deixar de mencionar a ampla utilização do corpus para recolha de abonações do Dicionário da Academia das Ciências de Lisboa e, nesta fase de ultimação daquele dicionário, a validação da sua nomenclatura com base num significativo sub-corpus.
O outro procedimento que temos diz respeito à disponibilização do próprio corpus o que envolve, necessariamente, um conjunto de problemas de mais longa e igualmente onerosa resolução. Uma vez que o corpus tem crescido não apenas em função do desenho inicial, mas essencialmente ao sabor dos financiamentos, na sua maioria particulares (este corpus nem sequer existiria sem o inestimável apoio financeiro, e também de consultoria para a parte literária, da Fundação Calouste Gulbenkian). Infelizmente, também nos temos dirigido a multinacionais que nos pareciam interessadas, mas que não dão resposta, que pelos vistos dão noutros países, como foi visto aqui de manhã. Ora, o nosso corpus vai crescendo ao sabor desses financiamentos, na sua maioria particulares como digo, e também das contribuições da rede de fornecedores de dados. São neste momento trinta instituições públicas e privadas - Ministérios, o Parlamento, editoras, jornais - e, assim, o seu desenvolvimento resulta desequilibrado pelo que a disponibilização de partes do corpus exige trabalho de selecção de materiais para que a amostra seja equilibrada. De facto, é evidente que para nós a ideia de corpus não é de um conjunto indiscriminado de textos. É evidente, como hoje aqui foi dito, toda a gente pode ter acesso a todos os jornais que estão na Internet, mas no nosso entender isso não é… é um corpus jornalístico, mas o nosso corpus é constituído por variadíssimos tipos de discurso, é estudado para isso. Temos também a preocupação de que seja disponibilizado num formato standard (neste caso o SGML) e que seja conjuntamente disponibilizada uma linguagem de pesquisa, em português. Podemos anunciar que, em Setembro, estará disponível na Internet um corpus de português escrito de três milhões de palavras que foi constituído segundo standards europeus. Isto é possível graças ao financiamento do programa comunitário MLIS (Projecto ELAN que envolve trinta línguas). Pela mesma altura, também será distribuído um outro corpus, da mesma dimensão, através da Associação Europeia de Recursos Linguísticos (ELRA), também já aqui mencionada, sendo nossa intenção ir aumentando a quantidade dos materiais a disponibilizar. Para a disponibilização dos textos contidos nesses dois sub-corpora a que em breve todos terão acesso, obtivemos autorização escrita dos seus autores e/ou editores. Vem isto a propósito do facto de o Centro de Linguística estar firmemente disposto a respeitar: os contratos com os fornecedores de dados; a legislação portuguesa de direitos de autores; as recomendações do Guia Jurídico encomendado expressamente pela União Europeia com vista, quer à protecção do direito público de acesso aos dados, quer à protecção dos direitos dos autores dos textos contidos nos corpora, quer à protecção dos direitos dos autores de corpora. No que respeita a estes últimos, os direitos de propriedade intelectual estão claramente consignados, e isto de acordo com as convenções de Berna e de Genève, as quais foram amplamente divulgadas pela UNESCO no ABC du droit d’auteur e segundo aquelas convenções internacionais "uma base de dados é protegida por direitos de autor, se ela é original, no sentido de que se trate de uma colecção de obras ou de matérias que, pela selecção que envolve ou pela disposição das matérias, constitui uma criação intelectual própria", o que se conforma também com o artigo 3º do Código Português dos Direitos de Autores e que é, como se sabe, portanto, o caso do Corpus de Referência do Português Contemporâneo.
Uma intervenção governamental que já foi aflorada até na obtenção das necessárias autorizações, tal como é feita por exemplo em Inglaterra, seria preciosa. Também uma intervenção do governo na criação das condições necessárias ao desenvolvimento, tratamento e disponibilização de dados e de ferramentas em geral, estaria, quanto a nós, perfeitamente integrada numa política nacional da língua.
Voltar à página do Debate público