Processamento computacional da língua portuguesa: documento de trabalho

Diana Santos

Versão base de 9 de Fevereiro de 1999, última alteração efectuada a 13 de Abril


English version, last reviewed 13th April

Investir no processamento computacional da nossa língua é a única forma de garantir que a sociedade de informação do futuro privilegie a língua portuguesa -- a nossa língua -- para comunicar, ensinar e ter acesso ao conhecimento, permitindo que o cidadão comum possa viver com os computadores sem ter de renegar a sua cultura e a sua língua.

Pretende-se que este documento seja o ponto de partida para uma discussão alargada sobre o futuro do processamento computacional da língua portuguesa. E que dessa discussão surja a identificação de medidas concretas para o seu florescimento.


Introdução

Assiste-se neste momento a uma grande tendência de homogeneização mundial, em que a tecnologia surge como a causa e o motor de tal necessidade. Mas, como qualquer "tecnólogo" sabe, não é a tecnologia que é limitadora, mas sim os interesses dos donos da(s) tecnologia(s). Contudo, devido à importância da informação, codificada na sua maior parte em língua humanas, em livros, documentos e interacção verbal na sociedade, chegou-se a uma situação paradoxal. Para ter maior domínio e maior acesso à informação é necessário atender à diversidade mundial. Ou seja, ao facto de existirem várias línguas, vários sistemas de escrita, várias culturas na forma como se comunica.

Já todas as empresas da área da informação estão conscientes da necessidade de "localização"; é preciso agora dar um novo passo e sugerir a "originalização": não é só adaptar, de forma grosseira, algo concebido por técnicos e investigadores estrangeiros para um público também estrangeiro, é preciso conceber ferramentas, publicidade, grandes sistemas, para um público português, construídos por técnicos e investigadores portugueses. (Se "a nossa pátria é a língua portuguesa" como escreveu Fernando Pessoa, a interpretação destas palavras deve ser alargada aos cidadãos da língua portuguesa, e não de Portugal apenas).

Em alguns domínios isso já foi reconhecido, embora subordinado ainda e sempre a interesses diferentes dos culturais: veja-se "you buy in your language but you sell in the language of your customers" (citada em O'Hagan, 1996:9) ou a génese de campanhas publicitárias nacionais para companhias internacionais.

Em muitos outros domínios, contudo, ainda não foi reconhecida a importância do peso específico de cada cultura na comunicação.

Um exemplo trivial é a questão dos formulários que é preciso preencher, quer a nível da administração pública ou das empresas, em papel, quer a nível de associações internacionais, através da Internet. Quantas vezes se nos deparam classificações desajustadas, ou ambíguas, em relação aos dados pessoais que temos de preencher? O que são "middle names" ou mesmo "middle initials"? "Zip code" e "state"? Por que nome pretendemos ser ordenados alfabeticamente? Qual é o nome que se escreve antes -- o apelido ou o nome próprio? O que são "títulos honoríficos"?

E se desde já ao nível do formulário se encontra o desajuste com a nossa condição de portugueses (ou de cidadãos de outro país que não os Estados Unidos), isso continua com a questão irritante dos conjuntos de caracteres ("character sets", ou "codepages") que continuam a ter uma dezena de codificações diferentes para os nossos simples acentos e cedilha, já para não falar do travessão e das aspas.

E prossegue a nível dos programas de formatação / editores, que muitas vezes impõem uma "Table of contents" no início de um livro / artigo, usam as regras de hifenação do inglês, e "ajudam" apresentando cartas num formato americano bem pouco adaptado às realidades nacionais.

Até há bem pouco tempo era quase impossível tomar em consideração o facto de que a ordem alfabética difere de maneiras subtis de língua para língua, assim como continua a não ser trivial indicar a translineação de palavras com enclíticos em português com um tracinho antes e depois da mudança de linha (convenção usada durante séculos de imprensa, mas banida pelos processadores de texto).

Num mundo dominado pela concepção anglo-saxónica (em versão americana) da comunicação, não é de admirar que também ao nível do processamento computacional da língua as abordagens dominantes levem à diminuição da importância concedida às diferenças:

Este último caso, muito comum na área do processamento de linguagem natural (PLN), leva a casos como a afirmação, por parte de membros respeitados da comunidade científica, das grandes vantagens, para a recuperação de informação multilingue, do tratamento da língua francesa como se fosse inglês mal escrito! (veja-se http://www.cst.ku.dk/projects/eagles2/workshop/TRECkaren.html).

É nossa convicção que é preciso encarar a língua portuguesa como um factor social importantíssimo, e levar em conta a especificidade da cultura portuguesa tal como é reflectida na língua e nos padrões comunicativos. Isso significa que importa olhar para a realidade (da língua) portuguesa e daí partir para o desenvolvimento de sistemas que a tratem correctamente, melhorando tanto a comunicação entre o homem e a máquina, como a comunicação entre os homens assistida pelo computador.

Não se melhora o estado de uma área científica por decreto, ou simplesmente com a boa vontade de um governante. É preciso que haja uma reflexão por parte dos intervenientes, que exprimam os seus pontos de vista e proponham medidas concretas. Este documento resulta de uma primeira consulta informal, e limitada, a alguns interessados. Para que corresponda aos anseios de todos quantos trabalham no processamento computacional do português -- ou gostariam de vir a trabalhar -- precisa da reacção e contribuição de todos. Por essa razão pedimos que enviem críticas, sugestões e contribuições para projecto@informatics.sintef.no. Todas as contribuições serão tornadas públicas no nosso servidor.


Definição do processamento do português como área prioritária

É preciso definir, a nível político e sobretudo financiador, esta área como prioritária, de forma a poder assegurar alguma continuidade aos grupos de investigação presentes e futuros e poder dessa maneira ser encarada como saída profissional realista.

Neste momento, a maioria dos grupos debate-se com grandes dificuldades económicas e de recrutamento, exactamente por falta desse reconhecimento.

Para o desenvolvimento de alguns projectos na área, assim como de actividades contínuas de recursos e de investigação fundamental, é também preciso ter em conta projectos ou actividades de duração superior a 2-3 anos (o que não exclui controlo e revisão desse mesmo financiamento a intervalos menores).

É também preciso definir uma ou várias formas de avaliar a "saúde" da área, de forma a poder de facto contribuir para o seu avanço, e corrigir medidas que se venham a mostrar infrutíferas.

Para este último objectivo, poder-se-ia:

Disponibilização de recursos (nas suas múltiplas vertentes)

Até agora a comunidade de investigação na área da língua e do processamento de linguagem natural (PLN) tem guardado ciosamente os recursos (textos, dicionários, ferramentas) para si -- com honrosas excepções --, o que leva, entre outros inconvenientes, a

É preciso mudar este estado de coisas, sem prejudicar contudo aqueles que desenvolveram esses mesmos recursos, criando um enquadramento em que a partilha é encorajada -- e recompensada -- ao mesmo tempo que se garante a flexibilidade de esquemas de remuneração baseados na utilização.

Mais do que disponibilizar recursos que já existem, é preciso criar muitos outros inexistentes na nossa língua, e garantir que essa criação seja acompanhada pelos interessados, evitando assim que a sua disponibilização seja comprometida.

Alguns exemplos do que seria preciso desenvolver para a nossa língua:

Como consegui-los? Algumas sugestões:

Convém também referir que seria muito útil uma postura arquivística respeito dos recursos, ou seja, para poder distribuir e descrever os recursos, há necessidade de criação (e de uso) de estruturas classificativas (taxonomias, tesauros classificativos); assim como se devia fomentar a codificação da informação em formatos partilháveis (tais como XML, TEI), ou pelo menos bem documentados.

Avaliação e controlo de qualidade em relação ao português

Devido à falta de recursos comuns e à falta de comunicação entre os diversos grupos, não há qualquer consenso ou modo de avaliar uma dada ferramenta ou dado no que respeita à língua portuguesa. Não é, portanto, possível, na maior parte dos casos avaliar minimamente o trabalho na área.

É essencial, por isso mesmo, que também sejam desenvolvidos métodos de avaliação, de teste e de comparação, à semelhança das conferências americanas TREC (veja-se http://trec.nist.gov/), ou SENSEVAL (veja-se http://www.itri.bton.ac.uk/events/senseval/cfp2.html), etc., que tenham em conta especificamente o português.

Da mesma forma, é preciso publicar e definir padrões mínimos de aceitação de produtos que tratam do português, tais como ambientes computacionais, sistemas de apoio a actividades linguísticas (tais como sistemas de apoio à tradução, editores de texto), produtos de apoio ao trabalho em colaboração, ou sistemas informáticos da administração central.

É também preciso lutar a nível internacional pela resolução de alguns problemas nos padrões internacionais, sendo um exemplo óbvio o da proibição de usar acentos em vários formatos electrónicos devido aos protocolos de comunicação subjacentes (mail, http, ftp, etc.).

Seria, pois, vantajoso ter um serviço público de "portuguesificação" (por oposição a aportuguesamento) da tecnologia, incumbido de organizar as conferências de avaliação e de informar a comunidade, de garantir a distribuição dos recursos, de levar a cabo ou encomendar testes de qualidade e representar o país em órgãos internacionais (sobre este assunto veja-se também Serviços de desenvolvimento de recursos e ferramentas partilháveis).

Serviços de desenvolvimento de recursos e ferramentas partilháveis

Há um conjunto de serviços que a língua portuguesa devia ter: