Introdução

Assiste-se neste momento a uma grande tendência de homogeneização mundial, em que a tecnologia surge como a causa e o motor de tal necessidade. Mas, como qualquer "tecnólogo" sabe, não é a tecnologia que é limitadora, mas sim os interesses dos donos da(s) tecnologia(s). Contudo, devido à importância da informação, codificada na sua maior parte em língua humanas, em livros, documentos e interacção verbal na sociedade, chegou-se a uma situação paradoxal. Para ter maior domínio e maior acesso à informação é necessário atender à diversidade mundial. Ou seja, ao facto de existirem várias línguas, vários sistemas de escrita, várias culturas na forma como se comunica.

Já todas as empresas da área da informação estão conscientes da necessidade de "localização"; é preciso agora dar um novo passo e sugerir a "originalização": não é só adaptar, de forma grosseira, algo concebido por técnicos e investigadores estrangeiros para um público também estrangeiro, é preciso conceber ferramentas, publicidade, grandes sistemas, para um público português, construídos por técnicos e investigadores portugueses. (Se "a nossa pátria é a língua portuguesa" como escreveu Fernando Pessoa, a interpretação destas palavras deve ser alargada aos cidadãos da língua portuguesa, e não de Portugal apenas).

Em alguns domínios isso já foi reconhecido, embora subordinado ainda e sempre a interesses diferentes dos culturais: veja-se "you buy in your language but you sell in the language of your customers" (citada em O'Hagan, 1996:9) ou a génese de campanhas publicitárias nacionais para companhias internacionais.

Em muitos outros domínios, contudo, ainda não foi reconhecida a importância do peso específico de cada cultura na comunicação.

Um exemplo trivial é a questão dos formulários que é preciso preencher, quer a nível da administração pública ou das empresas, em papel, quer a nível de associações internacionais, através da Internet. Quantas vezes se nos deparam classificações desajustadas, ou ambíguas, em relação aos dados pessoais que temos de preencher? O que são "middle names" ou mesmo "middle initials"? "Zip code" e "state"? Por que nome pretendemos ser ordenados alfabeticamente? Qual é o nome que se escreve antes -- o apelido ou o nome próprio? O que são "títulos honoríficos"?

E se desde já ao nível do formulário se encontra o desajuste com a nossa condição de portugueses (ou de cidadãos de outro país que não os Estados Unidos), isso continua com a questão irritante dos conjuntos de caracteres ("character sets", ou "codepages") que continuam a ter uma dezena de codificações diferentes para os nossos simples acentos e cedilha, já para não falar do travessão e das aspas.

E prossegue a nível dos programas de formatação / editores, que muitas vezes impõem uma "Table of contents" no início de um livro / artigo, usam as regras de hifenação do inglês, e "ajudam" apresentando cartas num formato americano bem pouco adaptado às realidades nacionais.

Até há bem pouco tempo era quase impossível tomar em consideração o facto de que a ordem alfabética difere de maneiras subtis de língua para língua, assim como continua a não ser trivial indicar a translineação de palavras com enclíticos em português com um tracinho antes e depois da mudança de linha (convenção usada durante séculos de imprensa, mas banida pelos processadores de texto).

Num mundo dominado pela concepção anglo-saxónica (em versão americana) da comunicação, não é de admirar que também ao nível do processamento computacional da língua as abordagens dominantes levem à diminuição da importância concedida às diferenças:

Este último caso, muito comum na área do processamento de linguagem natural (PLN), leva a casos como a afirmação, por parte de membros respeitados da comunidade científica, das grandes vantagens, para a recuperação de informação multilingue, do tratamento da língua francesa como se fosse inglês mal escrito! (veja-se http://www.cst.ku.dk/projects/eagles2/workshop/TRECkaren.html).

É nossa convicção que é preciso encarar a língua portuguesa como um factor social importantíssimo, e levar em conta a especificidade da cultura portuguesa tal como é reflectida na língua e nos padrões comunicativos. Isso significa que importa olhar para a realidade (da língua) portuguesa e daí partir para o desenvolvimento de sistemas que a tratem correctamente, melhorando tanto a comunicação entre o homem e a máquina, como a comunicação entre os homens assistida pelo computador.

Não se melhora o estado de uma área científica por decreto, ou simplesmente com a boa vontade de um governante. É preciso que haja uma reflexão por parte dos intervenientes, que exprimam os seus pontos de vista e proponham medidas concretas. Este documento resulta de uma primeira consulta informal, e limitada, a alguns interessados. Para que corresponda aos anseios de todos quantos trabalham no processamento computacional do português -- ou gostariam de vir a trabalhar -- precisa da reacção e contribuição de todos. Por essa razão pedimos que enviem críticas, sugestões e contribuições. Todas as contribuições serão tornadas públicas no nosso servidor.


Voltar a Processamento computacional da língua portuguesa: documento de trabalho