Versão base de 9 de Fevereiro de 1999, última alteração efectuada a 13 de Abril
Investir no processamento computacional da nossa língua é a única forma de garantir que a sociedade de informação do futuro privilegie a língua portuguesa -- a nossa língua -- para comunicar, ensinar e ter acesso ao conhecimento, permitindo que o cidadão comum possa viver com os computadores sem ter de renegar a sua cultura e a sua língua.
Pretende-se que este documento seja o ponto de partida para uma discussão alargada sobre o futuro do processamento computacional da língua portuguesa. E que dessa discussão surja a identificação de medidas concretas para o seu florescimento.
Já todas as empresas da área da informação estão conscientes da necessidade de "localização"; é preciso agora dar um novo passo e sugerir a "originalização": não é só adaptar, de forma grosseira, algo concebido por técnicos e investigadores estrangeiros para um público também estrangeiro, é preciso conceber ferramentas, publicidade, grandes sistemas, para um público português, construídos por técnicos e investigadores portugueses. (Se "a nossa pátria é a língua portuguesa" como escreveu Fernando Pessoa, a interpretação destas palavras deve ser alargada aos cidadãos da língua portuguesa, e não de Portugal apenas).
Em alguns domínios isso já foi reconhecido, embora subordinado ainda e sempre a interesses diferentes dos culturais: veja-se "you buy in your language but you sell in the language of your customers" (citada em O'Hagan, 1996:9) ou a génese de campanhas publicitárias nacionais para companhias internacionais.
Em muitos outros domínios, contudo, ainda não foi reconhecida a importância do peso específico de cada cultura na comunicação.
Um exemplo trivial é a questão dos formulários que é preciso preencher, quer a nível da administração pública ou das empresas, em papel, quer a nível de associações internacionais, através da Internet. Quantas vezes se nos deparam classificações desajustadas, ou ambíguas, em relação aos dados pessoais que temos de preencher? O que são "middle names" ou mesmo "middle initials"? "Zip code" e "state"? Por que nome pretendemos ser ordenados alfabeticamente? Qual é o nome que se escreve antes -- o apelido ou o nome próprio? O que são "títulos honoríficos"?
E se desde já ao nível do formulário se encontra o desajuste com a nossa condição de portugueses (ou de cidadãos de outro país que não os Estados Unidos), isso continua com a questão irritante dos conjuntos de caracteres ("character sets", ou "codepages") que continuam a ter uma dezena de codificações diferentes para os nossos simples acentos e cedilha, já para não falar do travessão e das aspas.
E prossegue a nível dos programas de formatação / editores, que muitas vezes impõem uma "Table of contents" no início de um livro / artigo, usam as regras de hifenação do inglês, e "ajudam" apresentando cartas num formato americano bem pouco adaptado às realidades nacionais.
Até há bem pouco tempo era quase impossível tomar em consideração o facto de que a ordem alfabética difere de maneiras subtis de língua para língua, assim como continua a não ser trivial indicar a translineação de palavras com enclíticos em português com um tracinho antes e depois da mudança de linha (convenção usada durante séculos de imprensa, mas banida pelos processadores de texto).
Num mundo dominado pela concepção anglo-saxónica (em versão americana) da comunicação, não é de admirar que também ao nível do processamento computacional da língua as abordagens dominantes levem à diminuição da importância concedida às diferenças:
Este último caso, muito comum na área do processamento de linguagem natural (PLN), leva a casos como a afirmação, por parte de membros respeitados da comunidade científica, das grandes vantagens, para a recuperação de informação multilingue, do tratamento da língua francesa como se fosse inglês mal escrito! (veja-se http://www.cst.ku.dk/projects/eagles2/workshop/TRECkaren.html).
É nossa convicção que é preciso encarar a língua portuguesa como um factor social importantíssimo, e levar em conta a especificidade da cultura portuguesa tal como é reflectida na língua e nos padrões comunicativos. Isso significa que importa olhar para a realidade (da língua) portuguesa e daí partir para o desenvolvimento de sistemas que a tratem correctamente, melhorando tanto a comunicação entre o homem e a máquina, como a comunicação entre os homens assistida pelo computador.
Não se melhora o estado de uma área científica por decreto, ou simplesmente com a boa vontade de um governante. É preciso que haja uma reflexão por parte dos intervenientes, que exprimam os seus pontos de vista e proponham medidas concretas. Este documento resulta de uma primeira consulta informal, e limitada, a alguns interessados. Para que corresponda aos anseios de todos quantos trabalham no processamento computacional do português -- ou gostariam de vir a trabalhar -- precisa da reacção e contribuição de todos. Por essa razão pedimos que enviem críticas, sugestões e contribuições para projecto@informatics.sintef.no. Todas as contribuições serão tornadas públicas no nosso servidor.
Neste momento, a maioria dos grupos debate-se com grandes dificuldades económicas e de recrutamento, exactamente por falta desse reconhecimento.
Para o desenvolvimento de alguns projectos na área, assim como de actividades contínuas de recursos e de investigação fundamental, é também preciso ter em conta projectos ou actividades de duração superior a 2-3 anos (o que não exclui controlo e revisão desse mesmo financiamento a intervalos menores).
É também preciso definir uma ou várias formas de avaliar a "saúde" da área, de forma a poder de facto contribuir para o seu avanço, e corrigir medidas que se venham a mostrar infrutíferas.
Para este último objectivo, poder-se-ia:
Até agora a comunidade de investigação na área da língua e do processamento de linguagem natural (PLN) tem guardado ciosamente os recursos (textos, dicionários, ferramentas) para si -- com honrosas excepções --, o que leva, entre outros inconvenientes, a
É preciso mudar este estado de coisas, sem prejudicar contudo aqueles que desenvolveram esses mesmos recursos, criando um enquadramento em que a partilha é encorajada -- e recompensada -- ao mesmo tempo que se garante a flexibilidade de esquemas de remuneração baseados na utilização.
Mais do que disponibilizar recursos que já existem, é preciso criar muitos outros inexistentes na nossa língua, e garantir que essa criação seja acompanhada pelos interessados, evitando assim que a sua disponibilização seja comprometida.
Alguns exemplos do que seria preciso desenvolver para a nossa língua:
Como consegui-los? Algumas sugestões:
Devido à falta de recursos comuns e à falta de comunicação entre os diversos grupos, não há qualquer consenso ou modo de avaliar uma dada ferramenta ou dado no que respeita à língua portuguesa. Não é, portanto, possível, na maior parte dos casos avaliar minimamente o trabalho na área.
É essencial, por isso mesmo, que também sejam desenvolvidos métodos de avaliação, de teste e de comparação, à semelhança das conferências americanas TREC (veja-se http://trec.nist.gov/), ou SENSEVAL (veja-se http://www.itri.bton.ac.uk/events/senseval/cfp2.html), etc., que tenham em conta especificamente o português.
Da mesma forma, é preciso publicar e definir padrões mínimos de aceitação de produtos que tratam do português, tais como ambientes computacionais, sistemas de apoio a actividades linguísticas (tais como sistemas de apoio à tradução, editores de texto), produtos de apoio ao trabalho em colaboração, ou sistemas informáticos da administração central.
É também preciso lutar a nível internacional pela resolução de alguns problemas nos padrões internacionais, sendo um exemplo óbvio o da proibição de usar acentos em vários formatos electrónicos devido aos protocolos de comunicação subjacentes (mail, http, ftp, etc.).
Seria, pois, vantajoso ter um serviço público de "portuguesificação" (por oposição a aportuguesamento) da tecnologia, incumbido de organizar as conferências de avaliação e de informar a comunidade, de garantir a distribuição dos recursos, de levar a cabo ou encomendar testes de qualidade e representar o país em órgãos internacionais (sobre este assunto veja-se também Serviços de desenvolvimento de recursos e ferramentas partilháveis).
Há um conjunto de serviços que a língua portuguesa devia ter:
Em alguns casos, poderá ser pertinente que o Estado os assegure através dos seus próprios quadros; noutros casos é suficiente que os grupos e centros envolvidos consagrem parte da sua actividade e dos seus elementos a actividades desta índole, desde que suficientemente financiados para tal.
Em nenhum caso se deveria esquecer que os próprios utilizadores têm de estar representados, para eles próprios (ou os seus representantes) poderem avaliar da utilidade do serviço e da forma como funciona.
De notar que estes serviços, dadas as características actuais da tecnologia, teriam todas as vantagens em ser distribuídos pelo país e pelo mundo de forma a evitar tendências monopolizadoras e a congregar o potencial que se encontra já em vários lugares geográficos. Não será possível esquecer a valiosa contribuição que os grupos de I&D brasileiros, assim como grupos no estrangeiro, podem dar.
Mais uma vez, antes de usar o decreto e criar redes "no papel", seria importante que a própria comunidade científica se reorganizasse nesse sentido. Encorajamento directo para tal seria, além de financiamento especial para essa reorganização, a obrigatoriedade de inclusão de distribuidores e avaliadores de recursos nas próprias propostas de projectos a serem financiados, de forma a que cada centro ou grupo, além das actividades de desenvolvimento, investigação, ensino e divulgação também levasse a sério os serviços de teste, verificação e fornecimento de um serviço.
Uma questão que tem de ser levantada e considerada com atenção é a dos métodos empíricos em linguística computacional (ou no processamento do português em particular).
É preciso pôr a tónica em questões como avaliação, cobertura, precisão, teste de hipóteses, comparação de versões alternativas, medidas objectivas.
Até agora, como referido em Disponibilização de recursos (nas suas múltiplas vertentes), há pouquíssimo trabalho que possa ser considerado como avaliação ou medida de qualquer sistema e da sua adequação à tarefa que pretende resolver.
Por exemplo, como se avalia um dicionário de português? Através do tamanho? Ou de alguns erros detectados? Ou da sua interface amigável? E um sistema de síntese de fala? E um sistema de procura na WWW?
Estas questões são tanto ou mais importantes do que o desenvolvimento dos próprios sistemas ou recursos, e é preciso consagrar-lhes muita atenção, visto que tradicionalmente a não tiveram.
Como já foi dito, há uma necessidade premente de desenvolver recursos especificamente para a avaliação, tais como corpora de grandes dimensões, corpora anotados, etc.
Algumas medidas sugeridas para melhorar a situação são:
Só com sistemas que demonstram aquilo que se tenta realizar, e que permitem o seu teste e a sua manipulação, é possível, de facto,
O principal desafio da área do processamento computacional do português é passar de uma actividade académica para uma realidade patente a todos os níveis da nossa sociedade de informação.
Aquilo a que devemos aspirar é que um nível de português (lingware) se torne tão necessário como um sistema operativo. E que, em consequência, para usar qualquer máquina ou equipamento seja em breve inconcebível que as mensagens de erro, indicações e ajuda não venham na nossa língua. Que possamos, a breve trecho,
Ainda muitos dos programas que é preciso configurar ou com que comunicar no dia a dia usa uma linguagem baseada no inglês, seja um servidor de Web (Apache), seja um programa moderador de listas electrónicas (majordomo), seja um formatador de texto (LaTeX), etc.. O mesmo se passa com quase todas as linguagens de programação.
É preciso, por um lado, contactar e estabelecer programas concretos de acção com empresas internacionais de forma a contemplarem o português.
Por outro lado, é preciso fomentar a endogeneização da tecnologia nas empresas portuguesas, estabelecendo programas de incentivo e de redução de impostos às empresas que se modernizem na área.
Será contudo de evitar uma portuguesificação forçada, por decreto. A preferência natural pela nossa língua deve ser a causa para a escolha eventual entre produtos e serviços, e não uma ordem política. Sugere-se, pois, a portuguesificação por exemplo e modelo; não por imposição.
Poder-se-ia, nesse sentido, conceder um programa de apoio especial a algumas empresas chave, tais como editoras, meios de comunicação social e instituições culturais (bibliotecas, museus, etc.), de forma a poderem investir a tempo, e com seriedade, no processamento computacional da nossa língua.
Isto vem na linha da constatação de que é fundamental dotar de meios generosos as bibliotecas, museus, e outras instituições que possuam acervos de interesse público, de forma a poderem colocar os seus recursos em formatos que permitam o seu acesso e manipulação por todos os interessados, assim como desenvolver projectos conducentes a um melhor conhecimento e estudo das colecções mantidas e criadas no âmbito dessas instituições.
Alguns bons exemplos levariam a um efeito de avalanche por parte de outras empresas e serviços públicos, que procurariam activamente financiamento para actividades ou funcionalidades análogas.
A este respeito, convém salientar que não é apenas o trabalho, mas também os tempos livres, que beneficiariam de um investimento sério no processamento do português. Com efeito, as letras de músicas em português disponíveis na Internet são dos recursos mais acedidos, o que indica que o investimento na cultura teria uma grande audiência.
Um dos maiores problemas da área é a sua falta de reconhecimento e mesmo de identidade própria. Tanto as escolas de engenharia como as faculdades de letras não a reconhecem como uma área prioritária, e em nenhum dos casos conseguem neste momento ministrar educação apropriada em Portugal (embora já haja alguns sinais positivos: uma licenciatura em engenharia da linguagem e um curso de pós-graduação em linguística computacional, assim como várias cadeiras de especialização ministradas em mestrados de âmbito mais geral, veja-se http://www.portugues.mct.pt/ensino.html).
Contudo, ainda existem lacunas evidentes que é preciso colmatar a nível nacional (note-se que, não tendo acesso aos planos curriculares de todas as universidades do país, a minha visão aqui depende apenas da informação que os possíveis interessados me facultaram, e que pode portanto não ser exacta):
Um outro problema que nos parece importante é o da perspectiva que os investigadores têm do trabalho na área ser muito diferente, senão antagónica. Enquanto os engenheiros a vêem como uma área específica da informática (em que a matéria prima é a língua), os filólogos vêem-na como uma aplicação da linguística (cujo meio são os computadores). As diferentes linguagens e culturas dos dois ambientes tornam particularmente difícil uma verdadeira comunicação.
O ideal seria que existisse uma cadeira básica de PLN em todos os cursos de informática (com eventual seguimento de cadeiras mais avançadas, de opção) ou mesmo em todos os cursos de engenharia. Essencial seria também que na estrutura de todos os cursos de letras existisse uma ou mais cadeiras de informática, não só para familiarizar o aluno com os métodos e recursos existentes na sua área de humanidades, mas também para permitir a compreensão de como foram desenvolvidos.
Cada vez mais se observa uma base tecnológica comum, uma infraestrutura tecnológica e de comunicações que favorece a comunicação entre os vários ramos do saber. Seria por isso extremamente vantajoso que os vários departamentos (os de PLN nas escolas de engenharia e os de informática nas escolas de letras) colaborassem entre si de forma a partilhar currículos, professores e projectos. Alguns investigadores sugerem mesmo uma reorganização dos grupos de investigação de forma a levar a essa fertilização cruzada.
Além disso, parece-nos que deveria ser montado um curso (ou mesmo um laboratório) de processamento computacional de português na rede, visto que precisamente uma das áreas em que o processamento de linguagem natural tem aplicação evidente é na educação através da WWW. Para tal seria preciso um esforço por parte de todos os presentes intervenientes na área (esforço esse suportado financeiramente pelas entidades públicas), para criar os materiais e o conteúdo, disponibilizando dessa forma um pouco do seu saber e dos seus sistemas para que outros possam aprender com eles.
É preciso definir -- e proteger -- o estatuto público da língua, e esclarecer as questões de direito de autores, de editores e de compiladores de colecções (assim como de dicionários e de enciclopédias), regulamentar o uso de material electrónico, assim como o funcionamento de revistas e bibliotecas digitais.
Uma das áreas de maior explosão (também no processamento de linguagem natural) tem a ver com a Web. É preciso que tal se reflicta também na nossa língua, o que exige a criação de especialistas que dominem as duas áreas.
Grandes colecções de informação formalizada existem em forma de bases de dados ou de conhecimento. Tradicionalmente, as duas áreas não se encontram, o que só pode produzir uma duplicação de esforços quer na compilação de recursos, quer no seu processamento, quer mesmo no próprio desenvolvimento de interfaces humano-máquina para esses recursos.
Ao estabelecer modelos de comunicação distantes e enfatizando a descoberta por parte do aluno, a Internet dá origem a novos modelos pedagógicos que devem naturalmente ter em conta a língua e a cultura. Esta é uma área em que o processamento computacional da língua pode ser essencial para a "amigabilidade" do sistema, e como tal, para a prossecução dos seus objectivos didácticos.
Se não for possível que a maioria dos actores envolvidos consiga comunicar, não é realista alimentar qualquer esperança sobre o desenvolvimento harmonioso da área do processamento computacional da nossa língua.
Até agora, a área tem vivido num esquema de convites, negociações secretas e pouca transparência. Não se sabe o que os outros andam a fazer, a que resultados chegaram e que negociações se encontram em curso. A maioria dos grupos não publicita o que anda a fazer na rede, e sobretudo não disponibiliza os resultados. Há várias medidas concretas que poderiam ser tomadas para contrariar este estado de coisas, pelo menos no que se refere aos projectos com financiamento público:
Recebemos em Janeiro/Fevereiro os seguintes documentos para discussão, que muito agradecemos, e para os quais redirigimos o leitor no próprio texto.
Convém também reconhecer que muitas das ideias aqui contidas provêm em maior ou menor grau de outros documentos sobre o mesmo tema ou sobre a área em geral, a maior parte dos quais disponíveis na Internet. Tentámos reunir essa informação em forma de lista, ordenada alfabeticamente, em htpp://www.portugues.mct.pt/atalhos1.html , que reproduzimos aqui.
Fazemos também referência ao seguinte texto em formato não electrónico:
Contudo, fiz uma tentativa de descrever a área em Portugal como ela poderia vir a ser descrita, através de três fontes de informação distintas, postas à minha disposição pelo Observatório das Ciências e das Tecnologias e a Fundação da Ciência e Tecnologia:
Por outro lado, e através da informação presente na rede (WWW), tentámos criar um catálogo de recursos e actores na área do processamento computacional do português (sem restrições nacionais ou geográficas), em desenvolvimento desde Julho de 1998, e acessível do nosso servidor em http://www.linguateca.pt/.