Processamento Computacional de Língua Natural

(Incentivo à investigação e desenvolvimento científico e tecnológico visando a perpetuação da Língua Portuguesa, na diversidade, como língua de comunicação, de ciência e de cultura na era da Informação)

versus

Processamento Computacional do Português

Por

J. Gabriel Pereira Lopes

Investigador Principal

Centro de Inteligência Artificial (CENTRIA)

Departamento de Informática

Faculdade de Ciências e Tecnologia

Universidade Nova de Lisboa

e-mail: gpl@di.fct.unl.pt

 

Este documento aparece em alternativa ao documento da autoria de Diana Santos, disponibilizado na página do Ministério da Ciência e Tecnologia, sem que houvesse da parte de nenhum órgão deste Ministério, nem do Governo, do qual este ministério depende, o bom senso de constatar que um tal texto, ao estar publicado na página do MCT, ainda que provisoriamente, constitui, de facto, uma declaração de uma política à qual o Ministério dá o seu aval.

Ainda que, naquele texto (cuja publicação é da responsabilidade do Ministério), numa das suas secções, seja declarado que o documento global é entendido pela autora (presumo que também pelo MCT, dado que o publicou) como um "ponto de partida para uma discussão alargada sobre o futuro do processamento computacional da língua portuguesa ", ainda que a autora, em documento posterior àquela publicação, peça aos elementos de uma comunidade científica contribuições para completar ou modificar o dito documento, esta "aparentemente boa" intenção presume que o leitor está de acordo com os pressupostos expostos e/ou com as conclusões do dito documento, e que o consegue enriquecer. Como não é esse o caso, como se poderá concluir do presente documento, passo ao assunto em agenda.

Todos os actores na área do Processamento Computacional de Língua Natural (PCLN), que se atreveram a processar, em tempo aceitável, colecções inteiras de textos, têm consciência de que, em Portugal, como em qualquer outro país, existem diversas variedades de Português (e de outras línguas) e que, como consequência, existem, várias gramáticas e vários léxicos e várias teorias com base nas quais léxicos e gramáticas são construídos, e tudo em permanente evolução.

O que referi para os textos escritos em português de Portugal, repete-se para os textos escritos em português do Brasil e para o que nossos antepassados escreveram, há 100, 200 ou quase 900 anos. Ou seja, não existe Português Padrão. E no caso do Português falado a variedade e a variabilidade decerto que não são menores.

Ou seja existem várias línguas muito semelhantes que têm que ser tratadas igualmente porque se não queremos perder o caminho do Futuro, também não queremos perder o acesso ao Passado, nem à diversidade, nem à variabilidade, nem à intercomunicabilidade.

E neste ponto começou uma das críticas que foi feita relativamente à designação que o Ministério da Ciência e Tecnologia escolheu para dar à área, pondo-a em pé de igualdade com a Física, a Química e outras que não foram, e bem, qualificadas de portuguesas.

Fica assim parcialmente explicado uma parte do título deste documento que diverge nos pressupostos e em muitos objectivos da política que é defendida pelo MCT, via documento publicado, que defende a existência de uma área que designa por "Processamento Computacional da Língua Portuguesa", sem explicitar a que Língua Portuguesa se refere: se à de Portugal, à do Brasil, ou à de outros países da CPLP, se à utilizada pelos jornalistas, ou à utilizada pelos juristas, do século XII, do fim do século passado, ou dos contemporâneos, se à utilizada na "Crónica Geral de Espanha", ou à das nossas crianças na Escola Primária, agora, ou daqui a dez anos, à que utilizamos no e-mail ou à que aparece em documentos oficiais, sem diacríticos.

E a racionalidade aponta para que tratemos disso tudo e que tratemos também da ligação das diversas variedades de português especializado com, pelo menos, as variedades especializadas das outras línguas Europeias, cobrindo, como consequência, a preservação da comunicação com a quase totalidade do Continente Americano, uma parte da África e uma pequeníssima parte da Ásia. E, já agora, também convinha que não fosse perdida a comunicação com a Ásia. E tudo isto porque não queremos ficar "orgulhosamente sós". E esta observação aponta para que o nome da área não seja o utilizado pelo MCT mas a designação mais genérica "Processamento Computacional de Língua Natural", que dei ao título deste documento.

A diversidade, no subtítulo, aponta também, para além das variedades de Português escrito e falado, para os vários tipos de aplicações, para as diversas comunidades científicas trabalhando em Processamento de Língua Natural, escrita ou falada, centradas ou não no Português, sem que, alguma vez, se tenham assumido como trabalhando em PCLN (Fala, Garimpo de Texto, Extracção de Informação, Pesquisa de Informação, etc.) e que contribuíram para a diversidade de métodos utilizáveis nesta área e para a universalidade da sua aplicação a várias línguas, permitindo que as experiências feitas para cada variedade de língua possam ser reproduzidas para qualquer outra variedade, em qualquer parte do mundo. E este aspecto veio dar a esta área o carácter experimental que lhe faltava há alguns anos, aproximando-a de ciências como a Química ou qualquer ciência natural.

Mas o que é um aspecto positivo, porque permite, em algumas horas de processamento computacional, obter maquinalmente resultados e conhecimento que seriam impossíveis de obter manualmente no tempo de uma vida, também tem aspectos negativos. É que os resultados obtidos não são 100% puros (sem erro, contêm "substâncias" aparentemente estranhas aos resultados pretendidos por quem desenhou a experiência) e têm de ser sujeitos a reprocessamento, recorrendo a outras técnicas, de preferência maquinais.

E, por isso, temos de lidar com o erro (com os resultados não pretendidos) que é algo que inicialmente também não tinha sido previsto em aplicações informáticas de outro tipo, até ao momento em que vários acidentes aconteceram (aviões que caíram, foguetões que explodiram, bombas que não acertaram no alvo pretendido mas num não-alvo, ... ). E a necessidade de lidar com o erro (com o desconhecimento, com o ruído) trouxe a esta área contributos impensáveis há algum tempo atrás, nomeadamente a necessidade de recorrer cada vez mais em técnicas de aprendizagem computacional, a técnicas de detecção e superação de falhas, a técnicas de validação estatística de resultados, etc.

O recurso a todas estas técnicas visa, no fundo, realimentar os sistemas de processamento com conhecimento (sobre as línguas e sobre o mundo que elas descrevem e que permitem que o homem modifique) extraído maquinalmente, permitindo obter resultados que são directa ou indirectamente avaliáveis, por humanos (se os afectar nas suas vidas diárias) ou por outros sistemas, permitindo uma evolução razoavelmente rápida, se os actores principais, na área, souberem captar e conjugar esforços com especialistas de áreas complementares essenciais, portugueses ou estrangeiros.

A transformação operada nos últimos anos na área de Processamento Computacional de Língua Natural traz consigo desafios a todas as áreas da Informática, mais ou menos tradicional. Devido à complexidade crescente dos componentes dos sistemas de PCLN, à sua utilização simultânea por diversas aplicações, à necessidade de fazer a manutenção e a actualização de cada uma das fontes de conhecimento de cada um destes componentes, há que deixar que cada um deles tenha a autonomia suficiente para decidir em que momento da sua actividade vai parar para se reabastecer com informação nova. Os sistemas distribuídos, a Programação por Componentes, a programação por Agentes serão áreas da Informática que serão indispensáveis para construir o puzzle cada vez mais complicado que se antevê.

E todos estes aspectos apontam para a utilização do termo genérico e abrangente de Processamento Computacional de Língua Natural.

A diversidade e a urgência das experiências a realizar, dos problemas reais a enfrentar pelas equipas mais bem preparadas para actuar, não lhes deixam nem tempo nem dinheiro disponíveis para se ocuparem de uma correcção manual dos recursos que entretanto foram produzindo, em consequência das suas necessidades e objectivos aplicacionais, que são variáveis no tempo. Nestes casos, faz sentido exigir que patenteiem os seus métodos e resultados. Faz sentido premiar a cooperação com outros grupos menos desenvolvidos, na base de projectos conjuntos submetidos em cooperação, visando uma partilha mutuamente vantajosa entre as partes envolvidas. Faz sentido a organização anual de um Congresso, pelas entidades financiadoras, para apresentação e demonstração pública dos resultados obtidos por cada uma das equipas actoras na área, transformando esses eventos públicos num fórum de discussão que não tem existido e que tem permitido que projectos repitam os caminhos já encetados noutros projectos sem que haja qualquer intervenção dos financiadores, advertindo para a impossibilidade de repetição, apontando para um entendimento entre actores científicos cujo trabalho, se coordenado, levará a uma evolução mais rápida dos resultados produzidos por qualquer desses actores. Isto não impede que não haja equipas que queiram participar e proceder à correcção manual de determinados recursos existentes num determinado Centro, porque esses recursos lhes são imprescindíveis e porque, em vez de os extraírem a partir do nada, se entrarem em acordo com os seus legítimos proprietários, contribuirão para o seu melhoramento, feito manual ou maquinalmente. Mas esta é uma questão de acordo bilateral que também pode e deve ter a cobertura de um projecto conjunto. Mas muitas vezes os recursos de uma instituição nem sequer podem ser públicos, porque a sua produção foi antecedida por um acordo escrito, com uma clausula sobre o comprometimento de cada uma das partes envolvidas, de não serem tornados públicos determinados dados ou resultados obtidos.

Uma política respeitadora da propriedade intelectual, exigindo que essa propriedade seja registada, promovendo o financiamento de projectos de cooperação entre instituições, com interesses mútuos convergentes, em estágios de desenvolvimento diferentes e com tradições diversas, contribuirá para o desenvolvimento global da área.

Mas não são estes os pressupostos do documento publicado pelo MCT. Aí defende-se uma política tipo PREC para a nacionalização da propriedade intelectual, defendendo de forma aparentemente ingénua que anos de trabalho sejam postos assim na Praça pública, para que as multinacionais actuando na área se apropriem, sem dispêndio de um centavo, de anos de trabalho. E tudo isso é feito em nome dos princípios (e constatações) solenes: em nome da utilidade, em nome do número pequeno de investigadores portugueses que somos, em nome das ambições próprias de quem quer ter a INFORMAÇÃO sem fazer o esforço para negociar as formas de melhorar essa informação, num investimento de interesse mútuo, devidamente concretizado em projectos conjuntos, aceites pelas entidades financiadoras e pelas entidades detentoras de direitos de propriedade. Não, o que se pretende é a apropriação da informação colhida com esforço, sem acautelar interesses de propriedade.

PROPOSTAS

É altura de fazer propostas concretas sobre uma política a seguir, não deixando de fora o enquadramento legal sobre o qual o Governo laboriosamente trabalhou nos últimos tempos, nomeadamente a legislação produzida sobre Laboratórios Associados, sobre a Carreira de Investigação e sobre a Carreira de Ensino Superior.

Do meu ponto de vista a política a desenvolver nesta área deve ter como alvo a criação de condições tecnológicas, visando a sobrevivência do Português como língua de Comunicação, de Cultura e de Ciência. Deve também visar: