Diana Santos
Versão preliminar, 24 de Março de 1999
Tento reunir aqui uma série de argumentos para esta opção. Reconheço, além disso, que posso ter tido peso na decisão de investir no "Processamento computacional do português", visto que sempre me pronunciei abertamente a seu favor. Respondo portanto totalmente por ela. Não pretendo, contudo, exprimir a posição de nenhum organismo oficial sobre a matéria, apenas a minha opinião pessoal.
Devido a restrições de tempo, gostava de salvaguardar que o presente texto se encontra ainda em fase preliminar, e que o seu objectivo principal é esclarecer e ajudar à discussão em torno do futuro das várias áreas possíveis mencionadas acima.
A ordem das argumentos que apresento a seguir não deve, além disso, ser interpretada como reflectindo a sua importância.
Estou convencida de que, ao seleccionar a área do processamento do português, se consegue abarcar muitas outras disciplinas científicas (ou áreas, sub-áreas ou o que se quiser chamar). Por exemplo, na lista dos projectos que seleccionei como relevantes para a área ou pelo menos com ela relacionados podem-se identificar assuntos ou disciplinas como
Pelo contrário, se definíssemos o processamento de linguagem natural como a prioridade estávamos a apostar apenas numa das múltiplas áreas em que se poderá contribuir para o processamento computacional do português.
Pelo contrário, a designação "processamento computacional do português" ainda estava limpa de conotações quer com a inteligência artificial quer com a linguística. Note-se no entanto que já houve três conferências subordinadas ao tema "processamento da língua portuguesa (escrita e falada)" (EPLP'93) ou "processamento do português" (PROPOR), o que poderia levar a pensar que a designação não levantaria problemas de maior.
Algumas pessoas sugeriram que seria mais diplomático usar um termo como "Human language technology" ou "engenharia da linguagem", ainda que a intenção fosse a nossa língua, para dar um ar mais científico e para se ser mais diplomático. A minha opinião é que quanto mais claras forem as intenções de um programa, melhor para todos.
Pelo contrário, a intenção seria sempre de tentar que aqueles que, obrigados por chamadas de projectos mais gerais, estivessem habituados a apresentar propostas com cunho geral de forma a terem mais possibilidade de aceitação por comitês genéricos de informática ou linguística, pudessem concentrar-se em aspectos mais práticos relacionados com o português na construção de sistemas que funcionem para a nossa língua e não precisassem de dizer que além disso teriam respostas globais para o avanço da ciência.
Se para o futuro vier a haver (como houve este ano) uma avaliação de projectos que envolvam o processamento computacional do português -- note-se que não foi definida essa área, mas os projectos foram "repescados" pela FCT um a um de todas as áreas possíveis – penso que a melhor garantia de que os projectos que são aprovados sãos os melhores é manter uma comissão de peritos internacionais em PLN como avaliadores (este ano foram: Fernando Pereira, Mats Rooth e Steve Pulman). Não acredito que seja realista temer que algum avaliador internacional prefira um projecto mau que só processse o português a um projecto bom que além de propor uma metodologia geral a testa para o português e para outras línguas também.
De qualquer maneira, é essencial que os critérios de avaliação sejam claros e publicados, como afirmo no meu contributo.
Penso que o facto de privilegiar uma dada actuação -- ou seja, a criação de sistemas que funcionem para a língua portuguesa -- é uma maneira eficaz de fazer avançar também as disciplinas científicas que poderão estar por trás desse progresso.
Parece-me que não é correcto considerar o processamento computacional do português como uma sub-área do PLN que por sua vez é uma sub-área da inteligência artificial que por usa vez é uma área da informática (para parar por aqui). Tenho a certeza de que a maior parte dos investigadores em informática (pura, or "core") aceitariam de bom grado a minha afirmação de que a melhor maneira de fazer progredir o processamento do português não era investir a fundo na informática...
Há vários níveis de abstracção. Se ninguém nega que há um conjunto de características suficientemente gerais para permitir definir o conceito de "linguagem natural", ou língua humana (e daí também uma disciplina genérica chamada processamento de linguagem natural), também ninguém nega que há características suficientemente específicas para evitar que, por exemplo, se possa pegar num sistema de linguagem natural desenvolvido para o inglês e "mudar-lhe a língua".
Durante muito tempo, os investigadores em linguagem natural (americanos na sua maioria) processavam alegremente o inglês como "a" linguagem natural. Apesar de desenvolverem sistemas baseados em características (umas mais universais do que outras) do inglês, não tinham quaisquer escrúpulos na seguinte igualdade, ou pelo menos implicação (inglês=>língua): se processamos a língua inglesa, processamos qualquer língua; na maior parte das vezes sem qualquer preocupação em confirmar minimamente essa hipótese (aliás poucas vezes expressa).
Neste momento, e na minha perspectiva, já existe bastante mais aceitação de que as questões multilingues são mais complexas. Parece-me que cada país ou comunidade linguística deve insistir na sua língua (e não em todas as línguas ou na língua em geral) para se poder mais tarde avançar para uma generalização em pé de igualdade entre várias línguas.
Sugiro estabelecer uma distinção entre tecnologias, aplicações, e sistemas reais:
Enquanto tecnologias deviam ser partilháveis e o mais possível "rodadas" para as várias línguas (ou seja, experimentadas e melhoradas de forma a serem gerais), já as aplicações concretas dessas tecnologias beneficiariam de uma maior atenção aos aspectos específicos da língua para a qual estivessem a ser desenvolvidas, e os sistemas reais desenvolvidos para a realidade portuguesa deviam ser principalmente concebidos tendo em atenção os utilizadores, a sua língua, os seus costumes e padrões comunicativos.
Estou bem consciente que há sempre pelo menos duas maneiras de ver uma questão, e que a posição do Miguel Filgueiras representa uma abordagem de cima para baixo ("top-down") – primeiro conhecer bem a área do PLN, depois especializar para o português. Gostava apenas que ele e outros reconhecessem que há também uma abordagem de baixo para cima ("bottom-up"), que diz que depois de se tentar resolver vários problemas práticos numa língua concreta pode tentar generalizar-se para metodologias mais abrangentes, eventualmente envolvendo outras línguas.
Provavelmente no meio é que está a virtude, e as duas abordagens deveriam talvez ser seguidas em paralelo? O que é certo é que – que eu saiba – em Portugal sempre se privilegiou a primeira abordagem, e os resultados não são animadores. (O que não implica que a causa desta situação seja precisamente a ênfase no geral, mas que deixa a possibilidade de se ter essa dúvida...)
Uma das questões mais relevantes na matéria da aposta na área do processamento do português é de como conseguir formação apropriada na área. Parece-me que a altura mais produtiva de um investigador é quando este se encontra a fazer uma tese de mestrado ou doutoramento, em que tem tempo para se dedicar a um problema e pensar em possíveis soluções, e não quando já está envolvido numa vida profissional exigente.
Ora a questão da formação geral em PLN, e em particular no estrangeiro, faz com que na maior parte das instituições de renome internacional os alunos tenham de ir trabalhar ou noutras línguas, ou em assuntos que sejam do interesse das instituições de acolhimento, e que infelizmente poucas vezes têm a ver com o português.
Parece portanto necessário lutar precisamente para que a maior parte das teses de mestrado e doutoramento no futuro, muito embora tratando de questões gerais, metodologias ou tecnologias, permitam que o formando se dedique em profundidade à nossa língua e não a outra.
Isso parecia-me mais fácil de conseguir se fossem concedidos incentivos especiais para investigar a nossa língua e o seu processamento aos novos intervenientes.
Não se pretendeu discutir aqui se a decisão de identificar a área como uma prioridade significa equipará-la à Física ou à Química. No presente contexto, não me parece muito importante estabelecer o que é que Ciência ou Tecnologia podem querer dizer.
Por outro lado, subscrevo completamente a opinião expressa pelo Miguel Filgueiras, do foro político-científico, de que se devem evitar as "capelinhas", de tal forma que remeto para o que escrevi no documento de trabalho como proposta de medidas concretas para evitar um tal estado de coisas.