Professor Gabriel Lopes Departamento de Informática da Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa/Investigador Principal do Centro de Inteligência Artificial (CENTRIA)

Ah, ok. Eu apontei uma série de tópicos que, que… alguns que vêem naquele, naquele documento que eu, eu… fiz chegar ao Ministério da Ciência e da Tecnologia, outros que são, constituem de facto preocupações minhas e de um conjunto de pessoas também. Subscrevo as palavras da… Isabel Trancoso, e particularmente, agradou-me, digamos, a panorâmica geral que foi feita pelo Fernando Pereira e… pelo nosso colega alemão relativamente, portanto, à situação na Alemanha também. Um dos problemas que a mim me preocupa particularmente é que a área de processamento computacional de línguas é uma área que sofreu uma transformação metodológica, e que eu comparo, digamos a uma área experimental neste momento, e que, de alguma forma começa a poder ser comparada com ciências naturais, seja a física seja a química, sejam outras ciências, isso não se verificava há uma dezena de anos. Um dos problemas que se levanta tem a ver com a necessidade de automatização na aquisição de uma série de conhecimentos porque ... por vários motivos: Não temos mão-de-obra suficiente para codificar todo o conhecimento humano… manualmente, e esse processo vai ter que ser feito automaticamente, e para isso temos que descobrir os processos para o fazer. Muitos já existem, muitos terão ainda que ser descobertos. A automatização é um aspecto, a questão da investigação na área, do meu ponto de vista, deve ser sempre baseada em projectos, os projectos têm um tempo de vida relativamente curto, três anos é um período perfeitamente razoável, admite-se que, digamos, períodos para projectos ligeiramente maiores, mas nunca mais de quatro anos para algum tipo de acção ou pelo menos para verificação de determinado tipo de resultados obtidos. A outra questão que também já foi falada, e mencionada, e que eu também tinha, digamos, é a multiplicidade. A língua portuguesa, seja contemporânea, seja passada, seja futura, é um dos nossos objectivos, as metodologias de… para aquisição novamente automática, aí são idênticas, não quer dizer que os resultados sejam precisamente idênticos, mas são semelhantes para qualquer outra língua. Do meu ponto de vista há aqui uma questão de universalidade e a universalidade tem a ver com a construção de maquinaria que seja capaz, não só de fazer determinado tipo de tarefas para o português, seja ele contemporâneo, medieval, do século passado, ou o português utilizado nos nossos e-mails… mas que seja também capaz fazer exactamente o mesmo tipo, de resolver o mesmo tipo problemas para outras línguas. E aí por exemplo, tem-se aqui falado dos etiquetadores, os célebres etiquetadores. Digamos, os etiquetadores não são construídos apenas para etiquetar; etiqueta-se porque há objectivos, há experiências a fazer e, digamos, em cada tipo de experiência tem o seu tipo de etiquetas, e isso vai levar, digamos, a que haja necessidade de ter de facto etiquetadores que se comportem de uma maneira… que nós saibamos qual o grau de precisão que eles têm, mas não vamos ter um etiquetador para o português… podemos ter é uma ferramenta… que possa ser treinada para determinado tipo de textos até porque, por exemplo, os textos têm informação que não é exclusivamente da língua, por vezes tem informação sobre questões de formatação, por exemplo, aquelas alíneas a, b, c e d, etc, etc; o primeiro, segundo terceiro, é tipicamente formatação e que por exemplo em processadores de texto como Word, digamos, nós podemos mudar a…essa informação; um etiquetador, digamos, razoável…treinado para diversas coisas é capaz de etiquetar esse alínea a, alínea b, alínea c com nomes próprios seguidos de um parêntesis, por exemplo, e não é isso propriamente o que nós queremos. Portanto, tem que haver, digamos, adequação à, ao tipo de trabalho que se pretende fazer.

Metodologias. Portanto, a área, neste momento é uma área complexa, para onde convergem metodologias que eram impensáveis e que viviam de…viviam de costas voltadas há alguns anos atrás, e particularmente temos as metodologias, eu vou por recuperação de informação para information retrieval, metodologias de recuperação de informação, metodologias de machine learning, metodologias estatísticas que eram impensáveis, portanto métodos estatísticos que eram impensáveis há uns…há um tempo atrás e que neste momento têm que ser intensificados…E há toda uma série de text mining, toda uma série de zonas que vão contribuir e que estão a contribuir, neste momento, não só para um enriquecimento da área de processamento de língua natural, como também para o enriquecimento de cada uma dessas áreas, através dos resultados obtidos em língua natural, e através também de inovações feitas em língua natural. Portanto todas as…existe uma interpenetração. Quando eu falei ainda à pouco da necessidade da área se desenvolver em torno de projectos, de um modo geral eu acho que esses projectos devem-se desenvolver também em torno de aplicações; e entre as aplicações…novamente temos a recuperação da informação e os nossos organismos de Estado têm informação de que necessitam e que é necessário recuperar constantemente e torná-la pública uma, aquela que não é pública…deverá ficar dentro do âmbito restrito a que deve, a que deve caber; toda essa é uma área de, importante de aplicação, mas além da recuperação da informação, há a recuperação de informação atravessando as barreiras linguísticas, portanto o cross language e information retrieval…que é uma área em que o português, daí a necessidade de não falar apenas exclusivamente em processamento do português, não ter ferramentas que trabalhem exclusivamente em cima do português, mas que sejam capazes de fazer as tarefas que nós exigimos não só para o português como para as outras línguas. Pode haver cooperação, com outros países…nem sempre essa cooperação é fácil…a esse aspecto voltarei. Há um outro aspecto de aplicações e que tem a ver com a aprendizagem à distância, não estou a falar agora só do ensino, o ensino à distância consegue-se fazer razoavelmente bem, o problema é que não existe e que não tem sido focalizado é o problema da aprendizagem, é o problema da avaliação. A avaliação é feita normalmente com testes de cruzinhas, nunca é permitido texto…razoavelmente livre para ver como os alunos, de facto, se comportam perante determinado tipo de perguntas, e isso aí acaba por ser uma área relativamente semelhante à de avaliação de inquéritos em que há…texto, a possibilidade de criação de texto livre, e há possibilidade de investigação, inclusivamente no âmbito sócio-linguístico a várias outras, a várias outras questões. A tradução automática…a questão das terminologias e dos thesaurus, neste momento existem ferramentem que podem ajudar qualquer terminólogo a identificar…unidade lexicais razoavelmente complexas sem terem que o fazer à mão. E os próprios thesaurus…há experiências feitas, digamos, os thesaurus construídos manualmente dão determinado resultados, inclusivamente aqueles grandes projectos como a Word Net, como outros projectos de grande fôlego e que são feitos manualmente…têm, acontece que existe incompatibilidade num número considerável de casos entre aquilo que obtêm automaticamente e aquilo que foi construído…manualmente com base na nossa capacidade para entender diversas coisas mas, digamos…muitas vez para, incapacidade para detectar que estamos a ter uma perspectiva diferente…para aquilo que nos interessa, quando tínhamos outra perspectiva para um outro aspecto que estávamos a avaliar. Portanto, quer terminologias quer thesaurus podem ser, a sua construção pode ser facilmente, não direi automatizável mas, digamos, automatizável o suporte para, digamos, para que…precisamente para a construção desses…dessas ferramentas. Mais não tem, não é necessariamente compatível com as teorias existentes quer linguísticas sobre a língua quer...portanto a compatibilidade ai vai ter que ser estudada pelo aspecto...a ter em atenção. Há uma outra aplicação que é das bibliotecas digitais. Portanto, acesso novamente a informação, e isso tem a ver também com o ensino e com toda uma série de coisas. Uma zona que me parece que foi esquecida é a questão...o que tem sido...não tão lembrada é a questão da...cooperação, particularmente com o Brasil, onde existem um conjunto de equipas a trabalhar em processamento de língua natural, que começa a ser bastante importante dado o investimento de... do Governo brasileiro na formação de doutores... por essa Europa for a, e não só, e nos Estados Unidos também, e no próprio Japão. E a cooperação começa a ser, porque não se trata apenas de cooperação entre equipas portuguesas, que tem sido razoavelmente difícil nalguns casos, mas trata-se também de cooperação com equipas brasileiras. No caso da cooperação com equipas europeias... por motivos de financiamentos europeus, ela não tem sido tão difícil quando esses financiamentos existem, e quando de facto os organismos governamentais... olham com mais atenção e fazem, e fazem lobby ou deveriam fazer lobby a nível europeu, o que não tem acontecido muitas vezes, ao contrário do que acontece com os espanhóis, os franceses, os alemães, etc, etc. muitas vezes temos um representante por, por áreas de projecto, que na vez seguinte não é esse representante, é outro, e a informação sobre projectos portugueses ou projectos onde existem... equipas portuguesa não é transmitida, e portanto muitas vezes não vale a pena... concorrer... a projectos europeus, particularmente quando não existem fortíssimos grupos com capacidade de lobby sobretudo do ponto de vista dos países que representam. Portanto cooperação não só com o Brasil, mas cooperação com a Europa, Estados Unidos e Japão. A questão da automatização levanta, digamos, outro tipo de questão, é que a automatização não é... vai levar a resultados que não são cem por cento correctos. E uma das... tal e qual como na... informática se passou a ter que ter em linha de conta o erro a partir do momento em que a Ariadne explodiu, a partir do momento em que a bomba em vez de ir atingir um quartel foi atingir um hospital ao lado, a partir do momento em que aviões explodiram, a partir do momento em que muitas coisas dessas aconteceram... em língua natural nós vamos ter que ter em linha de conta e olhar com muita atenção a questão do erro. Não há nenhum etiquetador que seja cem por cento correcto, não há nenhuma gramática que seja, que tenha uma cobertura cem por cento da língua portuguesa, e agora das diversas... das diversas variedades de língua portuguesa, porque cada uma das variedades vai ter preferência por esta ou aquele tipo de outra construção. E isso é um problema que tem que ser analisado com muito cuidado, particularmente, e novamente para aí vão convergir, desde a estatística, validação de resultados... desde... métodos simbólicos para detectar, para fazer (...), até muitas outras questões que é (...). E aí levanta-se novamente o problema, quer dizer, há determinados corpus que existem... e com os quais as nossas equipas trabalham, há corpus etiquetado, por exemplo, o meu. Temos mais de cinquenta milhões, temos um corpus com cinquenta milhões de palavras etiquetadas, mas evidentemente que não é cem por cento correcto. E para detectar, mas no entanto conseguem-se detectar erros ou padrões de erro, não são erros específicos, padrões de erros que acontecem, portanto utilizando... ao utilizar esse corpus para determinado tipo de estudos, e ao validar esses resultados, digamos, detectam-se de facto padrões de erros, e aí entra aquela questão que eu falei ainda há pouco, a questão do erro tem que ser ponderada com muito cuidado, porque é impossível fazer validação humana de cinquenta milhões de palavras, corpus com cinquenta milhões de palavras. E então se formos para corpus parcialmente analisados, existem corpus parcialmente analisados, digamos, a verificação desses corpus manualmente é impossível. Temos que olhar para a validação, temos que ver que, consoante as experiências que se pretendem realizar, assim as etiquetas vão ser umas, assim as metodologias vão ser outras, assim os resultados vão ser outros. E, novamente, a partilha de corpus, a partilha de recursos é conveniente que seja feita na base da cooperação. E a cooperação faz-se com base em projectos também. Há uma questão que eu penso que é importante, que é a que, anualmente deveria existir um fórum em que fossem apresentados os resultados de cada um dos projectos para que cada um de nós soubesse o que é que se faz no grupo do lado com quem não colaboramos nem cooperamos, e para que fossem evitadas, digamos... as repetições, muitas vezes desnecessárias, de trabalho feito e para que pudéssemos ser mais eficientes nos poucos dinheiros que dispomos. E acabava por aqui. Há outra questão que eu queria dizer, de facto... este ano realiza-se a quarta edição do PROPOR, portanto, o encontro para o processamento computacional da língua portuguesa, que se realiza em Évora, salvo erro no dia vinte e vinte um de Setembro no âmbito... portanto é uma das organizações... no âmbito do Encontro Português de Inteligência Artificial. As duas outras, as duas anteriores... edições do PROPOR realizaram-se no Brasil, em conjunto com a... organização do Simpósio Brasileiro de Inteligência Artificial, o último foi em Porto Alegre, em Rio Grande do Sul, o penúltimo foi em Curitiba, no estado do Paraná, e o primeiro, digamos, o primeiro encontro de processamento computacional da língua portuguesa escrita e falada decorreu em Lisboa, em mil novecentos e noventa e três, se não estou em erro. Pronto, e acabava por aqui.


Voltar à página do Debate público