Doutor Fernando Pereira - Director do Machine Learning and Information Retrieval Research Department da AT&T Labs

Portanto, o que eu gostava de falar brevemente e sobre uma perspectiva, o que eu vejo, especialmente do ponto de vista onde eu estou e do trabalho que eu tenho vindo a fazer há um número de anos, sobre as razões do progresso do processamento da língua em geral, não especificamente o português, porque de facto o meu conhecimento do processamento português é relativamente limitado. E o ponto que eu queria começar por fazer é que há uma renascença nesta área que é extremamente notável, que se verifica a vários níveis, tanto ao nível técnico, com o desenvolvimento de técnicas muito mais robustas de processamento de língua, tanto a fala como. Quando eu falo de processamento de língua aqui quer dizer tanto, refiro-me sempre, tanto a processamento da fala como a processamento de texto. Um aspecto muito importante que eu acho que por vezes não é considerado suficientemente, que é o colapso de barreiras entre disciplinas que se tem vindo a verificar nos últimos anos, nesta área, um papel crescente da indústria que durante bastantes anos se tinha afastado do processamento da língua como uma tecnologia importante,  e o desenvolvimento de aplicações muito significativas. Vou mencionar também algumas das razões que penso que tenham levado a esta renascença, e depois vou concluir com uns comentários sobre o que penso que será possível ou razoável tentar fazer e também mencionar algumas coisas que penso que não tenham vindo a funcionar tão bem no desenvolvimento recente do processamento da língua.

Quanto à parte técnica, a coisa mais notável, para mim ? talvez seja um bocado um ponto de vista muito pessoal dado que é uma área à qual eu tenho estado directamente envolvido ? é o desenvolvimento de métodos de aprendizagem automática que se baseiam na existência de grandes bases de dados linguísticos e extraem dessas bases de dados informação estatística, regras, e outros tipos de informação e criam representações que permitem um processamento muito robusto, embora superficial, da língua, tanto na área do processamento da fala, seja no reconhecimento seja na síntese, como na área da procura em bases textuais ou na área da extracção de informação de grandes bases de texto ou de acesso de informação na Web.

A segunda área importante é o desenvolvimento de uma variedade de formalismos computacionais para processamento da língua, tanto na Europa como nos Estados Unidos, melhores formalismos gramaticais e mais recentemente, e com uma importância cada vez maior, técnicas probabilísticas, de gramáticas probabilísticas e redes probabilísticas para representação da incerteza no processamento da língua.

O terceiro aspecto técnico que é muito importante é o desenvolvimento de melhores algoritmos de procura quando há incerteza de qual é a análise, por exemplo, de uma construção ou a incerteza do conhecimento da fala, melhores algoritmos para escolher entre as alternativas geradas pelos sistemas de representação que mencionei anteriormente.

Um ponto geral relativo a todas estas observações é a tendência para ir para algoritmos mais gerais com dados e representações específicos. Isto é, em vez de, por exemplo, termos os aspectos de uma língua ou de uma aplicação codificados nos programas de processamento, esses aspectos são codificados através de uma escolha de dados e de uma escolha de representações, enquanto os algoritmos, os programas de processamento são independentes, ou tendem a ser independentes da língua ou aplicação específica.

Quanto ao ponto que eu tinha mencionado antes do colapso de barreiras entre disciplinas, aparece a dois níveis: um é a convergência de áreas tradicionalmente separadas: a linguística computacional, o processamento da fala e a procura texto (information retrieval é o termo inglês, não sei qual é o termo português favorito para esta área de investigação), são áreas que tradicionalmente estavam bastante separadas e até de certo modo inimigas. E nos últimos cinco a dez anos tem-se dado uma convergência notável entre elas, por exemplo, técnicas vindas do processamento da fala como modelos de Markov têm vindo a ser aplicados ao processamento de texto, técnicas de base linguística têm aparecido no processamento da fala e na procura de texto, e muitas outras interacções se têm desenvolvido e pessoas de uma comunidade aparecem com influências da outra comunidade, e este desenvolvimento parece-me ser muito importante. E, para além dessa convergência de áreas, também existem melhores relações com outras disciplinas científicas relacionadas. Eu já mencionei a aprendizagem automática, a estatística é uma outra área com que tem havido interacções cada vez mais importantes, o trabalho em reconhecimento de padrões da engenharia electrotécnica levou a uma variedade de técnicas que que agora estão a ser usadas tanto no processamento da fala como no processamento de texto, também da informática a teoria de autómatos e algoritmos e estruturas de dados estão a fazer contribuições cada vez mais importantes no processamento da língua. Uma área que eu ponho numa categoria especial é linguística, curiosa e surpreendentemente. Parece-me que, ainda a linguística como disciplina está relativamente separada da área de aplicação de processamento do processamento computacional, o que não quer dizer que conhecimento linguístico e formação linguística não sejam fundamentais e entrem no processo de uma maneira indirecta, mas não existe um diálogo a um nível aberto entre a disciplina académica linguística e o processamento computacional, pelo menos a um nível global, talvez exista localmente em certos países, em certas organizações, mas não ao nível que se deveria esperar numa área em que para a qual a linguística teria um papel fundamental de fornecimento de conhecimento e de técnicas de análise. É uma questão que eu talvez gostasse ter um certo debate se houvesse oportunidade para isso.

Gostava também de mencionar, aqui ? mais uma vez isto é uma perspectiva da América do Norte, onde eu trabalho ? o papel da indústria. Grandes companhias industriais como a AT&T que me emprega, a IBM, a Microsoft, a Xerox, entre outras, estão a investir cada vez mais nesta área,  tanto para o processamento da fala como para o processamento de texto. O desenvolvimento da Internet claro que tem tido uma influência muito grande nisto, com a disponibilização de grandes massas de texto que pessoas querem utilizar para grande variedade de fins. Há laboratórios multinacionais, por exemplo companhias japonesas que se têm estabelecido nos Estados Unidos, laboratórios de investigação e desenvolvimento nesta área, companhias pequenas, médias, que têm grande influência nesta área como Dragon, Nuance, e também existe uma influência indirecta mas importante, indirecta porque não é ao nível da disciplina específica mas ao nível de certas técnicas associadas à indústria da Internet, sistemas de procura na Internet, talvez nós não saibamos explicitamente, mas de facto usam técnicas vindas do processamento da língua. Por exemplo, técnicas de análise morfológica, de indexação, de análise lexicográfica são usadas internamente em sistemas de procura, como por exemplo no sistema Excite, que é um dos sistemas mais utilizados na Internet. E várias companhias novas tendem a usar técnicas de processamento da língua nas suas ferramentas e serviços Internet. Finalmente eu gostava de mencionar um aspecto muito importante,  que é que a indústria tem vindo a financiar indirectamente a criação de recursos comuns, públicos, através do seu financiamento, que não é exclusivo, mas é um financiamento importante do Linguistic Data Consortium ,que é um consórcio de colecção de dados e anotação de dados linguísticos na Universidade da Pensilvânia.

Quanto a aplicações, gostava de mencionar aplicações de comunicação falada, por exemplo, a automatização de serviços telefónicos e de acesso a informação que se estão a desenvolver rapidamente e estão a ser comercializados a uma velocidade crescente, produtos para transcrição de fala, por exemplo os produtos da IBM e da Dragon, que qualquer pessoa pode comprar hoje em dia, produtos de correcção ortográfica e sintáctica, com por exemplo o que se pode encontrar no Microsoft Word que utiliza uma grande variedades de técnicas de processamento de língua desenvolvidos na comunidade que tenho vindo a discutir, a métodos de indexação de procura, a extracção de informação textual e falada; e suporte à tradução.

Gostava também de mencionar as razões desta renascença. Uma é simplesmente porque os computadores são cada vez mais poderosos. De facto a lei de Moore tem vindo a contribuir mais para a renascença desta área talvez que qualquer outro factor. E em particular a possibilidade de arquivar e de analisar grandes massas de texto e de fala. Por outro lado tem havido, em particular nos Estados Unidos, mas também crescentemente na União Europeia um financiamento público focado, levando a avaliações experimentais regulares, ao desenvolvimento tanto da competição entre grupos como de cooperação forçada entre grupos através do partilhar de recursos e do intercâmbio de técnicas através de publicações e de apresentações, a criação de bases de dados comuns e de standards de anotação comuns e o suporte industrial que eu já mencionei.

Nestas avaliações e métodos empíricos de avaliação há certos perigos que se têm também vindo a verificar e que devemos tomar em conta: um é que muitas vezes avaliam o que se pode avaliar em vez do que é importante avaliar, porque se avaliou o que se pode medir e nem sempre o que se pode medir é o que interessa para uma aplicação. Há o risco de levar a um progresso demasiado incremental, isto é, nós queremos melhorar a nossa métrica de avaliação numa certa direcção e isso pode levar-nos simplesmente a continuar a escalar um colinazinha enquanto a montanha maior continua inatingível. Há uma certa tendência para perder diversidade, toda a gente acaba por fazer a mesma coisa porque é a coisa que funciona. E essa obsessão com avaliação, portanto, tem que ser moderada, tem que haver um balanço entre explorar ideias novas, fundamentalmente novas, que podem de momento não ser efectivas na prática e ter a certeza de que o que nós estamos a fazer de um ponto de vista mais aplicado,  pode ser avaliado e nós podemos apontar para números que demonstram que é o melhor possível dentro da tecnologia que está ser empregue.

Outros perigos que tenho visto é o desenvolvimento de projectos demasiado grandes, projectos que envolvam demasiados actores em que o projecto é mais importante que o avanço científico e é a criação de uma instituição pesada e auto-preservadora, levando por vezes à criação de instituições que sobrevivem muito para além da sua utilidade real.

Gostava também agora de mencionar a questão da colheita de dados, porque parece que essa é uma das mais importantes para este tipo de progresso. Em particular a importância de haver uma definição colectiva das colecções de dados e dos métodos de anotação e haver uma coordenação deste processo, que seja leve, que não seja ditatorial ou burocrática, mas que por outro lado seja aceite por todos e seja seguida, de modo que os dados que eu recolher com um certo financiamento sejam anotados de maneira que todos os outros possam utilizar. A importância de colher dados, de usar contratos específicos para recolher dados que, em vez da criação de uma única instituição ou de um único método de colher dados, que para cada colecção diferente existam contratos específicos criados e competições para esses contratos de modo a que aqueles que são mais eficazes, aqueles que são mais capazes na colecção de dados tenham oportunidade de o fazer em vez de estarmos restringidos a um único método de colecção de dados.

A importância também de comissões de acompanhamento, comissões formadas de utilizadores potenciais desses dados que acompanhem o processo de colecção e de anotação, e que possam criticar e possam sugerir novos métodos. Outra coisa que tem tido grande importância em certas comunidades, por exemplo na comunidade de procura em texto, é a utilização de dados como o preço de participação numa avaliação. Eu vou ser avaliado, por exemplo, relativamente a métodos de procura de texto, eu tenho que fornecer um conjunto de dados anotados que eu utilizei e que todos os grupos fornecem dados anotados e todos os sistemas depois são avaliados sobre a união desses dados fornecidos por todos os grupos. Portanto, se eu quero participar, eu tenho que produzir dados anotados, e a colecção de dados torna-se parte do desenvolvimento de sistemas. Um outro ponto que eu gostava de mencionar é a importância em evitar a anotação para a qual não exista consenso teórico. Uma das coisas que eu tenho visto é que por vezes há tendência de querer fazer anotações muito ricas, muito aprofundadas, mas como não há um consenso teórico sobre tipo de anotação, cria-se uma discussão teórica interminável e os dados nunca são anotados.

Gostava de acabar com umas observações sobre educação. Parece-me muito importante, ao contrário do que certas coisas que eu tenho parecido ouvir aqui, a importância em evitar a especialização excessiva. Isto é uma área extremamente móvel, nova e volátil. Seria perigoso formar pessoas que estivessem tão agarradas à área como ela é hoje, que fossem incapazes depois de mover a sua investigação e o seu trabalho em direcções novas quando a tecnologia e o ambiente social e económico mudam. Em particular acho que é extremamente importante criar a possibilidade de troca de ideias e pessoas entre áreas vizinhas. Há muitas técnicas em comum entre o processamento da língua, aprendizagem automática que eu mencionei, por exemplo, a visão, a biologia computacional, os algoritmos, e eu tenho visto na minha experiência pessoas migrarem destas áreas, que faziam contribuições em várias áreas diferentes. Portanto, por exemplo, penso que a criação de licenciaturas especializadas nesta área talvez seja prematuro. É mais importante equipar pessoas com um conjunto de técnicas gerais e  uma capacidade de análise que lhes permitam trabalhar nesta área, mas noutras áreas relacionadas também, e possam estar preparadas para mudanças de carreira frequentes, dado que a tecnologia continua a mudar e preparadas para mobilidade, tanto mobilidade entre tipos de empregos diferentes como mobilidade entre locais diferentes, parece-me que isso é mais importante do que tentar criar estruturas extremamente formalizadas de educação na área do processamento da língua, formando pessoas que hoje talvez  tenham um perfil apropriado mas que daqui a cinco anos terão dificuldade em encontrar um emprego apropriado.


Voltar à página do Debate público