Processamento computacional do português

O projecto Processamento Computacional do Português foi lançado em Maio de 1998 como uma primeira medida para organizar a área da engenharia da linguagem do português, considerada pelo Ministério da Ciência e da Tecnologia (MCT) uma das suas prioridades em Portugal, da qual era patente, contudo, a debilidade a nível nacional e internacional. Este projecto foi concebido como uma fase temporária de planeamento e intervenção no processamento da língua portuguesa por parte do MCT, associado que estava à criação do Livro Branco em Ciência e Tecnologia (nossa contribuição) e aos debates públicos sobre política científica que o precederam.

Uma das tarefas que lhe competiu foi a viabilização de iniciativas de maior alcance como continuação ou resultado. A nossa escolha foi lançar um centro de recursos -- distribuído -- para a língua portuguesa, a Linguateca, reforçando assim o trabalho primordialmente centrado em recursos e na sua disponibilização a que nos temos dedicado.

Missão

A nossa missão é aumentar a qualidade do processamento computacional da língua portuguesa, removendo os entraves ao seu florescimento através da

produção de recursos sofisticados
monitorização e disseminação da área
organização de iniciativas conducentes a avaliação da actividade e dos sistemas existentes

Resultados directos

Talvez o resultado mais importante da nossa actuação seja a criação de um serviço na rede que permite a livre consulta a corpora de português na rede, anotados sintacticamente pelo analisador de Eckhard Bick, no âmbito do projecto AC/DC.

A criação de corpora de grandes dimensões livremente disponíveis e distribuíveis para efeitos de utilização em investigação e desenvolvimento de sistemas que processem a língua portuguesa, o CETEMPúblico e o CETENFolha, já enviados a mais de 230 investigadores em todo o mundo, e também acessíveis através da rede, pode também ser mencionada como um contributo decisivo para a remoção dos entraves ao trabalho na área.

Outro dos resultados da nossa actividade foi a criação e manutenção de vários catálogos, transformando a nossa presença na rede num portal para o processamento computacional do português:

Catálogo de recursos (Corpora, Léxicos e dicionários, Enciclopédias, Serviços envolvendo o processamento computacional do português, Material didáctico, Comunicação social, Textos em português e Outros)
Catálogo de actores (Grupos, centros e institutos, Projectos, Projectos europeus, Projectos internacionais, Associações e instituições, Empresas, Ensino, Iniciativas políticas, Páginas pessoais, Revistas sobre o português, Editoras)
Catálogo de ferramentas computacionais,
Lista de publicações sobre o processamento computacional da língua portuguesa

Destaque-se, também, a constituição de listas (de doutorados, de bolsas, de projectos financiados pelo Estado português) como Contributos para um perfil da área, realizado, contudo, em Abril de 1999 e não mais actualizado.

Além dos catálogos e do acesso a corpora na rede já referido, o nosso projecto gere os seguintes serviços:

um fórum sobre assuntos relacionados com o processamento computacional da língua portuguesa, contendo notícias, ofertas de emprego e anúncios de conferências e de cursos
um repositório na Internet de teses e outros trabalhos na área
um sistema de procura sobre a área do processamento computacional do português, construído para facilitar a navegação no nosso portal (em dois modos: procura de pessoas, e de assuntos)

Mantemos também acessíveis as publicações produzidas no âmbito do projecto, contemplando aspectos científicos e/ou políticos nas áreas da avaliação ou criação de recursos.

Trabalho em curso

De momento, encontramo-nos envolvidos nos seguintes projectos de desenvolvimento e disponibilização de recursos (por ordem cronológica de início da actividade):

O projecto AC/DC, fornecendo uma mesma interface a todos os corpora de português e adicionando-lhes informação (de estrutura, e morfossintáctica, em colaboração com o projecto VISL e Eckhard Bick), permitindo assim consultas não triviais
O CETEMPúblico, um corpus de 180 milhões de palavras de linguagem jornalística portuguesa com material do jornal PÚBLICO, a que se seguiu o CETENFolha, com 24 milhões de palavras de linguagem jornalística portuguesa com material do jornal Folha de S. Paulo
O COMPARA, um corpus paralelo português-inglês em colaboração com Ana Frankenberg-Garcia, DISPARA
A Floresta Sintá(c)tica, em colaboração com o projecto VISL, liderado por Eckhard Bick em Odense, incluindo
- A criação de um banco sintáctico de árvores ("treebank"), através de anotação e revisão manual
- O desenvolvimento de um sistema de procura em árvores para o português, o sistema Águia

Temos, além disso, desenvolvido esforços na dinamização de avaliações conjuntas para o português, reunindo, na lista avalia, a comunidade interessada.

Nesse âmbito,

organizámos o Encontro Preparatório de Avaliação Conjunta do Processamento Computacional do Português a 27 de Junho de 2002 na Universidade de Faro
encontramo-nos de momento a organizar as primeiras morfolimpíadas para o português,
estamos a iniciar o processo de organização do Avalon'2003, encontro-satélite do PROPOR'2003

Planos para o futuro

Temos a intenção de, num futuro próximo, iniciar:

A obtenção e categorização de texto em português na Web
A escrita e desenho de um curso que ensine a usar corpora portugueses em PLN e em linguística
O estudo dos padrões de navegação no nosso portal, assim como da possibilidade de melhorar esse estudo incluindo a própria tecnologia da linguagem

[Equipa | Outra informação interessante | Visitas às nossas páginas]

Perguntas, comentários e sugestões

URL: /

Processamento computacional do português, SINTEF Telecom and Informatics
Box 124 Blindern, N-0314 Oslo, Noruega
Fax. +47 22 06 73 50

Última actualização: 27 de Março de 2003