Processamento computacional do português
O projecto Processamento Computacional do Português foi lançado em Maio de 1998 como uma primeira medida para
organizar a área da engenharia da linguagem do português, considerada pelo Ministério da Ciência e da Tecnologia (MCT)
uma das suas prioridades em Portugal, da qual era patente, contudo, a debilidade a nível nacional e internacional.
Este projecto foi concebido como uma fase temporária de planeamento e intervenção no processamento da
língua portuguesa por parte do MCT, associado que estava à criação do Livro Branco em Ciência e Tecnologia (nossa contribuição) e aos debates públicos sobre política científica que o precederam.
Uma das tarefas que lhe competiu foi a viabilização
de iniciativas de maior alcance como continuação ou
resultado. A nossa escolha foi lançar um centro de recursos --
distribuído -- para a língua portuguesa, a Linguateca, reforçando assim o trabalho
primordialmente centrado em recursos e na sua
disponibilização a que nos temos dedicado.
Missão
A nossa missão é aumentar a qualidade do processamento computacional da língua portuguesa,
removendo os entraves ao seu florescimento através da
- produção de recursos sofisticados
- monitorização e disseminação da área
- organização de iniciativas conducentes a avaliação da actividade e dos sistemas existentes
Resultados directos
Talvez o resultado mais importante da nossa actuação seja a criação de um serviço na rede que permite a livre consulta a corpora de português na rede, anotados sintacticamente pelo analisador de Eckhard Bick, no âmbito do projecto AC/DC.
A criação de corpora de grandes
dimensões livremente disponíveis e
distribuíveis para efeitos de utilização em
investigação e desenvolvimento de sistemas que processem
a língua portuguesa, o CETEMPúblico
e o CETENFolha,
já enviados a mais de 230 investigadores em todo o mundo, e
também acessíveis através da rede, pode também ser mencionada como um contributo decisivo para a remoção dos entraves ao trabalho na área.
Outro dos resultados da nossa actividade foi a criação e manutenção de vários catálogos, transformando a nossa presença na rede num portal para o processamento computacional do português:
- Catálogo de recursos (Corpora,
Léxicos e dicionários, Enciclopédias, Serviços envolvendo o processamento
computacional do português, Material didáctico, Comunicação social, Textos em português e Outros)
- Catálogo de actores (Grupos, centros
e institutos, Projectos, Projectos europeus, Projectos internacionais, Associações e
instituições, Empresas, Ensino, Iniciativas políticas, Páginas pessoais, Revistas sobre o português, Editoras)
- Catálogo de ferramentas computacionais,
- Lista de publicações sobre o processamento computacional da língua portuguesa
Destaque-se, também, a constituição de listas (de
doutorados, de bolsas, de projectos financiados pelo Estado português) como Contributos para um perfil da área, realizado, contudo, em Abril de 1999 e não mais actualizado.
Além dos catálogos e do acesso a corpora na rede já referido, o nosso projecto gere os seguintes serviços:
- um fórum sobre assuntos relacionados com o processamento computacional da língua portuguesa, contendo notícias, ofertas de emprego e anúncios de conferências e de cursos
- um repositório na Internet de teses e outros trabalhos na área
- um sistema de procura sobre a área do processamento computacional do português, construído para facilitar a navegação no nosso portal (em dois modos: procura de pessoas, e de assuntos)
Mantemos também acessíveis as publicações produzidas no âmbito do projecto, contemplando aspectos científicos e/ou políticos nas áreas da avaliação ou criação de recursos.
Trabalho em curso
De momento, encontramo-nos envolvidos nos seguintes projectos de desenvolvimento e disponibilização de recursos (por ordem cronológica de início da actividade):
- O projecto
AC/DC, fornecendo uma mesma interface a todos os corpora de
português e adicionando-lhes informação (de
estrutura, e morfossintáctica, em colaboração com o projecto VISL
e Eckhard Bick), permitindo assim consultas não triviais
- O CETEMPúblico, um corpus de 180 milhões de palavras de linguagem jornalística portuguesa com material do jornal PÚBLICO, a que se seguiu o CETENFolha, com
24 milhões de palavras de linguagem jornalística
portuguesa com material do jornal Folha de S. Paulo
- O COMPARA, um corpus paralelo
português-inglês em colaboração com Ana Frankenberg-Garcia, DISPARA
- A Floresta Sintá(c)tica, em colaboração com o projecto VISL, liderado por Eckhard Bick em Odense, incluindo
- A criação de um banco sintáctico de árvores ("treebank"), através de anotação e revisão manual
- O desenvolvimento de um sistema de procura em árvores para o
português, o sistema Águia
Temos, além disso, desenvolvido esforços na dinamização de avaliações
conjuntas para o português, reunindo, na lista avalia, a
comunidade interessada.
Nesse âmbito,
Planos para o futuro
Temos a intenção de, num futuro próximo, iniciar:
- A obtenção e categorização de texto em
português na Web
- A escrita e desenho de um curso que ensine a usar corpora portugueses em PLN e em linguística
- O estudo dos padrões de navegação no nosso portal, assim como da possibilidade de melhorar esse estudo incluindo a própria tecnologia da linguagem
[Equipa |
Outra informação interessante | Visitas às nossas páginas]
Perguntas, comentários e sugestões
URL: /
Processamento computacional do português, SINTEF Telecom and Informatics
Box 124 Blindern, N-0314 Oslo, Noruega
Fax. +47 22 06 73 50
Última
actualização: 27 de Março de 2003