A FCCN aceita candidaturas para duas bolsas de doutoramento no âmbito do
projecto Linguateca - Centro de Recursos Distribuído para o Processamento
do Português, com início durante o mês de Março e com conclusão em Dezembro
de 2006.
Os bolseiros serão integrados no Programa de Doutoramento em
Informática da Faculdade de Ciências da Universidade de Lisboa (FCUL) ou,
caso a formação o justifique, nos pólos do Porto ou de Braga do projecto
Linguateca. Os candidatos deverão ter mestrado ou habilitações equivalentes,
nos termos da legislação em vigor. O período de recepção de candidaturas
terá início no dia 21 de Fevereiro e termo no dia 8 de Março. As
candidaturas devem ser remetidas para: Diana.Santos@sintef.no.
As várias áreas possíveis são:
1. Processamento de linguagem natural para recolha de informação (RI)
O objectivo da tese será desenvolver, usando variadas técnicas de PLN, um sistema de informação especializado sobre o processamento computacional do português, melhorando significativamente o portal da Linguateca e o seu sistema de busca. Áreas de trabalho: indexação, resposta a perguntas, reconfiguração dinâmica de sítios na rede, criação semi-automática de sistemas de classificação.
2. Varredor de traduções complexo
O âmbito da tese será o de desenvolver um sistema de navegação em corpora paralelos alinhados (pares original-tradução) com alinhamento ao nível do sintagma, investigando a aplicabilidade do modelo de rede de tradução (Santos, 1996) e desenvolvendo alguns protótipos de aplicações com base no varredor. Uma das línguas terá, evidentemente, de ser o português.
3. Avaliação e melhoria da Floresta Sintá(c)tica, um "treebank" para o português
O objectivo da tese é estudar e desenvolver um conjunto de funções e de aplicações que permitam melhorar e avaliar a Floresta Sintáctica, tanto do ponto de vista de melhoria e documentação para os utilizadores como a sugestão da avaliação de recursos complexos de PLN com base nela. Incluirá a definição de uma série de funcionalidades a que terá de obedecer, assim como o desenvolvimento de protótipos que permitam de facto utilizá-la.
4. Extracção de informação em português
O objectivo da tese será estudar mecanismos de extracção de informação, tais como reconhecimento de entidades mencionadas, colecção de factos sobre um conjunto de áreas, extracção automática de definições, anotação temporal e/ou geográfica, etc. Pretende-se usar os recursos da Linguateca para desenvolver protótipos que efectuem tarefas dessa natureza para o português.
Este texto encontra-se disponível em http://www.linguateca.pt/bolsas2004.html
Data de publicação na rede: 13 de Fevereiro de 2004.