Avaliação de analisadores morfológicos: sugestão para o português

Este documento foi preparado no contexto da preparação e motivação para uma avaliação conjunta do processamento computacional da língua portuguesa.

Tentamos aqui esboçar o processo que levará à execução de umas morfolimpíadas para o português, definidas como uma avaliação conjunta de analisadores morfológicos da língua portuguesa. A principal inspiração foi Hausser (1994).

A ideia principal é fazer dois tipos de avaliação:

Primeiro passo: Prospecção

Os participantes tornam pública a sua intenção de participar (através de inscrição no formulário respectivo). Criação de um fórum ou lista electrónica que junte todos os participantes.

Segundo passo: Definição de critérios

Todos os participantes fornecem tipos de casos complexos e quais as soluções que consideram correctas; os casos mais problemáticos terão, talvez, de ser discutidos no encontro preparatório.

Além disso, cada grupo envia exemplos de saída do programa, incluindo pelo menos a análise de uma lista fornecida pelos organizadores. Esses dados serão para ser usados para desenhar os programas de reformatação e comparação dos resultados. Além disso, a apresentação de dados a todos os participantes poderá também levar à definição de subtestes diferentes, o que será preferencialmente decidido por conferência electrónica entre todos os participantes.

Parece pacífico, desde já, indicar que a definição de critérios terá que levar em conta várias soluções, variantes diferentes da língua, e palavras virtuais (ou seja, palavras que consensualmente não fazem parte da língua).

No final deste segundo passo, serão postos à disposição programas que comparam automaticamente os vários sistemas nos dois modos, segundo os critérios acordados. Estes programas poderão ser desenvolvidos pela organização, pelos participantes, ou ainda obtidos através de outra via (p.ex. concurso).

Terceiro passo: construção de recursos para avaliação

Após a conclusão deste processo, pede-se para cada grupo apresentar um corpus de cada tipo numa data precisa. Os corpora sobre os quais será feita a avaliação serão a conjugação de todos os subcorpora fornecidos pelos participantes.

Quarto passo: Teste dos sistemas

Nota: de forma a rodar o sistema, pode-se tentar obter um pré-teste e ver se tudo funciona. Por exemplo, Adda et al. (1998) fizeram-no para a anotação morfossintáctica do francês.

O teste final será feito com uma data certa de execução e entrega de resultados. Tal poderá ser feito presencialmente ou através da rede.

Os resultados serão, evidentemente, diferentes quanto aos dois tipos de testes:

  1. Casos problemáticos em que cada grupo fornece um conjunto de problemas e soluções. -- Esses casos são discutidos anteriormente de forma a que os critérios sejam uniformes. Espera-se que a execução do teste não dê origem a muita alteração dos dados.
  2. Sobre texto livre, em que cada manda um corpus de tamanho previamente determinado, de preferência interno, de forma a que não tenha sido já analisado pelos outros grupos.

Quinto passo: Divulgação dos resultados

Relação dos resultados, durante o PROPOR 2003 e eventualmente antes.

Os participantes terão a hipótese de manter a qualificação dos seus sistemas secreta; contudo, os recursos para avaliação (corpora e programas) serão públicos.

Referências

Adda, G., J. Mariani, J. Lecomte, P. Paroubek & M. Rajman."The GRACE French Part-Of-Speech Tagging Evaluation Task". Proceedings of The First International Conference on Language Resources and Evaluation LREC'98 (Granada, 28-30 May 1998), pp. 433-441.

Roland Hauser. "The Coordinator's Final Report on the First Morpholympics". LDV-Forum 11(1), 1994, pp. 54-64.


Autores: Paulo Rocha e Diana Santos no âmbito da Linguateca.
Última alteração: 6 de Março de 2002.
Perguntas, comentários e sugestões