Avaliação de corpora anotados sintacticamente: sugestão para o português
Este documento foi preparado no contexto da preparação e motivação para uma avaliação conjunta do processamento computacional da língua portuguesa.
Iniciamos a questão da avaliação -- ou melhor da definição de critérios de avaliação com propriedades puramente formais:
- Existe documentação associada ao corpus?
- Existe definição formal dos objectos apresentados?
- O corpus confere com essa definição formal?
- O corpus foi validado independentemente?
- Existe alguma documentação sobre a sua avaliação?
Olhando para cada corpus, é preciso:
- Definir átomos. Quais as unidades básicas?
- Definir tratamento de não-palavras e pontuação. O que é considerado palavra? O que é considerado pontuação? O que é considerado lixo? (extraído do corpus)
- Definir o conjunto de etiquetas, e os níveis de anotação: lema? pos? morf? função sintáctica? etc..
- Que níveis de constituintes, ou de dependência
- Definir o tratamento da ambiguidade: inexistente, escolhida arbitrariamente, codificada como?
- Definir o tratamento da não especificação? por exemplo da ligação? Como está codificada?
Para uma dada selecção aleatória de frases pertencentes ao corpus, analisar manualmente seguindo as informações, e comparar com o resultado.
Especificar as seguintes consultas:
- Como obter sintagmas nominais mínimos?
- Como obter os objectos preposicionais do verbo gostar?
- Como obter os nomes próprios presentes no corpus?
- O que é feito depressa ou devagar?
e avaliar os 100 primeiros resultados / 100 resultados obtidos aleatoriamente / 100 resultados de formas diferentes (tirando as repetições)
Comparação entre corpora
Se se está a querer comparar corpora diferentes, e não avaliar cada um, algumas medidas possíveis serão:
- número de erros/inconsistências por frase, por palavra, por átomo
- tamanhos relativos e absolutos
- riqueza lexical e gramatical
- riqueza da anotação
- homogeneidade
Possivelmente, e conforme o tipo de aplicação, algumas destas propriedades podem ser qualidades ou defeitos para utilizadores diferentes.
A experiência de fazer este tipo de avaliação aos corpora anotados do projectp AC/DC encontra-se descrita em Santos & Gasperin (no prelo).
Outras avaliações mais custosas
Comparar com o mesmo corpus analisado automaticamente, se houver analisadores sintácticos que produzam algum subconjunto da informação codificada, e verificar (um subconjunto d)as diferenças manualmente.
Avaliar o corpus para uma dada aplicação.
Referências
Santos, Diana & Caroline Gasperin. "Evaluation of parsed corpora: experiments in user-transparent and user-visible evaluation", Proceedings of LREC'2002. rtf ps
Autor: Diana Santos no âmbito da Linguateca.
Última alteração: 5 de Abril de 2002.
Perguntas, comentários e sugestões