Conferências de avaliação conjunta realizadas

Este documento foi preparado no contexto da preparação e motivação para uma avaliação conjunta do processamento computacional da língua portuguesa.

Abaixo pretendemos coligir uma série de resumos das principais conferências realizadas (em sua maioria para o inglês, naturalmente) assim como apontar uma bibliografia mais especializada para os interessados.

1 - TREC (Text REtrieval Conference)

Estas conferências tiveram início em 1992, cujo propósito era avançar o estado da arte em recuperação de textos (text retrieval) através do provimento da infraestrutura necessária para a avaliação em grande escala das metodologias de recuperação de textos [Voorhees e Tice, 1998].

O número de participantes da primeira TREC foi de 25 (50 no TREC-6)[Hirschman, 1998]. A primeira TREC possuia como principais características [Hirschman, 1998]:

Tecnologia a ser avaliada já estava bem desenvolvida devido à existência de produtos comerciais para RI
Diferentes níveis de participação visando acomodar tantos os grupos de pesquisa quanto as empresas comerciais participantes.

1.1 - TREC-8 Question Answering Track

O propósito desta conferência foi promover a primeira avaliação em grande escala de sistemas de question answering independentes de domínio.

Conforme [Voorhees e Tice, 1998], os participantes receberam uma grande coletânea de documentos (1.5 Gb de textos, em sua maioria jornalísticos) e 200 questões cujas respostas eram curtas e factuais. Cada questão possuia garantidamente uma resposta em pelo menos um dos documentos na coleção que explicitamente respondia à questão.

Os participantes deveriam retornar uma lista ordenada de 5 pares [documento-id, string-resposta] por questão. As strings de resposta estavam limitadas a 50 ou a 250 bytes dependendo do teste e deveriam ser extraídas do documento correspondente ou automaticamente geradas a partir da informação contida no documento.

A avaliação dos resultados consistia em decisões binárias entre os juízes se a string continha ou não uma resposta à questão, no contexto do documento. A métrica utilizada nesta conferência [Voorhees e Tice, 1998] era a ordem recíproca média (mean reciprocal rank): cada questão recebe uma pontuação igual ao recíproco da ordem na qual a primeira resposta correta fosse encontrada ou 0 caso a resposta não se encontrasse entre os 5 pares. A pontuação geral era dada pela média dos recíprocos da ordem dado a cada questão.

Este tipo de métrica possui as seguintes vantagens:

É similar à medida de precisão média usada em RI;
É limitada ao intervalo fechado entre 0 e 1;
A penalização pela ausência de resposta correta é suave

Mas possui as seguintes desvantagens:

A pontuação para uma questão individual pode tomar somente 6 valores (0, .2, .25, .33, .5 e 1), assim, testes de significância estatística paramétricos são pouco apropriados
Os sistemas que dão mais do que uma resposta correta não são premiados;
Devido a sempre existência de resposta no teste, os sistemas não são valorizados quando eles anunciam não saber a resposta.

2 - MUC e ATIS

Os propósitos destas duas conferências são [Hirschman, 1998]:

Rastrear o progresso geral da área, servindo como justificativa para o continuação do financiamento do programa de pesquisa;
Comparar a efetividade das abordagens alternativas para um problema particular. Isto é, uma comparação entre sistemas.

2.1 - MUC - Message Understanding Conference [Hirschman, 1998]

MUC é essencialmente uma avaliação de tecnologia, isto é, uma comparação entre sistemas. Esta avaliação é baseada em corpus. Teve início em 1987. A principal tarefa era a simulação de um analista do serviço de inteligência procurando informações a respeito de um tópico particular (por exemplo, atividades terroristas nas Américas).

As principais características do primeiro MUC são:

Uso de um corpus contendo mensagens da Marinha dos Estados Unidos (US Navy) como dados.
6 grupos participaram da avaliação que consistia em executar o sistema sobre uma de duas mensagens não vistas, explicando o que o sistema processou ou falhou em processar
Avaliação informal: Ausência de uma saída planejada e comum a todos os participantes, ausência de pontuação, seja ela manual ou automática

2.2 - MUC-2 (1989)

O MUC-2 usou um corpus maior, também da US Navy. A saída foi previamente planejada, em um formato previamente definido (gabarito). Entre outras coisas o gabarito deveria conter:

Tipo do incidente descrito na mensagem;
As partes envolvidas;
Tempo, lugar, etc... do incidente

2.3 - MUC-3 e MUC-4 (1991 e 1992)

Características:

Uso de um grande corpus de textos jornalísticos;
Os participantes (15 grupos) receberam um corpus, que incluia também os gabaritos.
Muitos gabaritos foram preparados voluntariamente pelos grupos envolvidos.
Uso de algoritmo para pontuação automática

2.4 - MUC-5 (1993)

Características:

Domínios variados (joint ventures e microeletrônica)
Diferentes línguas (Inglês e Japonês)

2.5 - MUC-6 (1995)

Características:

Novas tarefas independentes de domínio:

Identificação de entidades citadas: pessoa, organização, localização, tempo, data, percentuais e expressões monetárias.
Template elements: uma lista de entidades com seus atributos associados, tais como formas alternativas de um nome.
Identificação de coreferência: ligar as várias menções à mesma entidade.

Limitação do tempo para a construção do sistema, objetivando encorajar o desenvolvimento de métodos e ferramentas para a aplicação dos sistemas em novos domínios.
Associação ao MUC de avaliação multilíngue (MET - Multilingual Evaluation Task)

identificar entidades citadas em espanhol, japonês e chinês.

Redução do custo de entrada na avaliação: os grupos poderiam construir subcomponentes mais simples (ex. somente o módulo de identificação de nomes ou somente um módulo de coreferência). Isto permitiria o ingresso de grupos acadêmicos e "sites" menores.

2.6 - MUC-7 (1998)

Características:

Introdução de mais uma tarefa: [Hirschman, 1998]

Template Relation: identificação das propriedades dos Template Elements ou relações entre eles (ex: funcionário_de conectando pessoa e organização, ou localização_de conectando organização e localização)

Novas metas para novas tarefas avaliativas:

Aumentar a portabilidade, enfatizando componentes gerais e independentes de domínio;
Decompor a tarefa de preenchimento de gabarito em blocos básicos, separadamente avaliados;
Facilitar a entrada de novos participantes que não possuíam recursos para construir um sistema completo;
Prover um conjunto gradual de avaliações que permita mostrar sucesso em tarefas fáceis e ao mesmo tempo permita especificar as bases para o progresso em áreas difíceis

Ocorrência do segundo MET

Métricas utilizadas nas MUCs:

Recall (R): porcentagem de campos corretamente preenchidos em relação ao número total de campos corretos possíveis.
Precisão (P): porcentagem de campos corretamente preenchidos em relação ao número total de campos preenchidos.
F-measure: 2*P*R/(P+R)

3 - ATIS (1990) [Hirschman, 1998]

Da mesma forma que os MUCs, o ATIS é avaliação de tecnologia. Ele utiliza um corpus chamado ATIS (Air Travel Information System).

A tarefa deste evento era responder a perguntas faladas pelo usuário sobre determinado domínio (Informação sobre linhas aéreas).

Como características deste evento podemos citar:

Definição de um conjunto de respostas corretas em termos de um "banco de dados com respostas canônicas", baseadas em campos chaves que deveriam ser retornados em uma resposta correta.
Uso de um programa para auxiliar a avaliação automática
Comparação rigorosa entre as respostas dos sistemas usando um padrão-ouro gerado manualmente e cuidadosamente revisado.
Com a intenção de criar uma medida repetível em um sistema de trocas de mensagens faladas e, assim, interativo, foi criado um paradigma de avaliação baseado em dados pré-gravados. Isto necessitou da criação de métodos bem projetados para garantir a presença de interações representativas.
As entradas para os sistemas eram as transcrições das perguntas.
Outras avaliações ATIS foram realizadas em 1991, 1992 e 1993. Ocorreram mudanças como a introdução de novos tipos de entradas nos sistemas (entradas faladas, diálogos inteiros)
Métricas utilizadas:

taxa de erro em transcrições sentenciais (entrada falada, saída transcrita)
taxa de erro na compreensão da língua (entrada transcrita, a resposta do banco de dados como saída)
taxa de erro na compreensão da fala (entrada falada, a resposta do banco de dados como saída)

4 - Parseval [Hirschman, 1998]

Características:

A disponibilidade de um corpora anotado (Penn Treebank) levou à sua criação.
A idéia chave consistiu em fornecer uma representação sintática mais simples porém com neutralidade teórica. Esta representação é baseada em constituintes.
A avaliação poderia ser separada em uma avaliação de "bracketings" para cada sentença e também na etiquetagem consistente de constituintes.
Uma vez que os dados estejam disponíveis eles criam um padrão de facto, e desta forma os pesquisadores poderão comparar resultados em diversas abordagens e, em certos limites, cruzando diferentes teorias linguísticas.

Referências

Hirschman, Lynette. "Language Understanding Evaluations: Lessons Learned from MUC and ATIS", Proceedings of The First International Conference on Language Resources and Evaluation (Granada, 28-30 May 1998), Vol. 1, pp.117-122.
Hirschman, Lynette. "The evolution of Evaluation: Lessons from the Message Understanding Conferences", Computer Speech and Language 12 (1998), pp. 281-305.
Voorhees, Ellen M. & Dawn M. Tice. "The TREC-8 Question Answering Track", Proc. Second International Conference on Language Resources and Evaluation, LREC 2000 (Athens, 31 May 2000), Vol III, pp. 1501-8.

Sites sobre conferências de avaliação

AMARYLLIS (Accès à l'information textuelle en français) http://amaryllis.inist.fr/

ARCADE (Evaluation of parallel text alignment systems) http://www.lpl.univ-aix.fr/projects/arcade/index-en.html

CLEF (Cross-Language Evaluation Forum) http://clef.iei.pi.cnr.it/

DARPA Communicator http://fofoca.mitre.org/

DIET (Diagnostic and Evaluation Tools for Natural Language Applications) http://www.dfki.de/lt/projects/diet-e.html

DUC (Document Understanding Conference) http://www-nlpir.nist.gov/projects/duc/main.html

EAGLES (The Expert Advisory Group on Language Engineering Standards - Evaluation Workgroup) - http://issco-www.unige.ch/projects/ewg97/ewg97.html

ELSE (Evaluation of Language and Speech Engineering) http://www.limsi.fr/TLP/ELSE/

FRACAS (A Framework for Computational Semantics) http://www.cogsci.ed.ac.uk/~fracas

GRACE (Grammaires et Ressources pour les Analyseurs de Corpus et leur Evaluation - CNRS) http://www.limsi.fr/TLP/grace/

ISLE (International Standards for Language Engineering - Evaluation Working Group) http://www.issco.unige.ch/projects/isle/ewg.html

JST-FRANCIL (Journées Scientifiques et Techniques du Réseau FRANCophone de l'Ingénierie de la Langue, programme de l’Aupelf-Uref) http://www.limsi.fr/Recherche/FRANCIL/frcl.html

MT Evaluation Workshop "Who Did What to Whom" (MT Summit VIII) http://www.eamt.org/summitVIII/workshop-papers.html

MTEval Workshop (Workshop on Machine Translation Evaluation) http://issco-www.unige.ch/projects/isle/mteval-april01/

MUC (Message Understanding Conference)

NTCIR (NII-NACSIS Test Collection for IR Systems) http://research.nii.ac.jp/ntcir/index-en.html

SENSEVAL (Evaluating Word Sense Disambiguation Systems) http://www.itri.brighton.ac.uk/events/senseval/

SUMMAC (First Automatic Text Summarization - DARPA) http://www.itl.nist.gov/iaui/894.02/related_projects/tipster/sumslides.htm

TEMAA (A Testbed Study of Evaluation Methodologies: Authoring Aids) http://www.cst.ku.dk/projects/temaa/temaa.html

TIPSTER Text Program http://www.itl.nist.gov/iaui/894.02/related_projects/tipster/

TREC (Text REtrieval Conference) http://trec.nist.gov/

TSNLP (Test Suites for Natural Language Processing) http://cl-www.dfki.uni-sb.de/tsnlp/

Outras informações sobre avaliação

Santos, Diana - Tutorial on "Evaluation of Natural Language Processing systems", apresentado na Joint International Conference IBERAMIA/SBIA 2000 (Atibaia, São Paulo, Brazil), 19 November 2000 (PowerPoint slides in PostScript format, reference list).

Autor: Alexsandro Soares no âmbito da Linguateca.
Data da última revisão: 20 de Junho de 2002

Perguntas, comentários e sugestões