Conferências de avaliação conjunta realizadas
Este documento foi preparado no contexto da preparação e motivação para uma avaliação conjunta do processamento computacional da língua portuguesa.
Abaixo pretendemos coligir uma série de resumos das principais conferências realizadas (em sua maioria para o inglês, naturalmente) assim como apontar uma bibliografia mais especializada para os interessados.
1 - TREC (Text REtrieval Conference)
Estas conferências tiveram início em 1992, cujo propósito era avançar o estado da arte em recuperação de textos (text retrieval) através do provimento da infraestrutura necessária para a avaliação em grande escala das metodologias de recuperação de textos [Voorhees e Tice, 1998].
O número de participantes da primeira TREC foi de 25 (50 no TREC-6)[Hirschman, 1998].
A primeira TREC possuia como principais características [Hirschman, 1998]:
- Tecnologia a ser avaliada já estava bem desenvolvida devido à existência de produtos comerciais para RI
- Diferentes níveis de participação visando acomodar tantos os grupos de pesquisa quanto as empresas comerciais participantes.
1.1 - TREC-8 Question Answering Track
O propósito desta conferência foi promover a primeira avaliação em grande escala de sistemas de question answering independentes de domínio.
Conforme [Voorhees e Tice, 1998], os participantes receberam uma grande coletânea de documentos (1.5 Gb de textos, em sua maioria jornalísticos) e 200 questões cujas respostas eram curtas e factuais. Cada questão possuia garantidamente uma resposta em pelo menos um dos documentos na coleção que explicitamente respondia à questão.
Os participantes deveriam retornar uma lista ordenada de 5 pares [documento-id, string-resposta] por questão. As strings de resposta estavam limitadas a 50 ou a 250 bytes dependendo do teste e deveriam ser extraídas do documento correspondente ou automaticamente geradas a partir da informação contida no documento.
A avaliação dos resultados consistia em decisões binárias entre os juízes se a string continha ou não uma resposta à questão, no contexto do documento.
A métrica utilizada nesta conferência [Voorhees e Tice, 1998] era a ordem recíproca média (mean reciprocal rank): cada questão recebe uma pontuação igual ao recíproco da ordem na qual a primeira resposta correta fosse encontrada ou 0 caso a resposta não se encontrasse entre os 5 pares. A pontuação geral era dada pela média dos recíprocos da ordem dado a cada questão.
Este tipo de métrica possui as seguintes vantagens:
- É similar à medida de precisão média usada em RI;
- É limitada ao intervalo fechado entre 0 e 1;
- A penalização pela ausência de resposta correta é suave
Mas possui as seguintes desvantagens:
- A pontuação para uma questão individual pode tomar somente 6 valores (0, .2, .25, .33, .5 e 1), assim, testes de significância estatística paramétricos são pouco apropriados
- Os sistemas que dão mais do que uma resposta correta não são premiados;
- Devido a sempre existência de resposta no teste, os sistemas não são valorizados quando eles anunciam não saber a resposta.
2 - MUC e ATIS
Os propósitos destas duas conferências são [Hirschman, 1998]:
- Rastrear o progresso geral da área, servindo como justificativa para o continuação do financiamento do programa de pesquisa;
- Comparar a efetividade das abordagens alternativas para um problema particular. Isto é, uma comparação entre sistemas.
2.1 - MUC - Message Understanding Conference [Hirschman, 1998]
MUC é essencialmente uma avaliação de tecnologia, isto é, uma comparação entre sistemas. Esta avaliação é baseada em corpus. Teve início em 1987.
A principal tarefa era a simulação de um analista do serviço de inteligência procurando informações a respeito de um tópico particular (por exemplo, atividades terroristas nas Américas).
As principais características do primeiro MUC são:
- Uso de um corpus contendo mensagens da Marinha dos Estados Unidos (US Navy) como dados.
- 6 grupos participaram da avaliação que consistia em executar o sistema sobre uma de duas mensagens não vistas, explicando o que o sistema processou ou falhou em processar
- Avaliação informal: Ausência de uma saída planejada e comum a todos os participantes, ausência de pontuação, seja ela manual ou automática
2.2 - MUC-2 (1989)
O MUC-2 usou um corpus maior, também da US Navy. A saída foi previamente planejada, em um formato previamente definido (gabarito). Entre outras coisas o gabarito deveria conter:
- Tipo do incidente descrito na mensagem;
- As partes envolvidas;
- Tempo, lugar, etc... do incidente
2.3 - MUC-3 e MUC-4 (1991 e 1992)
Características:
- Uso de um grande corpus de textos jornalísticos;
- Os participantes (15 grupos) receberam um corpus, que incluia também os gabaritos.
- Muitos gabaritos foram preparados voluntariamente pelos grupos envolvidos.
- Uso de algoritmo para pontuação automática
2.4 - MUC-5 (1993)
Características:
- Domínios variados (joint ventures e microeletrônica)
- Diferentes línguas (Inglês e Japonês)
2.5 - MUC-6 (1995)
Características:
- Novas tarefas independentes de domínio:
- Identificação de entidades citadas: pessoa, organização, localização, tempo, data, percentuais e expressões monetárias.
- Template elements: uma lista de entidades com seus atributos associados, tais como formas alternativas de um nome.
- Identificação de coreferência: ligar as várias menções à mesma entidade.
- Limitação do tempo para a construção do sistema, objetivando encorajar o desenvolvimento de métodos e ferramentas para a aplicação dos sistemas em novos domínios.
- Associação ao MUC de avaliação multilíngue (MET - Multilingual Evaluation Task)
- identificar entidades citadas em espanhol, japonês e chinês.
- Redução do custo de entrada na avaliação: os grupos poderiam construir subcomponentes mais simples (ex. somente o módulo de identificação de nomes ou somente um módulo de coreferência). Isto permitiria o ingresso de grupos acadêmicos e "sites" menores.
2.6 - MUC-7 (1998)
Características:
- Introdução de mais uma tarefa: [Hirschman, 1998]
- Template Relation: identificação das propriedades dos Template Elements ou relações entre eles (ex: funcionário_de conectando pessoa e organização, ou localização_de conectando organização e localização)
- Novas metas para novas tarefas avaliativas:
- Aumentar a portabilidade, enfatizando componentes gerais e independentes de domínio;
- Decompor a tarefa de preenchimento de gabarito em blocos básicos, separadamente avaliados;
- Facilitar a entrada de novos participantes que não possuíam recursos para construir um sistema completo;
- Prover um conjunto gradual de avaliações que permita mostrar sucesso em tarefas fáceis e ao mesmo tempo permita especificar as bases para o progresso em áreas difíceis
- Ocorrência do segundo MET
Métricas utilizadas nas MUCs:
- Recall (R): porcentagem de campos corretamente preenchidos em relação ao número total de campos corretos possíveis.
- Precisão (P): porcentagem de campos corretamente preenchidos em relação ao número total de campos preenchidos.
- F-measure: 2*P*R/(P+R)
Da mesma forma que os MUCs, o ATIS é avaliação de tecnologia. Ele utiliza um corpus chamado ATIS (Air Travel Information System).
A tarefa deste evento era responder a perguntas faladas pelo usuário sobre determinado domínio (Informação sobre linhas aéreas).
Como características deste evento podemos citar:
- Definição de um conjunto de respostas corretas em termos de um "banco de dados com respostas canônicas", baseadas em campos chaves que deveriam ser retornados em uma resposta correta.
- Uso de um programa para auxiliar a avaliação automática
- Comparação rigorosa entre as respostas dos sistemas usando um padrão-ouro gerado manualmente e cuidadosamente revisado.
- Com a intenção de criar uma medida repetível em um sistema de trocas de mensagens faladas e, assim, interativo, foi criado um paradigma de avaliação baseado em dados pré-gravados. Isto necessitou da criação de métodos bem projetados para garantir a presença de interações representativas.
- As entradas para os sistemas eram as transcrições das perguntas.
- Outras avaliações ATIS foram realizadas em 1991, 1992 e 1993. Ocorreram mudanças como a introdução de novos tipos de entradas nos sistemas (entradas faladas, diálogos inteiros)
- Métricas utilizadas:
- taxa de erro em transcrições sentenciais (entrada falada, saída transcrita)
- taxa de erro na compreensão da língua (entrada transcrita, a resposta do banco de dados como saída)
- taxa de erro na compreensão da fala (entrada falada, a resposta do banco de dados como saída)
Características:
- A disponibilidade de um corpora anotado (Penn Treebank) levou à sua criação.
- A idéia chave consistiu em fornecer uma representação sintática mais simples porém com neutralidade teórica. Esta representação é baseada em constituintes.
- A avaliação poderia ser separada em uma avaliação de "bracketings" para cada sentença e também na etiquetagem consistente de constituintes.
- Uma vez que os dados estejam disponíveis eles criam um padrão de facto, e desta forma os pesquisadores poderão comparar resultados em diversas abordagens e, em certos limites, cruzando diferentes teorias linguísticas.
Referências
-
Hirschman, Lynette. "Language Understanding Evaluations: Lessons
Learned from MUC and ATIS", Proceedings of The First International
Conference on Language Resources and Evaluation (Granada, 28-30 May 1998),
Vol. 1, pp.117-122.
-
Hirschman, Lynette. "The evolution of Evaluation: Lessons from the Message Understanding Conferences", Computer Speech and Language 12 (1998), pp. 281-305.
-
Voorhees, Ellen M. & Dawn M. Tice. "The TREC-8 Question Answering Track", Proc. Second International Conference on Language Resources and Evaluation, LREC 2000 (Athens, 31 May 2000), Vol III, pp. 1501-8.
Sites sobre conferências de avaliação
AMARYLLIS (Accès à l'information textuelle en français) http://amaryllis.inist.fr/
ARCADE (Evaluation of parallel text alignment systems) http://www.lpl.univ-aix.fr/projects/arcade/index-en.html
CLEF (Cross-Language Evaluation Forum) http://clef.iei.pi.cnr.it/
DARPA Communicator http://fofoca.mitre.org/
DIET (Diagnostic and Evaluation Tools for Natural Language Applications) http://www.dfki.de/lt/projects/diet-e.html
DUC (Document Understanding Conference) http://www-nlpir.nist.gov/projects/duc/main.html
EAGLES (The Expert Advisory Group on Language Engineering Standards - Evaluation Workgroup) - http://issco-www.unige.ch/projects/ewg97/ewg97.html
ELSE (Evaluation of Language and Speech Engineering) http://www.limsi.fr/TLP/ELSE/
FRACAS (A Framework for Computational Semantics) http://www.cogsci.ed.ac.uk/~fracas
GRACE (Grammaires et Ressources pour les Analyseurs de Corpus et leur Evaluation - CNRS) http://www.limsi.fr/TLP/grace/
ISLE (International Standards for Language Engineering - Evaluation Working Group) http://www.issco.unige.ch/projects/isle/ewg.html
JST-FRANCIL (Journées Scientifiques et Techniques du Réseau FRANCophone de l'Ingénierie de la Langue, programme de l’Aupelf-Uref) http://www.limsi.fr/Recherche/FRANCIL/frcl.html
MT Evaluation Workshop "Who Did What to Whom" (MT Summit VIII) http://www.eamt.org/summitVIII/workshop-papers.html
MTEval Workshop (Workshop on Machine Translation Evaluation) http://issco-www.unige.ch/projects/isle/mteval-april01/
MUC (Message Understanding Conference)
NTCIR (NII-NACSIS Test Collection for IR Systems) http://research.nii.ac.jp/ntcir/index-en.html
SENSEVAL (Evaluating Word Sense Disambiguation Systems) http://www.itri.brighton.ac.uk/events/senseval/
SUMMAC (First Automatic Text Summarization - DARPA) http://www.itl.nist.gov/iaui/894.02/related_projects/tipster/sumslides.htm
TEMAA (A Testbed Study of Evaluation Methodologies: Authoring Aids) http://www.cst.ku.dk/projects/temaa/temaa.html
TIPSTER Text Program http://www.itl.nist.gov/iaui/894.02/related_projects/tipster/
TREC (Text REtrieval Conference) http://trec.nist.gov/
TSNLP (Test Suites for Natural Language Processing) http://cl-www.dfki.uni-sb.de/tsnlp/
Outras informações sobre avaliação
Santos, Diana - Tutorial on "Evaluation of Natural Language Processing systems", apresentado na Joint International Conference IBERAMIA/SBIA 2000 (Atibaia, São Paulo, Brazil), 19 November 2000 (PowerPoint slides in PostScript format, reference list).
Autor: Alexsandro Soares no âmbito da Linguateca.
Data da última revisão: 20 de Junho de 2002
Perguntas, comentários e sugestões