HAREM - Avaliação de Reconhecimento de Entidades Mencionadas

Linguateca - 2006.
  Versão para impressão

Arquitectura dos programas de avaliação do HAREM

Arquitectura dos programas de avaliação do HAREM

Para avaliar os resultados dos sistemas participantes no HAREM, desenvolveram-se os seguintes programas:
  1. Extractor do texto da colecção dourada das saídas do sistema
  2. AlinhEM: Alinhador das entidades identificadas pelo sistema com as constantes na CD
  3. AvalIDa: Avaliador individual da tarefa de identificação
  4. Véus: Filtros de ficheiros por género, origem e/ou categorias/tipos
  5. Emir: Avaliador individual da tarefa de classificação semântica
  6. Vizir: Avaliador individual da tarefa de classificação morfológica
  7. AltinaID: Seleccionador de ALTs para a tarefa de identificação
  8. AltinaSEM: Seleccionador de ALTs para a classificação semântica
  9. AltinaMOR: Seleccionador de ALTs para a classificação morfológica
  10. Ida2ID: Avaliador global da tarefa de identificação
  11. Ida2SEM: Avaliador global da tarefa de classificação semântica
  12. Ida2MOR: Avaliador global da tarefa de classificação morfológica
  13. Sultão: Apresentador de resultados globais, por sistema e por tarefa
  14. Alcaide: Apresentador de relatórios individuais, por saída, para todas as tarefas
Todos estes programas são disponibilizados pela Linguateca, para que os participantes e outros interessados no HAREM possam verificar os seus resultados, e para usar em futuras edições.

Arquitectura geral do processo de avaliação

O esquema seguinte representa o processo completo de avaliação no HAREM. Tentámos desenvolver os sistemas da forma mais modular possível, de forma a tornar mais fácil a inspecção dos resultados pelos participantes assim como o seu teste pela organização.



Muito resumidamente:

  • a saída produzida por cada sistema participante irá passar pelo Extractor, que irá retirar um conjunto de documentos, para posterior comparação com a anotação na colecção dourada.
  • As entidades mencionadas nesses documentos serão alinhados com as presentes na Colecção Dourada pelo programa AlinhEM, que gera uma lista de alinhamentos.
  • Após essa filtragem, é invocado o programa AvalIDa para atribuir uma pontuação a cada par/alinhamento.
  • Dependendo do cenário da avaliação pretendida, filtra-se ou não os resultados dos alinhamentos por género textual e/ou origem dos documentos, ou por leque de categorias (avaliação selectiva, ou avaliação por categoria), usando uns programas chamados Véus.
  • O programa AltinaID selecciona depois a alternativa (ALT) que redunda numa pontuação melhor para o sistema, antes de ser executado o Ida2ID que calcula as medidas referentes à tarefa de identificação do HAREM.
  • Além disso, os resultados do AvalIDa são enviados para o Emir, que calcula a avaliação da tarefa de classificação semântica para cada par que tenha dado origem a uma EM identificada correctamente, e para o Vizir, que faz a avaliação da tarefa de classificação morfológica para o mesmo conjunto de EMs.
  • Os resultados destes dois programas ainda passam por uma ALTina cada, cujo objectivo é, mais uma vez, seleccionar as alternativas (ALT) que redundam numa pontuação melhor para o sistema em cada uma destas tarefas.
  • Em seguida, os resultados globais da classificação morfológica e da classificação semântica são calculados pela Ida2MOR e Ida2SEM respectivamente.
  • No final, todos os resultados calculados pelas Ida2s serão combinados pelo Sultão, para a geração de estatísticas globais (por sistema e por tarefa).
  • Opcionalmente, pode-se utilizar o Alcaide, que lê os ficheiros resultantes dos programas Sultão, Ida2ID, Ida2MOR e Ida2SEM, e cria um relatório final que organiza em tabelas e em gráficos os valores apresentados pelos diversos relatórios.

Apresentamos em seguida uma pequena descrição de cada bloco.

Extractor do texto da colecção dourada das saídas do sistema

Visto que a colecção HAREM contém no seu interior os textos da colecção dourada, e só para esses existe, por agora, a solução criada manualmente, é preciso extrair, da saída dos sistemas, a parte que nos interessa. Veja-se a página do extractor para mais informação.

AlinhEM: alinhador de entidades mencionadas do HAREM

Embora o resultado dos sistemas seja o próprio texto, anotado com a identifição e a classificação das EMs, aquilo que vamos avaliar e classificar é simplesmente a lista de EMs produzidas pelo sistema, em função da solução previamente codificada na colecção dourada.

Assim, o alinhador produz uma lista de pares de alinhamento, para todas as EMs na colecção dourada e para todas as EMs que foram identificadas pelo sistema.

Veja-se a página do AlinhEM para a descrição exaustiva da sua saída.

AvalIDa: Avaliador individual da tarefa de identificação

A avaliação da tarefa de identificação do HAREM funciona em três passos: Primeiro avalia-se cada par (alinhamento de EMs), depois escolhe-se o ALT que produz melhor classificação, e finalmente calcula-se as medidas referentes ao conjunto de todas as EMs a avaliar.

O AvalIDa implementa o primeiro passo: Dado o alinhamento produzido pelo AlinhEM, este programa vai atribuir, a cada par, uma classificação (ou conjunto de classificações).

Veja-se a página do AvalIDa para mais pormenores.

Véus: Filtros de documentos HAREM

Parte do interesse nesta avaliação conjunta também passa por analisar o comportamento dos sistemas para cada variante de texto, ou categorias de EMs. Os véus permitem seleccionar grupos de documentos com determinadas características, tais como mesma origem (Web, Jornalístico, etc) ou origem (PT, BR, etc).

Os véus também permitem descartar um grupo seleccionadp de classificações semânticas , de maneira a poder ser avaliado o desempenho do sistema apenas num determinado leque de categorias / tipos, para que se possa produzir os relatórios num cenário SELECTIVO, ou seja, comparando a saída com as EMs da Colecção Dourada que o sistema se propôs tentar identificar/classificar, e não o total das etiquetas.

Veja-se a página dos Véus, com uma descrição mais detalhada.

EMIR: Avaliador individual da tarefa de classificação semântica

A avaliação da tarefa de classificação semântica do HAREM também funciona em três passos, sendo o EMIR o primeiro passo: Dado o alinhamento produzido pelo AlinhEM, e a saída do primeiro passo do AvalIDa (que identifica as EMs correctas ou parcialmente correctas), este programa vai atribuir, a cada par, uma série de classificações relacionadas com as várias medidas propostas para a classificação semântica no HAREM.

Veja-se a página do Emir para mais pormenores.

Vizir: Avaliador individual da tarefa de classificação morfológica

De uma forma em tudo análoga à tarefa de classificação semântica, o avaliador individual da tarefa de classificação morfológica do HAREM, o VIZIR, pontua as EMs correctamente identificadas em relação aos atributos MORF.

Veja-se a página do Vizir para mais pormenores.

ALTinas: ALTinaID, ALTinaSEM e ALTinaMOR: selecção da melhor ALT em cada caso

Estes 3 programas seleccionam a alternativa ALT que gera maior pontuação, para a respectiva tarefa, de acordo com as medidas apresentadas no documento Avaliação no HAREM: Método e medidas.

Veja-se as página da ALTinaID, ALTinaSEM e ALTinaMOR para mais pormenores.

ida2s: Ida2ID, Ida2SEM e Ida2MOR: Avaliação Global para as três tarefas

As ida2 calculam as medidas globais associadas ao conjunto dos pares em apreciação, cada uma para sua tarefa, e consistem basicamente numa travessia da lista de pares de EMs somando todas as contribuições.

Veja-se as página da Ida2ID, Ida2SEM e Ida2MOR para mais pormenores.

Sultões: SultãoID, SultãoMOR e SultãoSEM: Avaliação Global

Finalmente, os Sultões pretendem reunir os diversos relatórios individuais e gerar estatísticas globais sobre o desempenho dos vários sistemas no HAREM. Veja a página do SultãoId, SultãoMor e SultãoSem com descrição mais detalhada.

Alcaide: Relatórios individuais para as saídas

O Alcaide tem por objectivo interpretar todos os valores gerados pelos relatórios da Avaliação Global criados pelos programas
Ida2ID, Ida2SEM, Ida2MOR, SultãoId, SultãoMor e SultãoSem, e organizá-los num único relatório, composto por tabelas e gráficos, e sub-dividido por tarefas, formas de avaliação, cenários, categorias, géneros textuais e variantes. Para mais informações, por favor consulte a Documentação do Alcaide.
Última actualização: 18/11/2005 10:17:12