HAREM - Avaliação de Reconhecimento de Entidades Mencionadas

Linguateca - 2006.
  Versão para impressão
IMPORTANTE: Este sítio diz respeito ao Primeiro HAREM, que terminou em 2006, e encontra-se encerrado. O sítio actual do HAREM encontra-se em /HAREM.


Avaliador da tarefa de classificação morfológica de entidades mencionadas --- HAREM

Ida2Mor

Avaliador global da classificação morfológica

O Ida2Mor é um programa para calcular e gerar os resultados globais da avaliação dos resultados produzidos pelo Vizir ou o AltinaMor. A pontuação atribuída segue o que está disposto no documento das Medidas para a avaliação da classificação morfológica.
Os resultados estão divididos pela pontuação atribuída à avaliação global do género, número, e combinada.
Cada avaliação global contem os resultados dos cálculos para as seguintes medidas: precisão, abrangência, medida F, sobre-especificação, sub-geração e erro combinado.
O número total de classificações género/número da CD é obtido pelo somatório de todas as EM da CD presentes no resultado do Vizir (sem qualquer identificador de alternativa) ou do AltinaMor.

Cálculos das variáveis das medidas

O Ida2mor calcula da seguinte forma as variáveis usadas no cálculo das medidas, tendo em conta o documento das Medidas:

  • Número de EMs com classificação espúria do número/género = Soma de todas as pontuações com classificação espúria do número/género;
  • Número de EMs com classificação sobre especificada do número/género = Soma de todas as pontuações com classificação sobre especificada do número/género;
  • Número de EMs com classificação parcialmente sobre especificada do número/género = Soma de todas as pontuações com classificação parcialmente sobre especificada do número/género;
  • Número de EMs com classificação em falta do número/género = Soma de todas as pontuações com classificação em falta do número/género;
  • Número de EMs com classificação incorrecta do número/género = Soma de todas as pontuações com classificação incorrecta do número/género;
  • Número de EMs identificadas correctamente e com classificação correcta do número/género = Soma de todas as pontuações com classificação correcta do número/género e cuja identificação da EM seja correcta;
  • Número de EMs parcialmente correctamente e com classificação parcialmente correcta do número/género = Soma de todas as pontuações com classificação parcialmente correcta do número/género e cuja identificação da EM seja parcialmente correcta.

Nas combinações de EMs é contabilizado apenas uma EM. As restantes EM não são consideras na contagem (apenas a primeira EM é considerada na avaliação da identificação):
<EM MORF="M,S">Fundação Fernando Pessoa</EM> ---> [<EM MORF="M,P">Fundação</EM>, <EM MORF="F,S">Fernando Pessoa</EM>]:
[(Género: Correcto) (Número: Incorrecto) (Combinada: Incorrecto)]

Por cada pontuação atribuída é somado 1 ponto ao respectivo contador. As estatísticas globais sobre os resultados do sistema são obtidos da seguinte forma:

  • Total de EMs com classificação do número/género pelo sistema = Número de EMs identificadas correctamente e com classificação correcta do número/género + Número de EMs identificadas parcialmente correctas e com classificação parcialmente correcta do número/género + Número de EMs com classificação incorrecta do número/género + Número de EMs com classificação espúria do número/género + Número de EMs com classificação sobre especificada do número/género + Número de EMs com classificação parcialmente sobre especificada do número/género;
  • Total de EMs com classificação do número/género na CD = Número de EMs identificadas correctamente e com classificação correcta do número/género + Número de EMs identificadas parcialmente correctas e com classificação parcialmente correcta do número/género + Número de EMs com classificação incorrecta do número/género + Número de EMs com classificação em falta do número/género + Número de EMs com classificação sobre especificada do número/género + Número de EMs com classificação sobre especificada do número/género;
  • Total de EM com classificação correcta do número/género = Número de EMs identificadas correctamente e com classificação correcta do número/género + 0.5 * número de EMs identificadas parcialmente correctas e com classificação parcialmente correcta do número;
  • Total de EM com classificação sobre especificada do número/género = Número de EMs identificadas correctamente e com classificação sobre especificada do número/género + 0.5 * número de EMs identificadas parcialmente correctas e com classificação parcialmente sobre especificada do número;
Apenas as EMs identificadas como parcialmente correctas, e com classificação parcialmente correcta ou sobre especificada são multiplicadas por 0.5.

Cálculos das medidas

O cálculo das medidas é semelhante para cada uma das avaliações globais. Na avaliação combinada apenas é calculada a precisão, abrangência, e a medida F.

  • Precisão = Total de EM com classificação correcta do número ou género / Total de EMs com classificação do número ou género pelo sistema que tenham classificação morfológica na CD;
  • Abrangência = Total de EM com classificação correcta do número ou género / Total de EMs com classificação do número ou género na CD;
  • Medida F = ( 2 * Precisão * Abrangência ) / ( Precisão + Abrangência);
  • Sobre-especificação = Número de EMs com classificação sobre especificada do número ou género / Total de EMs com classificação do número ou género pelo sistema;
  • Sobre-geração (cenário de avaliação absoluto / opção '-abs') = Número de EMs com classificação espúria do número ou género / Total de EMs com classificação do número ou género pelo sistema;
  • Sub-geração = Número de EMs com classificação em falta do número ou género / Total de EMs com classificação do número ou género na CD;

Notas adicionais sobre o cálculo das medidas

  • Sobre-especificação: Mede a percentagem da ocorrência de casos em que as EMs foram sobre especificadas pelo sistema.
  • Sobre-geração: Mede a percentagem de casos de EMs espúrias classificadas pelo sistema.
  • Sub-geração: A medida de sub-geração quantifica o número de classificações em falta sobre todas as EMs da CD. Inclui tanto os casos em que nenhuma classificação foi dada, como os casos em que o sistema classificou como '?' o género ou número, mas na CD a EM foi classificada morfologicamente.

Exemplo

        RELATÓRIO DA AVALIAÇÃO DA CLASSIFICAÇÃO MORFOLÓGICA
Gerado em: 25 de Maio de 2005

Avaliação Global da Classificação Morfológica - Número

Total de classificações da CD: 111
Total de classificações do sistema : 92

Precisão: 0.940217391304348
Abrangência: 0.779279279279279
Medida F: 0.852216748768473
Sobre-especificação: 0
Sobre-geração: 0
Sub-geração: 0.171171171171171


Avaliação Global da Classificação Morfológica - Género

Total de classificações da CD: 88
Total de classificações do sistema : 92

Precisão: 0.652173913043478
Abrangência: 0.681818181818182
Medida F: 0.666666666666667
Sobre-especificação: 0.25
Sobre-geração: 0
Sub-geração: 0.215909090909091


Avaliação Global da Classificação Morfológica - Combinada

Total de classificações da CD: 111
Total de classificações do sistema : 92

Precisão: 0.652173913043478
Abrangência: 0.540540540540541
Medida F: 0.591133004926108


Instalação e uso do programa

O ida2mor é uma aplicação desenvolvida em Perl, desenvolvida por Rui Vilela e é disponibilizado pela Linguateca de forma a poder ser testado pelos participantes ou outros interessados. O programa está disponível no ficheiro ferramentas_HAREM_perl.tar.gz

Requisitos

  • Interpretador de Perl
  • Módulo HAREM::ClassificacaoMorfologica
  • Módulo HAREM::Taghash
  • Módulo HAREM::ClassificationHash
  • Resultados do Vizir ou do AltinaMor

Instalação

O programa possui uma aplicação para instalação:

tar xfz ACMorf.tar.gz
cd ACMorf.tar.gz
perl Makefile.pl
make
make test
make install

Invocação

[perl] ida2mor.pl -i resultado_do_altinaMor [-debug] 

exemplo:

ida2mor.pl -i sistema.alinhado.etq.verificado.pt.avalida.absoluto.vizir.altmor -o saida.txt
ida2mor.pl -i sistema.alinhado.etq.verificado.selectivo.jornalistico.avalida.absoluto.vizir.altmor

Resultados

O Ida2mor adiciona .ida2mor ao nome do ficheiro com os resultados:

sistema.alinhado.etq.verificado.pt.avalida.absoluto.vizir.altmor.ida2mor
sistema
.alinhado.etq.verificado.selectivo.jornalistico.avalida.absoluto.vizir.altmor.ida2mor
Qualquer erro detectado durante o processamento será visualizado no monitor (STDERR).

Script ACMorf.pl

O script ACMorf.pl é um pequeno utilitário para processar em lote os resultados do AvalIDa.  Produz resultados de toda a avaliação da classificação morfológica para todos os ficheiros que contenham os resultados da identificação na mesma directoria.
O script processa todos os ficheiros que seja possível extrair resultados, e que tenham uma extensão válida (Exemplos de extensões inválidas: altida, vizir, emir, ida2id).
perl ACMorf.pl directoria/ (-abs|-rel)


Esta página e a sua informação não se encontra actualizada. Clique aqui para visitar o síio actual do HAREM.