Versão para impressão |
 | IMPORTANTE: Este sítio diz respeito ao Primeiro HAREM, que terminou em 2006, e encontra-se encerrado. O sítio actual do HAREM encontra-se em /HAREM.
|
|
Avaliador da tarefa de classificação
morfológica de entidades mencionadas --- HAREM
Ida2Mor
Avaliador global da classificação morfológica
O Ida2Mor é um programa para calcular e gerar os resultados
globais da
avaliação dos
resultados produzidos pelo Vizir
ou o AltinaMor.
A
pontuação atribuída segue o que está
disposto no
documento das Medidas para a avaliação da
classificação morfológica.
Os resultados estão
divididos pela pontuação atribuída à
avaliação global do género, número,
e combinada.
Cada avaliação global contem os resultados dos
cálculos para as seguintes medidas: precisão,
abrangência, medida F,
sobre-especificação, sub-geração e erro
combinado.
O número total de classificações
género/número da CD é obtido pelo somatório
de todas as EM da CD presentes no resultado do Vizir (sem qualquer identificador
de
alternativa) ou do AltinaMor.
Cálculos das variáveis das medidas
O Ida2mor calcula da seguinte forma as variáveis usadas no
cálculo das medidas, tendo em conta o documento das
Medidas:
- Número de EMs com
classificação espúria do
número/género = Soma
de todas as pontuações com classificação
espúria do número/género;
- Número de EMs com
classificação sobre especificada do
número/género = Soma
de todas as pontuações com classificação
sobre especificada do número/género;
- Número de EMs com
classificação parcialmente sobre especificada do
número/género = Soma
de todas as pontuações com classificação
parcialmente sobre especificada do número/género;
- Número de EMs com classificação em falta
do número/género = Soma de todas as
pontuações com
classificação em falta do número/género;
- Número de EMs com classificação
incorrecta do número/género = Soma de todas as
pontuações com
classificação incorrecta do número/género;
- Número de EMs identificadas correctamente e com
classificação correcta do número/género = Soma
de
todas as pontuações com classificação
correcta do número/género e cuja
identificação da EM seja
correcta;
- Número de EMs parcialmente correctamente e com
classificação parcialmente correcta do
número/género = Soma
de
todas as pontuações com classificação
parcialmente correcta do número/género e cuja
identificação da EM seja parcialmente correcta.
Nas combinações de EMs é contabilizado apenas uma
EM.
As restantes EM não são consideras na contagem (apenas a
primeira EM é considerada na avaliação da
identificação):
<EM MORF="M,S">Fundação Fernando Pessoa</EM> ---> [<EM MORF="M,P">Fundação</EM>, <EM MORF="F,S">Fernando Pessoa</EM>]:
[(Género: Correcto) (Número: Incorrecto) (Combinada: Incorrecto)]
Por cada pontuação atribuída é somado 1
ponto ao
respectivo contador. As estatísticas globais sobre os
resultados do sistema são obtidos da seguinte forma:
- Total de EMs com classificação do
número/género
pelo
sistema = Número de EMs identificadas correctamente e com
classificação correcta do número/género +
Número
de EMs identificadas parcialmente correctas e com
classificação parcialmente correcta do
número/género +
Número
de EMs com classificação incorrecta do
número/género +
Número de EMs com classificação espúria do
número/género +
Número de EMs com classificação sobre especificada
do
número/género + Número de EMs com
classificação parcialmente sobre especificada
do
número/género;
- Total de EMs com classificação do
número/género
na CD
= Número de EMs identificadas correctamente e com
classificação correcta do número/género +
Número
de EMs identificadas parcialmente correctas e com
classificação parcialmente correcta do
número/género +
Número
de EMs com classificação incorrecta do
número/género +
Número de EMs com classificação em falta do
número/género + Número de EMs com
classificação sobre especificada do
número/género + Número de EMs com
classificação sobre especificada
do
número/género;
- Total de EM com classificação correcta do
número/género
= Número de EMs identificadas correctamente e com
classificação correcta do número/género +
0.5 * número de EMs identificadas parcialmente
correctas e com
classificação parcialmente correcta do número;
- Total de EM com classificação sobre especificada
do
número/género
= Número de EMs identificadas correctamente e com
classificação sobre especificada do
número/género +
0.5 * número de EMs identificadas parcialmente
correctas e com
classificação parcialmente sobre especificada do
número;
Apenas as EMs identificadas como parcialmente correctas, e com
classificação parcialmente correcta ou sobre especificada
são
multiplicadas por 0.5.
Cálculos das medidas
O cálculo das medidas é semelhante para cada
uma das avaliações globais. Na avaliação
combinada
apenas é calculada a precisão, abrangência, e
a medida F.
- Precisão = Total de EM com
classificação
correcta do número ou género / Total de EMs com
classificação do número ou género pelo
sistema que tenham
classificação morfológica na CD;
- Abrangência = Total de EM com
classificação
correcta do número ou género / Total de EMs com
classificação do número ou género na CD;
- Medida F = ( 2 * Precisão * Abrangência ) / (
Precisão + Abrangência);
- Sobre-especificação = Número de EMs
com
classificação sobre especificada do número ou
género / Total de
EMs com classificação do número ou género
pelo sistema;
- Sobre-geração (cenário de
avaliação absoluto / opção '-abs') = Número de EMs
com
classificação espúria do número ou
género / Total de
EMs com classificação do número ou género
pelo sistema;
- Sub-geração = Número de EMs com
classificação em falta do número ou género
/ Total de EMs
com classificação do número ou género na CD;
Notas adicionais sobre o cálculo das medidas
- Sobre-especificação: Mede a percentagem da
ocorrência de casos
em que as EMs foram sobre especificadas pelo sistema.
- Sobre-geração: Mede a percentagem de casos de EMs
espúrias classificadas pelo sistema.
- Sub-geração: A medida de sub-geração
quantifica o número de classificações em falta
sobre
todas as EMs da CD. Inclui tanto os casos em que nenhuma
classificação foi dada, como os casos em que o sistema
classificou como '?' o género ou
número, mas na CD a EM foi classificada morfologicamente.
Exemplo
RELATÓRIO DA AVALIAÇÃO DA CLASSIFICAÇÃO MORFOLÓGICA
Gerado em: 25 de Maio de 2005
Avaliação Global da Classificação Morfológica - Número
Total de classificações da CD: 111
Total de classificações do sistema : 92
Precisão: 0.940217391304348
Abrangência: 0.779279279279279
Medida F: 0.852216748768473
Sobre-especificação: 0
Sobre-geração: 0
Sub-geração: 0.171171171171171
Avaliação Global da Classificação Morfológica - Género
Total de classificações da CD: 88
Total de classificações do sistema : 92
Precisão: 0.652173913043478
Abrangência: 0.681818181818182
Medida F: 0.666666666666667
Sobre-especificação: 0.25
Sobre-geração: 0
Sub-geração: 0.215909090909091
Avaliação Global da Classificação Morfológica - Combinada
Total de classificações da CD: 111
Total de classificações do sistema : 92
Precisão: 0.652173913043478
Abrangência: 0.540540540540541
Medida F: 0.591133004926108
Instalação e uso do programa
O
ida2mor é uma aplicação desenvolvida
em
Perl, desenvolvida por Rui Vilela e é disponibilizado pela
Linguateca de forma a poder ser testado pelos participantes ou outros
interessados. O programa está disponível no ficheiro
ferramentas_HAREM_perl.tar.gz
Requisitos
- Interpretador de Perl
- Módulo HAREM::ClassificacaoMorfologica
- Módulo HAREM::Taghash
- Módulo HAREM::ClassificationHash
- Resultados do Vizir ou
do AltinaMor
Instalação
O programa possui uma aplicação para
instalação:
tar xfz ACMorf.tar.gz
cd ACMorf.tar.gz
perl Makefile.pl
make
make test
make install
Invocação
[perl] ida2mor.pl -i resultado_do_altinaMor [-debug]
exemplo:
ida2mor.pl -i sistema.alinhado.etq.verificado.pt.avalida.absoluto.vizir.altmor -o saida.txt
ida2mor.pl -i sistema.alinhado.etq.verificado.selectivo.jornalistico.avalida.absoluto.vizir.altmor
Resultados
O
Ida2mor adiciona .ida2mor
ao nome
do ficheiro com os resultados:
sistema.alinhado.etq.verificado.pt.avalida.absoluto.vizir.altmor.ida2mor
sistema.alinhado.etq.verificado.selectivo.jornalistico.avalida.absoluto.vizir.altmor.ida2mor
Qualquer erro detectado durante o processamento será visualizado
no monitor (STDERR).
Script ACMorf.pl
O script
ACMorf.pl é
um pequeno utilitário para processar em lote os resultados do
AvalIDa.
Produz resultados de toda a avaliação da
classificação morfológica para
todos os ficheiros que contenham os resultados da
identificação na mesma directoria.
O script processa todos os ficheiros que seja possível extrair
resultados, e que
tenham uma extensão válida (Exemplos de extensões
inválidas: altida,
vizir, emir, ida2id).
perl ACMorf.pl directoria/ (-abs|-rel)