HAREM - Avaliação de Reconhecimento de Entidades Mencionadas

Linguateca - 2005.
  Versão para impressão

Avaliador da tarefa de classificação morfológica de entidades mencionadas --- HAREM

Vizir

Avaliador da tarefa de classificação morfológica de entidades mencionadas

O Vizir é um programa para avaliar a classificação morfológica das entidades mencionadas, por parte dos sistemas que participam no HAREM. A avaliação é efectuada sobre os resultados dos Veus, seguindo as especificações definidas no documento das Medidas.

Passos efectuados pelo Vizir:

  1. Leitura dos resultados dos Veus;
  2. Execução do avaliador morfológico;
  3. Geração dos resultados da avaliação;

Avaliação da classificação morfológica

A avaliação da classificação morfológica é efectuada sobre o resultado do alinhamento produzido pelo Veus, consoante as especificações do documento das Medidas do HAREM.
O Vizir não produz nenhum ficheiro com resultados, caso o sistema não efectue classificação morfológica.

Nomenclatura dos resultados

O resultado da avaliação efectuada pelo Vizir é expresso da seguinte forma:

[(Género: PONTUAÇÃO PONTUAÇÃO_NUMÉRICA) (Número: PONTUAÇÃO PONTUAÇÃO_NUMÉRICA) (Combinada: PONTUAÇÃO PONTUAÇÃO_NUMÉRICA)]

A pontuação e pontuação numérica resultante da avaliação da classificação morfológica atribuída ao género, número, e combinada pode tomar os seguintes valores:
Correcto - 1; Parcialmente Correcto - 0.5; Incorrecto - 0; Em Falta - 0; Espúrio - 0 (apenas no cenário de avaliação absoluto); Sobre especificado 0; Parcialmente sobre especificado 0;
É atribuída a pontuação "Parcialmente Correcto" aos pares cuja classificação morfológica esteja correcta, mas que
tenham sido identificados parcialmente correctos. Aos casos identificados e morfologicamente correctos é atribuída a pontuação "Correcto".

Processamento dos resultados

Toda a informação semântica contida na EM é retirada, as categorias são substituídas pela etiqueta <EM>, e o atributo TIPO é removido:

<LOCAL TIPO="ADMINISTRATIVO" MORF="F,S">Rússia</LOCAL> ---> [<LOCAL TIPO="ALARGADO" MORF="F,S">Rússia</EM>]
resulta em:
<EM MORF="F,S">Rússia</EM> ---> [<EM MORF="F,S">Rússia</EM>]

Os resultados ds são removidos. O seguinte caso exemplifica o resultado da avaliação do Vizir:

<ORGANIZACAO TIPO="INSTITUICAO" MORF="M,S">Lions Clube de Faro</ORGANIZACAO> ---> 
[<PESSOA TIPO="GRUPOMEMBRO" MORF="F,S">Lions Clube de Faro</PESSOA>]:[Correcto]
resulta em:
<EM MORF="M,S">Lions Clube de Faro</EM> ---> [<EM MORF="F,S">Lions Clube de Faro</EM>]:
[(Género: Incorrecto 0) (Número: Correcto 1) (Combinada: Incorrecto 0)]

As EMs cujo primeiro átomo não coincide com o primeiro átomo da EM na CD são marcadas como em falta.
Nos casos em que existe uma combinação de várias EMs do sistema alinhadas, o Vizir efectua a avaliação da classificação morfológica para as EMs cujo primeiro átomo coincida com o primeiro átomo da EM da CD. As restantes classificações das EMs não contam na avaliação.

<ORGANIZACAO TIPO="INSTITUICAO" MORF="M,S">Instituto D.Francisco Gomes</ORGANIZACAO> ---> 
[<ORGANIZACAO TIPO="INSTITUICAO" MORF="M,S">Instituto</ORGANIZACAO>,
<ORGANIZACAO TIPO="INSTITUICAO" MORF="M,S">D.Francisco Gomes</ORGANIZACAO>]:
[Parcialmente_Correcto_por_Defeito(0.125; 0.875), Parcialmente_Correcto_por_Defeito(0.375; 0.625)]

resulta em:

<EM MORF="M,S">Instituto D.Francisco Gomes</EM> ---> [<EM MORF="M,S">Instituto</EM>, <EM MORF="M,S">D.Francisco Gomes</EM>]:
[(Género: Parcialmente Correcto 0.5) (Número: Parcialmente Correcto 0.5) (Combinada: Parcialmente Correcto 0.5)]

Escolha do cenário de avaliação entre absoluto ou relativo.
Para executar o Vizir é necessário escolher um dos cenários de avaliação disponíveis. O Vizir permite seleccionar 2 cenários diferentes:
  • Absoluto (opção -abs) - Considerar para avaliação todas EMs, cuja avaliação da identificação considerou as EMs como correctas, parcialmente correctas, em falta, incorrectas, e espúrias.
  • Relativo (opção -rel) - Considerar para avaliação todas EMs que foram consideradas na avaliação da identificação como correctas, parcialmente correctas, em falta, e incorrectas.
    • São excluídas dos resultados todas as EMs identificadas como espúrias ou em falta. Segue-se um exemplo de dois caso excluídos:
      <ESPURIO>Embratur</ESPURIO> ---> [<ORGANIZACAO TIPO="EMPRESA" MORF="F,S">Embratur</ORGANIZACAO>]:[Espúrio]
      <LOCAL TIPO="ADMINISTRATIVO" MORF="?,S">Pinheiros</LOCAL> ---> [null]:[Em_Falta]
Classificações atribuídas na avaliação
O Vizir pontua da seguinte forma as classificações atribuídas pelo sistema, sendo de forma semelhante para o número ou género:

CD Sistema
Resultado
M
M
Correcto
M
F
Incorrecto
?
F
Sobre especificado
M
?
Em falta
M
(não classif.)
Em falta
?
?
Correcto
(espúria)
M
Espúrio (apenas Absoluto)


Apenas usando o cenário de avaliação absoluto é avaliado as EMs identificadas como espúrias.
Na pontuação combinada, os resultados da avaliação da classificação morfológica é atribuida da seguinte forma (* - Todas as pontuações possíveis à excepção de espúrio):

Número
Género
Resultado
Correcto
Correcto
Correcto
Correcto
Incorrecto
Incorrecto
Correcto
Sobre especificado
Incorrecto
Correcto
Parcialmente sobre especificado
Incorrecto
Correcto
Parcialmente Correcto
Parcialmente Correcto
Correcto
Em falta
Em falta
Parcialmente Correcto
Correcto
Parcialmente Correcto
Parcialmente Correcto Parcialmente Correcto Parcialmente Correcto
Parcialmente Correcto Em falta
Em falta
Parcialmente Correcto Sobre especificado
Incorrecto
Parcialmente Correcto
Parcialmente sobre especificado
Incorrecto
Parcialmente Correcto Incorrecto
Incorrecto
Incorrecto
*
Incorrecto
Sobre especificado
*
Incorrecto
Parcialmente sobre especificado
*
Incorrecto
Espúrio
Espúrio
Espúrio

Se qualquer um dos resultados da pontuação da classificação do género ou número for incorrecta, ou sobre especificada, o resultado da pontuação combinada será Incorrecto. Seguem-se alguns casos:
<EM MORF="?,S">Setúbal</EM> ---> [<EM MORF="M,S">Setúbal</EM>]:[(Género: Sobre especificado 0) (Número: Correcto 1) (Combinada: Incorrecto 0)]

<EM MORF="M,S">Fundação Fernando Pessoa</EM> ---> [<EM MORF="M,P">Fundação</EM>, <EM MORF="F,S">Fernando Pessoa</EM>]:
[(Género: Parcialmente Correcto 0.5) (Número: Incorrecto 0) (Combinada: Incorrecto 0)]

<EM MORF="?,?">Setúbal</EM> ---> [<EM MORF="M,S">Setúbal</EM>]:[(Género: Sobre especificado 0) (Número: Sobre especificado 0) (Combinada: Incorrecto 0)]

<EM MORF="?,?">Cais do Porto</EM> ---> [<EM MORF="M,P">Cais</EM>]:[(Género: Parcialmente sobre especificado 0) (Número: Parcialmente sobre especificado 0) (Combinada: Incorrecto 0)]
A pontuação combinada é Incorrecta, porque a EM está classificada morfologicamente na CD.

Se existir uma classificação pontuada como em falta, e não se verificar o caso anterior, a pontuação combinada será pontuada como em falta. Casos classificados como estando em falta (nota: o primeiro caso não é avaliado no cenário relativo):
<EM MORF="M,S">Peri</EM> ---> [null]:[(Género: Em Falta 0) (Número: Em Falta 0) (Combinada: Em Falta 0)]
<EM MORF="M,S">Abril</EM> ---> [<EM>Abril</EM>]:[(Género: Em Falta 0) (Número: Em Falta 0) (Combinada: Em Falta 0)]

<EM MORF="M,S">Abril</EM> ---> [<EM MORF="?,S">Abril</EM>]:[(Género: Em Falta 0) (Número: Correcto 1) (Combinada: Em Falta 0)]

<EM MORF="M,S">Abril</EM> ---> [<EM MORF="M,S">17 de Abril</EM>]:[(Género: Em Falta 0) (Número: Em Falta 0) (Combinada: Em Falta 0)]
Notar que o último caso, o 1º átomo não é o mesmo. Apesar de o sistema ter classificado a EM, o Vizir marca a EM como estando em falta.
Na avaliação usando o cenário absoluto (-abs), as EMs com classificação espúria pelos Veus sem qualquer classificação na CD são avaliadas, e pontuadas com espúrios nos seguintes casos:
<ESPURIO>Embratur</ESPURIO> ---> [<EM MORF="F,S">Embratur</EM>]:
[(Género: Espúrio 0) (Número: Espúrio 0) (Combinada: Espúrio 0)]

<ESPURIO>Embratur</ESPURIO> ---> [<EM MORF="?,S">Embratur</EM>]:
[(Género: Espúrio 0) (Número: Espúrio 0) (Combinada: Espúrio 0)]

 Os seguintes casos são ignoradas na avaliação:
<ESPURIO>Embratur</ESPURIO> ---> [<EM MORF="?,?">Embratur</EM>]
<ESPURIO>Embratur</ESPURIO> ---> [<EM>Embratur</EM>]

<EM>Embratur</EM> ---> [<EM MORF="M,S">Embratur</EM>]

Qualquer outra situação é atribuída a pontuação de correcto ou parcialmente correcto consoante a identificação correcta da EM.
<EM MORF="F,S">APSS</EM> ---> [<EM MORF="F,S">APSS</EM>]:[(Género: Correcto 1) (Número: Correcto 1) (Combinada: Correcto 1)]
<EM MORF="F,S">Secretaria Geral</EM> ---> [<EM MORF="F,S">Secretaria Geral da Escola de Ciência</EM>]:
[(Género: Parcialmente Correcto 0.5) (Número: Parcialmente Correcto 0.5) (Combinada: Parcialmente Correcto 0.5)]

Processamento de outras etiquetas relacionadas com as EMs

Os resultados do Veus contêm algumas etiquetas que requerem um tipo diferente de processamento. Para os identificadores de alternativa, o Vizir avalia cada par dentro da etiqueta <ALTX>, para serem processados posteriormente pelo AltinaMor.
<ALT>
<ALT1>
<EM MORF="M,S">Aves-Campomaiorense</EM> ---> [<EM MORF="M,S">Aves-Campomaiorense</EM>]:[(Género: Correcto 1) (Número: Correcto 1) (Combinada: Correcto 1)]
</ALT1>
<ALT2>
<EM MORF="M,S">Aves</EM> ---> [<EM MORF="M,S">Aves-Campomaiorense</EM>]:[(Género: Parcialmente Correcto 0.5) (Número: Parcialmente Correcto 0.5) (Combinada: Parcialmente Correcto 0.5)]
<EM MORF="M,S">Campomaiorense</EM> ---> [<EM MORF="M,S">Aves-Campomaiorense</EM>]:[(Género: Em Falta 0) (Número: Em Falta 0) (Combinada: Em Falta 0)]
</ALT2>
</ALT>
O Identificador de texto semelhante a "HAREM-251-04443 PT Web" é transcrito para os resultados.
As etiquetas <VERIFICACAO_MANUAL> e <OMITIDO> representam revisões sobre resultado do AlinhEM, caso existam, as linhas são ignoradas pelo vizir.
Nos resultados dos Veus está presente na primeira linha, as categorias e tipos usados na avaliação da classificação semântica. O Vizir ignora qualquer linha que inicie por #:
#CATEGORIA1=["TIPO1", "TIPO2", ... ]; ...


Pós-processamento

Os resultados gerados pelo Vizir podem ser posteriormente processados pelo AltinaMor, de forma a poder escolher as opções mais vantajosa dos identificadores de alternativa (Etiqueta <ALT>).

Posteriormente são gerados os relatórios individuais da avaliação da classificação morfológica pelo Ida2mor.

Exemplos

Para clarificar o funcionamento do Vizir, os seguintes exemplos de resultados de alinhamentos processados pelos Veus foram escolhidos, e numerados para uma fácil referenciação:

1. <LOCAL TIPO="ADMINISTRATIVO" MORF="M,S">Portugal</LOCAL> ---> 
[<LOCAL TIPO="ADMINISTRATIVO" MORF="M,S">Portugal</LOCAL>]:[Correcto]
2.<ABSTRACCAO TIPO="NOME" MORF="F,S">Escola Normal Livre de Agudos</ABSTRACCAO> ---> 
[<ORGANIZACAO TIPO="INSTITUICAO" MORF="F,S">Escola Normal Livre</ORGANIZACAO>]:[Parcialmente_Correcto_por_Defeito(0.3; 0.7)]
3.<LOCAL TIPO="ALARGADO" MORF="M,S">Hotel Lisboa Plaza</LOCAL> ---> 
[<LOCAL TIPO="ALARGADO" MORF="M,S">Hotel Lisboa</LOCAL>, <PESSOA TIPO="INDIVIDUAL" MORF="M,S">Plaza</PESSOA>]:
[Parcialmente_Correcto_por_Defeito(0.3333333333333333; 0.6666666666666667),
Parcialmente_Correcto_por_Defeito(0.16666666666666666; 0.8333333333333334)]
4.<COISA|COISA TIPO="CLASSE|OBJECTO" MORF="?,?">BATTENFELD</COISA|COISA> ---> 
[<COISA TIPO="CLASSE" MORF="M,S">BATTENFELD</COISA>]:[Correcto]
5.<ORGANIZACAO TIPO="SUB" MORF="F,S">Reportagem Local</ORGANIZACAO> ---> 
[<OBRA TIPO="REPRODUZIDA" MORF="?,?">a Reportagem Local</OBRA>]:
[Parcialmente_Correcto_por_Excesso(0.3333333333333333; 0.6666666666666667)]
6.<OBRA TIPO="PRODUTO" MORF="?,S">The Artic</OBRA> ---> 
[<OBRA TIPO="REPRODUZIDA" MORF="?,?">The Artic</OBRA>]:[Correcto]
7.<ESPURIO>História</ESPURIO> ---> [<ABSTRACCAO TIPO="DISCIPLINA" MORF="F,S">História</ABSTRACCAO>]:[Espúrio]
8.<LOCAL TIPO="ADMINISTRATIVO" MORF="?,S">Pinheiros</LOCAL> ---> [null]:[Em_Falta]
9.<LOCAL TIPO="ADMINISTRATIVO" MORF="M,S">Brasil</LOCAL> ---> 
[<LOCAL TIPO="ADMINISTRATIVO">o Brasil</LOCAL>]:[Parcialmente_Correcto_por_Excesso(0.25; 0.75)]

10. <ORGANIZACAO TIPO="SUB" MORF="F,P">Relações Públicas</ORGANIZACAO> --->
[<ABSTRACCAO TIPO="DISCIPLINA" MORF="M,S">Relações Públicas</ABSTRACCAO>]:[Correcto]

11. <LOCAL TIPO="ADMINISTRATIVO" MORF="M,S">Próximo Oriente</LOCAL> --->
[<ORGANIZACAO TIPO="INSTITUICAO" MORF="?,?">Próximo Oriente</ORGANIZACAO>]:[Correcto]
Após o processamento pelo Vizir (cenário absoluto) o resultado obtido é o seguinte:

1.<EM MORF="M,S">Portugal</EM> ---> [<EM MORF="M,S">Portugal</EM>]:
[(Género: Correcto 1) (Número: Correcto 1) (Combinada: Correcto 1)]
Comentário: Este caso está classificado como morfologicamente correcto,
o sistema também identificou correctamente a EM.

2.<EM MORF="F,S">Escola Normal Livre de Agudos</EM> ---> [<EM MORF="F,S">Escola Normal Livre</EM>]:
[(Género: Parcialmente Correcto 0.5) (Número: Parcialmente Correcto 0.5) (Combinada: Parcialmente Correcto 0.5)]
Comentário: Este caso está classificado como morfologicamente correcto.
Como a EM foi classificada como parcialmente correcta na identificação, foi
atribuída a pontuação parcialmente correcta para este caso.
3.<EM MORF="M,S">Hotel Lisboa Plaza</EM> ---> [<EM MORF="M,S">Hotel Lisboa</EM>, <EM MORF="F,S">Plaza</EM>]:
[(Género: Parcialmente Correcto 0.5) (Número: Parcialmente Correcto 0.5) (Combinada: Parcialmente Correcto 0.5)]
Comentário: Para a avaliação da classificação deste alinhamento, apenas conta a EM submetida pelo sistema,
cujo primeiro átomo (palavra Hotel) alinha com o primeiro átomo da EM na CD. Sendo assim,
apenas a 1ª EM é considerada, a 2ª EM não é considerada posteriormente para o total de EM do sistema.
4.<EM MORF="?,?">BATTENFELD</EM> ---> [<EM MORF="M,S">BATTENFELD</EM>]:
[(Género: Sobre especificado 0) (Número: Sobre especificado 0) (Combinada: Incorrecto 0)]
Comentário: Neste caso, a EM na CD não foi classificada morfologicamente. No entanto o
sistema classificou morfologicamente a EM, e sobre-especificou a classificação da EM.
Notar é atribuído para a pontuação combinada, o valor incorrecto.
5.<EM MORF="F,S">Reportagem Local</EM> ---> [<EM MORF="?,?">a Reportagem Local</EM>]:
[(Género: Em Falta 0) (Número: Em Falta 0) (Combinada: Em Falta 0)]
Comentário: O primeiro átomo da EM do sistema não combina com a EM da CD.
6.<EM MORF="?,S">The Artic</EM> ---> [<EM MORF="?,?">The Artic</EM>]:
[(Género: Correcto 1) (Número: Em Falta 0) (Combinada: Em Falta 0)]
Comentário: Tal como na CD, o sistema não foi chegou a nenhuma conclusão relativamente ao
género da EM na CD. Mas também não classificou a EM em relação ao número, como na CD está
classificado o número como singular, o sistema não classificou a EM em relação ao número.
7.<ESPURIO>História</ESPURIO> ---> [<EM MORF="F,S">História</EM>]:
[(Género: Espúrio 0) (Número: Espúrio 0) (Combinada: Espúrio 0)]
Comentário: O sistema classificou morfologicamente como uma EM, que não foi identificada como
sendo uma EM na CD. No cenário relativo este caso não seria avaliado, sendo descartado dos
resultados. Para o cenário absoluto, o sistema obtém a pontuação de espúrio para todos os campos.
8.<EM MORF="?,S">Pinheiros</EM> ---> [null]:
[(Género: Em Falta 0) (Número: Em Falta 0) (Combinada: Em Falta 0)]
Comentário: O sistema falhou em identificar a EM. Este caso não é contabilizado para o número
total de EMs classificadas pelo sistema.
9.<EM MORF="M,S">Brasil</EM> ---> [<EM>o Brasil</EM>]:
[(Género: Em Falta 0) (Número: Em Falta 0) (Combinada: Em Falta 0)]
Comentário: O sistema não classificou morfologicamente a EM.
Este caso não é contabilizado pelo ida2mor para o número total de EMs classificadas pelo sistema.

10.<EM MORF="F,P">Relações Públicas</EM> ---> [<EM MORF="M,S">Relações Públicas</EM>]:
[(Género: Incorrecto 0) (Número: Incorrecto 0) (Combinada: Incorrecto 0)]
Comentário: O sistema falhou em correctamente classificar morfologicamente a EM.

11.<EM MORF="M,S">Próximo Oriente</EM> ---> [<EM MORF="?,?">Próximo Oriente</EM>]:
[(Género: Em Falta 0) (Número: Em Falta 0) (Combinada: Em Falta 0)]
Comentário: O sistema falhou em determinar a classificação morfológica da EM.
Este caso é contabilizado pelo ida2mor para o número total de EMs classificadas
pelo sistema.

Instalação e uso do programa

O Vizir é uma aplicação desenvolvida em Perl, desenvolvida por Rui Vilela e é disponibilizado pela Linguateca de forma a poder ser utilizada e testada pelos participantes ou outros interessados. O programa está disponível no ficheiro ferramentas_HAREM_perl.tar.gz

Requisitos

  • Interpretador de Perl
  • Módulo HAREM::ClassificacaoMorfologica
  • Resultados dos Veus

Instalação

O programa possui uma aplicação para instalação:

tar xfz ACMorf.tar.gz

Invocação

[perl] vizir.pl resultado_do_avalIDa_a_avaliar (-abs|-rel)

abs - Considerar todas as EMs para avaliação. (Cenário absoluto)
rel - Não considerar as EM espúrias ou com classificação morfológica espúria. (Cenário relativo)

exemplos:

vizir.pl sistema.alinhado.etq.verificado.avalida.pt.jornalistico -abs
vizir.pl sistema.alinhado.etq.verificado.avalida.total -rel

Resultados

O Vizir adiciona .vizir ao nome do ficheiro com os resultados:
sistema.alinhado.etq.verificado.avalida.total.vizir
sistema.alinhado.etq.verificado.avalida.pt.vizir
sistema.alinhado.etq.verificado.avalida.selectivo.jornalistico.vizir

Qualquer erro detectado durante o processamento será visualizado na standard output error.

Script ACMorf.pl

O script ACMorf.pl é um pequeno utilitário para processar em lote os resultados dos Veus.  Produz resultados de toda a avaliação da classificação morfológica para todos os ficheiros que contenham os resultados da identificação na mesma directoria.
O script processa todos os ficheiros que seja possível extrair resultados, e que tenham uma extensão válida (Exemplos de extensões inválidas: altida, vizir, emir, ida2id).
perl ACMorf.pl directoria/ (-abs|-rel)

Última actualização: 25/11/2005 11:30:41