HAREM - Avaliação de Reconhecimento de Entidades Mencionadas

Linguateca - 2005.
  Versão para impressão

Avaliador da tarefa de identificação de entidades mencionadas --- HAREM

AvalIDa
Avaliador da tarefa de identificação de entidades mencionadas do HAREM

Apresentação

Este programa recebe um conjunto de alinhamentos produzidos pelo alinhador de entidades mencionadas do HAREM, o AlinhEM, já revisto -- ou seja, sem linhas para <VERIFICACAO_MANUAL> -- e produz um conjunto de classificações para cada par, de acordo com as especificações detalhadas no documento das medidas.

Para cada par, o avaliador da tarefa de identificação produz a classificação dentro de parênteses rectos após o sinal de dois pontos:

par : [classificação]
A classificação pode ser um conjunto de classificações, nesse caso separadas por vírgulas.
par : [classificação, classificação...]

As classificações pertencem à seguinte lista:

  • Correcto
  • Parcialmente_Correcto_por_Defeito
  • Parcialmente_Correcto_por_Excesso
  • EmFalta
  • Espúrio
No caso de a classificação ser parcialmente correcta, o programa calcula além disso a pontuação pertinente (assim como o peso relativo para o erro), e coloca o resultado numérico após a classificação:

Parcialmente_Correcto_por_Excesso(x;y)
Parcialmente_Correcto_por_Defeito(x;y)

Note-se que y = 1 - x.

Exemplos:

<LOCAL TIPO="ALARGADO" MORF="M,S">Hotel Eva/<LOCAL> ---> [<LOCAL TIPO="ALARGADO" MORF="M,S">Hotel Eva/<LOCAL>] : [Correcto]

<LOCAL TIPO="ADMINISTRATIVO" MORF="?,S">Pinheiros</LOCAL> ---> [null] : [EmFalta]

<ORGANIZACAO TIPO="INSTITUICAO" MORF="M,S">Instituto D.Francisco Gomes</ORGANIZACAO> ---> [<ORGANIZACAO TIPO="INSTITUICAO" MORF="M,S">Instituto</ORGANIZACAO>, <ORGANIZACAO TIPO="INSTITUICAO" MORF="M,S">D.Francisco Gomes/<ORGANIZACAO>] : [Parcialmente_Correcto_por_Defeito(0,125;0,875), Parcialmente_Correcto_por_Defeito(0,375;0,625) ]

<ORGANIZACAO TIPO="INSTITUICAO" MORF="M,S"><2>CNPq</2></ORGANIZACAO> ---> [<PESSOA TIPO="CARGO" MORF="M,S"><1>presidente</1> do <2>CNPq</2> , <1>Evando</1></PESSOA>] : [Parcialmente_Correcto_por_Defeito(0,1666;0,8333]

<PESSOA TIPO="INDIVIDUAL" MORF="M,S"><5>Evando</5> <5>Mirra</5> de <1>Paula</1> e <1>Silva</1></PESSOA> ---> [<PESSOA TIPO="INDIVIDUAL" MORF="M,S"><5>Evando</5></PESSOA>, <PESSOA TIPO="INDIVIDUAL" MORF="F,S"><1>Paula</1></PESSOA>, <PESSOA TIPO="INDIVIDUAL" MORF="M,S"><1>Silva</1></PESSOA>] : [Parcialmente_Correcto_por_Defeito (0,125;0,875), Parcialmente_Correcto_por_Defeito(0,125;0,875), Parcialmente_Correcto_por_Defeito(0,125;0,875)]

Exactamente o mesmo tratamento é efectuado independentemente a cada uma das alternativas de um ALT.

<ALT>
<ALT1>
<VALOR TIPO="QUANTIDADE">98 anos e meio</VALOR> ---> [<VALOR TIPO="QUANTIDADE">98 anos</VALOR>] : [Parcialmente_Correcto_por_Defeito(0,333;0,666)]
</ALT1>
<ALT2>
<VALOR TIPO="QUANTIDADE">98 anos</VALOR> ---> [<VALOR TIPO="QUANTIDADE">98 anos</VALOR>] : [Correcto]
</ALT2>
</ALT>

<ALT>
<ALT1>
<OBRA TIPO="PUBLICACAO" MORF="F,S">Constituição de 22</OBRA> ---> [<ABSTRACCAO TIPO="IDEIA" MORF="F,S">Constituição</ABSTRACCAO>] : [Parcialmente_Correcto_por_Defeito(0,333;0,666)]
</ALT1>
<ALT2>
<OBRA TIPO="PUBLICACAO" MORF="F,S">Constituição</OBRA> ---> [<ABSTRACCAO TIPO="IDEIA" MORF="F,S">Constituição</ABSTRACCAO>] : [Correcto]
<TEMPO TIPO="DATA">22</TEMPO> ---> [null] : [EmFalta]
</ALT2>
</ALT>

De notar que caracteres não alfanuméricos não são contados como átomos. Assim, os casos seguintes o número de átomos considerado é respectivamente 4 e 13, e não 5 e 15, visto que "/" e "-" não foram contados.

<TEMPO TIPO="DATA">88</TEMPO> ---> [<VALOR TIPO="QUANTIDADE">88 / 89</VALOR>]: [Parcialmente_Correcto_por_Excesso(0.25; 0.75)]
<LOCAL TIPO="CORREIO">Estrada de Itapecerica, sem número - Bairro da Ressaca Itapecerica da Serra,SP - Brasil</LOCAL> ---> [<LOCAL TIPO="ADMINISTRATIVO">Estrada de Itapecerica</LOCAL>, <LOCAL TIPO="ADMINISTRATIVO">Bairro da Ressaca Itapecerica da Serra</LOCAL>, <OBRA TIPO="ARTE">SP</OBRA>, <PESSOA TIPO="INDIVIDUAL">Brasil Tel.</PESSOA>]: [Parcialmente_Correcto_por_Defeito(0.11538461538461539; 0.8846153846153846), Parcialmente_Correcto_por_Defeito(0.23076923076923078; 0.7692307692307692), Parcialmente_Correcto_por_Defeito(0.038461538461538464; 0.9615384615384616), Parcialmente_Correcto_por_Defeito(0.03571428571428571; 0.9642857142857143)]

Finalmente, tudo o que está dentro da etiqueta OMITIDO é omitido.

Instalação e uso do programa

O AvalIDa foi desenvolvido pelo Nuno Seco e é disponibilizado pela Linguateca de forma a poder ser testado pelos participantes ou outros interessados:Identificador.jar.

Pré-requisitos

O sistema foi implementado pelo Nuno Seco em Java e, como tal, é necessário a instalação da "Java Virtual Machine" (JVM) sobre a qual o programa pode ser executado. A versão utilizada durante a implementação e testes foi a versão 1.5. 

Invocação

Para invocar o AvaliDA numa máquina com a JVM instalada, execute o comando:

java -Dfile.encoding=ISO-8859-1 -jar Identificador.jar  -alinhamento ficheiro.alinhado
Onde ficheiro.alinhado corresponde ao nome do ficheiro (pré-processado) que contém o alinhamento (com etiquetas numericas) dos documentos etiquetados por um participante com a CD, resultado da validação manual da saída do AlinhEM. A opção D é semelhante à do AlinhEM.

O resultado do programa vai para um ficheiro com o nome igual ao com que foi invocado, mais a extensão avalida, ficheiro.alinhado.avalida.

Última actualização: 18/11/2005 10:17:12