HAREM - Avaliação de Reconhecimento de Entidades Mencionadas

Linguateca - 2006.
  Versão para impressão

Distribuição dos programas de avaliação do HAREM

Distribuição dos programas de avaliação do HAREM

De modo a tornar a utilização dos nossos programas desenvolvidos no âmbito da avaliação conjunta do HAREM o organização fornece os programas de avaliação em dois ficheiros:

  1. ferramentas_HAREM_java.jar - v1.1, última actualização: 7 de Junho de 2006) - ferramentas escritas em Java. composta pelos seguintes módulos:
    • AlinhEM: Alinhador das entidades identificadas pelo sistema com as constantes na CD
    • AvalIDa: Avaliador individual da tarefa de identificação
    • Véus: Filtros de ficheiros por género, origem e/ou categorias/tipos
    • Emir: Avaliador individual da tarefa de classificação semântica
    • AltinaID: Seleccionador de ALTs para a tarefa de identificação
    • AltinaSEM: Seleccionador de ALTs para a classificação semântica
    • Ida2ID: Avaliador global da tarefa de identificação
    • Ida2SEM: Avaliador global da tarefa de classificação semântica
    • Sultão: Apresentador de resultados globais, por sistema e por tarefa

  2. ferramentas_HAREM_perl.tar.gz - (v1.2.2, última actualização: 22 de Junho de 2006) - Ferramentas escritas em Perl, compostas pelos seguintes módulos:
    • Extractor: Extractor dos documentos da Colecção Dourada a partir da Colecção HAREM
    • Vizir: Avaliador individual da tarefa de classificação morfológica (Usa o módulo ClassificacaoMorfologica.pm)
    • AltinaMor: Seleccionador de ALTs para a classificação morfológica
    • Ida2mor: Avaliador global da tarefa de classificação morfológica (Usa o módulo ClassificacaoMorfologica.pm)
    • Alcaide: Gerador de relatórios individuais sobre o desempanho de uma determinada saída
    • ACMorf: Permite a execução sequencial do programas izir, AltinaMor e Ida2mor

Nesta secção explicamos sucintamente como os vários módulos podem ser invocados utilizando o ferramentas_HAREM_java.jar ou o ferramentas_HAREM_perl.tar.gz.

AlinhEM

Para usar o AlinhEM:

java -Dfile.encoding=ISO-8859-1 -cp ferramentas_HAREM_java.jar pt.linguateca.harem.Aligner -submissao submissão.txt -cd CD.txt > ficheiro.alinhado

Especificações:

  • submissão é o ficheiro da saída do sistema.
  • CD.txt é o ficheiro da Colecção Dourada.
  • É necessário que haja um ficheiro harem.conf nas mesma directoria onde se contra o pacote ferramentas_HAREM_java.jar, para especificar as etiquetas a alinhar (estão disponíveis os cenários de 2005 e de 2006).
  • Opção -etiquetas sim: introduz etiquetas nuuméricas para os termos das EMs.
  • Opção: -ignorar [ficheiro]lê um ficheiro com termos adicionais para ignorar dentro das EMs. Ver os detelhes na página do AlinhEM sobre estas opções.

AvalIDa

Para usar o AvalIDa:

java -Dfile.encoding=ISO-8859-1 -cp ferramentas_HAREM_java.jar pt.linguateca.harem.IndividualAlignmentEvaluator -alinhamento ficheiro.alinhado > ficheiro.alinhado.avalida

Especificações:

  • ficheiro.alinhado é o ficheiro da saída do sistemas participante alinhado gerado pelo AlinhEM.

Véus

Para usar o Véus:

java -Dfile.encoding=ISO-8859-1 -cp ferramentas_HAREM_java.jar -cp ferramentas_HAREM_java.jar pt.linguateca.harem.AlignmentFilter -alinhamento ficheiro.alinhado.avalida -categoria PESSOA:LOCAL:ORGANIZAO:ABSTRACCAO:ORGANIZACAO:TEMPO:OBRA:ACONTECIMENTO:COISA:VALOR > ficheiro.alinhado.avalida.absoluto

Especificações:

  • A opção -alinhamento (obrigatória) deve vir acompanhada do nome (exemplo: ficheiro.alinhado.avalida) do ficheiro resultante do processamento do AvalIDa.
  • A opção -categoria (opcional) filtra o alinhamento de acordo com a categoria especificada (exemplo: -categoria LOCAL)..
  • A opção -genero (opcional) filtra o alinhamento de acordo com o género textual especificado (exemplo: -genero Web).
  • A opção -origem (opcional) filtra o alinhamento de acordo com a variante especificado (exemplo: -origem PT) .
  • A opção -estilo muc (opcional) retira de todos os alinhamentos os que geraram uma pontuação de Parcialmente Correcto, o que simula o cenário da avaliação MUC, que não reconhecia este tipo de pontuação.
  • A opção -estilo relax (opcional) aceita apenas no máximo uma pontuação de alinhamento Parcialmente Correcto por cada EM na colecção dourada. Caso a EM na colecção dourada alinhe com várias EMs da saída, ou uma EM da saída alinhe com várias EMs da colecção dourada (gerando várias pontuações Parcialmente Correcto), só o primeiro alinhamento é pontuado com Parcialmente Correcto, os restantes serão classificadas como Espúrio ou Em Falta). Esta opção pode ser vista como uma restrição aos alinhamentos múltiplos.

Emir

Para usar o Emir:

java -Dfile.encoding=ISO-8859-1 -cp ferramentas_HAREM_java.jar pt.linguateca.harem.SemanticAlignmentEvaluator -alinhamento ficheiro.alinhado.avalida.veu > ficheiro.alinhado.avalida.veu.emir

Especificações:

  • ficheiro.alinhado.avalida.absoluto é o ficheiro resultante do processamento do Véu.

AltinaID

Para usar o AltinaID:

java -Dfile.encoding=ISO-8859-1 -cp ferramentas_HAREM_java.jar pt.linguateca.harem.IdentificationAltAlignmentSelector -alinhamento ficheiro.alinhado.avalida > ficheiro.alinhado.avalida.altid

Especificações:

  • ficheiro.alinhado.avalida.absoluto.emir é o ficheiro resultante do processamento do AvalIDa.

AltinaSEM

Para usar o AltinaSem:

java -Dfile.encoding=ISO-8859-1 -cp ferramentas_HAREM_java.jar pt.linguateca.harem.SemanticAltAlignmentSelector -alinhamento ficheiro.alinhado.avalida.absoluto.emir > ficheiro.alinhado.avalida.absoluto.emir.altsem

Especificações:

  • ficheiro.alinhado.avalida.absoluto.emir é o ficheiro resultante do processamento do Emir.

Ida2ID

Para usar o Ida2Id:

java -Dfile.encoding=ISO-8859-1 -cp ferramentas_HAREM_java.jar pt.linguateca.harem.GlobalAlignmentEvaluator -alinhamento ficheiro.alinhado.avalida.absoluto.altid > ficheiro.alinhado.avalida.absoluto.altid.ida2id

Especificações:

  • ficheiro.alinhado.avalida.absoluto.altid é o ficheiro resultante do processamento do AltinaId.

Ida2Sem

Para usar o Ida2Sem:

java -Dfile.encoding=ISO-8859-1 -cp ferramentas_HAREM_java.jar pt.linguateca.harem.GlobalSemanticEvaluator -alinhamento ficheiro.alinhado.avalida.absoluto.emir.altsem > ficheiro.alinhado.avalida.absoluto.emir.altsem.ida2sem

Especificações:

  • ficheiro.alinhado.avalida.absoluto.emir.altsem é o ficheiro resultante do processamento do AltinaSem.

SultãoId

Para usar o SultãoId:

java -Dfile.encoding=ISO-8859-1 -cp ferramentas_HAREM_java.jar pt.linguateca.harem.GlobalIdentificationReporter -filtro .ida2id > relatorio_id.html

Especificações:

  • .ida2id corresponde à terminação que os ficheiros deverão ter para serem processados, neste caso refere-se aos ficheiros resultantes do processamento do Ida2Id.

SultãoSem

Para usar o SultãoSem:

java -Dfile.encoding=ISO-8859-1 -cp ferramentas_HAREM_java.jar pt.linguateca.harem.GlobalSemanticReporter -filtro .ida2sem > relatorio_sem.html

Especificações:

  • .ida2sem corresponde à terminação que os ficheiros deverão ter para serem processados, neste caso refere-se aos ficheiros resultantes do processamento do Ida2Sem.

SultãoMor

Para usar o SultãoMor:

java -Dfile.encoding=ISO-8859-1 -cp ferramentas_HAREM_java.jar pt.linguateca.harem.GlobalMorphologyReporter -filtro .ida2mor > relatorio_morf.html

Especificações:

  • .ida2mor corresponde à terminação que os ficheiros deverão ter para serem processados, neste caso refere-se aos ficheiros resultantes do processamento do Ida2Mor.

Extractor

Descompactar o ferramentas_HAREM_perl.tar.gz, fazendo perl Makefile.PL && make && sudo make install numa shell Unix, e entar na directoria do extractor.

Para a extracção dos documentos da Colecção Dourada, usar:

./extrairCDdasSubmissoes.pl -in [FICHEIRO_ENTRADA] -out [FICHEIRO_SAIDA] -cdids [FICHEIRO_CDIDS}

Especificações:

  • [FICHEIRO_ENTRADA] é o ficheiro da saída com a colecção completa de textos, a partir do qual queremos extrair o pedaço correspondente à colecção dourada.
  • [FICHEIRO_SAIDA] é o ficheiro de escrita, com os documentos corerspondentes à colecção dourada seleccionada, ordenados numericamente por ID.
  • [FICHEIRO_CDIDS] é o ficheiro com os CDids da colecção dourada. Estes estão incluídos no pacote, para as colecções douradas de 2005 e de 2006.

Vizir

Após a instalação do ferramentas_HAREM_perl.tar.gz, pode-se invocar o Vizir:

vizir.pl ficheiro.alinhado.avalida.absoluto

Especificações:

  • Opção -abs - Escolhe o cenário absoluto.
  • Opção -rel - Escolhe o cenário relativo.

AltinaMor

Após a instalação do ferramentas_HAREM_perl.tar.gz, pode-se invocar o AltinaMor:

altinaMor.pl ficheiro.alinhado.avalida.absoluto.vizir

Ida2mor

Após a instalação do ferramentas_HAREM_perl.tar.gz, pode-se invocar o Ida2mor:

ida2mor.pl ficheiro.alinhado.avalida.absoluto.vizir.altinaMor

ACMorf

O programa ACMorf foi desenvolvido para agregar a execução dos 3 comandos anterior num único comando, e está incluído no ferramentas_HAREM_perl.tar.gz. Para invocar o ACMorf:

ACMorf.pl ficheiro.alinhado.avalida.veu

Especificações:

  • Opção -abs - Escolhe o cenário absoluto.
  • Opção -rel - Escolhe o cenário relativo.

Alcaide

Descompactar o ferramentas_HAREM_perl.tar.gz, e entar na directoria do alcaide. Para mais informações sobre a utilização do alcaide, consultar a documentação do Alcaide que acompanha o programa.

Última actualização: 22/06/2006 12:47:03