Versão para impressão
Distribuição dos programas de avaliação do HAREM
Distribuição dos programas de avaliação do HAREM
De modo a tornar a utilização dos nossos programas desenvolvidos no âmbito da avaliação conjunta do HAREM o organização fornece os programas de avaliação em dois ficheiros:
- ferramentas_HAREM_java.jar - v1.1, última actualização: 7 de Junho de 2006) - ferramentas escritas em Java. composta pelos seguintes módulos:
- AlinhEM: Alinhador das entidades identificadas pelo sistema com as constantes na CD
- AvalIDa: Avaliador individual da tarefa de identificação
- Véus: Filtros de ficheiros por género, origem e/ou categorias/tipos
- Emir: Avaliador individual da tarefa de classificação semântica
- AltinaID: Seleccionador de ALTs para a tarefa de identificação
- AltinaSEM: Seleccionador de ALTs para a classificação semântica
- Ida2ID: Avaliador global da tarefa de identificação
- Ida2SEM: Avaliador global da tarefa de classificação semântica
- Sultão: Apresentador de resultados globais, por sistema e por tarefa
-
ferramentas_HAREM_perl.tar.gz
- (v1.2.2, última actualização: 22 de Junho de 2006) - Ferramentas escritas em Perl, compostas pelos seguintes módulos:
- Extractor: Extractor dos documentos da Colecção Dourada a partir da Colecção HAREM
- Vizir: Avaliador
individual da tarefa de classificação morfológica
(Usa o módulo ClassificacaoMorfologica.pm)
- AltinaMor:
Seleccionador de ALTs para a classificação
morfológica
- Ida2mor:
Avaliador global da tarefa de classificação
morfológica (Usa o módulo ClassificacaoMorfologica.pm)
- Alcaide: Gerador de relatórios individuais sobre o desempanho de uma determinada saída
- ACMorf: Permite a execução sequencial do programas
izir, AltinaMor e Ida2mor
Nesta secção explicamos sucintamente como os vários módulos podem ser invocados utilizando o
ferramentas_HAREM_java.jar ou o
ferramentas_HAREM_perl.tar.gz.
AlinhEM
Para usar o AlinhEM:
java -Dfile.encoding=ISO-8859-1 -cp ferramentas_HAREM_java.jar pt.linguateca.harem.Aligner -submissao submissão.txt -cd CD.txt > ficheiro.alinhado
Especificações:
- submissão é o ficheiro da saída do sistema.
- CD.txt é o ficheiro da Colecção Dourada.
- É necessário que haja um ficheiro
harem.conf nas mesma directoria onde se contra o pacote ferramentas_HAREM_java.jar, para especificar as etiquetas a alinhar (estão disponíveis os cenários de 2005 e de 2006).
- Opção -etiquetas sim: introduz etiquetas nuuméricas para os termos das EMs.
- Opção: -ignorar [ficheiro]lê um ficheiro com termos adicionais para ignorar dentro das EMs. Ver os detelhes na página do AlinhEM sobre estas opções.
AvalIDa
Para usar o AvalIDa:
java -Dfile.encoding=ISO-8859-1 -cp ferramentas_HAREM_java.jar pt.linguateca.harem.IndividualAlignmentEvaluator -alinhamento ficheiro.alinhado > ficheiro.alinhado.avalida
Especificações:
- ficheiro.alinhado é o ficheiro da saída do sistemas participante alinhado gerado pelo AlinhEM.
Véus
Para usar o Véus:
java -Dfile.encoding=ISO-8859-1 -cp ferramentas_HAREM_java.jar -cp ferramentas_HAREM_java.jar pt.linguateca.harem.AlignmentFilter -alinhamento ficheiro.alinhado.avalida -categoria PESSOA:LOCAL:ORGANIZAO:ABSTRACCAO:ORGANIZACAO:TEMPO:OBRA:ACONTECIMENTO:COISA:VALOR > ficheiro.alinhado.avalida.absoluto
Especificações:
- A opção -alinhamento (obrigatória) deve vir acompanhada do nome (exemplo: ficheiro.alinhado.avalida) do ficheiro resultante do processamento do AvalIDa.
- A opção -categoria (opcional) filtra o alinhamento de acordo com a categoria especificada (exemplo: -categoria LOCAL)..
- A opção -genero (opcional) filtra o alinhamento de acordo com o género textual especificado (exemplo: -genero Web).
- A opção -origem (opcional) filtra o alinhamento de acordo com a variante especificado (exemplo: -origem PT) .
- A opção -estilo muc (opcional) retira de todos os alinhamentos os que geraram uma pontuação de Parcialmente Correcto, o que simula o cenário da avaliação MUC, que não reconhecia este tipo de pontuação.
- A opção -estilo relax (opcional) aceita apenas no máximo uma pontuação de alinhamento Parcialmente Correcto por cada EM na colecção dourada. Caso a EM na colecção dourada alinhe com várias EMs da saída, ou uma EM da saída alinhe com várias EMs da colecção dourada (gerando várias pontuações Parcialmente Correcto), só o primeiro alinhamento é pontuado com Parcialmente Correcto, os restantes serão classificadas como Espúrio ou Em Falta). Esta opção pode ser vista como uma restrição aos alinhamentos múltiplos.
Emir
Para usar o Emir:
java -Dfile.encoding=ISO-8859-1 -cp ferramentas_HAREM_java.jar pt.linguateca.harem.SemanticAlignmentEvaluator -alinhamento ficheiro.alinhado.avalida.veu > ficheiro.alinhado.avalida.veu.emir
Especificações:
- ficheiro.alinhado.avalida.absoluto é o ficheiro resultante do processamento do Véu.
AltinaID
Para usar o AltinaID:
java -Dfile.encoding=ISO-8859-1 -cp ferramentas_HAREM_java.jar pt.linguateca.harem.IdentificationAltAlignmentSelector -alinhamento ficheiro.alinhado.avalida > ficheiro.alinhado.avalida.altid
Especificações:
- ficheiro.alinhado.avalida.absoluto.emir é o ficheiro resultante do processamento do AvalIDa.
AltinaSEM
Para usar o AltinaSem:
java -Dfile.encoding=ISO-8859-1 -cp ferramentas_HAREM_java.jar pt.linguateca.harem.SemanticAltAlignmentSelector -alinhamento ficheiro.alinhado.avalida.absoluto.emir > ficheiro.alinhado.avalida.absoluto.emir.altsem
Especificações:
- ficheiro.alinhado.avalida.absoluto.emir é o ficheiro resultante do processamento do Emir.
Ida2ID
Para usar o Ida2Id:
java -Dfile.encoding=ISO-8859-1 -cp ferramentas_HAREM_java.jar pt.linguateca.harem.GlobalAlignmentEvaluator -alinhamento ficheiro.alinhado.avalida.absoluto.altid > ficheiro.alinhado.avalida.absoluto.altid.ida2id
Especificações:
- ficheiro.alinhado.avalida.absoluto.altid é o ficheiro resultante do processamento do AltinaId.
Ida2Sem
Para usar o Ida2Sem:
java -Dfile.encoding=ISO-8859-1 -cp ferramentas_HAREM_java.jar pt.linguateca.harem.GlobalSemanticEvaluator -alinhamento ficheiro.alinhado.avalida.absoluto.emir.altsem > ficheiro.alinhado.avalida.absoluto.emir.altsem.ida2sem
Especificações:
- ficheiro.alinhado.avalida.absoluto.emir.altsem é o ficheiro resultante do processamento do AltinaSem.
SultãoId
Para usar o SultãoId:
java -Dfile.encoding=ISO-8859-1 -cp ferramentas_HAREM_java.jar pt.linguateca.harem.GlobalIdentificationReporter -filtro .ida2id > relatorio_id.html
Especificações:
- .ida2id corresponde à terminação que os ficheiros deverão ter para serem processados, neste caso refere-se aos ficheiros resultantes do processamento do Ida2Id.
SultãoSem
Para usar o SultãoSem:
java -Dfile.encoding=ISO-8859-1 -cp ferramentas_HAREM_java.jar pt.linguateca.harem.GlobalSemanticReporter -filtro .ida2sem > relatorio_sem.html
Especificações:
- .ida2sem corresponde à terminação que os ficheiros deverão ter para serem processados, neste caso refere-se aos ficheiros resultantes do processamento do Ida2Sem.
SultãoMor
Para usar o SultãoMor:
java -Dfile.encoding=ISO-8859-1 -cp ferramentas_HAREM_java.jar pt.linguateca.harem.GlobalMorphologyReporter -filtro .ida2mor > relatorio_morf.html
Especificações:
- .ida2mor corresponde à terminação que os ficheiros deverão ter para serem processados, neste caso refere-se aos ficheiros resultantes do processamento do Ida2Mor.
Extractor
Descompactar o ferramentas_HAREM_perl.tar.gz, fazendo perl Makefile.PL && make && sudo make install numa shell Unix, e entar na directoria do extractor.
Para a extracção dos documentos da Colecção Dourada, usar:
./extrairCDdasSubmissoes.pl -in [FICHEIRO_ENTRADA] -out [FICHEIRO_SAIDA] -cdids [FICHEIRO_CDIDS}
Especificações:
- [FICHEIRO_ENTRADA] é o ficheiro da saída com a colecção completa de textos, a partir do qual queremos extrair o pedaço correspondente à colecção dourada.
- [FICHEIRO_SAIDA] é o ficheiro de escrita, com os documentos corerspondentes à colecção dourada seleccionada, ordenados numericamente por ID.
- [FICHEIRO_CDIDS] é o ficheiro com os CDids da colecção dourada. Estes estão incluídos no pacote, para as colecções douradas de 2005 e de 2006.
Vizir
Após a instalação do ferramentas_HAREM_perl.tar.gz, pode-se invocar o Vizir:
vizir.pl ficheiro.alinhado.avalida.absoluto
Especificações:
- Opção -abs - Escolhe o cenário absoluto.
- Opção -rel - Escolhe o cenário relativo.
AltinaMor
Após a instalação do ferramentas_HAREM_perl.tar.gz, pode-se invocar o AltinaMor:
altinaMor.pl ficheiro.alinhado.avalida.absoluto.vizir
Ida2mor
Após a instalação do
ferramentas_HAREM_perl.tar.gz, pode-se invocar o
Ida2mor:
ida2mor.pl ficheiro.alinhado.avalida.absoluto.vizir.altinaMor
ACMorf
O programa ACMorf foi desenvolvido para agregar a
execução dos 3 comandos anterior num único
comando, e está incluído no ferramentas_HAREM_perl.tar.gz. Para invocar o ACMorf:
ACMorf.pl ficheiro.alinhado.avalida.veu
Especificações:
- Opção -abs - Escolhe o cenário absoluto.
- Opção -rel - Escolhe o cenário relativo.
Alcaide
Descompactar o ferramentas_HAREM_perl.tar.gz, e entar na directoria do alcaide. Para mais informações sobre a utilização do alcaide, consultar a documentação do Alcaide que acompanha o programa.