HAREM - Avaliação de Reconhecimento de Entidades Mencionadas

Linguateca - 2005.
  Versão para impressão

Extractor do texto da colecção dourada do HAREM

Este programa processa a saída do sistema dos participantes, extraindo os documentos que pertencem à Colecção Dourada, e ordenando-os numericamente pelo ID.
A saída deste programa é a entrada para o programa AlinhEM.

Requisitos

Este programa necessita do Perl 5. Foi testado em Linux, e acredita-se que funcione em Windows, embora não foi testado nesse SO.

Utilização

Para usar o extractor, deve-se descarregar o programa e a respectiva lista de IDs que se pretende extrair. De momento, disponibilizamos até ao momento a lista dos IDs da Colecção Dourada.
De seguida, dar permissões de execução para o programa:

chmod u+x extrairCDdasSubmissoes.pl.

Para a extracção dos documentos, usar:

./extrairCDdasSubmissoes.pl -ficheiro [FICHEIRO_SAIDA] -cdids [FICHEIRO_CDIDS]

Será criado um novo ficheiro na mesma directoria do ficheiro de saída, com o mesmo nome mas com extensão '.CD.ORDENADO', ordenados numericamente por ID.

Ficheiros

O extractor pode ser obtido aqui: extrairCDdasSubmissoes.zip.

A lista dos IDs da Colecção Dourada pode ser obtido aqui: CDids.zip.

Última actualização: 18/11/2005 10:17:12