Versão para impressão
Extractor do texto da colecção dourada do HAREM
Este programa processa a saída do sistema dos participantes, extraindo os documentos que pertencem à Colecção Dourada, e ordenando-os numericamente pelo ID.
A saída deste programa é a entrada para o programa AlinhEM.
Requisitos
Este programa necessita do Perl 5. Foi testado em Linux, e acredita-se que funcione em Windows, embora não foi testado nesse SO.
Utilização
Para usar o extractor, deve-se descarregar o programa e a respectiva lista de IDs que se pretende extrair. De momento, disponibilizamos até ao momento a
lista dos IDs da Colecção Dourada.
De seguida, dar permissões de execução para o programa:
chmod u+x extrairCDdasSubmissoes.pl.
Para a extracção dos documentos, usar:
./extrairCDdasSubmissoes.pl -ficheiro [FICHEIRO_SAIDA] -cdids [FICHEIRO_CDIDS]
Será criado um novo ficheiro na mesma directoria do ficheiro de saída, com o mesmo nome mas com extensão '.CD.ORDENADO', ordenados numericamente por ID.
Ficheiros
O extractor pode ser obtido aqui:
extrairCDdasSubmissoes.zip.
A lista dos IDs da Colecção Dourada pode ser obtido aqui: CDids.zip.