| Linguateca - 2005. |
Versão para impressão
O alcaide é um programra em linguagem Perl, criado por Nuno Cardoso, cujo objectivo é gerar relatórios individuais para cada saída que foi submetida no âmbito do HAREM, a avaliação conjunta de sistemas de reconhecimento de entidades mencionadas organizado pela Linguateca.
A versão disponível do alcaide, que se encontra acessível aqui, lê e processa os relatórios-resumo gerados pelos programas SultãoID, SultãoMOR, e SultãoSEM, e os relatórios de estatísticas gerados pelos programas ida2id, ida2mor e ida2sem, respectivamente, para as tarefas de identificação, classificação morfológica e classificação semântica.
A saída do alcaide é um relatório em HTML que resume o desempenho de uma determinada saída, nas tarefas que esta se propôs realizar, nos diversos cenários, formas de avaliação e discriminações por categoria, género textual e variante. Adicionalmente, o alcaide gera imagens de gráficos ilustrativos dos valores representados nas tabelas do relatório final.
A título de exemplo do formato dos relatórios que o alcaide gera, pode-se consultar o relatório individual da saída vencedora do HAREM, que foi criada pelo sistema PALAVRAS-NER.
O alcaide foi testado e validado num sistema operativo Linux Fedora Core 2, com Perl 5.8.3, embora deva funcionar em outros sistemas operativos que possuam uma instalação de Perl 5.8.
O alcaide requer também, para a geração dos gráficos, os módulos GD-2.28, GDGraph-1.43 e GDTextUtil-0.86 (as versões dos módulos referidas são as versões utilizadas e testadas).
O alcaide é constituído por um ficheiro, que não necessita de ser instalado. No entanto, há a necessidade de verificar os seguintes pontos, antes de o executar:
1) Confirmar que a codificação da consola de comandos é a codificação ISO-8859-1, e que a linguagem ambiente é português de Portugal, ou português do Brasil. Para confirmar, pode-se executar 'export LANG=pt_PT' ou 'export LANG=pt_BR' na linha de comandos.
2) Verificar se os nomes dos relatórios gerados pelos relatórios SultãoID, SultãoMOR, e SultãoSEM não contém nomes de ficheiros com caracteres resultantes de conversões incorrectas de codificação UTF-8 para ISO-8859-1, como é mostrado no exemplo seguinte:
. SAIDA.alinhado.etq.verificado.avalida.total.téc nico.altid.ida2id
Para resolver esse problema, pode-se usar o conversor conversorUTF8paraIso8859-1.pl, que está incluído no pacote do alcaide, e que converte os caracteres referidos. Para tal, basta executar o seguinte comando:
ls directoria/* | ./conversorUTF8paraIso8859-1.pl
3) Se não existir, o alcaide cria uma directoria 'imagens' para reter as imagens geradas para o relatório de saída.
4) criar uma directoria com o nome da saída, e dentro dessa directoria, colocar os relatórios exactamente na mesma hierarquia que se encontra nas áreas dos participantes no sítio HAREM:
./SAIDA/identificacao/ - Relatórios do ida2id
./SAIDA/morfologia/ - Relatórios do ida2mor
./SAIDA/semantica/ - Relatórios do ida2sem
Nota: outra alternativa de configuração consiste em definir as variáveis internas do alcaide, que indicam as directorias onde se encontram os relatórios:
$directoria_identificacao - Relatórios do SultãoID
$directoria_morfologia - Relatórios do SultãoMOR
$directoria_semantica - Relatórios do SultãoSEM
$directoria_ida - Relatórios dos programas ida2id, ida2mor e ida2sem (esta directoria deverá manter a estrutura de directorias que se encontra as áreas dos participantes no sítio HAREM).
O alcaide requer 5 argumentos para a sua execução:
sistema - Nome do sistema
saida - Nome da saída, que deve ser exactamente igual ao nome da directoria que contém os relatórios de entrada, e também ao nome pelo qual começam os nomes dos ficheiros gerados pelos programas ida2id, ida2mor e ida2sem.
id - Valor de 0 ou 1, se se pretende que o alcaide gere relatório individual para a tarefa de identificação.
morf - Valor de 0 ou 1, se se pretende que o alcaide gere relatório individual para a tarefa de classificação morfológica.
sem - Valor de 0 ou 1, se se pretende que o alcaide gere relatório individual para a tarefa de classificação semântica.