HAREM - Avaliação de Reconhecimento de Entidades Mencionadas

Linguateca - 2005.
  Versão para impressão

SultãoMor --- Gerador de Relatórios Globais para a Tarefa de Classificação Morfológica

SultãoMor
Gerador de Relatórios Globais para a Tarefa de Classificação Morfológica

Introdução

O SultãoMor é programa desenvolvido para gerar os relatórios globais referente a todos os participantes da avaliação conjunta HAREM. O SultãoMor processa os ficheiros resultante do processamento do Ida2Mor e exporta a informação final da avaliação, num formato tabular, para uma página HTML. A título de exemplo, imaginemos que temos os seguintes ficheiros para os quais queremos gerar um relatório global:

sistema1.alinhado.etq.verificado.avalida.total.vizir.altmor.ida2mor
sistema2.alinhado.etq.verificado.avalida.selectivo.vizir.altmor.ida2id
sistema3_nao_oficial.alinhado.etq.verificado.avalida.total.vizir.altid.ida2id

O SultãoMor seria capaz, assumindo que estes valores correspondem aos valores que estão no ficheiros, de gerar as três tabelas correspondentes às três dimensões diferentes de avaliação (Combinada, Número e Género):

{bengazi=sistema2.alinhado.etq.verificado.avalida.selectivo.vizir.altmor.ida2id, luxor=sistema3_nao_oficial.alinhado.etq.verificado.avalida.total.vizir.altmor.ida2mor, cairo=sistema1.alinhado.etq.verificado.avalida.total.vizir.altmor.ida2mor}
Avaliação Global da Classificação Morfológica - Combinada
Saída Precisão (%) Abrangência (%) Medida F
bengazi52.7095681625741160.6725146198830.564114182147712
luxor17.39130434782610.3906250.00764087870105062
cairo0.00.00


Avaliação Global da Classificação Morfológica - Número
Saída Precisão (%) Abrangência (%) Medida F Sobre-especificação Sobre-geração Sub-geração
bengazi61.0922946655377170.32163742690060.6538287267784320.001693480101608810.3573243014394580.268031189083821
luxor34.78260869565220.781250.015281757402101200.6521739130434780.9921875
cairo0.00.00011


Avaliação Global da Classificação Morfológica - Género
Saída Precisão (%) Abrangência (%) Medida F Sobre-especificação Sobre-geração Sub-geração
bengazi53.132938187976361.15984405458090.5686452197553240.01947502116850130.3573243014394580.268031189083821
luxor17.39130434782610.3906250.0076408787010506200.6521739130434780.994140625
cairo0.00.00011

Note-se que no início da tabela é colocado informação sobre a anonimização, por outras palavras, corresponde à chave da tabela e estabelece as correspondências entre os nomes fictícios atribuídos aos sistemas e a sua identidade. Como os relatórios globais são colocados na rede em Classificação é necessário remover e guardar esta chave de forma a não comprometer a identidade de cada concorrente.

Este processo de anonimização só faz sentido no âmbito de uma avaliação oficial. Semelhante ao que acontece com o SultãoId, e para tornar mais fácil a utilização do SultãoMor fora de um ambiente de competição, é possível configurar o SultãoMor para gerar a mesma tabela sem anonimização e contendo mais alguma informação útil (como, por exemplo, o número entidades utilizadas nos cálculos). Para tal é necessário invocar o SultãoMor com um parametro adicional; veja-se a secção de Distribuição e Utilização.

É de salientar que saídas oficiais têm o nome marcado a negrito e as selectivas estão em itálico. Estas formatações podem combinar-se entre si; por exemplo uma saída oficial e selectiva teria o nome a negrito e a itálico. Exaustivamente, podemos ter 4 combinações:

  1. oficial
  2. selectivo
  3. oficial e selectivo
  4. não oficial e não selectivo

Resumindo, a função do SultãoMor é compilar a informação gerada pelo Ida2Mor e formatar essa informação de modo facilitar a sua posterior análise e interpretação.

Distribuição e Utilização

O SultãoMor é distribuído num ficheiro "Java Archive Resource" (JAR) --SultaoMor.jar-- que inclui o código fonte: SultaoMor.jar Para inspeccionar o código basta extrair os ficheiros do arquivo executando o seguinte comando numa shell do seu sistema: jar -xf SultaoMor.jar Para invocar o SultãoMor numa máquina com a JVM instalada, execute o comando:

java -Dfile.encoding=ISO-8859-1 -jar SultaoMor.jar -filtro total.vizir.altmor.ida2mor -naooficiais sistema1_nao_oficial:sistema4 -saidas oficiais > morfologia_total_todos.html

O SultãoMor deve ser invocado na directoria que contém os ficheiros (do Ida2Mor) a serem compilados. Existem vários parâmetros que podem ser configurados e combinados entre si de modo a tornar o SultãoMor mais flexível. O primeiro parâmetro apresentado, -filtro, diz respeito aos ficheiros que deverão ser utilizadas na geração dos relatórios. No exemplo dado, utilizamos o argumento total.vizir.altmor.ida2mor, este argumento indica ao SultãoMor que todos os ficheiros terminados com a extensão total.vizir.altmor.ida2mor devem ser considerados na geração dos relatórios. Se mais do que um tipo de ficheiro é pretendido então é possível utilizar uma lista de extensões separadas por ':', como por exemplo em:

-filtro total.local.vizir.altmor.ida2mor:total.organizacao.vizir.altmor.ida2mor
Utilizando este filtro processamos todos os ficheiros que correspondem a locais e organizações. O segundo parâmetro, também patente no exemplo, é o parâmetro -naooficiais. Este parâmetro serve para indicar ao SultãoMor quais os ficheiros que correspondem a saídas não oficiais entregues pelos participantes. Ao contrário do que acontece como o -filtro, que diz respeito ao sufixo dos nomes dos ficheiros, o -naooficiais indica ao SultãoMor quais os prefixos dos ficheiros a considerar como não oficiais. Por exemplo:

-naooficiais sistema1_nao_oficial:sistema4

indica que os ficheiros em que os nomes começam por sistema1_nao_oficial ou sistema4 são para ser considerados não oficiais, implicando que a sua entrada na tabela de resultados não esteja a negrito.

O terceiro parâmetro visível no exemplo da invocação é o parâmetro -saidas que serve para indicar ao SultãoMor as saídas que devem ser consideradas. Este parâmetro pode ser atribuído dois valores:

  1. oficiais
  2. naooficiais

No primeiro caso só as saídas oficiais é que serão exportadas para o relatório final, no segundo, só as saídas não oficiais é que são consideradas. Por defeito se este parâmetro não for utilizado então todas as saídas são consideradas.

Por fim temos o parâmetro -depurar que pode ser atribuído os valores de:

  1. sim
  2. nao

Por defeito (no caso de omissão do parâmetro) o SultãoMor assume que a informação para depuração não é para ser colocada no relatório e que a anonimização é para ser efectuada. Se o parâmetro for fornecido com o valor sim, então a anonimização não é efectuada e informação adicional, contida nos relatórios do Ida2Mor, é colocada no relatório final.

O resultado do SultãoMor será impresso para o standard output. Portanto é conveniente redireccionar a saída do SultãoMor para um ficheiro, de forma a que estes resultados possam ser guardados e posteriormente analisados.



Última actualização: 18/11/2005 10:17:12