HAREM - Avaliação de Reconhecimento de Entidades Mencionadas

Linguateca - 2005.
  Versão para impressão

SultãoId --- Gerador de Relatórios Globais para a Tarefa de Identificação

SultãoId
Gerador de Relatórios Globais para a Tarefa de Identificação

Introdução

O SultãoId é programa desenvolvido para gerar os relatórios globais referente a todos os participantes da avaliação conjunta HAREM. O SultãoId processa os ficheiros resultante do processamento do Ida2Id e exporta a informação final da avaliação, num formato tabular, para uma página HTML. A título de exemplo, imaginemos que temos os seguintes ficheiros para os quais queremos gerar um relatório global:

sistema1.alinhado.etq.verificado.avalida.total.altid.ida2id
sistema2.alinhado.etq.verificado.avalida.selectivo.altid.ida2id
sistema3_nao_oficial.alinhado.etq.verificado.avalida.total.altid.ida2id

O Sultão seria capaz, assumindo que estes valores correspondem aos valores que estão no ficheiros, de gerar a seguinte tabela:

{bengazi=sistema2.alinhado.etq.verificado.avalida.selectivo.altid.ida2id, luxor=sistema3_nao_oficial.alinhado.etq.verificado.avalida.total.altid.ida2id, cairo=sistema1.alinhado.etq.verificado.avalida.total.altid.ida2id}
Saída Precisão (%) Abrangência (%) Medida F Erro Combinado Sobre-geração Sub-geração
bengazi78.5028951268024682.841461217110320.80613845931069550.27520978045156110.079127134724857690.07328794553464157
luxor77.1546407648381984.350809575938540.80592405981628520.272070831529258650.091340884179758860.035749950069902135
cairo77.0593227712713884.431285145435350.80577040831639160.272379613213090.09241706161137440.03495106850409427

Note-se que no início da tabela é colocado informação sobre a anonimização, por outras palavras, corresponde à chave da tabela e estabelece as correspondências entre os nomes fictícios atribuídos aos sistemas e a sua identidade. Como os relatórios globais são colocados na rede em Classificação é necessário remover e guardar esta chave de forma a não comprometer a identidade de cada concorrente.

Este processo de anonimização só faz sentido no âmbito de uma avaliação oficial. No entanto, e para tornar mais fácil a utilização do Sultão fora de um ambiente de competição, é possível configurar o Sultão para gerar a mesma tabela sem anonimização e contendo mais alguma informação útil (como, por exemplo, o número entidades utilizadas nos cálculos). Neste caso a tabela gerada seria:

Saída Precisão (%) Abrangência (%) Medida F Erro Combinado Sobre-geração Sub-geração Total na CD Total Identificadas Total Correctos Espúrios Em Falta Total Correctos Soma Parcialmente Correctos Soma Parcialmente Incorrectos Total Ocorrências Parcialmente Correctos
sistema1.alinhado.etq.verificado.avalida.total.altid.ida2id78.5028951268024682.841461217110320.80613845931069550.27520978045156110.079127134724857690.073287945534641574994527039374173663937200.1025731824895787.8974268175108988
sistema2.alinhado.etq.verificado.avalida.selectivo.altid.ida2id77.1546407648381984.350809575938540.80592405981628520.272070831529258650.091340884179758860.0357499500699021355007547439855001793985238.44503546724252899.55496453275881138
sistema3_nao_oficial.alinhado.etq.verificado.avalida.total.altid.ida2id77.0593227712713884.431285145435350.80577040831639160.272379613213090.09241706161137440.034951068504094275007548639895071753989238.4744472319484900.5255527680531139

É de salientar que saídas oficiais têm o nome marcado a negrito e as selectivas estão em itálico. Estas formatações podem combinar-se entre si; por exemplo uma saída oficial e selectiva teria o nome a negrito e a itálico. Exaustivamente, podemos ter 4 combinações:

  1. oficial e total
  2. não oficial e total
  3. oficial e selectivo
  4. não oficial e selectivo

Resumindo, a função do SultãoId é compilar a informação gerada pelo Ida2Id e formatar essa informação de modo facilitar a sua posterior análise e interpretação.

Distribuição e Utilização

O SultãoId é distribuído num ficheiro "Java Archive Resource" (JAR) --SultaoId.jar-- que inclui o código fonte: SultaoId.jar Para inspeccionar o código basta extrair os ficheiros do arquivo executando o seguinte comando numa shell do seu sistema: jar -xf SultaoId.jar Para invocar o SultãoId numa máquina com a JVM instalada, execute o comando:

java -Dfile.encoding=ISO-8859-1 -jar SultaoId.jar -filtro total.altid.ida2id -naooficiais sistema1_nao_oficial:sistema4 -saidas oficiais > identificacao_total_todos.html

O SultãoId deve ser invocado na directoria que contém os ficheiros (do Ida2Id) a serem compilados. Existem vários parâmetros que podem ser configurados e combinados entre si de modo a tornar o SultãoId mais flexível. O primeiro parâmetro apresentado, -filtro, diz respeito aos ficheiros que deverão ser utilizadas na geração dos relatórios. No exemplo dado, utilizamos o argumento total.altid.ida2id, este argumento indica ao SultãoId que todos os ficheiros terminados com a extensão total.altid.ida2id devem ser considerados na geração dos relatórios. Se mais do que um tipo de ficheiro é pretendido então é possível utilizar uma lista de extensões separadas por ':', como por exemplo em:

-filtro total.local.altid.ida2id:total.organizacao.altid.ida2id
Utilizando este filtro processamos todos os ficheiros que correspondem a locais e organizações. O segundo parâmetro, também patente no exemplo, é o parâmetro -naooficiais. Este parâmetro serve para indicar ao SultãoId quais os ficheiros que correspondem a saídas não oficiais entregues pelos participantes. Ao contrário do que acontece como o -filtro, que diz respeito ao sufixo dos nomes dos ficheiros, o -naooficiais indica ao SultãoId quais os prefixos dos ficheiros a considerar como não oficiais. Por exemplo:

-naooficiais sistema1_nao_oficial:sistema4

indica que os ficheiros em que os nomes começam por sistema1_nao_oficial ou sistema4 são para ser considerados não oficiais, implicando que a sua entrada na tabela de resultados não esteja a negrito.

O terceiro parâmetro visível no exemplo da invocação é o parâmetro -saidas que serve para indicar ao SultãoId as saídas que devem ser consideradas. Este parâmetro pode ser atribuído dois valores:

  1. oficiais
  2. naooficiais

No primeiro caso só as saídas oficiais é que serão exportadas para o relatório final, no segundo, só as saídas não oficiais é que são consideradas. Por defeito se este parâmetro não for utilizado então todas as saídas são consideradas.

Por fim temos o parâmetro -depurar que pode ser atribuído os valores de:

  1. sim
  2. nao

Por defeito (no caso de omissão do parâmetro) o SultãoId assume que a informação para depuração não é para ser colocada no relatório e que a anonimização é para ser efectuada. Se o parâmetro for fornecido com o valor sim, então a anonimização não é efectuada e informação adicional, contida nos relatórios do Ida2Id, é colocada no relatório final.

O resultado do SultãoId será impresso para o standard output. Portanto é conveniente redireccionar a saída do SultãoId para um ficheiro, de forma a que estes resultados possam ser guardados e posteriormente analisados.



Última actualização: 18/11/2005 10:17:12