HAREM - Avaliação de Reconhecimento de Entidades Mencionadas

Linguateca - 2005.
  Versão para impressão

SultãoSem --- Gerador de Relatórios Globais para a Tarefa de Classificação Semântica

SultãoSem
Gerador de Relatórios Globais para a Tarefa de Classificação Semântica

Introdução

O SultãoSem é programa desenvolvido para gerar os relatórios globais referente a todos os participantes da avaliação conjunta HAREM. O SultãoSem processa os ficheiros resultante do processamento do Ida2Sem e exporta a informação final da avaliação, num formato tabular, para uma página HTML. A título de exemplo, imaginemos que temos os seguintes ficheiros para os quais queremos gerar um relatório global:

sistema1.alinhado.etq.verificado.avalida.total.emir.altsem.ida2sem
sistema2.alinhado.etq.verificado.avalida.selectivo.emir.altsem.ida2sem
sistema3_nao_oficial.alinhado.etq.verificado.avalida.total.emir.altsem.ida2sem

O SultãoSem seria capaz, assumindo que estes valores correspondem aos valores que estão no ficheiros, de gerar as quatro tabelas correspondentes às quatro dimensões diferentes avaliadas no HAREM (Combinada, Por Categorias, Por Tipos e Plana):

{bengazi=sistema2.alinhado.etq.verificado.avalida.selectivo.vizir.altmor.ida2id, luxor=sistema3_nao_oficial.alinhado.etq.verificado.avalida.total.vizir.altmor.ida2mor, cairo=sistema1.alinhado.etq.verificado.avalida.total.vizir.altmor.ida2mor}
Avaliação Global - Classificação Semântica Combinada
Saída Precisão Máxima do Sistema (%) Abrangência Máxima na CD (%) Medida F
bengazi66.8669.430.6812
luxor66.0567.940.6698
cairo65.4967.370.6641


Avaliação Global - Classificação Semântica Plana
Saída Precisão (%) Abrangência (%) Medida F Sobre-geração Sub-geração
bengazi65.0465.920.65480.31470.2993
luxor60.4961.580.61030.36070.3545
cairo59.6860.630.60150.36870.3639


Avaliação Global - Classificação Semântica por Categorias
Saída Precisão (%) Abrangência (%) Medida F Sobre-geração Sub-geração
bengazi71.0772.350.71710.23560.2317
luxor70.9672.100.71530.23530.2329
cairo70.7671.720.71240.23560.2232


Avaliação Global - Classificação Semântica por Tipos
Saída Precisão (%) Abrangência (%) Medida F Sobre-geração Sub-geração
bengazi85.0884.860.84970.10360.09805
luxor80.9578.890.79910.14590.1931
cairo80.2179.530.79870.15980.1641

Note-se que no início da tabela é colocado informação sobre a anonimização, por outras palavras, corresponde à chave da tabela e estabelece as correspondências entre os nomes fictícios atribuídos aos sistemas e a sua identidade. Como os relatórios globais são colocados na rede em Classificação é necessário remover e guardar esta chave de forma a não comprometer a identidade de cada concorrente.

Este processo de anonimização só faz sentido no âmbito de uma avaliação oficial. Semelhante ao que acontece com o SultãoId, e para tornar mais fácil a utilização do SultãoSem fora de um ambiente de competição, é possível configurar o SultãoSem para gerar a mesma tabela sem anonimização e contendo mais alguma informação útil (como, por exemplo, o número entidades utilizadas nos cálculos). Para tal é necessário invocar o SultãoSem com um parametro adicional; veja-se a secção de Distribuição e Utilização.

É de salientar que saídas oficiais têm o nome marcado a negrito e as selectivas estão em itálico. Estas formatações podem combinar-se entre si; por exemplo uma saída oficial e selectiva teria o nome a negrito e a itálico. Exaustivamente, podemos ter 4 combinações:

  1. oficial
  2. selectivo
  3. oficial e selectivo
  4. não oficial e não selectivo

Resumindo, a função do SultãoSem é compilar a informação gerada pelo Ida2Sem e formatar essa informação de modo facilitar a sua posterior análise e interpretação.

Distribuição e Utilização

O SultãoSem é distribuído num ficheiro "Java Archive Resource" (JAR) --SultaoSem.jar-- que inclui o código fonte: SultaoSem.jar Para inspeccionar o código basta extrair os ficheiros do arquivo executando o seguinte comando numa shell do seu sistema: jar -xf SultaoSem.jar Para invocar o SultãoSem numa máquina com a JVM instalada, execute o comando:

java -Dfile.encoding=ISO-8859-1 -jar SultaoMor.jar -filtro total.emir.altsem.ida2sem -naooficiais sistema1_nao_oficial:sistema4 -saidas oficiais > semantica_total_todos.html

O SultãoSem deve ser invocado na directoria que contém os ficheiros (do Ida2Sem) a serem compilados. Existem vários parâmetros que podem ser configurados e combinados entre si de modo a tornar o SultãoSem mais flexível. O primeiro parâmetro apresentado, -filtro, diz respeito aos ficheiros que deverão ser utilizadas na geração dos relatórios. No exemplo dado, utilizamos o argumento total.emir.altsem.ida2sem, este argumento indica ao SultãoSem que todos os ficheiros terminados com a extensão total.emir.altsem.ida2sem devem ser considerados na geração dos relatórios. Se mais do que um tipo de ficheiro é pretendido então é possível utilizar uma lista de extensões separadas por ':', como por exemplo em:

-filtro total.local.emir.altsem.ida2sem:total.organizacao.emir.altsem.ida2sem
Utilizando este filtro processamos todos os ficheiros que correspondem a locais e organizações. O segundo parâmetro, também patente no exemplo, é o parâmetro -naooficiais. Este parâmetro serve para indicar ao SultãoSem quais os ficheiros que correspondem a saídas não oficiais entregues pelos participantes. Ao contrário do que acontece como o -filtro, que diz respeito ao sufixo dos nomes dos ficheiros, o -naooficiais indica ao SultãoSem quais os prefixos dos ficheiros a considerar como não oficiais. Por exemplo:

-naooficiais sistema1_nao_oficial:sistema4

indica que os ficheiros em que os nomes começam por sistema1_nao_oficial ou sistema4 são para ser considerados não oficiais, implicando que a sua entrada na tabela de resultados não esteja a negrito.

O terceiro parâmetro visível no exemplo da invocação é o parâmetro -saidas que serve para indicar ao SultãoSem as saídas que devem ser consideradas. Este parâmetro pode ser atribuído dois valores:

  1. oficiais
  2. naooficiais

No primeiro caso só as saídas oficiais é que serão exportadas para o relatório final, no segundo, só as saídas não oficiais é que são consideradas. Por defeito se este parâmetro não for utilizado então todas as saídas são consideradas.

Ao contrário do que acontece nos outros dois sultões, o SultãoId e SultãoMorf, existe o parâmetro -tipos que aceita os valores sim ou nao. Este parâmetro indica ao SultãoSem se a tabela referente à avaliação dos tipos deve ou não ser produzida. Este opção existe porque como a avaliação dos tipos é sempre relativa (só se avaliam os tipos quando a categoria está correcta), logo os valores desta tabela seriam sempre iguais na avaliação absoluto e relativa. Portanto, e com a intenção de não duplicar informação, este parâmetro permitir omimtir a tabela da avaliação dos tipos no quando se trata do cenário absoluto.

Por fim temos o parâmetro -depurar que pode ser atribuído os valores de:

  1. sim
  2. nao

Por defeito (no caso de omissão do parâmetro) o SultãoSem assume que a informação para depuração não é para ser colocada no relatório e que a anonimização é para ser efectuada. Se o parâmetro for fornecido com o valor sim, então a anonimização não é efectuada e informação adicional, contida nos relatórios do Ida2Sem, é colocada no relatório final.

O resultado do SultãoSem será impresso para o standard output. Portanto é conveniente redireccionar a saída do SultãoSem para um ficheiro, de forma a que estes resultados possam ser guardados e posteriormente analisados.



Última actualização: 18/11/2005 10:17:12