| Linguateca - 2005. |
Versão para impressão
O SultãoSem é programa desenvolvido para gerar os relatórios globais referente a todos os participantes da avaliação conjunta HAREM. O SultãoSem processa os ficheiros resultante do processamento do Ida2Sem e exporta a informação final da avaliação, num formato tabular, para uma página HTML. A título de exemplo, imaginemos que temos os seguintes ficheiros para os quais queremos gerar um relatório global:
O SultãoSem seria capaz, assumindo que estes valores correspondem aos valores que estão no ficheiros, de gerar as quatro tabelas correspondentes às quatro dimensões diferentes avaliadas no HAREM (Combinada, Por Categorias, Por Tipos e Plana):
| Avaliação Global - Classificação Semântica Combinada | Saída | Precisão Máxima do Sistema (%) | Abrangência Máxima na CD (%) | Medida F |
|---|---|---|---|
| bengazi | 66.86 | 69.43 | 0.6812 |
| luxor | 66.05 | 67.94 | 0.6698 |
| cairo | 65.49 | 67.37 | 0.6641 |
| Avaliação Global - Classificação Semântica Plana | Saída | Precisão (%) | Abrangência (%) | Medida F | Sobre-geração | Sub-geração |
|---|---|---|---|---|---|
| bengazi | 65.04 | 65.92 | 0.6548 | 0.3147 | 0.2993 |
| luxor | 60.49 | 61.58 | 0.6103 | 0.3607 | 0.3545 |
| cairo | 59.68 | 60.63 | 0.6015 | 0.3687 | 0.3639 |
| Avaliação Global - Classificação Semântica por Categorias | Saída | Precisão (%) | Abrangência (%) | Medida F | Sobre-geração | Sub-geração |
|---|---|---|---|---|---|
| bengazi | 71.07 | 72.35 | 0.7171 | 0.2356 | 0.2317 |
| luxor | 70.96 | 72.10 | 0.7153 | 0.2353 | 0.2329 |
| cairo | 70.76 | 71.72 | 0.7124 | 0.2356 | 0.2232 |
| Avaliação Global - Classificação Semântica por Tipos | Saída | Precisão (%) | Abrangência (%) | Medida F | Sobre-geração | Sub-geração |
|---|---|---|---|---|---|
| bengazi | 85.08 | 84.86 | 0.8497 | 0.1036 | 0.09805 |
| luxor | 80.95 | 78.89 | 0.7991 | 0.1459 | 0.1931 |
| cairo | 80.21 | 79.53 | 0.7987 | 0.1598 | 0.1641 |
Note-se que no início da tabela é colocado informação sobre a anonimização, por outras palavras, corresponde à chave da tabela e estabelece as correspondências entre os nomes fictícios atribuídos aos sistemas e a sua identidade. Como os relatórios globais são colocados na rede em Classificação é necessário remover e guardar esta chave de forma a não comprometer a identidade de cada concorrente.
Este processo de anonimização só faz sentido no âmbito de uma avaliação oficial. Semelhante ao que acontece com o SultãoId, e para tornar mais fácil a utilização do SultãoSem fora de um ambiente de competição, é possível configurar o SultãoSem para gerar a mesma tabela sem anonimização e contendo mais alguma informação útil (como, por exemplo, o número entidades utilizadas nos cálculos). Para tal é necessário invocar o SultãoSem com um parametro adicional; veja-se a secção de Distribuição e Utilização.
É de salientar que saídas oficiais têm o nome marcado a negrito e as selectivas estão em itálico. Estas formatações podem combinar-se entre si; por exemplo uma saída oficial e selectiva teria o nome a negrito e a itálico. Exaustivamente, podemos ter 4 combinações:
Resumindo, a função do SultãoSem é compilar a informação gerada pelo Ida2Sem e formatar essa informação de modo facilitar a sua posterior análise e interpretação.
O SultãoSem é distribuído num ficheiro "Java Archive Resource" (JAR) --SultaoSem.jar-- que inclui o código fonte: SultaoSem.jar Para inspeccionar o código basta extrair os ficheiros do arquivo executando o seguinte comando numa shell do seu sistema: jar -xf SultaoSem.jar Para invocar o SultãoSem numa máquina com a JVM instalada, execute o comando:
O SultãoSem deve ser invocado na directoria que contém os ficheiros (do Ida2Sem) a serem compilados. Existem vários parâmetros que podem ser configurados e combinados entre si de modo a tornar o SultãoSem mais flexível. O primeiro parâmetro apresentado, -filtro, diz respeito aos ficheiros que deverão ser utilizadas na geração dos relatórios. No exemplo dado, utilizamos o argumento total.emir.altsem.ida2sem, este argumento indica ao SultãoSem que todos os ficheiros terminados com a extensão total.emir.altsem.ida2sem devem ser considerados na geração dos relatórios. Se mais do que um tipo de ficheiro é pretendido então é possível utilizar uma lista de extensões separadas por ':', como por exemplo em:
indica que os ficheiros em que os nomes começam por sistema1_nao_oficial ou sistema4 são para ser considerados não oficiais, implicando que a sua entrada na tabela de resultados não esteja a negrito.
O terceiro parâmetro visível no exemplo da invocação é o parâmetro -saidas que serve para indicar ao SultãoSem as saídas que devem ser consideradas. Este parâmetro pode ser atribuído dois valores:
No primeiro caso só as saídas oficiais é que serão exportadas para o relatório final, no segundo, só as saídas não oficiais é que são consideradas. Por defeito se este parâmetro não for utilizado então todas as saídas são consideradas.
Ao contrário do que acontece nos outros dois sultões, o SultãoId e SultãoMorf, existe o parâmetro -tipos que aceita os valores sim ou nao. Este parâmetro indica ao SultãoSem se a tabela referente à avaliação dos tipos deve ou não ser produzida. Este opção existe porque como a avaliação dos tipos é sempre relativa (só se avaliam os tipos quando a categoria está correcta), logo os valores desta tabela seriam sempre iguais na avaliação absoluto e relativa. Portanto, e com a intenção de não duplicar informação, este parâmetro permitir omimtir a tabela da avaliação dos tipos no quando se trata do cenário absoluto.
Por fim temos o parâmetro -depurar que pode ser atribuído os valores de:
Por defeito (no caso de omissão do parâmetro) o SultãoSem assume que a informação para depuração não é para ser colocada no relatório e que a anonimização é para ser efectuada. Se o parâmetro for fornecido com o valor sim, então a anonimização não é efectuada e informação adicional, contida nos relatórios do Ida2Sem, é colocada no relatório final.
O resultado do SultãoSem será impresso para o standard output. Portanto é conveniente redireccionar a saída do SultãoSem para um ficheiro, de forma a que estes resultados possam ser guardados e posteriormente analisados.