Processamento da saída dos sistemas

Primeiras morfolimpíadas, uma iniciativa de avaliação conjunta para o português, organizada pela Linguateca
Nesta página documentamos o processamento seguido para cada sistema.
  1. Numa primeira fase os sistemas são convertidos para o formato interno, e alguns valores calculados.
  2. Depois, através de um conjunto de funções linguisticamente motivadas, tentamos aproximar os sistemas ou motivar uma comparação que leve em conta os diferentes pontos de partida para uma medição e comparação mais justa.

Processamento seguido para cada sistema: primeira fase

Todos os sistemas são submetidos a um processamento complexo, envolvendo os passos que a seguir se descrevem. De notar que alguns destes programas não tiveram de ser invocados para alguns sistemas.

Desambiguação

Quando os sistemas produzem atomizações alternativas, criamos duas versões, a que faz a atomização com o maior número de unidades (excluindo separação de hífens) e a que faz com o menor.

Perdigueiro (preZebra)

Separa/repõe a identificação de cada texto. (Os casos #TEXTO n que foram analisados "normalmente" por alguns sistemas.)

Zebra

Transforma o formato do sistema no formato zébrico (formato interno). Aqui é que se encontra a maior parte do trabalho. Algumas decisões genéricas:

Hienas

As hienas têm de modificar, a seguir às zebras, o processamento de alguns campos específicos de forma a permitir a sua subsequente comparação. Existem portanto hienas para os clíticos (de forma a juntar a informação V+CL), para as contracções (no caso dos sistemas que as separam) e para os números (no caso dos sistemas que apresentam cada dígito separado).

Também existem algumas hienas menores que têm a ver com problemas de tokenização específicos.

Papa-formigas (anula_gram_def)

Programa que transforma as várias análises gramaticais na categoria GRAM, e reduz o seu número para exactamente uma análise, independentemente de quantas análises gramaticais o analisador tiver atribuído a uma dada forma.

Uniformizador

Dado que algumas formas são sistematicamente ambíguas e todos os sistemas as reconhecem "em bloco", de forma a não dar mais importância a essas análises do que às outras transformamo-las numa: De notar que isto não se aplica aos verbos com clíticos, visto que estes últimos podem desambiguar a forma (por exemplo, far-se-ia não pode ser condicional da primeira pessoa...)

Leoa

(Só para uul e ts), este programa separa ou identifica as formas por texto, variante, por meio e por género.

Primeiros resultados

A partir deste processamento básico, criamos uma assinatura para cada sistema, com um conjunto de valores para um conjunto de parâmetros que nos parecem interessantes. Em alguns casos, tivemos de produzir versões alternativas de atomização para criar sistemas "comparáveis", daí que o número de colunas seja superior ao número de sistemas participantes.

Uma primeira comparação das várias assinaturas encontra-se na tabela seguinte (valores calculados, para os ficheiros do tipo ts, a 20 de Junho de 2003):

SistemaABCDEFG
Unidades Identificadas 83388 81365 77604 79272 82290 81476 79168
Unidades desconhecidas 2374 1677 0 1166 1057 2366 1121
Unidades adivinhadas 0 3969 0 2373 0 0 2302
Lexicais 69082 67601 64358 66504 68644 67169 66410
Lexicais sem hífen 68362 66916 63495 65658 67850 66449 65566
Lexicais com hífen 720 685 863 857 794 720 855
Numéricas 912 624 508 566 581 912 566
Numéricas com pontuação 0 149 207 189 163 0 189
Pontuação 13387 12745 12235 11855 12599 13388 11826
Lexicais com pontuação 106 384 1478 433 420 106 451
Lexicais com números 0 28 22 8 25 0 8
Unidades simples 83386 80275 74703 77962 82289 80044 77825
Unidades com várias palavras 2 1090 2900 1310 1 1432 1343
Siglas 203 32 0 97 730 200 97
Formas com análise SUB 32211 17053 28491 17605 27269 30970 17621
Formas com análise V 17939 17117 16186 15905 16968 17344 15982
Formas com análise V+CL 609 607 606 562 598 609 562
Formas com análise ADJ 9171 7845 7693 6640 11084 8535 6642
Formas com análise ADV 4505 3474 7495 3875 6937 4720 3874
Formas com análise NUM 3089 1205 2289 2482 2828 288 2486
Formas com análise PROP 1225 1441 2880 4328 3627 195 4206
Formas com análise INTERJ 996 0 932 152 0 103 153
Formas com análise GRAM 29390 28802 27546 28787 30625 4167 28783
Formas com análise PONT 13387 12482 12150 11833 10897 2196 11804
Formas com análises de contracção 5811 5548 5300 5462 5713 1447 5463
Formas com uma análise 52615 67947 48598 63839 50587 14707 63708
Formas com duas análises 23641 10010 23640 12092 21915 7160 12113
Formas com três análises 4819 2561 4204 2578 7687 1919 2583
Formas com quatro análises 1753 605 831 658 416 706 660
Formas com mais de quatro análises 560 131 285 105 142 177 104
Formas com ambiguidade SUB/ADJ 6123 1705 3622 3535 1794 3351 3534
Formas com ambiguidade SUB/ADV 2017 122 912 220 928 1266 220
Formas com ambiguidade SUB/V 6334 4469 5565 4168 4302 4644 4178
Formas com ambiguidade SUB/SUB 989 295 490 1001 2559 1545 1002
Formas com ambiguidade V/V 7397 6209 5500 4140 5656 6845 4164
Formas com ambiguidade V/ADJ 2228 1395 1996 1111 2666 2101 1113
Formas com ambiguidade ADJ/ADJ 45 80 8 374 10 88 374
Formas com ambiguidade ADV/ADV 1 0 59 0 0 17 0
Formas com ambiguidade ADJ/ADV 300 105 589 182 817 285 182
Formas com ambiguidade GRAM/outro 12863 2199 13877 4307 17734 12609 4304
Análises como V 24565 22907 21295 19473 22211 24519 19574
Análises como V+CL 2773 1498 1313 1222 833 116 1226
Análises como SUB 33228 17353 28982 18614 29828 32686 18631
Análises como ADJ 9216 7925 7701 7014 11094 8623 7016
Análises como ADV 4506 3474 7554 3875 6937 4737 3874
Análises como GRAM 29390 28802 27546 28787 30625 28952 28783
Análises como INTERJ 996 0 932 152 0 915 153
Análises como PROP 1378 1481 3617 4330 3627 1359 4208
Análises como NUM 3089 1205 2302 2482 2828 3027 2486

Na tabela seguinte temos valores percentuais em relação ao número de unidades identificadas por cada um sistemas e uma média calculada apenas com base nos valores diferentes de zero :

SistemaABCDEFG Média
Unidades desconhecidas 2.85% 2.06% 0.00% 1.47% 1.28% 2.90% 1.42% 2.00%
Unidades adivinhadas 0.00% 4.88% 0.00% 2.99% 0.00% 0.00% 2.91% 3.59%
Lexicais 82.84% 83.08% 82.93% 83.89% 83.42% 82.44% 83.88% 83.21%
Lexicais sem hífen 81.98% 82.24% 81.82% 82.83% 82.45% 81.56% 82.82% 82.24%
Lexicais com hífen 0.86% 0.84% 1.11% 1.08% 0.96% 0.88% 1.08% 0.97%
Numéricas 1.09% 0.77% 0.65% 0.71% 0.71% 1.12% 0.71% 0.82%
Numéricas com pontuação 0.00% 0.18% 0.27% 0.24% 0.20% 0.00% 0.24% 0.23%
Pontuação 16.05% 15.66% 15.77% 14.95% 15.31% 16.43% 14.94% 15.59%
Lexicais com pontuação 0.13% 0.47% 1.90% 0.55% 0.51% 0.13% 0.57% 0.61%
Lexicais com números 0.00% 0.03% 0.03% 0.01% 0.03% 0.00% 0.01% 0.02%
Unidades simples 100.00% 98.66% 96.26% 98.35% 100.00% 98.24% 98.30% 98.54%
Unidades com várias palavras 0.00% 1.34% 3.74% 1.65% 0.00% 1.76% 1.70% 2.04%
Siglas 0.24% 0.04% 0.00% 0.12% 0.89% 0.25% 0.12% 0.28%
Formas com análise SUB 38.63% 20.96% 36.71% 22.21% 33.14% 38.01% 22.26% 30.27%
Formas com análise V 21.51% 21.04% 20.86% 20.06% 20.62% 21.29% 20.19% 20.80%
Formas com análise V+CL 0.73% 0.75% 0.78% 0.71% 0.73% 0.75% 0.71% 0.74%
Formas com análise ADJ 11.00% 9.64% 9.91% 8.38% 13.47% 10.48% 8.39% 10.18%
Formas com análise ADV 5.40% 4.27% 9.66% 4.89% 8.43% 5.79% 4.89% 6.19%
Formas com análise NUM 3.70% 1.48% 2.95% 3.13% 3.44% 3.80% 3.14% 3.09%
Formas com análise PROP 1.47% 1.77% 3.71% 5.46% 4.41% 2.21% 5.31% 3.48%
Formas com análise INTERJ 1.19% 0.00% 1.20% 0.19% 0.00% 1.03% 0.19% 0.76%
Formas com análise GRAM 35.24% 35.40% 35.50% 36.31% 37.22% 34.69% 36.36% 35.82%
Formas com análise PONT 16.05% 15.34% 15.66% 14.93% 13.24% 15.93% 14.91% 15.15%
Formas com análises de contracção 6.97% 6.82% 6.83% 6.89% 6.94% 7.68% 6.90% 7.00%
Formas com uma análise 63.10% 83.51% 62.62% 80.53% 61.47% 64.84% 80.47% 70.93%
Formas com duas análises 28.35% 12.30% 30.46% 15.25% 26.63% 26.62% 15.30% 22.13%
Formas com três análises 5.78% 3.15% 5.42% 3.25% 9.34% 6.10% 3.26% 5.19%
Formas com quatro análises 2.10% 0.74% 1.07% 0.83% 0.51% 1.94% 0.83% 1.15%
Formas com mais de quatro análises 0.67% 0.16% 0.37% 0.13% 0.17% 0.42% 0.13% 0.29%
Formas com ambiguidade SUB/ADJ 7.34% 2.10% 4.67% 4.46% 2.18% 6.84% 4.46% 4.58%
Formas com ambiguidade SUB/ADV 2.42% 0.15% 1.18% 0.28% 1.13% 2.23% 0.28% 1.10%
Formas com ambiguidade SUB/V 7.60% 5.49% 7.17% 5.26% 5.23% 7.00% 5.28% 6.15%
Formas com ambiguidade SUB/SUB 1.19% 0.36% 0.63% 1.26% 3.11% 2.01% 1.27% 1.40%
Formas com ambiguidade V/V 8.87% 7.63% 7.09% 5.22% 6.87% 8.28% 5.26% 7.03%
Formas com ambiguidade V/ADJ 2.67% 1.71% 2.57% 1.40% 3.24% 2.54% 1.41% 2.22%
Formas com ambiguidade ADJ/ADJ 0.05% 0.10% 0.01% 0.47% 0.01% 0.11% 0.47% 0.17%
Formas com ambiguidade ADV/ADV 0.00% 0.00% 0.08% 0.00% 0.00% 0.02% 0.00% 0.05%
Formas com ambiguidade ADJ/ADV 0.36% 0.13% 0.76% 0.23% 0.99% 0.34% 0.23% 0.43%
Formas com ambiguidade GRAM/outro 15.43% 2.70% 17.88% 5.43% 21.55% 15.26% 5.44% 11.96%
Análises como V 19.67% 23.16% 18.77% 19.68% 18.28% 20.21% 19.79% 19.94%
Análises como V+CL 2.22% 1.51% 1.16% 1.23% 0.69% 0.10% 1.24% 1.16%
Análises como SUB 26.60% 17.54% 25.55% 18.81% 24.55% 26.95% 18.84% 22.69%
Análises como ADJ 7.38% 8.01% 6.79% 7.09% 9.13% 7.11% 7.09% 7.51%
Análises como ADV 3.61% 3.51% 6.66% 3.92% 5.71% 3.91% 3.92% 4.46%
Análises como GRAM 23.53% 29.12% 24.28% 29.09% 25.21% 23.87% 29.10% 26.31%
Análises como INTERJ 0.80% 0.00% 0.82% 0.15% 0.00% 0.75% 0.15% 0.53%
Análises como PROP 1.10% 1.50% 3.19% 4.37% 2.99% 1.12% 4.25% 2.65%
Análises como NUM 2.47% 1.22% 2.03% 2.51% 2.33% 2.50% 2.51% 2.22%

Para efeitos de anonimização, a maior parte das tabelas terão chaves diferentes, ou seja, o sistema A da presente tabela não corresponderá necessariamente ao sistema A de futuras tabelas.

Por outro lado, e para não permitir reconhecimento, os dois sistemas que não produzem informação de PoS não constam da presente tabela.

Legenda da tabela

Unidades identificadas:
o conjunto total de unidades considerado por cada sistema (incluindo desconhecidas...)
Lexicais:
Unidades contendo apenas letras, eventualmente com hífen
Lexicais com hífen:
Subconjunto dos lexicais, tendo obrigatoriamente um ou mais hífenes
Numéricas:
Unidades contendo apenas algarismos
Numéricas com pontuação:
Unidades contendo obrigatoriamente algarismos e sinais de pontuação (e nada mais)
Lexicais com pontuação:
unidades contendo obrigatoriamente tanto letras como sinais de pontuação (e nada mais)
Lexicais com números:
unidades contendo obrigatoriamente tanto letras como dígitos (e nada mais)
Unidades lexicais simples:
sem espaços no meio
Formas com análise X:
formas que tenham sido classificadas (uma das suas análises) como tendo a PoS X
Formas com ambiguidade X/Y:
formas que tenham sido classificadas com pelo menos as duas análises X e Y
De notar que mais números, correspondendo a diferentes medidas, serão incorporados na tabela a curto prazo.

Domadores: segunda fase

Como já indicámos durante o ensaio, havia diferenças entre os sistemas que teríamos de considerar para uma comparação automática entre eles: Serão pois desenvolvidos alguns programas para entrar em conta com estas diferenças.
Última alteração: 12 de Março de 2009.
Perguntas, comentários e sugestões