Comparação global da atomização e das classificações

Primeiras morfolimpíadas, uma iniciativa de avaliação conjunta para o português, organizada pela Linguateca
Nesta página apresentamos o panorama relativo à concordância entre os vários sistemas, de forma global, sem pressupor nenhuma análise certa.

Diferenças nas unidades consideradas

Em primeiro lugar, comparamos as unidades identificadas pelos vários sistemas. O número total de unidades diferentes em ts.txt reconhecidas pelos sistemas foi de 21 411. O número de unidades comuns (reconhecidas por todos os sistemas), foi de 13 545.

Na tabela seguinte, apresentamos o número máximo e o número mínimo de unidades comuns considerando os sistemas 2 a 2, 3 a 3 etc. Estes cálculos foram efectuados para verificar se existiria algum sistema especialmente diferente dos outros e que como tal polarizasse, ou estragasse, a visão de conjunto. Mas, como se vê na tabela em baixo, de facto todos os sistemas são suficientemente diferentes uns dos outros no que se refere à atomização.

SistemasMáximoMínimo
2 a 216 71313 827
3 a 315 27913 640
4 a 414 93813 568
5 a 513 70513 545
os 613 545

Em seguida, apresentamos o número de unidades distintas reconhecidas por cada sistema, e qual a percentagem dessas unidades que foi reconhecida por todos, quer em termos simplesmente das unidades (átomos), quer em termos dos pares <Forma,PoS> e <Forma,Lema>, quer ainda em termos dos trios <Forma,PoS,Lema>. Para cada caso, apresentamos também o total de unidades distintas considerando todos os sistemas, Totais, e o número de unidades consensuais (baseado no qual a percentagem de concordância é calculada), Comuns.

Sistema A B C D E F Comuns Totais
Unidades diferentes identificadas 16 850 17 448 17 304 17 044 15 694 16 357 13 545 21 411
Concordância 80,39% 77,63% 78,28% 79,47% 86,31% 82,81%
Formas x PoS diferentes 19 861 21 456 20 639 20 395 20 144 20 729 10 881 34 272
Concordância 54,79% 50,71% 52,72% 53,35% 54,02% 52,49%
Formas x Lema diferentes 19 116 20 498 19 229 19 81a8 18 595 19 244 9 661 35 457
Concordância 50,54% 47,13% 50,24% 48,75% 51,95% 50,20%
Formas x PoS x Lema diferentes 20 537 21 725 20 944 20 514 20 489 21 077 9 239 40 580
Concordância 44,99% 42,53% 44,11% 45,04% 45,09% 43,83%

Para dar uma visão concreta das diferenças de atomização observadas, veja-se um pequeno excerto das 2 021 formas únicas (ou seja, só reconhecidas por UM dos sistemas):

em homenagem ao
África do Sul
DOS Ovos De Ouro João Impaciente
sistema nervoso
nipo
inovação
EXPO 98 
Toyota Ipsum 
Príncipes Yuriko
de estudo
logo- 
79, 
música pop 
Tuna
em nome dele 
22.30h 
uma porcaria
Linhas de Torres 
al.
Apesar destas
Estes exemplos pretendem apenas demonstrar casos raros -- em que apenas um sistema sugeriu a atomizaçao referida -- e não dar uma panorâmica das diferenças de atomização.

Análises por forma

Na tabela seguinte apresentamos o número de análises por forma em geral, por variante, e por género (jn: texto jornalístico; li: texto literário).
Analises por forma geral bras lus jn li
Sistema A 1,249 1,248 1,251 1,250 1,255
Sistema B 1,465 1,470 1,456 1,450 1,497
Sistema C 1,253 1,250 1,256 1,255 1,256
Sistema D 1,474 1,481 1,470 1,460 1,514
Sistema E 1,508 1,506 1,508 1,500 1,543
Sistema F 1,497 1,497 1,496 1,488 1,534

Nota-se que todos os sistemas produzem mais análises por forma no caso de texto literário do que nos textos jornalísticos (possivelmente devido aos nomes próprios e números neste último género).

Quanto a variante, é interessante apontar que não existe correlação entre a origem do sistema e o numero de análises por forma, sendo que alguns sistemas apresentam mais análises quando não conhecem uma forma e outros menos.


Última alteração: 12 de Março de 2009.
Perguntas, comentários e sugestões