É evidentemente relevante saber exactamente o que é que se está a comparar, e quais as opções utilizadas na comparação. De momento usamos os valores para o resultado do processamento do ficheiro ts.txt, e estabelecemos:
Em primeiro lugar, a escolha das unidades. Por exemplo, se desdobrássemos "I" no número em duas entradas, uma para "S" e outra para "P", estaríamos a duplicar o peso que essa entrada (que consideramos uma entrada única) tem.
Por outro lado, ao compararmos apenas unidades distintas for exmplo da forma Forma x Pos, estamos a dar menos peso (aliás a ignorar completamente) às formas que tenham várias análises como verbo, ... podendo assim estar a deitar fora o bebé com a água do banho.
Não apresentamos os valores separadamente para as duas primeiras fases, porque a ordenação dos sistemas foi a mesma. Temos pois aqui apenas os valores em conjunto, e mais abaixo juntamos a terceira fase (que, visto que corresponde a diferenças reais, pode ser mais "tendenciosa" e consequentemente favorecer alguns tipos de problemas).
Na primeira tabela usamos todos os valores menos os campos lema e outros.
| Tabela 1: Comparação com a lista dourada total, sem lema nem outros | ||||||||||||
| Sistema | Sistema A | Sistema B | Sistema C | Sistema D | Sistema E | Sistema F | ||||||
| Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | |
| Formas comparadas | 487 | 511 | 465 | 511 | 458 | 511 | 506 | 511 | 499 | 511 | 499 | 511 |
| Análises na lista dourada | 938 | 991 | 889 | 991 | 880 | 991 | 981 | 991 | 968 | 991 | 973 | 991 |
| Análises do sistema | 835 | 855 | 840 | 780 | 735 | 821 | ||||||
| Análises comuns | 721 | 711 | 697 | 643 | 587 | 630 | ||||||
| Precisão | 86,35% | 83,16% | 82,98% | 82,44% | 79,86% | 76,74% | ||||||
| Cobertura | 76,87% | 72,75% | 79,98% | 71,75% | 79,75% | 70,33% | 66,02% | 65,68% | 61,06% | 59,23% | 65,15% | 66,89% |
A divisão entre comparação relativa ao sistema (Rel.) e absoluta (Abs.) espelha a seguinte distinção: Quando fazemos a comparação relativizada, estamos a entrar para as contas apenas com as formas da lista dourada que também são reconhecidas pelo sistema. Quando fazemos a comparação absoluta, se o sistema não reconheceu algumas formas da lista dourada e por isso não as analisou, tanto pior, visto que entramos com todas as análises presentes na lista dourada.
Precisão (como seria de esperar) é a percentagem de análises concordantes com a lista dourada que o sistema produziu. Cobertura é a percentagem de análises da lista dourada que o sistema produziu.
Na segunda tabela resumimos a informação a forma e categoria gramatical apenas, e na terceira à forma e lema simplesmente.
| Tabela 2: Comparação com a lista dourada total, apenas forma x PoS | ||||||||||||
| Sistema | Sistema A | Sistema B | Sistema C | Sistema D | Sistema E | Sistema F | ||||||
| Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | |
| Formas comparadas | 487 | 511 | 465 | 511 | 458 | 511 | 506 | 511 | 499 | 511 | 499 | 511 |
| Análises na lista dourada | 820 | 868 | 777 | 868 | 763 | 868 | 851 | 868 | 841 | 868 | 844 | 868 |
| Análises do sistema | 720 | 746 | 732 | 702 | 658 | 700 | ||||||
| Análises comuns | 672 | 657 | 644 | 623 | 573 | 590 | ||||||
| Precisão | 93,33% | 88,07% | 87,98% | 88,75% | 87,08% | 84,29% | ||||||
| Cobertura | 81,95% | 77,42% | 84,56% | 75,69% | 84,40% | 74,19% | 73,21% | 72,28% | 68,13% | 66,01% | 69,91% | 68,93% |
| Tabela 3: Comparação com a lista dourada total, apenas forma x lema | ||||||||||||
| Sistema | Sistema A | Sistema B | Sistema C | Sistema D | Sistema E | Sistema F | ||||||
| Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | |
| Formas comparadas | 487 | 511 | 465 | 511 | 458 | 511 | 506 | 511 | 499 | 511 | 499 | 511 |
| Análises na lista dourada | 741 | 782 | 699 | 782 | 691 | 782 | 774 | 782 | 758 | 782 | 767 | 782 |
| Análises do sistema | 677 | 693 | 684 | 685 | 627 | 653 | ||||||
| Análises comuns | 602 | 567 | 559 | 570 | 489 | 517 | ||||||
| Precisão | 88,92% | 81,82% | 81,73% | 83,21% | 77,99% | 79,17% | ||||||
| Cobertura | 81,24% | 76,98% | 81,12% | 72,51% | 80,90% | 71,48% | 73,64% | 73,17% | 64,51% | 62,53% | 67,41% | 66,37% |
Para inspeccionar a influência de algumas informações adicionais que colocámos na lista dourada, repetimos as contas com várias outras opções: não considerando as formas raras (sem raras).
Note-se que tirar as formas raras diminui o desempenho de todos os sistemas, como pode ser verificado na Tabela 5.
| Tabela 5: Comparação com a lista dourada total, sem lema nem outros, não contando com as análises raras | |||||||
| Sistema | Sistema A | Sistema B | Sistema C | Sistema D | Sistema E | Sistema F | |
| Precisão | 82,28% | 77,78% | 77,62% | 79,59% | 77,14% | 73,17% | |
| Cobertura | 78,78% | 80,31% | 80,10% | 68,58% | 63,42% | 66,89% | |
| Tabela 6: Comparação com a lista dourada total, sem lema nem outros | ||||||||||||
| Sistema | Sistema A | Sistema B | Sistema C | Sistema D | Sistema E | Sistema F | ||||||
| Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | |
| Formas comparadas | 628 | 655 | 599 | 655 | 590 | 655 | 648 | 655 | 639 | 655 | 640 | 655 |
| Análises na lista dourada | 1199 | 1255 | 1126 | 1255 | 1110 | 1255 | 1247 | 1255 | 1219 | 1255 | 1237 | 1255 |
| Análises do sistema | 1056 | 1080 | 1065 | 979 | 879 | 968 | ||||||
| Análises comuns | 903 | 886 | 871 | 808 | 676 | 754 | ||||||
| Precisão | 85,51% | 82,04% | 81,94% | 82,53% | 76,91% | 77,89% | ||||||
| Cobertura | 75,31% | 71,95% | 78,60% | 70,60% | 78,38% | 69,40% | 64,80% | 64,38% | 55,55% | 53,86% | 60,95% | 60,08% |
| Tabela 7: Comparação com a lista dourada total, apenas forma x PoS | ||||||||||||
| Sistema | Sistema A | Sistema B | Sistema C | Sistema D | Sistema E | Sistema F | ||||||
| Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | |
| Formas comparadas | 628 | 655 | 599 | 655 | 590 | 655 | 648 | 655 | 639 | 655 | 640 | 655 |
| Análises na lista dourada | 1051 | 1104 | 987 | 1104 | 972 | 1104 | 1096 | 1104 | 1071 | 1104 | 1086 | 1104 |
| Análises do sistema | 912 | 940 | 924 | 881 | 794 | 837 | ||||||
| Análises comuns | 851 | 824 | 810 | 781 | 690 | 715 | ||||||
| Precisão | 93,31% | 87,66% | 87,66% | 88,65% | 86,90% | 85,42% | ||||||
| Cobertura | 80,97% | 77,08% | 83,49% | 74,64% | 83,33% | 73,37% | 71,26% | 70,74% | 64,43% | 62,50% | 65,81% | 64,76% |
| Tabela 8: Comparação com a lista dourada total, apenas forma x lema | ||||||||||||
| Sistema | Sistema A | Sistema B | Sistema C | Sistema D | Sistema E | Sistema F | ||||||
| Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | |
| Formas comparadas | 628 | 655 | 599 | 655 | 591 | 655 | 648 | 655 | 639 | 655 | 640 | 655 |
| Análises na lista dourada | 947 | 993 | 888 | 993 | 877 | 993 | 986 | 993 | 963 | 993 | 977 | 993 |
| Análises do sistema | 856 | 868 | 858 | 853 | 757 | 829 | ||||||
| Análises comuns | 766 | 727 | 718 | 719 | 599 | 640 | ||||||
| Precisão | 89,49% | 83,76% | 83,68% | 84,29% | 79,13% | 78,14% | ||||||
| Cobertura | 80,89% | 77,14% | 82,05% | 73,21% | 81,87% | 72,31% | 72,85% | 72,41% | 62,20% | 60,32% | 65,51% | 64,45% |
| Tabela 9: Comparação com a lista dourada total, apenas forma x PoS x lema | ||||||||||||
| Sistema | Sistema A | Sistema B | Sistema C | Sistema D | Sistema E | Sistema F | ||||||
| Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | |
| Formas comparadas | 628 | 655 | 599 | 655 | 591 | 655 | 648 | 655 | 639 | 655 | 640 | 655 |
| Análises na lista dourada | 1103 | 1156 | 1038 | 1156 | 1023 | 1156 | 1148 | 1156 | 1123 | 1156 | 1138 | 1156 |
| Análises do sistema | 963 | 999 | 983 | 907 | 834 | 872 | ||||||
| Análises comuns | 842 | 813 | 799 | 730 | 629 | 647 | ||||||
| Precisão | 87,44% | 81,38% | 81,28% | 80,49% | 75,42% | 74,20% | ||||||
| Cobertura | 76,34% | 72,84% | 78,32% | 70,33% | 78,10% | 69,12% | 63,59% | 63,15% | 56,01% | 54,41% | 56,85% | 55,97% |
Sobre a influência da variante na lista dourada e o trabalho que os domadores pressupõem, veja-se respectivamente Influência da variante na lista dourada e Problemas com os domadores.