As listas referentes aos corpos do AC/DC foram obtidas com recurso à ferramenta cwb-lexdecode do Open CWB (antigo IMS-CWB da Universidade de Estugarda). Os lemas e as categorias gramaticais são apresentadas conforme a sua classificação em contexto pelo anotador sintáctico PALAVRAS, de Eckhard Bick. Todas estas listas foram calculadas a partir das versões anotadas automaticamente dos corpos, pelo que não podemos garantir a completa exactidão dos resultados.
Para consultar a ordem ("ranking") e a frequência de palavras ou expressões sublexicais (dentro de uma mesma palavra), desenvolvemos este serviço, que denominámos ordenador.
Alguns comentários:
Não tentámos, em nenhum dos casos, retirar palavras estrangeiras da lista.
| Colecção | Nº documentos | Nº palavras | Lista de frequência de formas amalgamando maiúsculas e minúsculas | Nº de formas distintas amalgamando maiúsculas e minúsculas | Lista de frequência de formas fazendo a distinção entre maiúsculas e minúsculas | Nº de formas distintas fazendo a distinção entre maiúsculas e minúsculas |
| Colecção WPT-05 | 9.501.202 | 5.856.585.035 | 187M (gz) | 25.237.118 | 206M (gz) | 27.861.391 |
| Colecção WPT-03 | 1.529.758 | 1.059.436.086 | 55,1M (tar.gz) | 6.834.451 | ||
| Colecção WBR-99 | 5.939.061 | 1.915.526.098 | 14M (tar.gz) | 2.669.965 |
Foram classificadas como palavras gramaticais todas as palavras que não tenham sido classificadas em nenhuma das outras categorias apresentadas. Por essa razão, as listas de palavras gramaticais incluem uma coluna extra, indicando a respectiva categoria.
Nos casos em que os corpos estão caracterizados por variante, apresentamos também as listas por variante, em que o sufixo br e pt indicam respetivamente a variante brasileira e a portuguesa.
| Corpo | Formas | Lemas | ||||||||||||||
| N | ADJ | ADV | V | NUM | GRAM | todos | N | ADJ | ADV | V | NUM | PROP | GRAM | todos | todos/pos | |
| chavebr945 | 1,2 Mb | 598 kb | 56 kb | 1,3 Mb | 503 kb | 30 kb | 4,7 Mb | 791 kb | 313 kb | 42 kb | 161 kb | 524 kb | 6,1 Mb | 8 kb | 7,8 Mb | 8,4 Mb |
| chavept945 | 1,4 Mb | 710 kb | 71 kb | 1,7 Mb | 402 kb | 50 kb | 5,8 Mb | 967 kb | 372 kb | 54 kb | 182 kb | 446 kb | 7,8 Mb | 17 kb | 9,8 Mb | 10,5 Mb |
| cdharembr | 70 kb | 28 kb | 5 kb | 56 kb | 4 kb | 21 kb | 195 kb | 50 kb | 18 kb | 3 kb | 16 kb | 4 kb | 55 kb | 1 kb | 147 kb | 0 b |
| cdharempt | 68 kb | 29 kb | 6 kb | 60 kb | 4 kb | 27 kb | 202 kb | 49 kb | 19 kb | 4 kb | 16 kb | 4 kb | 63 kb | 1 kb | 157 kb | 0 b |
| enpcpubbr | 33 kb | 14 kb | 4 kb | 36 kb | 814 b | 4 kb | 96 kb | 27 kb | 11 kb | 3 kb | 12 kb | 1 kb | 8 kb | 1 kb | 63 kb | 0 b |
| enpcpubpt | 20 kb | 9 kb | 3 kb | 26 kb | 315 b | 3 kb | 63 kb | 16 kb | 7 kb | 2 kb | 8 kb | 284 b | 2 kb | 1 kb | 38 kb | 0 b |
| museudapessoabr | 14 kb | 4 kb | 1 kb | 17 kb | 803 b | 3 kb | 42 kb | 11 kb | 3 kb | 1 kb | 5 kb | 788 b | 3 kb | 1 kb | 26 kb | 0 b |
| museudapessoapt | 75 kb | 26 kb | 5 kb | 96 kb | 2 kb | 6 kb | 215 kb | 54 kb | 16 kb | 3 kb | 18 kb | 2 kb | 34 kb | 1 kb | 130 kb | 0 b |
Finalmente, apresentamos também as listas do Vercial separadas em antes do século XIX (sufixo "ant") e depois(sufixo "mod").
| Corpo | Formas | Lemas | ||||||||||||||
| N | ADJ | ADV | V | NUM | GRAM | todos | N | ADJ | ADV | V | NUM | PROP | GRAM | todos | todos/pos | |
| vercialant | 391 kb | 161 kb | 15 kb | 528 kb | 4 kb | 25 kb | 1,0 Mb | 303 kb | 79 kb | 11 kb | 89 kb | 5 kb | 176 kb | 3 kb | 658 kb | 744 kb |
| vercialmod | 820 kb | 327 kb | 32 kb | 1,1 Mb | 19 kb | 30 kb | 2,2 Mb | 608 kb | 128 kb | 26 kb | 103 kb | 19 kb | 602 kb | 4 kb | 1,5 Mb | 1,6 Mb |
Veja-se também informação semelhante relativa à parte portuguesa do COMPARA e do CorTrad:
| Corpo | Formas | Lemas | |||||||||
| N | ADJ | ADV | V | todos | N | ADJ | ADV | V | Próprios | todos | |
| COMPARA (parte portuguesa) | 545 kb | 276 kb | 42 kb | 774 kb | 1,7 Mb | 327 kb | 141 kb | 37 kb | 202 kb | 219 kb | 937 kb |
| CorTrad jornalístico (original em português) | 177 kb | 104 kb | 10 kb | 190 kb | 805 kb | 122 kb | 54 kb | 7 kb | 32 kb | 235 kb | 464 kb |
| CorTrad literário (tradução final em português) | 39 kb | 19 kb | 4 kb | 54 kb | 186 kb | 31 kb | 12 kb | 3 kb | 15 kb | 9 kb | 73 kb |
| CorTrad culinário (original em português) | 30 kb | 15 kb | 1 kb | 31 kb | 120 kb | 23 kb | 8 kb | 1 kb | 10 kb | 4 kb | 48 kb |
[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]