As listas referentes aos corpos do AC/DC foram obtidas com recurso à ferramenta cwb-lexdecode do Open CWB (antigo IMS-CWB da Universidade de Estugarda). Os lemas e as categorias gramaticais são apresentadas conforme a sua classificação em contexto pelo anotador sintáctico PALAVRAS, de Eckhard Bick. Todas estas listas foram calculadas a partir das versões anotadas automaticamente dos corpos, pelo que não podemos garantir a completa exactidão dos resultados.
Para consultar a ordem ("ranking") e a frequência de palavras ou expressões sublexicais (dentro de uma mesma palavra), desenvolvemos este serviço, que denominámos ordenador.
Alguns comentários:
Não tentámos, em nenhum dos casos, retirar palavras estrangeiras da lista.
| Colecção | Nº documentos | Nº palavras | Lista de frequência de formas amalgamando maiúsculas e minúsculas | Nº de formas distintas amalgamando maiúsculas e minúsculas | Lista de frequência de formas fazendo a distinção entre maiúsculas e minúsculas | Nº de formas distintas fazendo a distinção entre maiúsculas e minúsculas |
| Colecção WPT-05 | 9.501.202 | 5.856.585.035 | 187M (gz) | 25.237.118 | 206M (gz) | 27.861.391 |
| Colecção WPT-03 | 1.529.758 | 1.059.436.086 | 55,1M (tar.gz) | 6.834.451 | ||
| Colecção WBR-99 | 5.939.061 | 1.915.526.098 | 14M (tar.gz) | 2.669.965 |
Foram classificadas como palavras gramaticais todas as palavras que não tenham sido classificadas em nenhuma das outras categorias apresentadas. Por essa razão, as listas de palavras gramaticais incluem uma coluna extra, indicando a respectiva categoria.
Nos casos em que os corpos estão caracterizados por variante, apresentamos também as listas por variante, em que o sufixo br e pt indicam respetivamente a variante brasileira e a portuguesa.
| Corpo | Formas | Lemas | ||||||||||||||
| N | ADJ | ADV | V | NUM | GRAM | todos | N | ADJ | ADV | V | NUM | PROP | GRAM | todos | todos/pos | |
| chavebr945 | 1,2 Mb | 598 kb | 56 kb | 1,3 Mb | 503 kb | 22 kb | 4,7 Mb | 794 kb | 312 kb | 42 kb | 158 kb | 524 kb | 6,1 Mb | 5 kb | 7,8 Mb | 8,4 Mb |
| chavept945 | 1,4 Mb | 703 kb | 70 kb | 1,7 Mb | 399 kb | 25 kb | 5,7 Mb | 981 kb | 366 kb | 53 kb | 177 kb | 442 kb | 7,7 Mb | 5 kb | 9,7 Mb | 10,3 Mb |
| cdharembr | 69 kb | 28 kb | 4 kb | 56 kb | 3 kb | 6 kb | 195 kb | 50 kb | 18 kb | 3 kb | 16 kb | 4 kb | 55 kb | 1 kb | 147 kb | 0 b |
| cdharempt | 67 kb | 29 kb | 5 kb | 59 kb | 4 kb | 6 kb | 202 kb | 48 kb | 19 kb | 4 kb | 16 kb | 4 kb | 63 kb | 1 kb | 157 kb | 0 b |
| enpcpubbr | 33 kb | 14 kb | 4 kb | 36 kb | 814 b | 4 kb | 96 kb | 27 kb | 10 kb | 3 kb | 12 kb | 1 kb | 8 kb | 1 kb | 63 kb | 0 b |
| enpcpubpt | 20 kb | 9 kb | 3 kb | 26 kb | 315 b | 3 kb | 63 kb | 16 kb | 7 kb | 2 kb | 8 kb | 284 b | 2 kb | 1 kb | 38 kb | 0 b |
| museudapessoabr | 126 kb | 58 kb | 8 kb | 140 kb | 3 kb | 7 kb | 364 kb | 89 kb | 34 kb | 6 kb | 28 kb | 4 kb | 105 kb | 2 kb | 264 kb | 0 b |
| museudapessoapt | 75 kb | 25 kb | 5 kb | 96 kb | 2 kb | 6 kb | 215 kb | 54 kb | 16 kb | 3 kb | 17 kb | 2 kb | 34 kb | 1 kb | 130 kb | 0 b |
Finalmente, apresentamos também as listas do Vercial separadas em antes do século XIX (sufixo "ant") e depois(sufixo "mod").
| Corpo | Formas | Lemas | ||||||||||||||
| N | ADJ | ADV | V | NUM | GRAM | todos | N | ADJ | ADV | V | NUM | PROP | GRAM | todos | todos/pos | |
| vercialant | 296 kb | 165 kb | 15 kb | 611 kb | 5 kb | 23 kb | 950 kb | 208 kb | 82 kb | 11 kb | 120 kb | 6 kb | 200 kb | 3 kb | 591 kb | 747 kb |
| vercialmod | 541 kb | 323 kb | 33 kb | 1,2 Mb | 17 kb | 27 kb | 1,9 Mb | 333 kb | 127 kb | 26 kb | 133 kb | 18 kb | 595 kb | 4 kb | 1,2 Mb | 1,4 Mb |
Veja-se também informação semelhante relativa à parte portuguesa do COMPARA e do CorTrad:
| Corpo | Formas | Lemas | |||||||||
| N | ADJ | ADV | V | todos | N | ADJ | ADV | V | Próprios | todos | |
| COMPARA (parte portuguesa) | 545 kb | 276 kb | 42 kb | 774 kb | 1,7 Mb | 327 kb | 141 kb | 37 kb | 202 kb | 219 kb | 937 kb |
| CorTrad jornalístico (original em português) | 177 kb | 104 kb | 10 kb | 190 kb | 805 kb | 122 kb | 54 kb | 7 kb | 32 kb | 235 kb | 464 kb |
| CorTrad literário (tradução final em português) | 39 kb | 19 kb | 4 kb | 54 kb | 186 kb | 31 kb | 12 kb | 3 kb | 15 kb | 9 kb | 73 kb |
| CorTrad culinário (original em português) | 30 kb | 15 kb | 1 kb | 31 kb | 120 kb | 23 kb | 8 kb | 1 kb | 10 kb | 4 kb | 48 kb |
[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]