Unidades e palavras em língua portuguesa:
frequência e ordem

Projecto AC/DC, Linguateca

Information in English


A partir destas páginas, pode aceder à listagem de unidades (palavras e sinais de pontuação), com a respectiva frequência, calculadas com base quer nos distintos corpos de língua portuguesa disponibilizados pelo projecto AC/DC, quer com base nas colecções da rede em português também disponibilizadas pela Linguateca.

As listas referentes aos corpos do AC/DC foram obtidas com recurso à ferramenta cwb-lexdecode do Open CWB (antigo IMS-CWB da Universidade de Estugarda). Os lemas e as categorias gramaticais são apresentadas conforme a sua classificação em contexto pelo anotador sintáctico PALAVRAS, de Eckhard Bick. Todas estas listas foram calculadas a partir das versões anotadas automaticamente dos corpos, pelo que não podemos garantir a exatidão dos resultados.

Frequência e ordem de formas e lemas nos corpos AC/DC

Para consultar a ordem ("ranking") e a frequência de palavras ou expressões sublexicais (dentro de uma mesma palavra), desenvolvemos este serviço, que denominámos ordenador.

Alguns comentários:

Descrição do corpoLista de frequência
total das formas
no corpo
Lista de frequência
total dos lemas
no corpo
Todos os corpos 20,5 Mb 44,1 Mb
Todos os corpos portugueses 15,9 Mb 30,7 Mb
Todos os corpos brasileiros 9,2 Mb 16,3 Mb
AmostRA-NILC 280 kb 118 kb
ANCIB 1,3 Mb 997 kb
Avante! 2,1 Mb 1,5 Mb
Corpus Brasileiro 100,9 Mb 185,1 Mb
CD HAREM 511 kb 263 kb
CETEMPúblico 16,8 Mb 25,4 Mb
CHAVE 12,5 Mb 15,8 Mb
Ciência Viva 715 kb 374 kb
Colonia 2,9 Mb 932 kb
CONDIVport 2,6 Mb 1,2 Mb
CONDIVport2 328 kb 165 kb
CoNE 806 kb 495 kb
C-Oral-Brasil 230 kb 92 kb
CORDIAL-SIN 486 kb 132 kb
CorTrad, lado português0 b0 b
DHBB 2,2 Mb 4,2 Mb
DiaCLAV 1,9 Mb 1,7 Mb
Diáspora TL-PT 47 kb 18 kb
DisPR 361 kb 128 kb
ECI-EBR 1021 kb 409 kb
ECI-EE 69 kb 29 kb
ENPCPUB (parte em português) 211 kb 79 kb
Floresta 2,8 Mb 2,1 Mb
FrasesPB 98 kb 44 kb
FrasesPP 83 kb 37 kb
Mariano Gago 538 kb 294 kb
LeMe 741 kb 526 kb
Literateca 9,7 Mb 3,9 Mb
Marielle, presente! 438 kb 251 kb
Moçambula 177 kb 74 kb
Museu da Pessoa 710 kb 311 kb
Natura/Minho 1,2 Mb 909 kb
NOBRE 4,2 Mb 1,1 Mb
OBras 4,0 Mb 1,1 Mb
PANTERA, lado português 771 kb 264 kb
P'lo Norte 130 kb 54 kb
Português Falado - Documentos Autênticos 138 kb 56 kb
ReLi 258 kb 75 kb
NILC/São Carlos 7,2 Mb 6,8 Mb
todos juntos 83,5 Mb 38,4 Mb
Tycho Brahe 2,4 Mb 1,1 Mb
Vercial 5,5 Mb 2,2 Mb

Procuras parciais, de poucas formas ou lemas:

Formas Lemas

  • Pode procurar usando expressões regulares da linguagem de programação Perl.
  • Para procurar lemas multipalavra, use o seguinte formato: Belo=Horizonte, Castelo=Branco.

Frequência de formas em colecções da rede

Para obter as frequências das colecções na rede, o seguinte algoritmo foi usado:

Não tentámos, em nenhum dos casos, retirar palavras estrangeiras da lista.

ColecçãoNº documentosNº palavrasLista de frequência de formas amalgamando maiúsculas e minúsculasNº de formas distintas amalgamando maiúsculas e minúsculas Lista de frequência de formas fazendo a distinção entre maiúsculas e minúsculasNº de formas distintas fazendo a distinção entre maiúsculas e minúsculas
Colecção WPT-05 9.501.202 5.856.585.035 187M (gz) 25.237.118 206M (gz) 27.861.391
Colecção WPT-03 1.529.758 1.059.436.086 55,1M (tar.gz) 6.834.451
Colecção WBR-99 5.939.061 1.915.526.098 14M (tar.gz) 2.669.965

Frequência de formas e lemas por categoria gramatical nos corpos AC/DC

CorpoFormasLemas
NADJADVVVAUXNUMGRAMtodosNADJADVVVAUXNUMPROPGRAMtodostodos/pos
AmostRA-NILC 67 kb 30 kb 4 kb 64 kb801 b 1 kb 6 kb 280 kb 50 kb 20 kb 4 kb 19 kb49 b 2 kb 20 kb 2 kb 118 kb 133 kb
ANCIB 253 kb 114 kb 14 kb 205 kb 1 kb 50 kb 20 kb 1,3 Mb 133 kb 50 kb 11 kb 34 kb54 b 56 kb 716 kb 6 kb 997 kb 1,1 Mb
Avante! 382 kb 233 kb 35 kb 563 kb 3 kb 39 kb 28 kb 2,1 Mb 212 kb 93 kb 31 kb 51 kb60 b 54 kb 1,1 Mb 14 kb 1,5 Mb 1,6 Mb
Corpus Brasileiro 19,7 Mb 6,9 Mb 427 kb 7,6 Mb 13 kb 11,8 Mb 1,3 Mb 100,9 Mb 17,7 Mb 5,1 Mb 360 kb 2,2 Mb698 b 15,2 Mb 145,4 Mb 208 kb 185,1 Mb 196,5 Mb
CD HAREM 111 kb 48 kb 7 kb 97 kb0 b 7 kb 7 kb 511 kb 77 kb 30 kb 5 kb 23 kb0 b 7 kb 119 kb 2 kb 263 kb 291 kb
CETEMPúblico 2,5 Mb 1,2 Mb 140 kb 2,7 Mb 12 kb 1,1 Mb 192 kb 16,8 Mb 1,6 Mb 420 kb 111 kb 141 kb79 b 1,3 Mb 21,9 Mb 184 kb 25,4 Mb 27,2 Mb
CHAVE 2,0 Mb 1018 kb 107 kb 2,1 Mb 9 kb 887 kb 121 kb 12,5 Mb 1,1 Mb 337 kb 88 kb 123 kb78 b 1009 kb 13,3 Mb 97 kb 15,8 Mb 17,0 Mb
Ciência Viva 144 kb 85 kb 12 kb 146 kb 1 kb 11 kb 10 kb 715 kb 92 kb 41 kb 10 kb 26 kb53 b 13 kb 191 kb 3 kb 374 kb 414 kb
Colonia 539 kb 285 kb 41 kb 1,0 Mb 6 kb 10 kb 31 kb 2,9 Mb 286 kb 110 kb 35 kb 86 kb59 b 17 kb 398 kb 7 kb 932 kb 1,0 Mb
CONDIVport 510 kb 312 kb 41 kb 656 kb 4 kb 49 kb 37 kb 2,6 Mb 246 kb 116 kb 33 kb 59 kb61 b 68 kb 712 kb 10 kb 1,2 Mb 1,3 Mb
CONDIVport2 73 kb 30 kb 5 kb 65 kb918 b 6 kb 6 kb 328 kb 50 kb 18 kb 4 kb 17 kb52 b 6 kb 69 kb 2 kb 165 kb 185 kb
CoNE 160 kb 65 kb 8 kb 105 kb 1 kb 37 kb 29 kb 806 kb 83 kb 30 kb 6 kb 22 kb52 b 40 kb 315 kb 4 kb 495 kb 542 kb
C-Oral-Brasil 55 kb 19 kb 3 kb 49 kb680 b 3 kb 12 kb 230 kb 39 kb 12 kb 2 kb 14 kb51 b 4 kb 20 kb 2 kb 92 kb 108 kb
CORDIAL-SIN 117 kb 29 kb 3 kb 155 kb 2 kb 1 kb 12 kb 486 kb 63 kb 14 kb 2 kb 21 kb55 b 4 kb 24 kb 3 kb 132 kb 151 kb
CorTrad, lado português0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b
DHBB 360 kb 197 kb 22 kb 455 kb 2 kb 93 kb 27 kb 2,2 Mb 263 kb 81 kb 19 kb 44 kb71 b 101 kb 3,7 Mb 31 kb 4,2 Mb 4,5 Mb
DiaCLAV 366 kb 190 kb 23 kb 470 kb 3 kb 44 kb 24 kb 1,9 Mb 208 kb 79 kb 19 kb 46 kb62 b 55 kb 1,3 Mb 16 kb 1,7 Mb 1,8 Mb
Diáspora TL-PT 9 kb 3 kb 1 kb 10 kb416 b579 b 4 kb 47 kb 8 kb 2 kb 1 kb 3 kb45 b590 b 2 kb 1 kb 18 kb 22 kb
DisPR 68 kb 47 kb 9 kb 109 kb 1 kb 2 kb 7 kb 361 kb 47 kb 25 kb 9 kb 20 kb51 b 2 kb 22 kb 2 kb 128 kb 142 kb
ECI-EBR 217 kb 119 kb 16 kb 271 kb 2 kb 5 kb 12 kb 1021 kb 137 kb 61 kb 14 kb 41 kb56 b 13 kb 141 kb 4 kb 409 kb 458 kb
ECI-EE 15 kb 9 kb 2 kb 14 kb295 b 1 kb 3 kb 69 kb 11 kb 5 kb 2 kb 5 kb45 b 1 kb 2 kb 1 kb 29 kb 33 kb
ENPCPUB (parte em português) 45 kb 21 kb 5 kb 54 kb 1 kb993 b 6 kb 211 kb 34 kb 15 kb 4 kb 15 kb50 b873 b 8 kb 1 kb 79 kb 90 kb
Floresta 554 kb 268 kb 30 kb 571 kb 2 kb 49 kb 76 kb 2,8 Mb 372 kb 138 kb 26 kb 79 kb58 b 52 kb 1,4 Mb 8 kb 2,1 Mb 2,3 Mb
FrasesPB 27 kb 10 kb 2 kb 18 kb440 b433 b 4 kb 98 kb 21 kb 7 kb 2 kb 8 kb47 b395 b 2 kb 1 kb 44 kb 50 kb
FrasesPP 21 kb 9 kb 2 kb 15 kb485 b495 b 3 kb 83 kb 17 kb 7 kb 2 kb 6 kb45 b491 b 2 kb 1 kb 37 kb 42 kb
Mariano Gago 110 kb 58 kb 11 kb 132 kb 1 kb 6 kb 11 kb 538 kb 73 kb 31 kb 9 kb 23 kb54 b 7 kb 147 kb 4 kb 294 kb 322 kb
LeMe 152 kb 109 kb 8 kb 100 kb 1 kb 31 kb 15 kb 741 kb 96 kb 52 kb 7 kb 23 kb56 b 37 kb 302 kb 21 kb 526 kb 589 kb
Literateca 1,6 Mb 879 kb 119 kb 3,4 Mb 15 kb 38 kb 103 kb 9,7 Mb 798 kb 284 kb 99 kb 193 kb79 b 72 kb 2,5 Mb 19 kb 3,9 Mb 4,4 Mb
Marielle, presente! 91 kb 42 kb 6 kb 95 kb 1 kb 9 kb 10 kb 438 kb 55 kb 23 kb 5 kb 20 kb53 b 10 kb 134 kb 3 kb 251 kb 275 kb
Moçambula 40 kb 18 kb 4 kb 40 kb927 b 1 kb 6 kb 177 kb 29 kb 12 kb 4 kb 13 kb49 b 1 kb 13 kb 1 kb 74 kb 83 kb
Museu da Pessoa 161 kb 69 kb 10 kb 192 kb 2 kb 4 kb 11 kb 710 kb 98 kb 36 kb 8 kb 30 kb57 b 6 kb 133 kb 4 kb 311 kb 350 kb
Natura/Minho 238 kb 122 kb 16 kb 252 kb 2 kb 32 kb 15 kb 1,2 Mb 137 kb 56 kb 13 kb 36 kb58 b 41 kb 625 kb 7 kb 909 kb 984 kb
NOBRE 692 kb 421 kb 65 kb 1,5 Mb 9 kb 11 kb 77 kb 4,2 Mb 340 kb 146 kb 55 kb 99 kb62 b 20 kb 524 kb 9 kb 1,1 Mb 1,3 Mb
OBras 671 kb 394 kb 57 kb 1,5 Mb 7 kb 13 kb 33 kb 4,0 Mb 320 kb 133 kb 51 kb 93 kb63 b 22 kb 521 kb 8 kb 1,1 Mb 1,3 Mb
PANTERA, lado português 146 kb 76 kb 13 kb 242 kb 2 kb 3 kb 11 kb 771 kb 106 kb 44 kb 11 kb 37 kb26 b 4 kb 58 kb 3 kb 264 kb 297 kb
P'lo Norte 29 kb 12 kb 3 kb 26 kb634 b 1 kb 5 kb 130 kb 21 kb 8 kb 2 kb 8 kb47 b 1 kb 10 kb 1 kb 54 kb 61 kb
Português Falado - Documentos Autênticos 33 kb 12 kb 3 kb 35 kb775 b544 b 5 kb 138 kb 25 kb 8 kb 2 kb 10 kb51 b 2 kb 5 kb 2 kb 56 kb 64 kb
ReLi 44 kb 27 kb 6 kb 51 kb920 b1006 b 45 kb 258 kb 30 kb 15 kb 4 kb 14 kb50 b 1 kb 10 kb 2 kb 75 kb 88 kb
NILC/São Carlos 1,2 Mb 622 kb 64 kb 1,3 Mb 5 kb 596 kb 60 kb 7,2 Mb 601 kb 215 kb 52 kb 96 kb65 b 664 kb 5,3 Mb 37 kb 6,8 Mb 7,4 Mb
todos juntos 4,5 Mb 2,4 Mb 244 kb 25,2 Mb 21 kb 2,8 Mb 92,0 Mb 83,5 Mb 2,7 Mb 741 kb 179 kb 445 kb823 b 2,2 Mb 32,3 Mb 50,6 Mb 38,4 Mb 99,2 Mb
Tycho Brahe 487 kb 222 kb 34 kb 724 kb0 b 16 kb 43 kb 2,4 Mb 278 kb 94 kb 27 kb 80 kb0 b 30 kb 662 kb 7 kb 1,1 Mb 1,3 Mb
Vercial 914 kb 495 kb 67 kb 2,0 Mb 11 kb 27 kb 47 kb 5,5 Mb 458 kb 169 kb 58 kb 122 kb63 b 43 kb 1,4 Mb 12 kb 2,2 Mb 2,5 Mb
todos 4,8 Mb 2,3 Mb 239 kb 5,5 Mb 21 kb 2,0 Mb 438 kb 20,5 Mb 2,9 Mb 782 kb 186 kb 321 kb80 b 2,3 Mb 37,9 Mb 298 kb 44,1 Mb 59,7 Mb
todos/pt 3,7 Mb 1,8 Mb 204 kb 4,7 Mb 20 kb 1,2 Mb 321 kb 20,5 Mb 2,2 Mb 606 kb 159 kb 258 kb79 b 1,5 Mb 26,2 Mb 230 kb 30,7 Mb 41,8 Mb
todos/br 2,3 Mb 1,1 Mb 123 kb 2,8 Mb 10 kb 943 kb 173 kb 9,2 Mb 1,2 Mb 401 kb 100 kb 184 kb77 b 1,0 Mb 13,4 Mb 86 kb 16,3 Mb 22,1 Mb

Foram classificadas como palavras gramaticais todas as palavras que não tenham sido classificadas em nenhuma das outras categorias apresentadas. Por essa razão, as listas de palavras gramaticais incluem uma coluna extra, indicando a respectiva categoria.

Nos casos em que os corpos estão caracterizados por variante, apresentamos também as listas por variante, em que o sufixo br e pt indicam respetivamente a variante brasileira e a portuguesa.

CorpoFormasLemas
NADJADVVVAUXNUMGRAMtodosNADJADVVVAUXNUMPROPGRAMtodostodos/pos
chavebr945 1,2 Mb 615 kb 64 kb 1,2 Mb 4 kb 512 kb 53 kb 4,8 Mb 615 kb 211 kb 54 kb 89 kb65 b 570 kb 6,0 Mb 39 kb 7,5 Mb 8,1 Mb
chavept945 1,4 Mb 731 kb 85 kb 1,7 Mb 8 kb 451 kb 72 kb 5,9 Mb 826 kb 256 kb 71 kb 98 kb75 b 530 kb 8,0 Mb 68 kb 9,7 Mb 10,4 Mb
cdharembr 69 kb 28 kb 4 kb 56 kb0 b 3 kb 6 kb 195 kb 50 kb 18 kb 3 kb 16 kb0 b 4 kb 55 kb 1 kb 147 kb0 b
cdharempt 67 kb 29 kb 5 kb 59 kb0 b 4 kb 6 kb 202 kb 48 kb 19 kb 4 kb 16 kb0 b 4 kb 63 kb 1 kb 157 kb0 b
coloniabr 341 kb 201 kb 27 kb 738 kb0 b 5 kb 16 kb 1,3 Mb 230 kb 101 kb 23 kb 74 kb0 b 7 kb 138 kb 4 kb 521 kb0 b
coloniapt 360 kb 193 kb 25 kb 571 kb0 b 5 kb 17 kb 1,2 Mb 254 kb 109 kb 21 kb 84 kb0 b 9 kb 289 kb 4 kb 644 kb0 b
enpcpubbr 33 kb 15 kb 4 kb 36 kb892 b861 b 5 kb 96 kb 26 kb 11 kb 3 kb 11 kb49 b750 b 6 kb 1 kb 61 kb0 b
enpcpubpt 20 kb 9 kb 3 kb 26 kb646 b322 b 4 kb 63 kb 16 kb 7 kb 2 kb 8 kb47 b297 b 2 kb 1 kb 38 kb0 b
museudapessoabr 128 kb 57 kb 8 kb 142 kb 1 kb 3 kb 9 kb 370 kb 90 kb 34 kb 6 kb 28 kb56 b 5 kb 103 kb 2 kb 263 kb0 b
museudapessoapt 70 kb 23 kb 5 kb 91 kb 1 kb 2 kb 7 kb 202 kb 50 kb 14 kb 3 kb 16 kb51 b 3 kb 30 kb 2 kb 120 kb0 b

Finalmente, apresentamos também as listas do Vercial separadas em antes do século XIX (sufixo "ant") e depois(sufixo "mod").

CorpoFormasLemas
NADJADVVVAUXNUMGRAMtodosNADJADVVNUMPROPGRAMtodostodos/pos
vercialant 317 kb 179 kb 22 kb 1,3 Mb 17 kb 13 kb 107 kb 1,1 Mb 176 kb 69 kb 15 kb 81 kb58 b 9 kb 268 kb 5 kb 596 kb 723 kb
vercialmod 780 kb 484 kb 66 kb 5,6 Mb 42 kb 89 kb 154 kb 3,3 Mb 385 kb 144 kb 54 kb 125 kb63 b 40 kb 1,2 Mb 11 kb 1,9 Mb 2,2 Mb

Veja-se também informação semelhante relativa à parte portuguesa do COMPARA e do CorTrad:

CorpoFormasLemas
NADJADVVtodosNADJADVVPrópriostodos
COMPARA (parte portuguesa) 545 kb 276 kb 42 kb 774 kb 1,7 Mb 327 kb 141 kb 37 kb 202 kb 219 kb 937 kb
CorTrad jornalístico (original em português) 174 kb 102 kb 10 kb 200 kb 811 kb 117 kb 52 kb 7 kb 36 kb 234 kb 457 kb
CorTrad literário (tradução final em português) 58 kb 31 kb 6 kb 93 kb 294 kb 45 kb 19 kb 4 kb 21 kb 17 kb 105 kb
CorTrad culinário (original em português) 30 kb 15 kb 1 kb 31 kb 119 kb 23 kb 8 kb 1 kb 10 kb 4 kb 44 kb

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última actualização: 24 Junho 2022.
Perguntas, comentários e sugestões.