Unidades e palavras em língua portuguesa:
frequência e ordem

Projecto AC/DC, Linguateca

Information in English


A partir destas páginas, pode aceder à listagem de unidades (palavras e sinais de pontuação), com a respectiva frequência, calculadas com base quer nos distintos corpos de língua portuguesa disponibilizados pelo projecto AC/DC, quer com base nas colecções da rede em português também disponibilizadas pela Linguateca.

As listas referentes aos corpos do AC/DC foram obtidas com recurso à ferramenta cwb-lexdecode do Open CWB (antigo IMS-CWB da Universidade de Estugarda). Os lemas e as categorias gramaticais são apresentadas conforme a sua classificação em contexto pelo anotador sintáctico PALAVRAS, de Eckhard Bick. Todas estas listas foram calculadas a partir das versões anotadas automaticamente dos corpos, pelo que não podemos garantir a exatidão dos resultados.

Frequência e ordem de formas e lemas nos corpos AC/DC

Para consultar a ordem ("ranking") e a frequência de palavras ou expressões sublexicais (dentro de uma mesma palavra), desenvolvemos este serviço, que denominámos ordenador.

Alguns comentários:

Descrição do corpoLista de frequência
total das formas
no corpo
Lista de frequência
total dos lemas
no corpo
Todos os corpos 20,1 Mb 42,9 Mb
Todos os corpos portugueses 15,5 Mb 29,5 Mb
Todos os corpos brasileiros 8,8 Mb 15,8 Mb
AmostRA-NILC 281 kb 120 kb
ANCIB 1,4 Mb 1,0 Mb
Avante! 2,1 Mb 1,5 Mb
Corpus Brasileiro 100,9 Mb 185,1 Mb
CD HAREM 511 kb 263 kb
CETEMPúblico 16,8 Mb 25,4 Mb
CHAVE 12,3 Mb 15,7 Mb
Ciência Viva 739 kb 398 kb
Colonia 2,9 Mb 932 kb
CONDIVport 2,6 Mb 1,3 Mb
CONDIVport2 330 kb 170 kb
CoNE 798 kb 524 kb
C-Oral-Brasil 230 kb 99 kb
CORDIAL-SIN 486 kb 157 kb
CorTrad, lado português0 b0 b
DHBB 2,2 Mb 4,3 Mb
DiaCLAV 1,9 Mb 1,7 Mb
Diáspora TL-PT 47 kb 19 kb
ECI-EBR 1022 kb 434 kb
ECI-EE 71 kb 32 kb
ENPCPUB (parte em português) 211 kb 82 kb
Floresta 2,8 Mb 2,1 Mb
FrasesPB 98 kb 44 kb
FrasesPP 83 kb 38 kb
Mariano Gago 542 kb 301 kb
LeMe 756 kb 545 kb
Literateca 9,7 Mb 3,9 Mb
Marielle, presente! 441 kb 252 kb
Moçambula 176 kb 76 kb
Museu da Pessoa 709 kb 324 kb
Natura/Minho 1,2 Mb 924 kb
NOBRE 4,2 Mb 1,1 Mb
OBras 4,0 Mb 1,1 Mb
PANTERA, lado português 771 kb 264 kb
P'lo Norte 131 kb 55 kb
Português Falado - Documentos Autênticos 138 kb 57 kb
ReLi 259 kb 80 kb
NILC/São Carlos 7,2 Mb 7,0 Mb
todos juntos 156,7 Mb 178,5 Mb
Tycho Brahe 2,4 Mb 1,1 Mb
Vercial 5,6 Mb 2,2 Mb

Procuras parciais, de poucas formas ou lemas:

Formas Lemas

  • Pode procurar usando expressões regulares da linguagem de programação Perl.
  • Para procurar lemas multipalavra, use o seguinte formato: Belo=Horizonte, Castelo=Branco.

Frequência de formas em colecções da rede

Para obter as frequências das colecções na rede, o seguinte algoritmo foi usado:

Não tentámos, em nenhum dos casos, retirar palavras estrangeiras da lista.

ColecçãoNº documentosNº palavrasLista de frequência de formas amalgamando maiúsculas e minúsculasNº de formas distintas amalgamando maiúsculas e minúsculas Lista de frequência de formas fazendo a distinção entre maiúsculas e minúsculasNº de formas distintas fazendo a distinção entre maiúsculas e minúsculas
Colecção WPT-05 9.501.202 5.856.585.035 187M (gz) 25.237.118 206M (gz) 27.861.391
Colecção WPT-03 1.529.758 1.059.436.086 55,1M (tar.gz) 6.834.451
Colecção WBR-99 5.939.061 1.915.526.098 14M (tar.gz) 2.669.965

Frequência de formas e lemas por categoria gramatical nos corpos AC/DC

CorpoFormasLemas
NADJADVVVAUXNUMGRAMtodosNADJADVVVAUXNUMPROPGRAMtodostodos/pos
AmostRA-NILC 66 kb 30 kb 4 kb 64 kb803 b 2 kb 6 kb 281 kb 51 kb 21 kb 4 kb 19 kb49 b 2 kb 20 kb 1 kb 120 kb 135 kb
ANCIB 271 kb 112 kb 13 kb 200 kb 1 kb 54 kb 99 kb 1,4 Mb 195 kb 59 kb 10 kb 40 kb54 b 56 kb 707 kb 4 kb 1,0 Mb 1,1 Mb
Avante! 376 kb 234 kb 31 kb 568 kb 3 kb 40 kb 16 kb 2,1 Mb 242 kb 116 kb 25 kb 61 kb60 b 52 kb 1,0 Mb 3 kb 1,5 Mb 1,6 Mb
Corpus Brasileiro 19,7 Mb 6,9 Mb 427 kb 7,6 Mb 13 kb 11,8 Mb 1,3 Mb 100,9 Mb 17,7 Mb 5,1 Mb 360 kb 2,2 Mb698 b 15,2 Mb 145,4 Mb 208 kb 185,1 Mb 196,5 Mb
CD HAREM 111 kb 48 kb 7 kb 97 kb0 b 7 kb 7 kb 511 kb 77 kb 30 kb 5 kb 23 kb0 b 7 kb 119 kb 2 kb 263 kb 291 kb
CETEMPúblico 2,5 Mb 1,2 Mb 140 kb 2,7 Mb 12 kb 1,1 Mb 193 kb 16,8 Mb 1,6 Mb 420 kb 111 kb 141 kb79 b 1,3 Mb 21,9 Mb 184 kb 25,4 Mb 27,2 Mb
CHAVE 1,9 Mb 995 kb 107 kb 2,2 Mb 10 kb 903 kb 81 kb 12,3 Mb 1,3 Mb 493 kb 82 kb 169 kb78 b 1001 kb 12,8 Mb 10 kb 15,7 Mb 16,8 Mb
Ciência Viva 153 kb 85 kb 11 kb 146 kb 1 kb 13 kb 19 kb 739 kb 111 kb 48 kb 9 kb 27 kb53 b 15 kb 187 kb 2 kb 398 kb 436 kb
Colonia 539 kb 285 kb 41 kb 1,0 Mb 6 kb 10 kb 32 kb 2,9 Mb 286 kb 110 kb 35 kb 86 kb59 b 17 kb 398 kb 7 kb 932 kb 1,0 Mb
CONDIVport 489 kb 296 kb 40 kb 663 kb 4 kb 51 kb 34 kb 2,6 Mb 322 kb 145 kb 32 kb 65 kb72 b 64 kb 695 kb 5 kb 1,3 Mb 1,4 Mb
CONDIVport2 72 kb 31 kb 5 kb 65 kb916 b 5 kb 7 kb 330 kb 53 kb 19 kb 4 kb 17 kb52 b 5 kb 71 kb 1 kb 170 kb 189 kb
CoNE 162 kb 65 kb 7 kb 103 kb 1 kb 39 kb 25 kb 798 kb 106 kb 33 kb 6 kb 23 kb71 b 42 kb 302 kb 2 kb 524 kb 558 kb
C-Oral-Brasil 55 kb 20 kb 3 kb 48 kb648 b 3 kb 10 kb 230 kb 44 kb 14 kb 2 kb 14 kb51 b 4 kb 20 kb 2 kb 99 kb 115 kb
CORDIAL-SIN 118 kb 30 kb 3 kb 156 kb 2 kb 1 kb 10 kb 486 kb 80 kb 18 kb 2 kb 23 kb55 b 4 kb 24 kb 2 kb 157 kb 176 kb
CorTrad, lado português0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b
DHBB 358 kb 204 kb 21 kb 462 kb 2 kb 97 kb 14 kb 2,2 Mb 231 kb 101 kb 16 kb 50 kb71 b 102 kb 3,8 Mb 3 kb 4,3 Mb 4,5 Mb
DiaCLAV 353 kb 191 kb 21 kb 474 kb 2 kb 47 kb 14 kb 1,9 Mb 222 kb 95 kb 17 kb 54 kb39 b 56 kb 1,3 Mb 3 kb 1,7 Mb 1,8 Mb
Diáspora TL-PT 9 kb 3 kb 1 kb 10 kb407 b565 b 3 kb 47 kb 8 kb 2 kb 1 kb 3 kb45 b567 b 3 kb 1 kb 19 kb 22 kb
ECI-EBR 215 kb 120 kb 16 kb 270 kb 2 kb 5 kb 10 kb 1022 kb 149 kb 69 kb 12 kb 44 kb56 b 13 kb 145 kb 2 kb 434 kb 482 kb
ECI-EE 15 kb 9 kb 2 kb 14 kb298 b 1 kb 3 kb 71 kb 12 kb 6 kb 2 kb 5 kb45 b 1 kb 3 kb 1 kb 32 kb 35 kb
ENPCPUB (parte em português) 45 kb 21 kb 5 kb 54 kb 1 kb1020 b 6 kb 211 kb 35 kb 15 kb 4 kb 15 kb49 b 1 kb 10 kb 1 kb 82 kb 93 kb
Floresta 554 kb 268 kb 30 kb 571 kb 2 kb 49 kb 76 kb 2,8 Mb 372 kb 138 kb 26 kb 79 kb58 b 52 kb 1,4 Mb 8 kb 2,1 Mb 2,3 Mb
FrasesPB 27 kb 10 kb 2 kb 18 kb440 b443 b 4 kb 98 kb 22 kb 8 kb 2 kb 8 kb47 b404 b 2 kb 1 kb 44 kb 50 kb
FrasesPP 21 kb 9 kb 2 kb 15 kb473 b514 b 3 kb 83 kb 17 kb 7 kb 2 kb 6 kb45 b490 b 2 kb 1 kb 38 kb 42 kb
Mariano Gago 109 kb 58 kb 10 kb 135 kb 1 kb 7 kb 9 kb 542 kb 76 kb 34 kb 8 kb 24 kb54 b 7 kb 145 kb 2 kb 301 kb 325 kb
LeMe 149 kb 110 kb 8 kb 98 kb902 b 33 kb 33 kb 756 kb 108 kb 72 kb 6 kb 25 kb36 b 37 kb 282 kb 20 kb 545 kb 595 kb
Literateca 1,6 Mb 883 kb 120 kb 3,4 Mb 15 kb 39 kb 116 kb 9,7 Mb 805 kb 285 kb 100 kb 194 kb64 b 72 kb 2,6 Mb 18 kb 3,9 Mb 4,4 Mb
Marielle, presente! 90 kb 42 kb 6 kb 94 kb 1 kb 11 kb 11 kb 441 kb 61 kb 25 kb 5 kb 21 kb53 b 12 kb 127 kb 2 kb 252 kb 277 kb
Moçambula 39 kb 18 kb 4 kb 40 kb886 b 1 kb 5 kb 176 kb 30 kb 12 kb 3 kb 13 kb49 b 1 kb 13 kb 1 kb 76 kb 85 kb
Museu da Pessoa 160 kb 68 kb 10 kb 193 kb 2 kb 4 kb 11 kb 709 kb 110 kb 39 kb 7 kb 31 kb57 b 6 kb 131 kb 3 kb 324 kb 363 kb
Natura/Minho 230 kb 123 kb 15 kb 252 kb 2 kb 34 kb 12 kb 1,2 Mb 148 kb 66 kb 12 kb 41 kb68 b 41 kb 617 kb 3 kb 924 kb 997 kb
NOBRE 693 kb 421 kb 65 kb 1,5 Mb 9 kb 11 kb 64 kb 4,2 Mb 340 kb 146 kb 55 kb 99 kb62 b 21 kb 526 kb 9 kb 1,1 Mb 1,3 Mb
OBras 684 kb 396 kb 58 kb 1,5 Mb 7 kb 14 kb 43 kb 4,0 Mb 326 kb 134 kb 51 kb 93 kb63 b 23 kb 528 kb 9 kb 1,1 Mb 1,3 Mb
PANTERA, lado português 146 kb 76 kb 13 kb 242 kb 2 kb 3 kb 11 kb 771 kb 106 kb 44 kb 11 kb 37 kb26 b 4 kb 58 kb 3 kb 264 kb 297 kb
P'lo Norte 29 kb 12 kb 3 kb 26 kb624 b 1 kb 5 kb 131 kb 22 kb 8 kb 2 kb 8 kb47 b 1 kb 10 kb 1 kb 55 kb 62 kb
Português Falado - Documentos Autênticos 33 kb 12 kb 2 kb 35 kb752 b556 b 4 kb 138 kb 27 kb 8 kb 2 kb 10 kb51 b 2 kb 5 kb 1 kb 57 kb 66 kb
ReLi 44 kb 28 kb 6 kb 52 kb875 b 1 kb 44 kb 259 kb 33 kb 17 kb 4 kb 15 kb50 b 1 kb 11 kb 2 kb 80 kb 94 kb
NILC/São Carlos 1,2 Mb 612 kb 64 kb 1,3 Mb 5 kb 605 kb 48 kb 7,2 Mb 792 kb 290 kb 51 kb 122 kb82 b 657 kb 5,1 Mb 8 kb 7,0 Mb 7,5 Mb
todos juntos 21,3 Mb 7,6 Mb 408 kb 11,3 Mb 21 kb 13,8 Mb 86,3 Mb 156,7 Mb 19,1 Mb 5,6 Mb 339 kb 2,8 Mb823 b 13,9 Mb 137,5 Mb 47,3 Mb 178,5 Mb 244,0 Mb
Tycho Brahe 487 kb 222 kb 34 kb 722 kb 6 kb 16 kb 43 kb 2,4 Mb 278 kb 94 kb 27 kb 80 kb58 b 30 kb 662 kb 7 kb 1,1 Mb 1,3 Mb
Vercial 919 kb 496 kb 67 kb 2,0 Mb 11 kb 27 kb 49 kb 5,6 Mb 460 kb 169 kb 58 kb 123 kb63 b 44 kb 1,4 Mb 12 kb 2,2 Mb 2,5 Mb
todos 4,7 Mb 2,2 Mb 234 kb 5,7 Mb 21 kb 1,9 Mb 458 kb 20,1 Mb 3,2 Mb 977 kb 199 kb 381 kb138 b 2,2 Mb 36,2 Mb 216 kb 42,9 Mb 58,1 Mb
todos/pt 3,6 Mb 1,8 Mb 198 kb 4,7 Mb 20 kb 1,2 Mb 324 kb 20,1 Mb 2,3 Mb 650 kb 159 kb 274 kb97 b 1,4 Mb 24,9 Mb 211 kb 29,5 Mb 40,2 Mb
todos/br 2,1 Mb 1,1 Mb 117 kb 2,9 Mb 10 kb 918 kb 178 kb 8,8 Mb 1,4 Mb 512 kb 102 kb 224 kb94 b 1000 kb 12,7 Mb 15 kb 15,8 Mb 21,5 Mb

Foram classificadas como palavras gramaticais todas as palavras que não tenham sido classificadas em nenhuma das outras categorias apresentadas. Por essa razão, as listas de palavras gramaticais incluem uma coluna extra, indicando a respectiva categoria.

Nos casos em que os corpos estão caracterizados por variante, apresentamos também as listas por variante, em que o sufixo br e pt indicam respetivamente a variante brasileira e a portuguesa.

CorpoFormasLemas
NADJADVVVAUXNUMGRAMtodosNADJADVVVAUXNUMPROPGRAMtodostodos/pos
chavebr945 1,2 Mb 635 kb 57 kb 1,3 Mb 4 kb 525 kb 26 kb 4,8 Mb 827 kb 336 kb 43 kb 157 kb65 b 559 kb 5,9 Mb 5 kb 7,8 Mb 8,3 Mb
chavept945 1,4 Mb 742 kb 73 kb 1,7 Mb 9 kb 466 kb 29 kb 5,9 Mb 948 kb 391 kb 55 kb 158 kb82 b 536 kb 7,7 Mb 6 kb 9,7 Mb 10,4 Mb
cdharembr 69 kb 28 kb 4 kb 56 kb0 b 3 kb 6 kb 195 kb 50 kb 18 kb 3 kb 16 kb0 b 4 kb 55 kb 1 kb 147 kb0 b
cdharempt 67 kb 29 kb 5 kb 59 kb0 b 4 kb 6 kb 202 kb 48 kb 19 kb 4 kb 16 kb0 b 4 kb 63 kb 1 kb 157 kb0 b
coloniabr 341 kb 201 kb 27 kb 738 kb0 b 5 kb 16 kb 1,3 Mb 230 kb 101 kb 23 kb 74 kb0 b 7 kb 138 kb 4 kb 521 kb0 b
coloniapt 360 kb 193 kb 25 kb 571 kb0 b 5 kb 17 kb 1,2 Mb 254 kb 109 kb 21 kb 84 kb0 b 9 kb 289 kb 4 kb 644 kb0 b
enpcpubbr 33 kb 14 kb 4 kb 36 kb0 b862 b 5 kb 96 kb 26 kb 11 kb 3 kb 11 kb0 b 1 kb 7 kb 1 kb 63 kb0 b
enpcpubpt 20 kb 9 kb 3 kb 26 kb0 b334 b 4 kb 63 kb 16 kb 7 kb 2 kb 8 kb0 b303 b 2 kb 1 kb 38 kb0 b
museudapessoabr 128 kb 57 kb 8 kb 142 kb 1 kb 3 kb 9 kb 370 kb 90 kb 34 kb 6 kb 28 kb56 b 5 kb 103 kb 2 kb 263 kb0 b
museudapessoapt 70 kb 23 kb 5 kb 91 kb 1 kb 2 kb 7 kb 202 kb 50 kb 14 kb 3 kb 16 kb51 b 3 kb 30 kb 2 kb 120 kb0 b

Finalmente, apresentamos também as listas do Vercial separadas em antes do século XIX (sufixo "ant") e depois(sufixo "mod").

CorpoFormasLemas
NADJADVVVAUXNUMGRAMtodosNADJADVVNUMPROPGRAMtodostodos/pos
vercialant 298 kb 157 kb 20 kb 577 kb 11 kb 9 kb 61 kb 1,0 Mb 204 kb 76 kb 15 kb 85 kb58 b 8 kb 244 kb 5 kb 616 kb 730 kb
vercialmod 759 kb 431 kb 63 kb 2,1 Mb 29 kb 52 kb 79 kb 3,2 Mb 481 kb 182 kb 50 kb 138 kb86 b 38 kb 1,2 Mb 9 kb 2,0 Mb 2,2 Mb

Veja-se também informação semelhante relativa à parte portuguesa do COMPARA e do CorTrad:

CorpoFormasLemas
NADJADVVtodosNADJADVVPrópriostodos
COMPARA (parte portuguesa) 545 kb 276 kb 42 kb 774 kb 1,7 Mb 327 kb 141 kb 37 kb 202 kb 219 kb 937 kb
CorTrad jornalístico (original em português) 174 kb 102 kb 10 kb 200 kb 813 kb 117 kb 52 kb 7 kb 36 kb 234 kb 483 kb
CorTrad literário (tradução final em português) 58 kb 31 kb 6 kb 93 kb 294 kb 45 kb 19 kb 4 kb 21 kb 17 kb 107 kb
CorTrad culinário (original em português) 30 kb 15 kb 1 kb 31 kb 120 kb 23 kb 8 kb 1 kb 10 kb 4 kb 48 kb

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última actualização: 24 Junho 2022.
Perguntas, comentários e sugestões.