Unidades e palavras em língua portuguesa:
frequência e ordem

Projecto AC/DC, Linguateca

Information in English


A partir destas páginas, pode aceder à listagem de unidades (palavras e sinais de pontuação), com a respectiva frequência, calculadas com base quer nos distintos corpos de língua portuguesa disponibilizados pelo projecto AC/DC, quer com base nas colecções da rede em português também disponibilizadas pela Linguateca.

As listas referentes aos corpos do AC/DC foram obtidas com recurso à ferramenta cwb-lexdecode do Open CWB (antigo IMS-CWB da Universidade de Estugarda). Os lemas e as categorias gramaticais são apresentadas conforme a sua classificação em contexto pelo anotador sintáctico PALAVRAS, de Eckhard Bick. Todas estas listas foram calculadas a partir das versões anotadas automaticamente dos corpos, pelo que não podemos garantir a exatidão dos resultados.

Frequência e ordem de formas e lemas nos corpos AC/DC

Para consultar a ordem ("ranking") e a frequência de palavras ou expressões sublexicais (dentro de uma mesma palavra), desenvolvemos este serviço, que denominámos ordenador.

Alguns comentários:

Descrição do corpoLista de frequência
total das formas
no corpo
Lista de frequência
total dos lemas
no corpo
Todos os corpos 19,2 Mb 41,0 Mb
Todos os corpos portugueses 15,0 Mb 29,7 Mb
Todos os corpos brasileiros 8,2 Mb 14,2 Mb
AmostRA-NILC 282 kb 121 kb
ANCIB 1,4 Mb 1,0 Mb
Avante! 2,1 Mb 1,5 Mb
Corpus Brasileiro 98,6 Mb 204,9 Mb
CD HAREM 511 kb 263 kb
CETEMPúblico 16,7 Mb 25,0 Mb
CHAVE 12,5 Mb 16,5 Mb
Ciência Viva 626 kb 321 kb
Colonia 2,9 Mb 1,1 Mb
CONDIVport 2,6 Mb 1,3 Mb
CONDIVport2 329 kb 165 kb
CoNE 710 kb 592 kb
C-Oral-Brasil 228 kb 97 kb
DHBB 2,1 Mb 3,4 Mb
DiaCLAV 1,8 Mb 1,7 Mb
Diáspora TL-PT 47 kb 19 kb
ECI-EBR 1,0 Mb 430 kb
ECI-EE 71 kb 31 kb
ENPCPUB (parte em português) 211 kb 82 kb
Floresta 3,0 Mb 2,5 Mb
FrasesPB 98 kb 44 kb
FrasesPP 83 kb 38 kb
Mariano Gago 540 kb 296 kb
Marielle, presente! 295 kb 158 kb
Moçambula 175 kb 77 kb
Museu da Pessoa 711 kb 335 kb
Natura/Minho 1,1 Mb 958 kb
NOBRE 2,0 Mb 674 kb
OBras 2,6 Mb 814 kb
P'lo Norte 130 kb 55 kb
Português Falado - Documentos Autênticos 97 kb 41 kb
ReLi 286 kb 91 kb
NILC/São Carlos 6,1 Mb 5,3 Mb
todos juntos 111,8 Mb 231,9 Mb
Tycho Brahe 874 kb 383 kb
Vercial 5,7 Mb 2,0 Mb

Procuras parciais, de poucas formas ou lemas:

Formas Lemas

  • Pode procurar usando expressões regulares da linguagem de programação Perl.
  • Para procurar lemas multipalavra, use o seguinte formato: Belo=Horizonte, Castelo=Branco.

    Frequência de formas em colecções da rede

    Para obter as frequências das colecções na rede, o seguinte algoritmo foi usado:
    • no caso do WBR99, foi usada a atomização vinda com a colecção;
    • no caso do WPT03, foi usada outra atomização.
    • no caso do WPT05, a atomização foi feita usando a função tokeniza incluída na biblioteca Lingua::PT::PLNbase.

    Não tentámos, em nenhum dos casos, retirar palavras estrangeiras da lista.

    ColecçãoNº documentosNº palavrasLista de frequência de formas amalgamando maiúsculas e minúsculasNº de formas distintas amalgamando maiúsculas e minúsculas Lista de frequência de formas fazendo a distinção entre maiúsculas e minúsculasNº de formas distintas fazendo a distinção entre maiúsculas e minúsculas
    Colecção WPT-05 9.501.202 5.856.585.035 187M (gz) 25.237.118 206M (gz) 27.861.391
    Colecção WPT-03 1.529.758 1.059.436.086 55,1M (tar.gz) 6.834.451
    Colecção WBR-99 5.939.061 1.915.526.098 14M (tar.gz) 2.669.965

    Frequência de formas e lemas por categoria gramatical nos corpos AC/DC

    CorpoFormasLemas
    NADJADVVNUMGRAMtodosNADJADVVNUMPROPGRAMtodostodos/pos
    AmostRA-NILC 67 kb 31 kb 4 kb 64 kb 1 kb 6 kb 282 kb 51 kb 22 kb 4 kb 20 kb 2 kb 20 kb 2 kb 121 kb 136 kb
    ANCIB 266 kb 111 kb 13 kb 198 kb 53 kb 99 kb 1,4 Mb 182 kb 61 kb 10 kb 40 kb 56 kb 712 kb 4 kb 1,0 Mb 1,1 Mb
    Avante! 372 kb 234 kb 31 kb 567 kb 41 kb 15 kb 2,1 Mb 241 kb 118 kb 26 kb 61 kb 50 kb 1,1 Mb 3 kb 1,5 Mb 1,7 Mb
    Corpus Brasileiro 20,2 Mb 6,5 Mb 331 kb 7,0 Mb 10,9 Mb 976 kb 98,6 Mb 18,1 Mb 5,0 Mb 269 kb 2,8 Mb 13,4 Mb 165,8 Mb 268 kb 204,9 Mb 216,6 Mb
    CD HAREM 111 kb 48 kb 7 kb 97 kb 7 kb 7 kb 511 kb 77 kb 30 kb 5 kb 23 kb 7 kb 119 kb 2 kb 263 kb 291 kb
    CETEMPúblico 2,4 Mb 1,2 Mb 105 kb 2,7 Mb 1,1 Mb 316 kb 16,7 Mb 1,8 Mb 731 kb 84 kb 299 kb 1,2 Mb 21,0 Mb 8 kb 25,0 Mb 26,6 Mb
    CHAVE 1,9 Mb 1020 kb 86 kb 2,1 Mb 872 kb 246 kb 12,5 Mb 1,3 Mb 566 kb 68 kb 232 kb 950 kb 13,4 Mb 8 kb 16,5 Mb 17,6 Mb
    Ciência Viva 129 kb 72 kb 10 kb 124 kb 11 kb 23 kb 626 kb 92 kb 41 kb 8 kb 24 kb 12 kb 142 kb 3 kb 321 kb 353 kb
    Colonia 536 kb 297 kb 37 kb 1022 kb 8 kb 29 kb 2,9 Mb 368 kb 160 kb 34 kb 115 kb 11 kb 410 kb 6 kb 1,1 Mb 1,2 Mb
    CONDIVport 482 kb 314 kb 37 kb 646 kb 50 kb 36 kb 2,6 Mb 311 kb 166 kb 31 kb 74 kb 60 kb 684 kb 5 kb 1,3 Mb 1,4 Mb
    CONDIVport2 71 kb 30 kb 5 kb 65 kb 6 kb 8 kb 329 kb 50 kb 19 kb 4 kb 17 kb 6 kb 68 kb 2 kb 165 kb 185 kb
    CoNE 173 kb 46 kb 6 kb 80 kb 34 kb 96 kb 710 kb 132 kb 27 kb 5 kb 21 kb 36 kb 316 kb 87 kb 592 kb 668 kb
    C-Oral-Brasil 55 kb 21 kb 3 kb 47 kb 1 kb 10 kb 228 kb 44 kb 15 kb 2 kb 14 kb 1 kb 20 kb 2 kb 97 kb 114 kb
    DHBB 408 kb 187 kb 21 kb 430 kb 82 kb 526 kb 2,1 Mb 307 kb 104 kb 17 kb 57 kb 85 kb 2,8 Mb 153 kb 3,4 Mb 3,7 Mb
    DiaCLAV 341 kb 189 kb 21 kb 469 kb 48 kb 13 kb 1,8 Mb 216 kb 97 kb 17 kb 53 kb 54 kb 1,3 Mb 3 kb 1,7 Mb 1,9 Mb
    Diáspora TL-PT 9 kb 3 kb 1 kb 10 kb565 b 3 kb 47 kb 8 kb 2 kb 1 kb 3 kb574 b 3 kb 1 kb 19 kb 22 kb
    ECI-EBR 215 kb 121 kb 16 kb 271 kb 5 kb 12 kb 1,0 Mb 147 kb 70 kb 13 kb 44 kb 9 kb 146 kb 3 kb 430 kb 477 kb
    ECI-EE 15 kb 9 kb 2 kb 14 kb 1 kb 3 kb 71 kb 11 kb 6 kb 2 kb 5 kb 1 kb 3 kb 1 kb 31 kb 35 kb
    ENPCPUB (parte em português) 44 kb 21 kb 5 kb 55 kb1005 b 6 kb 211 kb 35 kb 15 kb 4 kb 15 kb 1 kb 10 kb 1 kb 82 kb 93 kb
    Floresta 631 kb 301 kb 33 kb 640 kb 56 kb 20 kb 3,0 Mb 430 kb 155 kb 29 kb 87 kb 59 kb 1,7 Mb 8 kb 2,5 Mb 2,7 Mb
    FrasesPB 26 kb 10 kb 2 kb 18 kb451 b 4 kb 98 kb 22 kb 8 kb 2 kb 8 kb419 b 2 kb 1 kb 44 kb 50 kb
    FrasesPP 21 kb 9 kb 2 kb 15 kb538 b 3 kb 83 kb 17 kb 7 kb 2 kb 6 kb504 b 3 kb 1 kb 38 kb 43 kb
    Mariano Gago 108 kb 58 kb 10 kb 135 kb 7 kb 10 kb 540 kb 75 kb 34 kb 8 kb 24 kb 7 kb 145 kb 2 kb 296 kb 324 kb
    Marielle, presente! 62 kb 28 kb 5 kb 65 kb 5 kb 10 kb 295 kb 43 kb 17 kb 4 kb 16 kb 7 kb 70 kb 2 kb 158 kb 175 kb
    Moçambula 39 kb 18 kb 4 kb 40 kb 1 kb 5 kb 175 kb 30 kb 12 kb 3 kb 13 kb 1 kb 14 kb 1 kb 77 kb 86 kb
    Museu da Pessoa 157 kb 69 kb 9 kb 193 kb 4 kb 9 kb 711 kb 109 kb 40 kb 7 kb 32 kb 5 kb 142 kb 2 kb 335 kb 373 kb
    Natura/Minho 220 kb 121 kb 14 kb 251 kb 36 kb 11 kb 1,1 Mb 145 kb 67 kb 12 kb 40 kb 40 kb 653 kb 2 kb 958 kb 1,0 Mb
    NOBRE 367 kb 231 kb 32 kb 685 kb 4 kb 29 kb 2,0 Mb 248 kb 118 kb 28 kb 82 kb 6 kb 189 kb 4 kb 674 kb 755 kb
    OBras 451 kb 264 kb 36 kb 990 kb 9 kb 24 kb 2,6 Mb 292 kb 127 kb 32 kb 87 kb 12 kb 251 kb 5 kb 814 kb 895 kb
    P'lo Norte 29 kb 12 kb 3 kb 26 kb 1 kb 5 kb 130 kb 22 kb 8 kb 2 kb 8 kb 1 kb 10 kb 1 kb 55 kb 62 kb
    Português Falado - Documentos Autênticos 23 kb 8 kb 2 kb 24 kb436 b 3 kb 97 kb 19 kb 6 kb 2 kb 8 kb 1 kb 3 kb 1 kb 41 kb 47 kb
    ReLi 48 kb 30 kb 6 kb 56 kb 1 kb 50 kb 286 kb 36 kb 18 kb 4 kb 16 kb 1 kb 15 kb 2 kb 91 kb 105 kb
    NILC/São Carlos 1,0 Mb 553 kb 50 kb 1,1 Mb 495 kb 48 kb 6,1 Mb 677 kb 293 kb 41 kb 136 kb 527 kb 3,7 Mb 6 kb 5,3 Mb 5,7 Mb
    todos juntos 22,5 Mb 7,3 Mb 400 kb 11,7 Mb 12,6 Mb 6,7 Mb 111,8 Mb 20,0 Mb 5,6 Mb 345 kb 3,4 Mb 14,4 Mb 188,3 Mb 1,4 Mb 231,9 Mb 246,2 Mb
    Tycho Brahe 169 kb 83 kb 12 kb 253 kb 4 kb 10 kb 874 kb 122 kb 49 kb 10 kb 48 kb 6 kb 144 kb 2 kb 383 kb 424 kb
    Vercial 926 kb 541 kb 60 kb 2,0 Mb 25 kb 89 kb 5,7 Mb 609 kb 281 kb 53 kb 194 kb 33 kb 934 kb 7 kb 2,0 Mb 2,3 Mb
    todos 4,5 Mb 2,2 Mb 170 kb 4,9 Mb 1,8 Mb 1,2 Mb 19,2 Mb 3,4 Mb 1,3 Mb 145 kb 621 kb 2,0 Mb 33,7 Mb 252 kb 41,0 Mb 56,0 Mb
    todos/pt 3,4 Mb 1,7 Mb 147 kb 4,2 Mb 1,1 Mb 447 kb 19,2 Mb 2,5 Mb 1,1 Mb 124 kb 525 kb 1,3 Mb 24,3 Mb 13 kb 29,7 Mb 40,6 Mb
    todos/br 2,1 Mb 1,0 Mb 89 kb 2,4 Mb 828 kb 727 kb 8,2 Mb 1,5 Mb 596 kb 76 kb 291 kb 879 kb 10,9 Mb 162 kb 14,2 Mb 19,6 Mb

    Foram classificadas como palavras gramaticais todas as palavras que não tenham sido classificadas em nenhuma das outras categorias apresentadas. Por essa razão, as listas de palavras gramaticais incluem uma coluna extra, indicando a respectiva categoria.

    Nos casos em que os corpos estão caracterizados por variante, apresentamos também as listas por variante, em que o sufixo br e pt indicam respetivamente a variante brasileira e a portuguesa.

    CorpoFormasLemas
    NADJADVVNUMGRAMtodosNADJADVVNUMPROPGRAMtodostodos/pos
    chavebr945 1,1 Mb 613 kb 54 kb 1,2 Mb 511 kb 22 kb 4,6 Mb 754 kb 325 kb 43 kb 145 kb 537 kb 6,2 Mb 5 kb 7,9 Mb 8,5 Mb
    chavept945 1,3 Mb 736 kb 70 kb 1,7 Mb 441 kb 26 kb 5,8 Mb 939 kb 392 kb 56 kb 164 kb 500 kb 8,1 Mb 6 kb 10,1 Mb 10,7 Mb
    cdharembr 69 kb 28 kb 4 kb 56 kb 3 kb 6 kb 195 kb 50 kb 18 kb 3 kb 16 kb 4 kb 55 kb 1 kb 147 kb0 b
    cdharempt 67 kb 29 kb 5 kb 59 kb 4 kb 6 kb 202 kb 48 kb 19 kb 4 kb 16 kb 4 kb 63 kb 1 kb 157 kb0 b
    coloniabr 330 kb 199 kb 26 kb 727 kb 5 kb 13 kb 1,3 Mb 219 kb 101 kb 23 kb 75 kb 7 kb 193 kb 3 kb 583 kb0 b
    coloniapt 351 kb 190 kb 24 kb 566 kb 7 kb 14 kb 1,2 Mb 244 kb 108 kb 21 kb 89 kb 9 kb 330 kb 4 kb 758 kb0 b
    enpcpubbr 33 kb 14 kb 4 kb 36 kb862 b 5 kb 96 kb 26 kb 11 kb 3 kb 11 kb 1 kb 7 kb 1 kb 63 kb0 b
    enpcpubpt 20 kb 9 kb 3 kb 26 kb334 b 4 kb 63 kb 16 kb 7 kb 2 kb 8 kb303 b 2 kb 1 kb 38 kb0 b
    museudapessoabr 126 kb 58 kb 8 kb 142 kb 3 kb 7 kb 371 kb 89 kb 35 kb 6 kb 28 kb 4 kb 112 kb 2 kb 273 kb0 b
    museudapessoapt 69 kb 24 kb 4 kb 91 kb 2 kb 6 kb 202 kb 49 kb 15 kb 3 kb 16 kb 2 kb 33 kb 2 kb 122 kb0 b

    Finalmente, apresentamos também as listas do Vercial separadas em antes do século XIX (sufixo "ant") e depois(sufixo "mod").

    CorpoFormasLemas
    NADJADVVNUMGRAMtodosNADJADVVNUMPROPGRAMtodostodos/pos
    vercialant 311 kb 185 kb 17 kb 584 kb 6 kb 37 kb 1,1 Mb 222 kb 109 kb 13 kb 129 kb 6 kb 338 kb 3 kb 774 kb 963 kb
    vercialmod 797 kb 452 kb 56 kb 2,2 Mb 40 kb 53 kb 3,3 Mb 515 kb 216 kb 47 kb 198 kb 33 kb 1,4 Mb 5 kb 2,4 Mb 2,7 Mb

    Veja-se também informação semelhante relativa à parte portuguesa do COMPARA e do CorTrad:

    CorpoFormasLemas
    NADJADVVtodosNADJADVVPrópriostodos
    COMPARA (parte portuguesa) 545 kb 276 kb 42 kb 774 kb 1,7 Mb 327 kb 141 kb 37 kb 202 kb 219 kb 937 kb
    CorTrad jornalístico (original em português) 174 kb 102 kb 10 kb 200 kb 802 kb 117 kb 52 kb 7 kb 36 kb 234 kb 469 kb
    CorTrad literário (tradução final em português) 58 kb 31 kb 6 kb 93 kb 280 kb 45 kb 19 kb 4 kb 21 kb 17 kb 102 kb
    CorTrad culinário (original em português) 30 kb 15 kb 1 kb 31 kb 120 kb 23 kb 8 kb 1 kb 10 kb 4 kb 48 kb

    [ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


    Última actualização: 01 Agosto 2016.
    Perguntas, comentários e sugestões.