Unidades e palavras em língua portuguesa:
frequência e ordem

Projecto AC/DC, Linguateca

Information in English


A partir destas páginas, pode aceder à listagem de unidades (palavras e sinais de pontuação), com a respectiva frequência, calculadas com base quer nos distintos corpos de língua portuguesa disponibilizados pelo projecto AC/DC, quer com base nas colecções da rede em português também disponibilizadas pela Linguateca.

As listas referentes aos corpos do AC/DC foram obtidas com recurso à ferramenta cwb-lexdecode do Open CWB (antigo IMS-CWB da Universidade de Estugarda). Os lemas e as categorias gramaticais são apresentadas conforme a sua classificação em contexto pelo anotador sintáctico PALAVRAS, de Eckhard Bick. Todas estas listas foram calculadas a partir das versões anotadas automaticamente dos corpos, pelo que não podemos garantir a completa exactidão dos resultados.

Frequência e ordem de formas e lemas nos corpos AC/DC

Para consultar a ordem ("ranking") e a frequência de palavras ou expressões sublexicais (dentro de uma mesma palavra), desenvolvemos este serviço, que denominámos ordenador.

Alguns comentários:

Descrição do corpoLista de frequência
total das formas
no corpo
Lista de frequência
total dos lemas
no corpo
Todos os corpos 16,5 Mb 36,0 Mb
Todos os corpos portugueses 12,8 Mb 25,6 Mb
Todos os corpos brasileiros 7,0 Mb 12,7 Mb
AmostRA-NILC 280 kb 120 kb
ANCIB 1,3 Mb 1,2 Mb
Avante! 2,1 Mb 1,4 Mb
CD HAREM 511 kb 263 kb
CETEMPúblico 14,8 Mb 21,7 Mb
CHAVE 12,2 Mb 16,2 Mb
CONDIVport 2,6 Mb 1,5 Mb
CoNE 788 kb 570 kb
DiaCLAV 1,8 Mb 1,7 Mb
ECI-EBR 1022 kb 431 kb
ECI-EE 71 kb 30 kb
ENPCPUB (parte em português) 211 kb 83 kb
Floresta 3,0 Mb 2,5 Mb
FrasesPB 98 kb 44 kb
FrasesPP 83 kb 38 kb
Museu da Pessoa 352 kb 139 kb
Natura/Minho 1,1 Mb 925 kb
NILC/São Carlos 6,9 Mb 7,3 Mb
todos juntos 16,2 Mb 43,6 Mb
Vercial 5,2 Mb 2,1 Mb

Procuras parciais, de poucas formas ou lemas:

Formas Lemas

  • Pode procurar usando expressões regulares da linguagem de programação Perl.
  • Para procurar lemas multipalavra, use o seguinte formato: Belo=Horizonte, Castelo=Branco.

    Frequência de formas em colecções da rede

    Para obter as frequências das colecções na rede, o seguinte algoritmo foi usado:
    • no caso do WBR99, foi usada a atomização vinda com a colecção;
    • no caso do WPT03, foi usada outra atomização.
    • no caso do WPT05, a atomização foi feita usando a função tokeniza incluída na biblioteca Lingua::PT::PLNbase.

    Não tentámos, em nenhum dos casos, retirar palavras estrangeiras da lista.

    ColecçãoNº documentosNº palavrasLista de frequência de formas amalgamando maiúsculas e minúsculasNº de formas distintas amalgamando maiúsculas e minúsculas Lista de frequência de formas fazendo a distinção entre maiúsculas e minúsculasNº de formas distintas fazendo a distinção entre maiúsculas e minúsculas
    Colecção WPT-05 9.501.202 5.856.585.035 187M (gz) 25.237.118 206M (gz) 27.861.391
    Colecção WPT-03 1.529.758 1.059.436.086 55,1M (tar.gz) 6.834.451
    Colecção WBR-99 5.939.061 1.915.526.098 14M (tar.gz) 2.669.965

    Frequência de formas e lemas por categoria gramatical nos corpos AC/DC

    CorpoFormasLemas
    NADJADVVNUMGRAMtodosNADJADVVNUMPROPGRAMtodostodos/pos
    AmostRA-NILC 67 kb 30 kb 4 kb 66 kb 1 kb 5 kb 280 kb 52 kb 21 kb 3 kb 22 kb 2 kb 19 kb 1 kb 120 kb 140 kb
    ANCIB 348 kb 101 kb 13 kb 213 kb 57 kb 9 kb 1,3 Mb 265 kb 56 kb 10 kb 51 kb 59 kb 778 kb 3 kb 1,2 Mb 1,3 Mb
    Avante! 384 kb 232 kb 31 kb 660 kb 41 kb 12 kb 2,1 Mb 243 kb 114 kb 24 kb 92 kb 49 kb 956 kb 3 kb 1,4 Mb 1,6 Mb
    CD HAREM 111 kb 48 kb 7 kb 102 kb 7 kb 7 kb 511 kb 77 kb 30 kb 5 kb 27 kb 7 kb 119 kb 2 kb 263 kb 300 kb
    CETEMPúblico 2,2 Mb 1,1 Mb 102 kb 2,6 Mb 881 kb 83 kb 14,8 Mb 1,7 Mb 617 kb 85 kb 304 kb 968 kb 18,1 Mb 31 kb 21,7 Mb 23,0 Mb
    CHAVE 2,0 Mb 981 kb 88 kb 2,2 Mb 829 kb 67 kb 12,2 Mb 1,4 Mb 538 kb 67 kb 262 kb 887 kb 13,1 Mb 22 kb 16,2 Mb 17,3 Mb
    CONDIVport 481 kb 299 kb 36 kb 648 kb 49 kb 24 kb 2,6 Mb 317 kb 160 kb 28 kb 80 kb 58 kb 898 kb 3 kb 1,5 Mb 1,6 Mb
    CoNE 189 kb 56 kb 7 kb 102 kb 38 kb 47 kb 788 kb 135 kb 30 kb 5 kb 28 kb 40 kb 334 kb 2 kb 570 kb 624 kb
    DiaCLAV 356 kb 189 kb 21 kb 551 kb 44 kb 11 kb 1,8 Mb 222 kb 93 kb 16 kb 79 kb 49 kb 1,2 Mb 3 kb 1,7 Mb 1,8 Mb
    ECI-EBR 218 kb 119 kb 16 kb 292 kb 5 kb 9 kb 1022 kb 151 kb 68 kb 12 kb 55 kb 8 kb 145 kb 2 kb 431 kb 505 kb
    ECI-EE 15 kb 10 kb 2 kb 14 kb 1 kb 3 kb 71 kb 11 kb 6 kb 2 kb 5 kb 1 kb 3 kb 1 kb 30 kb 35 kb
    ENPCPUB (parte em português) 45 kb 21 kb 5 kb 58 kb933 b 5 kb 211 kb 35 kb 14 kb 4 kb 18 kb 1 kb 10 kb 1 kb 83 kb 101 kb
    Floresta 631 kb 301 kb 33 kb 720 kb 56 kb 20 kb 3,0 Mb 428 kb 155 kb 28 kb 114 kb 59 kb 1,7 Mb 8 kb 2,5 Mb 2,7 Mb
    FrasesPB 27 kb 10 kb 2 kb 19 kb442 b 3 kb 98 kb 22 kb 8 kb 2 kb 9 kb407 b 2 kb 1 kb 44 kb 52 kb
    FrasesPP 21 kb 9 kb 2 kb 15 kb499 b 3 kb 83 kb 17 kb 7 kb 2 kb 7 kb467 b 2 kb 1 kb 38 kb 44 kb
    Museu da Pessoa 80 kb 27 kb 5 kb 112 kb 2 kb 7 kb 352 kb 57 kb 17 kb 3 kb 23 kb 2 kb 37 kb 2 kb 139 kb 168 kb
    Natura/Minho 231 kb 121 kb 14 kb 282 kb 34 kb 9 kb 1,1 Mb 148 kb 65 kb 11 kb 54 kb 38 kb 621 kb 2 kb 925 kb 1,0 Mb
    NILC/São Carlos 1,2 Mb 589 kb 55 kb 1,3 Mb 567 kb 31 kb 6,9 Mb 800 kb 315 kb 43 kb 175 kb 597 kb 5,4 Mb 8 kb 7,3 Mb 7,8 Mb
    todos juntos0 b0 b0 b0 b0 b0 b 16,2 Mb0 b0 b0 b0 b0 b0 b0 b 43,6 Mb0 b
    Vercial 848 kb 427 kb 55 kb 2,0 Mb 20 kb 329 kb 5,2 Mb 578 kb 208 kb 45 kb 247 kb 25 kb 1,1 Mb 5 kb 2,1 Mb 2,4 Mb
    todos 4,0 Mb 1,7 Mb 152 kb 4,8 Mb 1,6 Mb 485 kb 16,5 Mb 3,0 Mb 1,0 Mb 125 kb 654 kb 1,7 Mb 29,6 Mb 39 kb 36,0 Mb 49,1 Mb
    todos/pt 3,0 Mb 1,4 Mb 132 kb 4,5 Mb 1021 kb 421 kb 16,5 Mb 2,2 Mb 813 kb 108 kb 549 kb 1,0 Mb 21,1 Mb 33 kb 25,6 Mb 35,0 Mb
    todos/br 1,9 Mb 856 kb 76 kb 1,8 Mb 824 kb 46 kb 7,0 Mb 1,3 Mb 478 kb 59 kb 284 kb 867 kb 9,8 Mb 11 kb 12,7 Mb 17,5 Mb

    Foram classificadas como palavras gramaticais todas as palavras que não tenham sido classificadas em nenhuma das outras categorias apresentadas. Por essa razão, as listas de palavras gramaticais incluem uma coluna extra, indicando a respectiva categoria.

    Nos casos em que os corpos estão caracterizados por variante, apresentamos também as listas por variante, em que o sufixo br e pt indicam respetivamente a variante brasileira e a portuguesa.

    CorpoFormasLemas
    NADJADVVNUMGRAMtodosNADJADVVNUMPROPGRAMtodostodos/pos
    chavebr945 1,2 Mb 598 kb 56 kb 1,3 Mb 503 kb 30 kb 4,7 Mb 791 kb 313 kb 42 kb 161 kb 524 kb 6,1 Mb 8 kb 7,8 Mb 8,4 Mb
    chavept945 1,4 Mb 710 kb 71 kb 1,7 Mb 402 kb 50 kb 5,8 Mb 967 kb 372 kb 54 kb 182 kb 446 kb 7,8 Mb 17 kb 9,8 Mb 10,5 Mb
    cdharembr 70 kb 28 kb 5 kb 56 kb 4 kb 21 kb 195 kb 50 kb 18 kb 3 kb 16 kb 4 kb 55 kb 1 kb 147 kb0 b
    cdharempt 68 kb 29 kb 6 kb 60 kb 4 kb 27 kb 202 kb 49 kb 19 kb 4 kb 16 kb 4 kb 63 kb 1 kb 157 kb0 b
    enpcpubbr 33 kb 14 kb 4 kb 36 kb814 b 4 kb 96 kb 27 kb 11 kb 3 kb 12 kb 1 kb 8 kb 1 kb 63 kb0 b
    enpcpubpt 20 kb 9 kb 3 kb 26 kb315 b 3 kb 63 kb 16 kb 7 kb 2 kb 8 kb284 b 2 kb 1 kb 38 kb0 b
    museudapessoabr 14 kb 4 kb 1 kb 17 kb803 b 3 kb 42 kb 11 kb 3 kb 1 kb 5 kb788 b 3 kb 1 kb 26 kb0 b
    museudapessoapt 75 kb 26 kb 5 kb 96 kb 2 kb 6 kb 215 kb 54 kb 16 kb 3 kb 18 kb 2 kb 34 kb 1 kb 130 kb0 b

    Finalmente, apresentamos também as listas do Vercial separadas em antes do século XIX (sufixo "ant") e depois(sufixo "mod").

    CorpoFormasLemas
    NADJADVVNUMGRAMtodosNADJADVVNUMPROPGRAMtodostodos/pos
    vercialant 391 kb 161 kb 15 kb 528 kb 4 kb 25 kb 1,0 Mb 303 kb 79 kb 11 kb 89 kb 5 kb 176 kb 3 kb 658 kb 744 kb
    vercialmod 820 kb 327 kb 32 kb 1,1 Mb 19 kb 30 kb 2,2 Mb 608 kb 128 kb 26 kb 103 kb 19 kb 602 kb 4 kb 1,5 Mb 1,6 Mb

    Veja-se também informação semelhante relativa à parte portuguesa do COMPARA e do CorTrad:

    CorpoFormasLemas
    NADJADVVtodosNADJADVVPrópriostodos
    COMPARA (parte portuguesa) 545 kb 276 kb 42 kb 774 kb 1,7 Mb 327 kb 141 kb 37 kb 202 kb 219 kb 937 kb
    CorTrad jornalístico (original em português) 177 kb 104 kb 10 kb 190 kb 805 kb 122 kb 54 kb 7 kb 32 kb 235 kb 464 kb
    CorTrad literário (tradução final em português) 39 kb 19 kb 4 kb 54 kb 186 kb 31 kb 12 kb 3 kb 15 kb 9 kb 73 kb
    CorTrad culinário (original em português) 30 kb 15 kb 1 kb 31 kb 120 kb 23 kb 8 kb 1 kb 10 kb 4 kb 48 kb

    [ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


    Última actualização: 25 Março 2011.
    Perguntas, comentários e sugestões.