Unidades e palavras em língua portuguesa:
frequência e ordem

Projecto AC/DC, Linguateca

Information in English


A partir destas páginas, pode aceder à listagem de unidades (palavras e sinais de pontuação), com a respectiva frequência, calculadas com base quer nos distintos corpos de língua portuguesa disponibilizados pelo projecto AC/DC, quer com base nas colecções da rede em português também disponibilizadas pela Linguateca.

As listas referentes aos corpos do AC/DC foram obtidas com recurso à ferramenta cwb-lexdecode do Open CWB (antigo IMS-CWB da Universidade de Estugarda). Os lemas e as categorias gramaticais são apresentadas conforme a sua classificação em contexto pelo anotador sintáctico PALAVRAS, de Eckhard Bick. Todas estas listas foram calculadas a partir das versões anotadas automaticamente dos corpos, pelo que não podemos garantir a exatidão dos resultados.

Frequência e ordem de formas e lemas nos corpos AC/DC

Para consultar a ordem ("ranking") e a frequência de palavras ou expressões sublexicais (dentro de uma mesma palavra), desenvolvemos este serviço, que denominámos ordenador.

Alguns comentários:

Descrição do corpoLista de frequência
total das formas
no corpo
Lista de frequência
total dos lemas
no corpo
Todos os corpos 18,4 Mb 40,1 Mb
Todos os corpos portugueses 14,6 Mb 29,5 Mb
Todos os corpos brasileiros 7,7 Mb 13,3 Mb
AmostRA-NILC 280 kb 120 kb
ANCIB 1,3 Mb 1,2 Mb
Avante! 2,1 Mb 1,4 Mb
Corpus Brasileiro 83,5 Mb 157,9 Mb
CD HAREM 511 kb 263 kb
CETEMPúblico 16,4 Mb 24,7 Mb
CHAVE 12,2 Mb 16,1 Mb
Colonia 2,9 Mb 1,2 Mb
CONDIVport 2,5 Mb 1,5 Mb
CoNE 743 kb 570 kb
C-Oral-Brasil 235 kb 100 kb
DiaCLAV 1,7 Mb 1,5 Mb
Diáspora TL-PT 47 kb 19 kb
ECI-EBR 1022 kb 431 kb
ECI-EE 71 kb 30 kb
ENPCPUB (parte em português) 211 kb 83 kb
Floresta 3,0 Mb 2,5 Mb
FrasesPB 98 kb 44 kb
FrasesPP 83 kb 38 kb
Moçambula 175 kb 76 kb
Museu da Pessoa 713 kb 332 kb
Natura/Minho 1,1 Mb 925 kb
OBras 1,3 Mb 408 kb
ReLi 232 kb 95 kb
NILC/São Carlos 7,0 Mb 7,3 Mb
todos juntos 25,5 Mb 233,1 Mb
Tycho Brahe 2,1 Mb 1,1 Mb
Vercial 6,1 Mb 2,8 Mb

Procuras parciais, de poucas formas ou lemas:

Formas Lemas

  • Pode procurar usando expressões regulares da linguagem de programação Perl.
  • Para procurar lemas multipalavra, use o seguinte formato: Belo=Horizonte, Castelo=Branco.

    Frequência de formas em colecções da rede

    Para obter as frequências das colecções na rede, o seguinte algoritmo foi usado:
    • no caso do WBR99, foi usada a atomização vinda com a colecção;
    • no caso do WPT03, foi usada outra atomização.
    • no caso do WPT05, a atomização foi feita usando a função tokeniza incluída na biblioteca Lingua::PT::PLNbase.

    Não tentámos, em nenhum dos casos, retirar palavras estrangeiras da lista.

    ColecçãoNº documentosNº palavrasLista de frequência de formas amalgamando maiúsculas e minúsculasNº de formas distintas amalgamando maiúsculas e minúsculas Lista de frequência de formas fazendo a distinção entre maiúsculas e minúsculasNº de formas distintas fazendo a distinção entre maiúsculas e minúsculas
    Colecção WPT-05 9.501.202 5.856.585.035 187M (gz) 25.237.118 206M (gz) 27.861.391
    Colecção WPT-03 1.529.758 1.059.436.086 55,1M (tar.gz) 6.834.451
    Colecção WBR-99 5.939.061 1.915.526.098 14M (tar.gz) 2.669.965

    Frequência de formas e lemas por categoria gramatical nos corpos AC/DC

    CorpoFormasLemas
    NADJADVVNUMGRAMtodosNADJADVVNUMPROPGRAMtodostodos/pos
    AmostRA-NILC 67 kb 30 kb 4 kb 64 kb 1 kb 5 kb 280 kb 52 kb 21 kb 3 kb 20 kb 2 kb 19 kb 1 kb 120 kb 134 kb
    ANCIB 348 kb 101 kb 13 kb 197 kb 57 kb 9 kb 1,3 Mb 265 kb 56 kb 10 kb 43 kb 58 kb 778 kb 3 kb 1,2 Mb 1,3 Mb
    Avante! 384 kb 232 kb 31 kb 572 kb 41 kb 12 kb 2,1 Mb 243 kb 114 kb 24 kb 65 kb 49 kb 956 kb 3 kb 1,4 Mb 1,5 Mb
    Corpus Brasileiro0 b0 b0 b0 b0 b0 b 83,5 Mb0 b0 b0 b0 b0 b0 b0 b 157,9 Mb0 b
    CD HAREM 111 kb 48 kb 7 kb 97 kb 7 kb 7 kb 511 kb 77 kb 30 kb 5 kb 23 kb 7 kb 119 kb 2 kb 263 kb 291 kb
    CETEMPúblico 2,5 Mb 1,2 Mb 109 kb 2,8 Mb 1014 kb 42 kb 16,4 Mb 1,9 Mb 687 kb 92 kb 335 kb 1,1 Mb 20,7 Mb 8 kb 24,7 Mb 26,2 Mb
    CHAVE 2,0 Mb 976 kb 88 kb 2,2 Mb 827 kb 37 kb 12,2 Mb 1,4 Mb 532 kb 67 kb 256 kb 884 kb 13,0 Mb 7 kb 16,1 Mb 17,1 Mb
    Colonia 533 kb 304 kb 36 kb 1002 kb 10 kb 20 kb 2,9 Mb 382 kb 164 kb 32 kb 123 kb 13 kb 505 kb 6 kb 1,2 Mb 1,3 Mb
    CONDIVport 481 kb 298 kb 36 kb 647 kb 49 kb 18 kb 2,5 Mb 317 kb 160 kb 28 kb 79 kb 58 kb 898 kb 4 kb 1,5 Mb 1,6 Mb
    CoNE 189 kb 56 kb 7 kb 97 kb 38 kb 7 kb 743 kb 135 kb 30 kb 5 kb 24 kb 40 kb 334 kb 2 kb 570 kb 615 kb
    C-Oral-Brasil 53 kb 20 kb 3 kb 47 kb 5 kb 10 kb 235 kb 43 kb 14 kb 2 kb 14 kb 4 kb 21 kb 2 kb 100 kb 117 kb
    DiaCLAV 338 kb 180 kb 20 kb 456 kb 39 kb 10 kb 1,7 Mb 210 kb 88 kb 15 kb 54 kb 44 kb 1,1 Mb 3 kb 1,5 Mb 1,6 Mb
    Diáspora TL-PT 9 kb 3 kb 1 kb 10 kb563 b 3 kb 47 kb 8 kb 2 kb 1 kb 3 kb579 b 3 kb 1 kb 19 kb 23 kb
    ECI-EBR 218 kb 119 kb 16 kb 272 kb 5 kb 9 kb 1022 kb 151 kb 68 kb 12 kb 45 kb 8 kb 145 kb 2 kb 431 kb 478 kb
    ECI-EE 15 kb 10 kb 2 kb 14 kb 1 kb 3 kb 71 kb 11 kb 6 kb 2 kb 5 kb 1 kb 3 kb 1 kb 30 kb 34 kb
    ENPCPUB (parte em português) 45 kb 21 kb 5 kb 55 kb933 b 5 kb 211 kb 35 kb 14 kb 4 kb 15 kb 1 kb 10 kb 1 kb 83 kb 94 kb
    Floresta 631 kb 301 kb 33 kb 641 kb 56 kb 19 kb 3,0 Mb 428 kb 155 kb 28 kb 87 kb 59 kb 1,7 Mb 8 kb 2,5 Mb 2,7 Mb
    FrasesPB 27 kb 10 kb 2 kb 18 kb442 b 3 kb 98 kb 22 kb 8 kb 2 kb 8 kb407 b 2 kb 1 kb 44 kb 50 kb
    FrasesPP 21 kb 9 kb 2 kb 15 kb499 b 3 kb 83 kb 17 kb 7 kb 2 kb 6 kb467 b 2 kb 1 kb 38 kb 42 kb
    Moçambula 39 kb 18 kb 4 kb 40 kb 1 kb 5 kb 175 kb 30 kb 12 kb 3 kb 13 kb 1 kb 14 kb 1 kb 76 kb 86 kb
    Museu da Pessoa 161 kb 69 kb 9 kb 195 kb 4 kb 8 kb 713 kb 111 kb 40 kb 7 kb 33 kb 5 kb 136 kb 2 kb 332 kb 371 kb
    Natura/Minho 231 kb 121 kb 14 kb 254 kb 34 kb 9 kb 1,1 Mb 148 kb 65 kb 11 kb 42 kb 38 kb 621 kb 2 kb 925 kb 998 kb
    OBras 241 kb 149 kb 20 kb 453 kb 3 kb 37 kb 1,3 Mb 167 kb 76 kb 17 kb 57 kb 5 kb 78 kb 5 kb 408 kb 456 kb
    ReLi 46 kb 30 kb 5 kb 58 kb 1 kb 6 kb 232 kb 37 kb 18 kb 4 kb 16 kb 1 kb 17 kb 2 kb 95 kb 108 kb
    NILC/São Carlos 1,2 Mb 589 kb 55 kb 1,3 Mb 567 kb 24 kb 7,0 Mb 804 kb 314 kb 43 kb 173 kb 598 kb 5,5 Mb 5 kb 7,3 Mb 7,9 Mb
    todos juntos 4,3 Mb 1,8 Mb 160 kb 4,4 Mb 1,7 Mb 97 kb 25,5 Mb 3,3 Mb 1,1 Mb 138 kb 615 kb 1,8 Mb 31,8 Mb 16 kb 233,1 Mb 41,1 Mb
    Tycho Brahe 426 kb 210 kb 25 kb 587 kb 12 kb 27 kb 2,1 Mb 318 kb 132 kb 21 kb 122 kb 18 kb 559 kb 10 kb 1,1 Mb 1,3 Mb
    Vercial 1023 kb 504 kb 60 kb 2,0 Mb 27 kb 351 kb 6,1 Mb 709 kb 258 kb 49 kb 223 kb 32 kb 1,6 Mb 5 kb 2,8 Mb 3,1 Mb
    todos 4,5 Mb 2,0 Mb 166 kb 5,1 Mb 1,7 Mb 450 kb 18,4 Mb 3,5 Mb 1,2 Mb 144 kb 666 kb 1,9 Mb 32,9 Mb 17 kb 40,1 Mb 54,6 Mb
    todos/pt 3,4 Mb 1,6 Mb 147 kb 4,4 Mb 1,1 Mb 405 kb 18,4 Mb 2,6 Mb 958 kb 125 kb 552 kb 1,2 Mb 24,3 Mb 15 kb 29,5 Mb 40,2 Mb
    todos/br 2,0 Mb 942 kb 84 kb 2,3 Mb 835 kb 71 kb 7,7 Mb 1,5 Mb 532 kb 70 kb 288 kb 883 kb 10,2 Mb 13 kb 13,3 Mb 18,4 Mb

    Foram classificadas como palavras gramaticais todas as palavras que não tenham sido classificadas em nenhuma das outras categorias apresentadas. Por essa razão, as listas de palavras gramaticais incluem uma coluna extra, indicando a respectiva categoria.

    Nos casos em que os corpos estão caracterizados por variante, apresentamos também as listas por variante, em que o sufixo br e pt indicam respetivamente a variante brasileira e a portuguesa.

    CorpoFormasLemas
    NADJADVVNUMGRAMtodosNADJADVVNUMPROPGRAMtodostodos/pos
    chavebr945 1,2 Mb 598 kb 56 kb 1,3 Mb 504 kb 22 kb 4,7 Mb 794 kb 312 kb 42 kb 158 kb 524 kb 6,1 Mb 5 kb 7,8 Mb 8,4 Mb
    chavept945 1,4 Mb 703 kb 70 kb 1,7 Mb 399 kb 25 kb 5,7 Mb 981 kb 366 kb 53 kb 177 kb 442 kb 7,7 Mb 5 kb 9,7 Mb 10,3 Mb
    cdharembr 69 kb 28 kb 4 kb 56 kb 3 kb 6 kb 195 kb 50 kb 18 kb 3 kb 16 kb 4 kb 55 kb 1 kb 147 kb0 b
    cdharempt 67 kb 29 kb 5 kb 59 kb 4 kb 6 kb 202 kb 48 kb 19 kb 4 kb 16 kb 4 kb 63 kb 1 kb 157 kb0 b
    coloniabr 319 kb 195 kb 26 kb 702 kb 5 kb 13 kb 1,2 Mb 222 kb 99 kb 23 kb 74 kb 6 kb 164 kb 3 kb 600 kb0 b
    coloniapt 330 kb 179 kb 24 kb 539 kb 6 kb 14 kb 1,1 Mb 238 kb 99 kb 21 kb 82 kb 8 kb 298 kb 4 kb 751 kb0 b
    enpcpubbr 33 kb 14 kb 4 kb 36 kb814 b 4 kb 96 kb 27 kb 10 kb 3 kb 12 kb 1 kb 8 kb 1 kb 63 kb0 b
    enpcpubpt 20 kb 9 kb 3 kb 26 kb315 b 3 kb 63 kb 16 kb 7 kb 2 kb 8 kb284 b 2 kb 1 kb 38 kb0 b
    museudapessoabr 129 kb 58 kb 8 kb 143 kb 3 kb 7 kb 370 kb 91 kb 34 kb 6 kb 28 kb 4 kb 106 kb 2 kb 267 kb0 b
    museudapessoapt 71 kb 24 kb 5 kb 92 kb 2 kb 6 kb 204 kb 51 kb 15 kb 3 kb 16 kb 2 kb 32 kb 1 kb 123 kb0 b

    Finalmente, apresentamos também as listas do Vercial separadas em antes do século XIX (sufixo "ant") e depois(sufixo "mod").

    CorpoFormasLemas
    NADJADVVNUMGRAMtodosNADJADVVNUMPROPGRAMtodostodos/pos
    vercialant 296 kb 165 kb 15 kb 611 kb 5 kb 26 kb 950 kb 208 kb 82 kb 11 kb 120 kb 6 kb 200 kb 3 kb 591 kb 748 kb
    vercialmod 541 kb 324 kb 33 kb 1,2 Mb 17 kb 31 kb 1,9 Mb 333 kb 127 kb 26 kb 134 kb 18 kb 595 kb 4 kb 1,2 Mb 1,4 Mb

    Veja-se também informação semelhante relativa à parte portuguesa do COMPARA e do CorTrad:

    CorpoFormasLemas
    NADJADVVtodosNADJADVVPrópriostodos
    COMPARA (parte portuguesa) 545 kb 276 kb 42 kb 774 kb 1,7 Mb 327 kb 141 kb 37 kb 202 kb 219 kb 937 kb
    CorTrad jornalístico (original em português) 177 kb 104 kb 10 kb 190 kb 805 kb 122 kb 54 kb 7 kb 32 kb 235 kb 464 kb
    CorTrad literário (tradução final em português) 39 kb 19 kb 4 kb 54 kb 186 kb 31 kb 12 kb 3 kb 15 kb 9 kb 73 kb
    CorTrad culinário (original em português) 30 kb 15 kb 1 kb 31 kb 120 kb 23 kb 8 kb 1 kb 10 kb 4 kb 48 kb

    [ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


    Última actualização: 02 Julho 2014.
    Perguntas, comentários e sugestões.