Unidades e palavras em língua portuguesa:
frequência e ordem
Projecto AC/DC, Linguateca
Information in English
A partir destas páginas, pode aceder à listagem de unidades (palavras e sinais de pontuação), com a respectiva frequência, calculadas com base quer nos distintos corpos de língua portuguesa disponibilizados pelo projecto AC/DC, quer com base nas colecções da rede em português também disponibilizadas pela Linguateca.
As listas referentes aos corpos do AC/DC foram obtidas com recurso à ferramenta cwb-lexdecode do Open CWB (antigo
IMS-CWB da Universidade de Estugarda).
Os lemas e as categorias gramaticais são apresentadas conforme a sua classificação em contexto pelo anotador sintáctico PALAVRAS, de Eckhard Bick.
Todas estas listas foram calculadas a partir das versões anotadas automaticamente dos corpos, pelo que não podemos garantir a exatidão dos resultados.
Frequência e ordem de formas e lemas nos corpos AC/DC
Para consultar a ordem ("ranking") e a frequência de palavras ou expressões sublexicais (dentro de uma mesma palavra), desenvolvemos este serviço, que denominámos ordenador.
Alguns comentários:
- No caso dos nomes próprios, os valores das listas foram calculados dividindo o número de ocorrências de cada lema pelo número de palavras que o compõem (por exemplo, a expressão Universidade do Porto é composta de três palavras, a cada uma das quais é atribuído o lema Universidade=do=Porto).
- Nas listas referentes a todos os corpos tentámos não incluir aqueles que são um subconjunto de corpos maiores. Ou seja, o Natura/Público e o CETEMPúblico (primeiro milhão) não foram contados, visto que estão incluídos no CETEMPúblico. Da mesma forma, apenas as edições de 1995 da Folha de São Paulo da colecção CHAVE foram incorporadas, visto que 1994 já se encontrava no corpo NILC/São Carlos e todo o Público no CETEMPúblico.
- Apenas considerámos, para a secção "Todos os corpos portugueses" ou "Todos os corpos brasileiros", os corpos que, ou fossem exclusivamente da variante em questão, ou tivessem as partes de cada variante bem delimitadas (através do atributo posicional variante). Repare-se que de momento o corpo CBRAS ainda não foi adicionado ao conjunto dos corpos.
- Pode procurar usando expressões regulares da linguagem
de
programação Perl.
- Para procurar lemas multipalavra, use o seguinte formato:
Belo=Horizonte,
Castelo=Branco.
Frequência de formas em colecções da rede
Para obter as frequências das colecções na rede, o seguinte algoritmo foi usado:
- no caso do WBR99, foi usada a atomização vinda com a colecção;
- no caso do WPT03, foi usada outra atomização.
- no caso do WPT05, a atomização foi feita usando a função tokeniza incluída na biblioteca Lingua::PT::PLNbase.
Não tentámos, em nenhum dos casos, retirar palavras estrangeiras da lista.
Colecção | Nº documentos | Nº palavras | Lista de frequência de formas amalgamando maiúsculas e minúsculas | Nº de formas distintas amalgamando maiúsculas e minúsculas |
Lista de frequência de formas fazendo a distinção entre maiúsculas e minúsculas | Nº de formas distintas fazendo a distinção entre maiúsculas e minúsculas |
Colecção WPT-05 |
9.501.202 |
5.856.585.035 |
187M (gz) |
25.237.118 |
206M (gz) |
27.861.391 |
Colecção WPT-03 |
1.529.758 |
1.059.436.086 |
55,1M (tar.gz) |
6.834.451 |
Colecção WBR-99 |
5.939.061 |
1.915.526.098 |
14M (tar.gz) |
2.669.965 |
|
|
Frequência de formas e lemas por categoria gramatical nos corpos AC/DC
Corpo | Formas | Lemas
|
N | ADJ | ADV | V | VAUX | NUM | GRAM | todos | N | ADJ | ADV | V | VAUX | NUM | PROP | GRAM | todos | todos/pos
|
AmostRA-NILC | 67 kb | 30 kb | 4 kb | 64 kb | 801 b | 1 kb | 6 kb | 280 kb | 50 kb | 20 kb | 4 kb | 19 kb | 49 b | 2 kb | 20 kb | 2 kb | 118 kb | 133 kb |
ANCIB | 253 kb | 114 kb | 14 kb | 205 kb | 1 kb | 50 kb | 20 kb | 1,3 Mb | 133 kb | 50 kb | 11 kb | 34 kb | 54 b | 56 kb | 716 kb | 6 kb | 997 kb | 1,1 Mb |
Avante! | 382 kb | 233 kb | 35 kb | 563 kb | 3 kb | 39 kb | 28 kb | 2,1 Mb | 212 kb | 93 kb | 31 kb | 51 kb | 60 b | 54 kb | 1,1 Mb | 14 kb | 1,5 Mb | 1,6 Mb |
Corpus Brasileiro | 19,7 Mb | 6,9 Mb | 427 kb | 7,6 Mb | 13 kb | 11,8 Mb | 1,3 Mb | 100,9 Mb | 17,7 Mb | 5,1 Mb | 360 kb | 2,2 Mb | 698 b | 15,2 Mb | 145,4 Mb | 208 kb | 185,1 Mb | 196,5 Mb |
CD HAREM | 111 kb | 48 kb | 7 kb | 97 kb | 0 b | 7 kb | 7 kb | 511 kb | 77 kb | 30 kb | 5 kb | 23 kb | 0 b | 7 kb | 119 kb | 2 kb | 263 kb | 291 kb |
CETEMPúblico | 2,5 Mb | 1,2 Mb | 140 kb | 2,7 Mb | 12 kb | 1,1 Mb | 192 kb | 16,8 Mb | 1,6 Mb | 420 kb | 111 kb | 141 kb | 79 b | 1,3 Mb | 21,9 Mb | 184 kb | 25,4 Mb | 27,2 Mb |
CHAVE | 2,0 Mb | 1018 kb | 107 kb | 2,1 Mb | 9 kb | 887 kb | 121 kb | 12,5 Mb | 1,1 Mb | 337 kb | 88 kb | 123 kb | 78 b | 1009 kb | 13,3 Mb | 97 kb | 15,8 Mb | 17,0 Mb |
Ciência Viva | 144 kb | 85 kb | 12 kb | 146 kb | 1 kb | 11 kb | 10 kb | 715 kb | 92 kb | 41 kb | 10 kb | 26 kb | 53 b | 13 kb | 191 kb | 3 kb | 374 kb | 414 kb |
Colonia | 539 kb | 285 kb | 41 kb | 1,0 Mb | 6 kb | 10 kb | 31 kb | 2,9 Mb | 286 kb | 110 kb | 35 kb | 86 kb | 59 b | 17 kb | 398 kb | 7 kb | 932 kb | 1,0 Mb |
CONDIVport | 510 kb | 312 kb | 41 kb | 656 kb | 4 kb | 49 kb | 37 kb | 2,6 Mb | 246 kb | 116 kb | 33 kb | 59 kb | 61 b | 68 kb | 712 kb | 10 kb | 1,2 Mb | 1,3 Mb |
CONDIVport2 | 73 kb | 30 kb | 5 kb | 65 kb | 918 b | 6 kb | 6 kb | 328 kb | 50 kb | 18 kb | 4 kb | 17 kb | 52 b | 6 kb | 69 kb | 2 kb | 165 kb | 185 kb |
CoNE | 160 kb | 65 kb | 8 kb | 105 kb | 1 kb | 37 kb | 29 kb | 806 kb | 83 kb | 30 kb | 6 kb | 22 kb | 52 b | 40 kb | 315 kb | 4 kb | 495 kb | 542 kb |
C-Oral-Brasil | 55 kb | 19 kb | 3 kb | 49 kb | 680 b | 3 kb | 12 kb | 230 kb | 39 kb | 12 kb | 2 kb | 14 kb | 51 b | 4 kb | 20 kb | 2 kb | 92 kb | 108 kb |
CORDIAL-SIN | 117 kb | 29 kb | 3 kb | 155 kb | 2 kb | 1 kb | 12 kb | 486 kb | 63 kb | 14 kb | 2 kb | 21 kb | 55 b | 4 kb | 24 kb | 3 kb | 132 kb | 151 kb |
CorTrad, lado português | 0 b | 0 b | 0 b | 0 b | 0 b | 0 b | 0 b | 0 b | 0 b | 0 b | 0 b | 0 b | 0 b | 0 b | 0 b | 0 b | 0 b | 0 b |
DHBB | 360 kb | 197 kb | 22 kb | 455 kb | 2 kb | 93 kb | 27 kb | 2,2 Mb | 263 kb | 81 kb | 19 kb | 44 kb | 71 b | 101 kb | 3,7 Mb | 31 kb | 4,2 Mb | 4,5 Mb |
DiaCLAV | 366 kb | 190 kb | 23 kb | 470 kb | 3 kb | 44 kb | 24 kb | 1,9 Mb | 208 kb | 79 kb | 19 kb | 46 kb | 62 b | 55 kb | 1,3 Mb | 16 kb | 1,7 Mb | 1,8 Mb |
Diáspora TL-PT | 9 kb | 3 kb | 1 kb | 10 kb | 416 b | 579 b | 4 kb | 47 kb | 8 kb | 2 kb | 1 kb | 3 kb | 45 b | 590 b | 2 kb | 1 kb | 18 kb | 22 kb |
DisPR | 68 kb | 47 kb | 9 kb | 109 kb | 1 kb | 2 kb | 7 kb | 361 kb | 47 kb | 25 kb | 9 kb | 20 kb | 51 b | 2 kb | 22 kb | 2 kb | 128 kb | 142 kb |
ECI-EBR | 217 kb | 119 kb | 16 kb | 271 kb | 2 kb | 5 kb | 12 kb | 1021 kb | 137 kb | 61 kb | 14 kb | 41 kb | 56 b | 13 kb | 141 kb | 4 kb | 409 kb | 458 kb |
ECI-EE | 15 kb | 9 kb | 2 kb | 14 kb | 295 b | 1 kb | 3 kb | 69 kb | 11 kb | 5 kb | 2 kb | 5 kb | 45 b | 1 kb | 2 kb | 1 kb | 29 kb | 33 kb |
ENPCPUB (parte em português) | 45 kb | 21 kb | 5 kb | 54 kb | 1 kb | 993 b | 6 kb | 211 kb | 34 kb | 15 kb | 4 kb | 15 kb | 50 b | 873 b | 8 kb | 1 kb | 79 kb | 90 kb |
Floresta | 554 kb | 268 kb | 30 kb | 571 kb | 2 kb | 49 kb | 76 kb | 2,8 Mb | 372 kb | 138 kb | 26 kb | 79 kb | 58 b | 52 kb | 1,4 Mb | 8 kb | 2,1 Mb | 2,3 Mb |
FrasesPB | 27 kb | 10 kb | 2 kb | 18 kb | 440 b | 433 b | 4 kb | 98 kb | 21 kb | 7 kb | 2 kb | 8 kb | 47 b | 395 b | 2 kb | 1 kb | 44 kb | 50 kb |
FrasesPP | 21 kb | 9 kb | 2 kb | 15 kb | 485 b | 495 b | 3 kb | 83 kb | 17 kb | 7 kb | 2 kb | 6 kb | 45 b | 491 b | 2 kb | 1 kb | 37 kb | 42 kb |
Mariano Gago | 110 kb | 58 kb | 11 kb | 132 kb | 1 kb | 6 kb | 11 kb | 538 kb | 73 kb | 31 kb | 9 kb | 23 kb | 54 b | 7 kb | 147 kb | 4 kb | 294 kb | 322 kb |
LeMe | 152 kb | 109 kb | 8 kb | 100 kb | 1 kb | 31 kb | 15 kb | 741 kb | 96 kb | 52 kb | 7 kb | 23 kb | 56 b | 37 kb | 302 kb | 21 kb | 526 kb | 589 kb |
Literateca | 1,6 Mb | 879 kb | 119 kb | 3,4 Mb | 15 kb | 38 kb | 103 kb | 9,7 Mb | 798 kb | 284 kb | 99 kb | 193 kb | 79 b | 72 kb | 2,5 Mb | 19 kb | 3,9 Mb | 4,4 Mb |
Marielle, presente! | 91 kb | 42 kb | 6 kb | 95 kb | 1 kb | 9 kb | 10 kb | 438 kb | 55 kb | 23 kb | 5 kb | 20 kb | 53 b | 10 kb | 134 kb | 3 kb | 251 kb | 275 kb |
Moçambula | 40 kb | 18 kb | 4 kb | 40 kb | 927 b | 1 kb | 6 kb | 177 kb | 29 kb | 12 kb | 4 kb | 13 kb | 49 b | 1 kb | 13 kb | 1 kb | 74 kb | 83 kb |
Museu da Pessoa | 161 kb | 69 kb | 10 kb | 192 kb | 2 kb | 4 kb | 11 kb | 710 kb | 98 kb | 36 kb | 8 kb | 30 kb | 57 b | 6 kb | 133 kb | 4 kb | 311 kb | 350 kb |
Natura/Minho | 238 kb | 122 kb | 16 kb | 252 kb | 2 kb | 32 kb | 15 kb | 1,2 Mb | 137 kb | 56 kb | 13 kb | 36 kb | 58 b | 41 kb | 625 kb | 7 kb | 909 kb | 984 kb |
NOBRE | 692 kb | 421 kb | 65 kb | 1,5 Mb | 9 kb | 11 kb | 77 kb | 4,2 Mb | 340 kb | 146 kb | 55 kb | 99 kb | 62 b | 20 kb | 524 kb | 9 kb | 1,1 Mb | 1,3 Mb |
OBras | 671 kb | 394 kb | 57 kb | 1,5 Mb | 7 kb | 13 kb | 33 kb | 4,0 Mb | 320 kb | 133 kb | 51 kb | 93 kb | 63 b | 22 kb | 521 kb | 8 kb | 1,1 Mb | 1,3 Mb |
PANTERA, lado português | 146 kb | 76 kb | 13 kb | 242 kb | 2 kb | 3 kb | 11 kb | 771 kb | 106 kb | 44 kb | 11 kb | 37 kb | 26 b | 4 kb | 58 kb | 3 kb | 264 kb | 297 kb |
P'lo Norte | 29 kb | 12 kb | 3 kb | 26 kb | 634 b | 1 kb | 5 kb | 130 kb | 21 kb | 8 kb | 2 kb | 8 kb | 47 b | 1 kb | 10 kb | 1 kb | 54 kb | 61 kb |
Português Falado - Documentos Autênticos | 33 kb | 12 kb | 3 kb | 35 kb | 775 b | 544 b | 5 kb | 138 kb | 25 kb | 8 kb | 2 kb | 10 kb | 51 b | 2 kb | 5 kb | 2 kb | 56 kb | 64 kb |
ReLi | 44 kb | 27 kb | 6 kb | 51 kb | 920 b | 1006 b | 45 kb | 258 kb | 30 kb | 15 kb | 4 kb | 14 kb | 50 b | 1 kb | 10 kb | 2 kb | 75 kb | 88 kb |
NILC/São Carlos | 1,2 Mb | 622 kb | 64 kb | 1,3 Mb | 5 kb | 596 kb | 60 kb | 7,2 Mb | 601 kb | 215 kb | 52 kb | 96 kb | 65 b | 664 kb | 5,3 Mb | 37 kb | 6,8 Mb | 7,4 Mb |
todos juntos | 4,5 Mb | 2,4 Mb | 244 kb | 25,2 Mb | 21 kb | 2,8 Mb | 92,0 Mb | 83,5 Mb | 2,7 Mb | 741 kb | 179 kb | 445 kb | 823 b | 2,2 Mb | 32,3 Mb | 50,6 Mb | 38,4 Mb | 99,2 Mb |
Tycho Brahe | 487 kb | 222 kb | 34 kb | 724 kb | 0 b | 16 kb | 43 kb | 2,4 Mb | 278 kb | 94 kb | 27 kb | 80 kb | 0 b | 30 kb | 662 kb | 7 kb | 1,1 Mb | 1,3 Mb |
Vercial | 914 kb | 495 kb | 67 kb | 2,0 Mb | 11 kb | 27 kb | 47 kb | 5,5 Mb | 458 kb | 169 kb | 58 kb | 122 kb | 63 b | 43 kb | 1,4 Mb | 12 kb | 2,2 Mb | 2,5 Mb |
todos | 4,8 Mb | 2,3 Mb | 239 kb | 5,5 Mb | 21 kb | 2,0 Mb | 438 kb | 20,5 Mb | 2,9 Mb | 782 kb | 186 kb | 321 kb | 80 b | 2,3 Mb | 37,9 Mb | 298 kb | 44,1 Mb | 59,7 Mb |
todos/pt | 3,7 Mb | 1,8 Mb | 204 kb | 4,7 Mb | 20 kb | 1,2 Mb | 321 kb | 20,5 Mb | 2,2 Mb | 606 kb | 159 kb | 258 kb | 79 b | 1,5 Mb | 26,2 Mb | 230 kb | 30,7 Mb | 41,8 Mb |
todos/br | 2,3 Mb | 1,1 Mb | 123 kb | 2,8 Mb | 10 kb | 943 kb | 173 kb | 9,2 Mb | 1,2 Mb | 401 kb | 100 kb | 184 kb | 77 b | 1,0 Mb | 13,4 Mb | 86 kb | 16,3 Mb | 22,1 Mb
|
Foram classificadas como palavras gramaticais todas as palavras que não tenham sido classificadas em nenhuma das outras
categorias apresentadas. Por essa razão, as listas de palavras gramaticais incluem uma coluna extra, indicando a respectiva categoria.
Nos casos em que os corpos estão caracterizados por variante, apresentamos também as listas por variante, em que o sufixo br e pt indicam respetivamente a variante brasileira e a portuguesa.
Corpo | Formas | Lemas
|
N | ADJ | ADV | V | VAUX | NUM | GRAM | todos | N | ADJ | ADV | V | VAUX | NUM | PROP | GRAM | todos | todos/pos
|
chavebr945 | 1,2 Mb | 615 kb | 64 kb | 1,2 Mb | 4 kb | 512 kb | 53 kb | 4,8 Mb | 615 kb | 211 kb | 54 kb | 89 kb | 65 b | 570 kb | 6,0 Mb | 39 kb | 7,5 Mb | 8,1 Mb |
chavept945 | 1,4 Mb | 731 kb | 85 kb | 1,7 Mb | 8 kb | 451 kb | 72 kb | 5,9 Mb | 826 kb | 256 kb | 71 kb | 98 kb | 75 b | 530 kb | 8,0 Mb | 68 kb | 9,7 Mb | 10,4 Mb |
cdharembr | 69 kb | 28 kb | 4 kb | 56 kb | 0 b | 3 kb | 6 kb | 195 kb | 50 kb | 18 kb | 3 kb | 16 kb | 0 b | 4 kb | 55 kb | 1 kb | 147 kb | 0 b |
cdharempt | 67 kb | 29 kb | 5 kb | 59 kb | 0 b | 4 kb | 6 kb | 202 kb | 48 kb | 19 kb | 4 kb | 16 kb | 0 b | 4 kb | 63 kb | 1 kb | 157 kb | 0 b |
coloniabr | 341 kb | 201 kb | 27 kb | 738 kb | 0 b | 5 kb | 16 kb | 1,3 Mb | 230 kb | 101 kb | 23 kb | 74 kb | 0 b | 7 kb | 138 kb | 4 kb | 521 kb | 0 b |
coloniapt | 360 kb | 193 kb | 25 kb | 571 kb | 0 b | 5 kb | 17 kb | 1,2 Mb | 254 kb | 109 kb | 21 kb | 84 kb | 0 b | 9 kb | 289 kb | 4 kb | 644 kb | 0 b |
enpcpubbr | 33 kb | 15 kb | 4 kb | 36 kb | 892 b | 861 b | 5 kb | 96 kb | 26 kb | 11 kb | 3 kb | 11 kb | 49 b | 750 b | 6 kb | 1 kb | 61 kb | 0 b |
enpcpubpt | 20 kb | 9 kb | 3 kb | 26 kb | 646 b | 322 b | 4 kb | 63 kb | 16 kb | 7 kb | 2 kb | 8 kb | 47 b | 297 b | 2 kb | 1 kb | 38 kb | 0 b |
museudapessoabr | 128 kb | 57 kb | 8 kb | 142 kb | 1 kb | 3 kb | 9 kb | 370 kb | 90 kb | 34 kb | 6 kb | 28 kb | 56 b | 5 kb | 103 kb | 2 kb | 263 kb | 0 b |
museudapessoapt | 70 kb | 23 kb | 5 kb | 91 kb | 1 kb | 2 kb | 7 kb | 202 kb | 50 kb | 14 kb | 3 kb | 16 kb | 51 b | 3 kb | 30 kb | 2 kb | 120 kb | 0 b |
Finalmente, apresentamos também as listas do Vercial separadas em antes do século XIX (sufixo "ant") e depois(sufixo "mod").
Veja-se também informação semelhante relativa à parte portuguesa do COMPARA e do CorTrad:
[
Exemplos |
Atomização |
Anotação |
Corpos |
Agradecimentos
]
Última actualização: 24 Junho 2022.
Perguntas, comentários e sugestões.