Estrutura do corpo
O corpo está apenas dividido em frases (s).
Além disso, o Corpus Brasileiro contém os seguintes valores do atributo genero, em que o prefixo e indica português escrito e f português falado:
genero | Gênero | Fonte |
ei | Acadêmico | Artigos |
ej | Acadêmico | Teses e dissertações |
eq | Acadêmico | Anais de congresso |
en | Cinema e TV | Roteiros |
ee/ef | Educação | Diversos |
ee/ef | Educação | Diversos |
et | Enciclopédia | Wikipédia |
fa | Esporte | Narração de jogos de futebol |
ek | Informática | Manuais |
ed | Jornalismo | Revistas |
eg | Jornalismo | Jornais |
eo | Jornalismo | Horóscopo |
fe | Jornalismo | Entrevistas |
em/ex | Legislação | Diversos |
em/ex | Legislação | Diversos |
eb | Literatura | Contos |
ec | Literatura | Crônicas |
eh/ew | Literatura | Variados |
eh/ew | Literatura | Variados |
eu | Literatura | Biografias |
ea | Medicina | Bulas de remédio |
ep | Política | Atas de assembléia legislativa |
fb | Política | Debates de TV |
fc | Política | Pronunciamentos do presidente |
fd | Política | Sessões do congresso |
el | Religião | Diversos |
ev | Religião | Bíblia |
er/es | Técnico | Relatórios e manuais diversos |
er/es | Técnico | Relatórios e manuais diversos |
Como todos os corpos do AC/DC, o Corpus Brasileiro está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo.
Género | Unidades |
ea | 112.872 |
eb | 60.906 |
ec | 162.264 |
ed | 493.902 |
ee | 79.343.903 |
ef | 3.025.965 |
eg | 356.259.687 |
eh | 1.372.688 |
ei | 256.289.237 |
ej | 153.262.807 |
et | 2.193.673 |
eu | 575.024 |
ev | 874.402 |
ew | 7.227.101 |
ex | 8.659.018 |
fa | 86.132 |
fb | 21.934 |
fc | 1.804.482 |
fd | 75.656.246 |
fe | 3.995.615 |
Versão do corpo
Corpus Brasileiro anotado, versão de 1 de abril de 2023, v. 6.4
Excerto do corpo
79051727 ea conseqüente conseqüente A 79051728 ea vazamento vazamento J 79051729 ea de de N 79051730 ea constituinte constituintes J 79051731 ea essencial essenciais A 79051732 ea de da S 79051733 ea célula célula J 79051734 ea de do S 79051735 ea fungo fungo J 79051736 ea . . 1
Dados quantitativos
Corpo CBRAS
| Número de formas | Número de tipos |
Unidades | 1057661890 | 5145841 |
Total de palavras | 893043840 | 4620871 |
Palavras em minúscula | 614067035 | 1210168 |
Palavras com inicial maiúscula | 112115355 | 923373 |
Palavras todas em maiúsculas | 22086587 | 353498 |
Números | 17359887 | 50849 |
Palavras com números | 2101186 | 382541 |
Palavras mistas | 3014318 | 348150 |
Pontuação | 58576460 | 506531 |
Número de unidades estruturais
Atributo | Número |
p | 7 |
s | 39213589 |
mwe | 11977777 |
Contabilização de multipalavras
| Número de entidades | Número de unidades |
Nomes próprios | 64131442 | 97180116 |
Locuções | 11977777 | 25458405 |
Palavras gráficas | 893041999 | 893041999 |
Palavras simples | 770403478 | 770403478 |
Palavras | 846512697 | 893041999 |
Distribuição por categoria gramatical
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
Substantivos | N|N[^U].* | 209338344 | 27,17% |
Verbos | V.* | 101557010 | 13,18% |
Adjectivos | ADJ.* | 57574377 | 7,47% |
Pronomes pessoais | .*PERS.* | 11383464 | 1,48% |
Preposições | PRP.* | 146962638 | 19,08% |
Conjunções | K.* | 34950369 | 4,54% |
Advérbios | ADV.* | 31693770 | 4,11% |
Determinantes | .*DET.* | 138754250 | 18,01% |
Especificadores | .*SPEC.* | 11798249 | 1,53% |
Numerais | NUM.* | 29488348 | 3,83% |
Para informação sobre como foram obtidos este valores, consulte esta página
|