Estrutura do corpo
O corpo está apenas dividido em frases (s).
Além disso, o Corpus Brasileiro contém os seguintes valores do atributo genero, em que o prefixo e indica português escrito e f português falado:
genero | Gênero | Fonte |
ei | Acadêmico | Artigos |
ej | Acadêmico | Teses e dissertações |
eq | Acadêmico | Anais de congresso |
en | Cinema e TV | Roteiros |
ee/ef | Educação | Diversos |
ee/ef | Educação | Diversos |
et | Enciclopédia | Wikipédia |
fa | Esporte | Narração de jogos de futebol |
ek | Informática | Manuais |
ed | Jornalismo | Revistas |
eg | Jornalismo | Jornais |
eo | Jornalismo | Horóscopo |
fe | Jornalismo | Entrevistas |
em/ex | Legislação | Diversos |
em/ex | Legislação | Diversos |
eb | Literatura | Contos |
ec | Literatura | Crônicas |
eh/ew | Literatura | Variados |
eh/ew | Literatura | Variados |
eu | Literatura | Biografias |
ea | Medicina | Bulas de remédio |
ep | Política | Atas de assembléia legislativa |
fb | Política | Debates de TV |
fc | Política | Pronunciamentos do presidente |
fd | Política | Sessões do congresso |
el | Religião | Diversos |
ev | Religião | Bíblia |
er/es | Técnico | Relatórios e manuais diversos |
er/es | Técnico | Relatórios e manuais diversos |
Como todos os corpos do AC/DC, o Corpus Brasileiro está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo.
Genero | Unidades |
ea | 113.004 |
eb | 60.868 |
ec | 162.270 |
ed | 493.987 |
ee | 77.837.313 |
ef | 2.238.525 |
eg | 252.463.912 |
eh | 1.175.698 |
ei | 250.833.467 |
ej | 181.548.444 |
ek | 708.979 |
el | 917.894 |
em | 227.015 |
en | 316.515 |
eo | 4.295 |
ep | 4.046.134 |
eq | 6.892.724 |
er | 5.702.083 |
es | 6.626.983 |
et | 51.643.541 |
eu | 1.149.622 |
ev | 1.748.662 |
ew | 14.463.244 |
ex | 17.885.556 |
fa | 171.494 |
fb | 43.900 |
fc | 3.609.644 |
fd | 81.409.234 |
fe | 3.996.416 |
Versão do corpo
Corpus Brasileiro anotado, versão de 24 de setembro de 2023, v. 7.0
Excerto do corpo
79051727 ea conseqüente conseqüente A 79051728 ea vazamento vazamento J 79051729 ea de de N 79051730 ea constituinte constituintes J 79051731 ea essencial essenciais A 79051732 ea de da S 79051733 ea célula célula J 79051734 ea de do S 79051735 ea fungo fungo J 79051736 ea . . 1
Dados quantitativos
Corpo CBRAS
| Número de formas | Número de tipos |
Unidades | 1074930997 | 5729167 |
Total de palavras | 908625706 | 5175522 |
Palavras em minúscula | 616724751 | 1284008 |
Palavras com inicial maiúscula | 121001747 | 1108312 |
Palavras todas em maiúsculas | 27235131 | 377934 |
Números | 19580384 | 98961 |
Palavras com números | 2194475 | 425360 |
Palavras mistas | 3627211 | 382962 |
Pontuação | 59978372 | 534519 |
Número de unidades estruturais
Atributo | Número |
p | 83 |
s | 39267248 |
mwe | 11863111 |
Contabilização de multipalavras
| Número de entidades | Número de unidades |
Nomes próprios | 64131442 | 103782846 |
Locuções | 11863111 | 25218989 |
Palavras gráficas | 908618773 | 908618773 |
Palavras simples | 779616938 | 779616938 |
Palavras | 855611491 | 908618773 |
Distribuição por categoria gramatical
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
Substantivos | N|N[^U].* | 211065924 | 27,07% |
Verbos | V.* | 100852521 | 12,94% |
Adjectivos | ADJ.* | 59488230 | 7,63% |
Pronomes pessoais | .*PERS.* | 11276561 | 1,45% |
Preposições | PRP.* | 149418513 | 19,17% |
Conjunções | K.* | 35688842 | 4,58% |
Advérbios | ADV.* | 31145023 | 3,99% |
Determinantes | .*DET.* | 139008837 | 17,83% |
Especificadores | .*SPEC.* | 11783243 | 1,51% |
Numerais | NUM.* | 31521741 | 4,04% |
Para informação sobre como foram obtidos este valores, consulte esta página
|