Acesso a corpos de português: Projecto AC/DC: corpo Corpus Brasileiro

Corpus Brasileiro : AC/DC : Linguateca
O Corpus Brasileiro é uma coletânea de aproximadamente um bilhão de palavras de português brasileiro, resultado de projeto coordenado por Tony Berber Sardinha, (GELC, LAEL, Cepril, PUCSP), com financiamento da Fapesp. Devido a variados tipos de processamento automático, é possível que nem todo o material incorporado esteja disponível através do AC/DC.

Listas de frequências

As listas de frequência de palavras (unigramas) do corpus podem ser obtidas em:

Referências

Manual: Corpus Brasileiro.
Berber Sardinha, T. (2008). Léxico-gramática e corpus. II Ebralc - Escola Brasileira de Linguística Computacional, Unesp, São José do Rio Preto, SP, 6 e 7 de novembro de 2008.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2008). O Corpus Brasileiro. Comunicação apresentada em VII Encontro de Lingüística de Corpus, Unesp, São José do Rio Preto, SP, 6 e 7 de novembro de 2008.
Berber Sardinha, T. (2009). Applied Linguistics and Technology. Ames, Iowa State University, USA, January 20, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2009). The Brazilian Corpus: A one-billion word online resource. Comunicação apresentada em 5th Corpus Linguistics Conference, Liverpool, UK, July 21-23, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2009). The Brazilian Corpus. Comunicação apresentada em AACL 2009 - American Association for Corpus Linguistics, Alberta, Canadá, October 8-11, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2010). O Corpus Brasileiro. Comunicação apresentada em 13o Congresso Brasileiro De Língua Portuguesa e 4o Congresso Internacional De Lusofonia, PUCSP, São Paulo, SP, 30 de abril de 2010.
Berber Sardinha, T. (2010). Corpus Linguistics and Metaphor. Conferência plenária apresentada em 2nd International Conference on Corpus Linguistics (CILC), A Coruña, Spain, May 13-15, 2010.
Berber Sardinha, T. (2010). A Linguística de Corpus na Prática. Santiago de Compostela, Espanha: Universidade de Santiago de Compostela, Espanha, 2010.
Berber Sardinha, T. (2010). Corpus Linguistics. Murcia, Espanha: Universidade de Murcia, Espanha, 2010.

Estrutura do corpo

O corpo está apenas dividido em frases (s).

Além disso, o Corpus Brasileiro contém os seguintes valores do atributo genero, em que o prefixo e indica português escrito e f português falado:

generoGêneroFonte
eiAcadêmicoArtigos
ejAcadêmicoTeses e dissertações
eqAcadêmicoAnais de congresso
enCinema e TVRoteiros
ee/efEducaçãoDiversos
ee/efEducaçãoDiversos
etEnciclopédiaWikipédia
faEsporteNarração de jogos de futebol
ekInformáticaManuais
edJornalismoRevistas
egJornalismoJornais
eoJornalismoHoróscopo
feJornalismoEntrevistas
em/exLegislaçãoDiversos
em/exLegislaçãoDiversos
ebLiteraturaContos
ecLiteraturaCrônicas
eh/ewLiteraturaVariados
eh/ewLiteraturaVariados
euLiteraturaBiografias
eaMedicinaBulas de remédio
epPolíticaAtas de assembléia legislativa
fbPolíticaDebates de TV
fcPolíticaPronunciamentos do presidente
fdPolíticaSessões do congresso
elReligiãoDiversos
evReligiãoBíblia
er/esTécnicoRelatórios e manuais diversos
er/esTécnicoRelatórios e manuais diversos

Como todos os corpos do AC/DC, o Corpus Brasileiro está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo.

GéneroUnidades
ea 113.111
eb 61.168
ec 166.529
ed 497.106
ee 77.538.811
ef 2.267.630
eg 255.976.444
eh 1.375.882
ei 184.060.342
ej 270.776.515
ek 717.373
el 926.147
em 227.156
en 319.419
eo 4.308
ep 4.053.183
eq 6.965.045
er 5.722.902
es 6.655.524
et 53.690.513
eu 1.735.800
ev 2.659.377
ew 21.849.612
ex 26.872.755
fa 258.840
fb 65.844
fc 5.424.990
fd 86.907.734
fe 4.015.274

Versão do corpo

Corpus Brasileiro anotado, versão de 13 de junho de 2025, v. 9.0

Excerto do corpo


79051727 ea conseqüente conseqüente A
79051728 ea vazamento vazamento J
79051729 ea de de N
79051730 ea constituinte constituintes J
79051731 ea essencial essenciais A
79051732 ea de da S
79051733 ea célula célula J
79051734 ea de do S
79051735 ea fungo fungo J
79051736 ea . . 1

Dados quantitativos

Corpo CBRAS Número de formasNúmero de tipos
Unidades 11344140065353468
Total de palavras 9591726374864314
Palavras em minúscula 6415370101243719
Palavras com inicial maiúscula1281331641055996
Palavras todas em maiúsculas 31919585358094
Números 2102777196554
Palavras com números2324770384830
Palavras mistas4002933363260
Pontuação62977515473143

Número de unidades estruturais

Atributo Número
p 87
s 40986065
mwe 12934813

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 46355017 108606713
Locuções 12934813 27386268
Palavras gráficas 958936451 958936451
Palavras simples 822943470 822943470
Palavras 882233300 958936451

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 219131354 26,63%
Verbos V.* 106700934 12,97%
Adjectivos ADJ.* 61361229 7,46%
Pronomes pessoais .*PERS.* 12094110 1,47%
Preposições PRP.* 155797306 18,93%
Conjunções K.* 37490570 4,56%
Advérbios ADV.* 32853240 3,99%
Determinantes .*DET.* 147778959 17,96%
Especificadores .*SPEC.* 11536306 1,40%
Numerais NUM.* 33522347 4,07%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 14 de Junho de 2025
Perguntas, comentários e sugestões