Acesso a corpos de português: Projecto AC/DC: corpo Corpus Brasileiro

Corpus Brasileiro : AC/DC : Linguateca
O Corpus Brasileiro é uma coletânea de aproximadamente um bilhão de palavras de português brasileiro, resultado de projeto coordenado por Tony Berber Sardinha, (GELC, LAEL, Cepril, PUCSP), com financiamento da Fapesp. Devido a variados tipos de processamento automático, é possível que nem todo o material incorporado esteja disponível através do AC/DC.

Listas de frequências

As listas de frequência de palavras (unigramas) do corpus podem ser obtidas em:

Referências

Manual: Corpus Brasileiro.
Berber Sardinha, T. (2008). Léxico-gramática e corpus. II Ebralc - Escola Brasileira de Linguística Computacional, Unesp, São José do Rio Preto, SP, 6 e 7 de novembro de 2008.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2008). O Corpus Brasileiro. Comunicação apresentada em VII Encontro de Lingüística de Corpus, Unesp, São José do Rio Preto, SP, 6 e 7 de novembro de 2008.
Berber Sardinha, T. (2009). Applied Linguistics and Technology. Ames, Iowa State University, USA, January 20, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2009). The Brazilian Corpus: A one-billion word online resource. Comunicação apresentada em 5th Corpus Linguistics Conference, Liverpool, UK, July 21-23, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2009). The Brazilian Corpus. Comunicação apresentada em AACL 2009 - American Association for Corpus Linguistics, Alberta, Canadá, October 8-11, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2010). O Corpus Brasileiro. Comunicação apresentada em 13o Congresso Brasileiro De Língua Portuguesa e 4o Congresso Internacional De Lusofonia, PUCSP, São Paulo, SP, 30 de abril de 2010.
Berber Sardinha, T. (2010). Corpus Linguistics and Metaphor. Conferência plenária apresentada em 2nd International Conference on Corpus Linguistics (CILC), A Coruña, Spain, May 13-15, 2010.
Berber Sardinha, T. (2010). A Linguística de Corpus na Prática. Santiago de Compostela, Espanha: Universidade de Santiago de Compostela, Espanha, 2010.
Berber Sardinha, T. (2010). Corpus Linguistics. Murcia, Espanha: Universidade de Murcia, Espanha, 2010.

Estrutura do corpo

O corpo está apenas dividido em frases (s).

Além disso, o Corpus Brasileiro contém os seguintes valores do atributo genero, em que o prefixo e indica português escrito e f português falado:

generoGêneroFonte
eiAcadêmicoArtigos
ejAcadêmicoTeses e dissertações
eqAcadêmicoAnais de congresso
enCinema e TVRoteiros
ee/efEducaçãoDiversos
ee/efEducaçãoDiversos
etEnciclopédiaWikipédia
faEsporteNarração de jogos de futebol
ekInformáticaManuais
edJornalismoRevistas
egJornalismoJornais
eoJornalismoHoróscopo
feJornalismoEntrevistas
em/exLegislaçãoDiversos
em/exLegislaçãoDiversos
ebLiteraturaContos
ecLiteraturaCrônicas
eh/ewLiteraturaVariados
eh/ewLiteraturaVariados
euLiteraturaBiografias
eaMedicinaBulas de remédio
epPolíticaAtas de assembléia legislativa
fbPolíticaDebates de TV
fcPolíticaPronunciamentos do presidente
fdPolíticaSessões do congresso
elReligiãoDiversos
evReligiãoBíblia
er/esTécnicoRelatórios e manuais diversos
er/esTécnicoRelatórios e manuais diversos

Como todos os corpos do AC/DC, o Corpus Brasileiro está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo.

GéneroUnidades
ea 112.872
eb 60.906
ec 162.264
ed 493.902
ee 79.343.903
ef 3.025.965
eg 356.259.687
eh 1.372.688
ei 256.289.237
ej 153.262.807
et 2.193.673
eu 575.024
ev 874.402
ew 7.227.101
ex 8.659.018
fa 86.132
fb 21.934
fc 1.804.482
fd 75.656.246
fe 3.995.615

Versão do corpo

Corpus Brasileiro anotado, versão de 1 de abril de 2023, v. 6.4

Excerto do corpo


79051727 ea conseqüente conseqüente A
79051728 ea vazamento vazamento J
79051729 ea de de N
79051730 ea constituinte constituintes J
79051731 ea essencial essenciais A
79051732 ea de da S
79051733 ea célula célula J
79051734 ea de do S
79051735 ea fungo fungo J
79051736 ea . . 1

Dados quantitativos

Corpo CBRAS Número de formasNúmero de tipos
Unidades 10576618905145841
Total de palavras 8930438404620871
Palavras em minúscula 6140670351210168
Palavras com inicial maiúscula112115355923373
Palavras todas em maiúsculas 22086587353498
Números 1735988750849
Palavras com números2101186382541
Palavras mistas3014318348150
Pontuação58576460506531

Número de unidades estruturais

Atributo Número
p 7
s 39213589
mwe 11977777

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 64131442 97180116
Locuções 11977777 25458405
Palavras gráficas 893041999 893041999
Palavras simples 770403478 770403478
Palavras 846512697 893041999

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 209338344 27,17%
Verbos V.* 101557010 13,18%
Adjectivos ADJ.* 57574377 7,47%
Pronomes pessoais .*PERS.* 11383464 1,48%
Preposições PRP.* 146962638 19,08%
Conjunções K.* 34950369 4,54%
Advérbios ADV.* 31693770 4,11%
Determinantes .*DET.* 138754250 18,01%
Especificadores .*SPEC.* 11798249 1,53%
Numerais NUM.* 29488348 3,83%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 02 de Abril de 2023
Perguntas, comentários e sugestões