Acesso a corpos de português: Projecto AC/DC: corpo Corpus Brasileiro

Corpus Brasileiro : AC/DC : Linguateca
O Corpus Brasileiro é uma coletânea de aproximadamente um bilhão de palavras de português brasileiro, resultado de projeto coordenado por Tony Berber Sardinha, (GELC, LAEL, Cepril, PUCSP), com financiamento da Fapesp. Devido a variados tipos de processamento automático, é possível que nem todo o material incorporado esteja disponível através do AC/DC.

Listas de frequências

As listas de frequência de palavras (unigramas) do corpus podem ser obtidas em:

Referências

Manual: Corpus Brasileiro.
Berber Sardinha, T. (2008). Léxico-gramática e corpus. II Ebralc - Escola Brasileira de Linguística Computacional, Unesp, São José do Rio Preto, SP, 6 e 7 de novembro de 2008.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2008). O Corpus Brasileiro. Comunicação apresentada em VII Encontro de Lingüística de Corpus, Unesp, São José do Rio Preto, SP, 6 e 7 de novembro de 2008.
Berber Sardinha, T. (2009). Applied Linguistics and Technology. Ames, Iowa State University, USA, January 20, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2009). The Brazilian Corpus: A one-billion word online resource. Comunicação apresentada em 5th Corpus Linguistics Conference, Liverpool, UK, July 21-23, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2009). The Brazilian Corpus. Comunicação apresentada em AACL 2009 - American Association for Corpus Linguistics, Alberta, Canadá, October 8-11, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2010). O Corpus Brasileiro. Comunicação apresentada em 13o Congresso Brasileiro De Língua Portuguesa e 4o Congresso Internacional De Lusofonia, PUCSP, São Paulo, SP, 30 de abril de 2010.
Berber Sardinha, T. (2010). Corpus Linguistics and Metaphor. Conferência plenária apresentada em 2nd International Conference on Corpus Linguistics (CILC), A Coruña, Spain, May 13-15, 2010.
Berber Sardinha, T. (2010). A Linguística de Corpus na Prática. Santiago de Compostela, Espanha: Universidade de Santiago de Compostela, Espanha, 2010.
Berber Sardinha, T. (2010). Corpus Linguistics. Murcia, Espanha: Universidade de Murcia, Espanha, 2010.

Estrutura do corpo

O corpo está apenas dividido em frases (s).

Além disso, o Corpus Brasileiro contém os seguintes valores do atributo genero, em que o prefixo e indica português escrito e f português falado:

generoGêneroFonte
eiAcadêmicoArtigos
ejAcadêmicoTeses e dissertações
eqAcadêmicoAnais de congresso
enCinema e TVRoteiros
ee/efEducaçãoDiversos
ee/efEducaçãoDiversos
etEnciclopédiaWikipédia
faEsporteNarração de jogos de futebol
ekInformáticaManuais
edJornalismoRevistas
egJornalismoJornais
eoJornalismoHoróscopo
feJornalismoEntrevistas
em/exLegislaçãoDiversos
em/exLegislaçãoDiversos
ebLiteraturaContos
ecLiteraturaCrônicas
eh/ewLiteraturaVariados
eh/ewLiteraturaVariados
euLiteraturaBiografias
eaMedicinaBulas de remédio
epPolíticaAtas de assembléia legislativa
fbPolíticaDebates de TV
fcPolíticaPronunciamentos do presidente
fdPolíticaSessões do congresso
elReligiãoDiversos
evReligiãoBíblia
er/esTécnicoRelatórios e manuais diversos
er/esTécnicoRelatórios e manuais diversos

Como todos os corpos do AC/DC, o Corpus Brasileiro está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo.

GeneroUnidades
ea 113.004
eb 60.868
ec 162.270
ed 493.987
ee 77.837.313
ef 2.238.525
eg 252.463.912
eh 1.175.698
ei 250.833.467
ej 181.548.444
ek 708.979
el 917.894
em 227.015
en 316.515
eo 4.295
ep 4.046.134
eq 6.892.724
er 5.702.083
es 6.626.983
et 51.643.541
eu 1.149.622
ev 1.748.662
ew 14.463.244
ex 17.885.556
fa 171.494
fb 43.900
fc 3.609.644
fd 81.409.234
fe 3.996.416

Versão do corpo

Corpus Brasileiro anotado, versão de 24 de setembro de 2023, v. 7.0

Excerto do corpo


79051727 ea conseqüente conseqüente A
79051728 ea vazamento vazamento J
79051729 ea de de N
79051730 ea constituinte constituintes J
79051731 ea essencial essenciais A
79051732 ea de da S
79051733 ea célula célula J
79051734 ea de do S
79051735 ea fungo fungo J
79051736 ea . . 1

Dados quantitativos

Corpo CBRAS Número de formasNúmero de tipos
Unidades 10749309975729167
Total de palavras 9086257065175522
Palavras em minúscula 6167247511284008
Palavras com inicial maiúscula1210017471108312
Palavras todas em maiúsculas 27235131377934
Números 1958038498961
Palavras com números2194475425360
Palavras mistas3627211382962
Pontuação59978372534519

Número de unidades estruturais

Atributo Número
p 83
s 39267248
mwe 11863111

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 64131442 103782846
Locuções 11863111 25218989
Palavras gráficas 908618773 908618773
Palavras simples 779616938 779616938
Palavras 855611491 908618773

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 211065924 27,07%
Verbos V.* 100852521 12,94%
Adjectivos ADJ.* 59488230 7,63%
Pronomes pessoais .*PERS.* 11276561 1,45%
Preposições PRP.* 149418513 19,17%
Conjunções K.* 35688842 4,58%
Advérbios ADV.* 31145023 3,99%
Determinantes .*DET.* 139008837 17,83%
Especificadores .*SPEC.* 11783243 1,51%
Numerais NUM.* 31521741 4,04%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 25 de Setembro de 2023
Perguntas, comentários e sugestões