Acesso a corpos de português: Projecto AC/DC: corpo Corpus Brasileiro

Corpus Brasileiro : AC/DC : Linguateca
O Corpus Brasileiro é uma coletânea de aproximadamente um bilhão de palavras de português brasileiro, resultado de projeto coordenado por Tony Berber Sardinha, (GELC, LAEL, Cepril, PUCSP), com financiamento da Fapesp. Devido a variados tipos de processamento automático, é possível que nem todo o material incorporado esteja disponível através do AC/DC.

Listas de frequências

As listas de frequência de palavras (unigramas) do corpus podem ser obtidas em:

Referências

Manual: Corpus Brasileiro.
Berber Sardinha, T. (2008). Léxico-gramática e corpus. II Ebralc - Escola Brasileira de Linguística Computacional, Unesp, São José do Rio Preto, SP, 6 e 7 de novembro de 2008.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2008). O Corpus Brasileiro. Comunicação apresentada em VII Encontro de Lingüística de Corpus, Unesp, São José do Rio Preto, SP, 6 e 7 de novembro de 2008.
Berber Sardinha, T. (2009). Applied Linguistics and Technology. Ames, Iowa State University, USA, January 20, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2009). The Brazilian Corpus: A one-billion word online resource. Comunicação apresentada em 5th Corpus Linguistics Conference, Liverpool, UK, July 21-23, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2009). The Brazilian Corpus. Comunicação apresentada em AACL 2009 - American Association for Corpus Linguistics, Alberta, Canadá, October 8-11, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2010). O Corpus Brasileiro. Comunicação apresentada em 13o Congresso Brasileiro De Língua Portuguesa e 4o Congresso Internacional De Lusofonia, PUCSP, São Paulo, SP, 30 de abril de 2010.
Berber Sardinha, T. (2010). Corpus Linguistics and Metaphor. Conferência plenária apresentada em 2nd International Conference on Corpus Linguistics (CILC), A Coruña, Spain, May 13-15, 2010.
Berber Sardinha, T. (2010). A Linguística de Corpus na Prática. Santiago de Compostela, Espanha: Universidade de Santiago de Compostela, Espanha, 2010.
Berber Sardinha, T. (2010). Corpus Linguistics. Murcia, Espanha: Universidade de Murcia, Espanha, 2010.

Estrutura do corpo

O corpo está apenas dividido em frases (s).

Além disso, o Corpus Brasileiro contém os seguintes valores do atributo genero, em que o prefixo e indica português escrito e f português falado:

generoGêneroFonte
eiAcadêmicoArtigos
ejAcadêmicoTeses e dissertações
eqAcadêmicoAnais de congresso
enCinema e TVRoteiros
ee/efEducaçãoDiversos
ee/efEducaçãoDiversos
etEnciclopédiaWikipédia
faEsporteNarração de jogos de futebol
ekInformáticaManuais
edJornalismoRevistas
egJornalismoJornais
eoJornalismoHoróscopo
feJornalismoEntrevistas
em/exLegislaçãoDiversos
em/exLegislaçãoDiversos
ebLiteraturaContos
ecLiteraturaCrônicas
eh/ewLiteraturaVariados
eh/ewLiteraturaVariados
euLiteraturaBiografias
eaMedicinaBulas de remédio
epPolíticaAtas de assembléia legislativa
fbPolíticaDebates de TV
fcPolíticaPronunciamentos do presidente
fdPolíticaSessões do congresso
elReligiãoDiversos
evReligiãoBíblia
er/esTécnicoRelatórios e manuais diversos
er/esTécnicoRelatórios e manuais diversos

Como todos os corpos do AC/DC, o Corpus Brasileiro está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo.

GéneroUnidades
ea 114.270
eb 60.799
ec 161.009
ed 494.263
ee 73.704.749
ef 3.024.039
eg 250.700.829
eh 1.373.051
ei 260.931.229
ej 296.344.947
ek 526.155
el 909.857
em 237.707
en 254.352
eo 4.304
ep 3.896.654
eq 5.966.725
er 3.728.806
es 6.479.948
et 37.853.048
eu 578.678
ev 836.900
ew 6.156.028
ex 7.606.564
fa 86.466
fb 22.040
fc 1.805.774
fd 76.690.106
fe 4.004.892

Versão do corpo

Corpus Brasileiro anotado, versão de 8 de março de 2017, v. 4.2

Excerto do corpo


79051727 ea conseqüente conseqüente A
79051728 ea vazamento vazamento J
79051729 ea de de N
79051730 ea constituinte constituintes J
79051731 ea essencial essenciais A
79051732 ea de da S
79051733 ea célula célula J
79051734 ea de do S
79051735 ea fungo fungo J
79051736 ea . . 1

Dados quantitativos

Corpo CBRAS Número de formasNúmero de tipos
Unidades 11755686265576618
Total de palavras 9900619555070740
Palavras em minúscula 6814542291339533
Palavras com inicial maiúscula1401525041139437
Palavras todas em maiúsculas 12318625297950
Números 22335162103914
Palavras com números2560607455972
Palavras mistas3018778226388
Pontuação65784288488437

Número de unidades estruturais

Atributo Número
p 97
s 42540575
mwe 14607557

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 9503589 122378154
Locuções 14607557 30827399
Palavras gráficas 990061986 990061986
Palavras simples 836856433 836856433
Palavras 860967579 990061986

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 226763250 27,10%
Verbos V.* 107486560 12,84%
Adjectivos ADJ.* 62719888 7,49%
Pronomes pessoais .*PERS.* 9262441 1,11%
Preposições PRP.* 158380276 18,93%
Conjunções K.* 39690029 4,74%
Advérbios ADV.* 34207779 4,09%
Determinantes .*DET.* 138933494 16,60%
Especificadores .*SPEC.* 11114109 1,33%
Numerais NUM.* 35983026 4,30%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 10 de Março de 2017
Perguntas, comentários e sugestões