Acesso a corpos de português: Projecto AC/DC: corpo C-Oral-Brasil

C-Oral-Brasil : AC/DC : Linguateca
O corpo C-ORAL-BRASIL foi criado pelo projeto C-Oral-Brasil, que "se dedica ao estudo da fala espontânea do português brasileiro, através da compilação de um corpus de textos orais produzidos em contexto natural".

O corpo foi criado simplesmente passando o material distribuído no CD-ROM em formato texto (extensão .txt) pelo conjunto de programas de processamento e anotação sintática e semântica do AC/DC.

As hesitações e repetições foram (por enquanto) removidas, e as pausas longas foram convertidas em ponto de fim de frase, e as pausas curtas em vírgula. Para tornar o texto mais parecido com as convenções gráficas do português escrito, a primeira letra de cada frase foi passada para maiúscula.

Estrutura do corpo

O corpo está dividido em arquivos, marcados pelo atributo fich, contendo por sua vez falas, marcadas pelo atributo fala, com informação do nome ou identificação do falante . Além disso, sempre que começa um novo interveniente, está marcado através do atributo estrutural personagem. O corpo está além disso dividido em frases, s, obtidas através das pausas fornecidas pelos compiladores do C-ORAL-BRASIL.

Versão do corpo

Corpus CoralBrasil, anotado em 7 de julho de 2023, v. 7.1

Excerto do corpo


<fich bfamcv01.txt>
<fala "LEO">
<personagem> LEO </personagem>
<s> O Juninho foi. </s>
</fala>
<fala "GIL">
<personagem> GIL </personagem>
<s> Ô, mas, voltando à questão, falando em e também falando em povo mascarado, esse povo do Galáticos é muito palha, eu acho que es nu deviam mais participar, e tal. </s>
</fala>
<fala "LUI">
<personagem> LUI </personagem>
<s> Não. </s>
</fala>

Dados quantitativos

Corpo CORALBRASIL Número de formasNúmero de tipos
Unidades 43951914583
Total de palavras 26710214433
Palavras em minúscula 16786410314
Palavras com inicial maiúscula308263250
Palavras todas em maiúsculas 19464298
Números 128499
Palavras com números
Palavras mistas15742
Pontuação2955310

Número de unidades estruturais

Atributo Número
p 0
s 30626
fala 19398
personagem 19395
mwe 2915

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 21239 22484
Locuções 2915 6153
Palavras gráficas 267102 267102
Palavras simples 238465 238465
Palavras 262619 267102

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 34954 14,66%
Verbos V.* 47972 20,12%
Adjectivos ADJ.* 9599 4,03%
Pronomes pessoais .*PERS.* 13804 5,79%
Preposições PRP.* 18876 7,92%
Conjunções K.* 17087 7,17%
Advérbios ADV.* 25257 10,59%
Determinantes .*DET.* 26080 10,94%
Especificadores .*SPEC.* 5906 2,48%
Numerais NUM.* 4197 1,76%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 13 de Julho de 2024
Perguntas, comentários e sugestões