Acesso a corpos de português: Projecto AC/DC: corpo C-Oral-Brasil

C-Oral-Brasil : AC/DC : Linguateca
O corpo C-ORAL-BRASIL foi criado pelo projeto C-Oral-Brasil, que "se dedica ao estudo da fala espontânea do português brasileiro, através da compilação de um corpus de textos orais produzidos em contexto natural".

O corpo foi criado simplesmente passando o material distribuído no CD-ROM em formato texto (extensão .txt) pelo conjunto de programas de processamento e anotação sintática e semântica do AC/DC.

As hesitações e repetições foram (por enquanto) removidas, e as pausas longas foram convertidas em ponto de fim de frase, e as pausas curtas em vírgula. Para tornar o texto mais parecido com as convenções gráficas do português escrito, a primeira letra de cada frase foi passada para maiúscula.

Estrutura do corpo

O corpo está dividido em arquivos, marcados pelo atributo fich, contendo por sua vez falas, marcadas pelo atributo fala, com informação do nome ou identificação do falante . Além disso, sempre que começa um novo interveniente, está marcado através do atributo estrutural personagem. O corpo está além disso dividido em frases, s, obtidas através das pausas fornecidas pelos compiladores do C-ORAL-BRASIL.

Versão do corpo

Corpus CoralBrasil, anotado em 7 de janeiro de 2020, v. 5.0

Excerto do corpo


<fich bfamcv01.txt>
<fala "LEO">
<personagem> LEO </personagem>
<s> O Juninho foi. </s>
</fala>
<fala "GIL">
<personagem> GIL </personagem>
<s> Ô, mas, voltando à questão, falando em e também falando em povo mascarado, esse povo do Galáticos é muito palha, eu acho que es nu deviam mais participar, e tal. </s>
</fala>
<fala "LUI">
<personagem> LUI </personagem>
<s> Não. </s>
</fala>

Dados quantitativos

Corpo CORALBRASIL Número de formasNúmero de tipos
Unidades 43523414593
Total de palavras 26363214437
Palavras em minúscula 16614610328
Palavras com inicial maiúscula305323244
Palavras todas em maiúsculas 19478300
Números 128499
Palavras com números
Palavras mistas11536
Pontuação2873916

Número de unidades estruturais

Atributo Número
p 0
s 30626
fala 19399
personagem 19397
mwe 2912

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 23559 24683
Locuções 2912 6150
Palavras gráficas 263632 263632
Palavras simples 232799 232799
Palavras 259270 263632

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 37040 15,91%
Verbos V.* 47835 20,55%
Adjectivos ADJ.* 9921 4,26%
Pronomes pessoais .*PERS.* 11149 4,79%
Preposições PRP.* 18558 7,97%
Conjunções K.* 18827 8,09%
Advérbios ADV.* 25358 10,89%
Determinantes .*DET.* 26370 11,33%
Especificadores .*SPEC.* 5779 2,48%
Numerais NUM.* 4234 1,82%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 07 de Janeiro de 2020
Perguntas, comentários e sugestões