Acesso a corpos de português: Projecto AC/DC: corpo C-Oral-Brasil

C-Oral-Brasil : AC/DC : Linguateca
O corpo C-ORAL-BRASIL foi criado pelo projeto C-Oral-Brasil, que "se dedica ao estudo da fala espontânea do português brasileiro, através da compilação de um corpus de textos orais produzidos em contexto natural".

O corpo foi criado simplesmente passando o material distribuído no CD-ROM em formato texto (extensão .txt) pelo conjunto de programas de processamento e anotação sintática e semântica do AC/DC.

As hesitações e repetições foram (por enquanto) removidas, e as pausas longas foram convertidas em ponto de fim de frase, e as pausas curtas em vírgula. Para tornar o texto mais parecido com as convenções gráficas do português escrito, a primeira letra de cada frase foi passada para maiúscula.

Estrutura do corpo

O corpo está dividido em arquivos, marcados pelo atributo fich, contendo por sua vez falas, marcadas pelo atributo fala, com informação do nome ou identificação do falante . Além disso, sempre que começa um novo interveniente, está marcado através do atributo estrutural personagem. O corpo está além disso dividido em frases, s, obtidas através das pausas fornecidas pelos compiladores do C-ORAL-BRASIL.

Versão do corpo

Corpus CoralBrasil, anotado a 31 de Maio de 2014, v. 3.2

Excerto do corpo


<fich bfamcv01.txt>
<fala "LEO">
<personagem> LEO </personagem>
<s> O Juninho foi. </s>
</fala>
<fala "GIL">
<personagem> GIL </personagem>
<s> Ô, mas, voltando à questão, falando em e também falando em povo mascarado, esse povo do Galáticos é muito palha, eu acho que es nu deviam mais participar, e tal. </s>
</fala>
<fala "LUI">
<personagem> LUI </personagem>
<s> Não. </s>
</fala>

Dados quantitativos

Corpo CORALBRASIL Número de formasNúmero de tipos
Unidades 46451215022
Total de palavras 26339614866
Palavras em minúscula 16386010311
Palavras com inicial maiúscula335733267
Palavras todas em maiúsculas 16154254
Números 2803483
Palavras com números
Palavras mistas3661141
Pontuação2940711

Número de unidades estruturais

Atributo Número
p 0
s 30629
fala 19399
personagem 19384
mwe 3177

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 25663 26401
Locuções 3177 6691
Palavras gráficas 263396 263396
Palavras simples 230304 230304
Palavras 259144 263396

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 37015 16,07%
Verbos V.* 47598 20,67%
Adjectivos ADJ.* 7645 3,32%
Pronomes pessoais .*PERS.* 11444 4,97%
Preposições PRP.* 18372 7,98%
Conjunções K.* 19456 8,45%
Advérbios ADV.* 24634 10,70%
Determinantes .*DET.* 26521 11,52%
Especificadores .*SPEC.* 5759 2,50%
Numerais NUM.* 5849 2,54%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última actualização: 08 de Junho de 2014
Perguntas, comentários e sugestões