Acesso a corpos de português: Projecto AC/DC: corpo C-Oral-Brasil

C-Oral-Brasil : AC/DC : Linguateca
O corpo C-ORAL-BRASIL foi criado pelo projeto C-Oral-Brasil, que "se dedica ao estudo da fala espontânea do português brasileiro, através da compilação de um corpus de textos orais produzidos em contexto natural".

O corpo foi criado simplesmente passando o material distribuído no CD-ROM em formato texto (extensão .txt) pelo conjunto de programas de processamento e anotação sintática e semântica do AC/DC.

As hesitações e repetições foram (por enquanto) removidas, e as pausas longas foram convertidas em ponto de fim de frase, e as pausas curtas em vírgula. Para tornar o texto mais parecido com as convenções gráficas do português escrito, a primeira letra de cada frase foi passada para maiúscula.

Estrutura do corpo

O corpo está dividido em arquivos, marcados pelo atributo fich, contendo por sua vez falas, marcadas pelo atributo fala, com informação do nome ou identificação do falante . Além disso, sempre que começa um novo interveniente, está marcado através do atributo estrutural personagem. O corpo está além disso dividido em frases, s, obtidas através das pausas fornecidas pelos compiladores do C-ORAL-BRASIL.

Versão do corpo

Corpus CoralBrasil, anotado em novembro de 2018, v. 4.0

Excerto do corpo


<fich bfamcv01.txt>
<fala "LEO">
<personagem> LEO </personagem>
<s> O Juninho foi. </s>
</fala>
<fala "GIL">
<personagem> GIL </personagem>
<s> Ô, mas, voltando à questão, falando em e também falando em povo mascarado, esse povo do Galáticos é muito palha, eu acho que es nu deviam mais participar, e tal. </s>
</fala>
<fala "LUI">
<personagem> LUI </personagem>
<s> Não. </s>
</fala>

Dados quantitativos

Corpo CORALBRASIL Número de formasNúmero de tipos
Unidades 43108114512
Total de palavras 26101314352
Palavras em minúscula 16475810288
Palavras com inicial maiúscula336283263
Palavras todas em maiúsculas 16046244
Números 123799
Palavras com números
Palavras mistas38351
Pontuação2860618

Número de unidades estruturais

Atributo Número
p 0
s 30456
fala 19229
personagem 19211
mwe 2723

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 24122 30
Locuções 2723 5641
Palavras gráficas 261013 261013
Palavras simples 255342 255342
Palavras 282187 261013

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 36982 14,48%
Verbos V.* 47319 18,53%
Adjectivos ADJ.* 9996 3,91%
Pronomes pessoais .*PERS.* 11106 4,35%
Preposições PRP.* 18381 7,20%
Conjunções K.* 18512 7,25%
Advérbios ADV.* 25188 9,86%
Determinantes .*DET.* 26185 10,25%
Especificadores .*SPEC.* 5709 2,24%
Numerais NUM.* 3910 1,53%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 23 de Novembro de 2018
Perguntas, comentários e sugestões