O corpo foi criado simplesmente passando o material distribuído no CD-ROM em formato texto (extensão .txt) pelo conjunto de programas de processamento e anotação sintática e semântica do AC/DC.
As hesitações e repetições foram (por enquanto) removidas, e as pausas longas foram convertidas em ponto de fim de frase, e as pausas curtas em vírgula. Para tornar o texto mais parecido com as convenções gráficas do português escrito, a primeira letra de cada frase foi passada para maiúscula.
Estrutura do corpoO corpo está dividido em arquivos, marcados pelo atributo fich, contendo por sua vez falas, marcadas pelo atributo fala, com informação do nome ou identificação do falanteVersão do corpoCorpus CoralBrasil, anotado em 7 de julho de 2023, v. 7.1Excerto do corpo<fich bfamcv01.txt> <fala "LEO"> <personagem> LEO </personagem> <s> O Juninho foi. </s> </fala> <fala "GIL"> <personagem> GIL </personagem> <s> Ô, mas, voltando à questão, falando em e também falando em povo mascarado, esse povo do Galáticos é muito palha, eu acho que es nu deviam mais participar, e tal. </s> </fala> <fala "LUI"> <personagem> LUI </personagem> <s> Não. </s> </fala> Dados quantitativos
Número de unidades estruturais
Contabilização de multipalavras
Distribuição por categoria gramatical
Para informação sobre como foram obtidos este valores, consulte esta página |
[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]