Acesso a corpos de português: Projecto AC/DC: corpo Moçambula

Moçambula : AC/DC : Linguateca
O corpus Moçambula foi criado no âmbito da tese de mestrado de Torun Reite na Universidade de Oslo, Reite (2013), e contém cartas de leitores publicadas em 2012 em vários jornais moçambicanos.

Os jornais incluídos, e marcados no atributo posicional fonte são: Diário de Moçambique, Jornal A verdade, Notícias, O País e Savana.

TipoDescriçãoTamanho
DdM Diário de Moçambique 24.331
VerdJornal A verdade 11.253
Not Notícias 15.640
PaísO País 7.250
Sav Savana 2.719

Estrutura do corpo

Os textos foram transcritos manualmente ou obtidos através do sítio do jornal.

O corpo está dividido em mensagens/textos separados, marcadas pelo atributo texto, com informação do identificador do mesmo.

Os textos têm também os marcadores estruturais adicionais p [parágrafo] e s [frase].

Como atributos posicionais adicionais temos o fonte que indica em que jornal o texto foi publicado.

Versão do corpo

Corpo MOÇAMBULA, versão texto de novembro de 2012, anotado em 6 de julho de 2024, v. 6.1

Excerto do corpo


<texto notcl1405>
<p> <s> <t>Não matem o xitique</t> </s>
<p> <a> Óscar Fumo </a>
<p> <s> Sr. Director! </s>
<p> <s>Antes de tudo devo confessar que me apraz ver este texto publicado neste «nosso» jornal e do qual V. Excia é digno dirigente.</s>
<p> <s>Quando aos sábados, previamente programados, a minha mãe se enrola em pompa de traje, prepara-se ao pormenor e diz, despedindo-se dos filhos, «vou ao xitique», ela não vai fazer negócio. </s>
<s> Quando, invariavelmente, uma ou duas vezes ao ano, as mamanas amigas da minha mãe se reúnem na nossa casa, não as vejo a fazer negócio ou a operar crédito. </s>
<s> Para elas o micro-crédito é um som bárbaro que os filhos levaram a casa transportado em compêndios de economia usados na faculdade que elas, as mamanas sustentam com o seu suor - padrão dos recalques de gente humilde. </s>
<p> (...)
</texto>

Dados quantitativos

Corpo MOCAMBULA Número de formasNúmero de tipos
Unidades 6946910789
Total de palavras 5903810745
Palavras em minúscula 477758450
Palavras com inicial maiúscula45141424
Palavras todas em maiúsculas 274161
Números 402109
Palavras com números2115
Palavras mistas6131
Pontuação313544

Número de unidades estruturais

Atributo Número
p 133
s 2285
texto 94
mwe 1133

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 1443 2566
Locuções 1133 2466
Palavras gráficas 59038 59038
Palavras simples 54006 54006
Palavras 56582 59038

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 12591 23,31%
Verbos V.* 9081 16,81%
Adjectivos ADJ.* 3393 6,28%
Pronomes pessoais .*PERS.* 1404 2,60%
Preposições PRP.* 9894 18,32%
Conjunções K.* 3186 5,90%
Advérbios ADV.* 3331 6,17%
Determinantes .*DET.* 10689 19,79%
Especificadores .*SPEC.* 1531 2,83%
Numerais NUM.* 718 1,33%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 13 de Julho de 2024
Perguntas, comentários e sugestões