Acesso a corpos de português: Projecto AC/DC: corpo Museu da Pessoa

Museu da Pessoa : AC/DC : Linguateca
O corpus Museu da Pessoa é um corpus de cento e sete entrevistas transcritas pelo Núcleo Português do Museu da Pessoa (ver Almeida et al. 2000) no âmbito dos seus projectos, mais cento e seis entrevistas transcritas pelo Museu da Pessoa brasileiro. As entrevistas portuguesas sofreram um processo de revisão adicional.

Em "XML simples", as entrevistas completas do Museu da Pessoa encontram-se aqui num formato com separação de frases e marcação de pergunta e resposta:

Estrutura do corpo

Marcadores estruturais: entrevista [entrevista completa], p [parágrafo], s [frase], resposta, pergunta, legenda [legenda de uma fotografia], introd [texto de introdução antes da entrevista]

Para cada entrevista temos a indicação dos dados possíveis sobre cada entrevistado aqui.

VarianteTamanho
BR 1182544
PT 346241
SexoTamanho
F 430.725
M 1.073.840
X 24.220

Versão do corpo

Corpus Museu da Pessoa, versão do texto português de Abril de 2005, versão do texto brasileiro de Dezembro de 2008, anotado em março de 2016, v. 7.1

Excerto do corpo


<entrevista id="E001">
<pergunta>
<p par=1>
<s> Qual o seu nome? </s>
</p>
</pergunta>
<resposta>
<p par=2>
<s> Lúcio Craveiro da Silva . </s>
</p>
</resposta>
<pergunta>
<p par=3>
<s> Onde nasceu? </s>
</p>
</pergunta>
<resposta>
<p par=4>
<s> Tortosendo, Covilhã . </s>
</p>
</resposta>
...

Dados quantitativos

Corpo MUSEUDAPESSOA Número de formasNúmero de tipos
Unidades 200428242663
Total de palavras 142243442521
Palavras em minúscula 111559430234
Palavras com inicial maiúscula1445578309
Palavras todas em maiúsculas 4559346
Números 8618347
Palavras com números10161
Palavras mistas21599
Pontuação106351136

Número de unidades estruturais

Atributo Número
mwe 26146
p 23778
s 93540
entrevista 215
pergunta 10982
resposta 11321
legenda 46
introd 3
corr 1583

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 39336 60682
Locuções 26146 55562
Palavras gráficas 1422434 1422434
Palavras simples 1306190 1306190
Palavras 1371672 1422434

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 234681 17,97%
Verbos V.* 264128 20,22%
Adjectivos ADJ.* 50497 3,87%
Pronomes pessoais .*PERS.* 75543 5,78%
Preposições PRP.* 168142 12,87%
Conjunções K.* 80713 6,18%
Advérbios ADV.* 133006 10,18%
Determinantes .*DET.* 223825 17,14%
Especificadores .*SPEC.* 40321 3,09%
Numerais NUM.* 19220 1,47%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 13 de Setembro de 2017
Perguntas, comentários e sugestões