Acesso a corpos de português: Projecto AC/DC: corpo Museu da Pessoa

Museu da Pessoa : AC/DC : Linguateca
O corpus Museu da Pessoa é um corpus de cento e sete entrevistas transcritas pelo Núcleo Português do Museu da Pessoa (ver Almeida et al. 2000) no âmbito dos seus projectos, mais cento e seis entrevistas transcritas pelo Museu da Pessoa brasileiro. As entrevistas portuguesas sofreram um processo de revisão adicional.

Em "XML simples", as entrevistas completas do Museu da Pessoa encontram-se aqui num formato com separação de frases e marcação de pergunta e resposta:

Estrutura do corpo

Marcadores estruturais: entrevista [entrevista completa], p [parágrafo], s [frase], resposta, pergunta, legenda [legenda de uma fotografia], introd [texto de introdução antes da entrevista]

Para cada entrevista temos a indicação dos dados possíveis sobre cada entrevistado aqui.

VarianteTamanho
BR 2303596
PT 346458
SexoTamanho
F 749.487
M 1.876.316
X 24.251

Versão do corpo

Corpus Museu da Pessoa, versão do texto português de Abril de 2005, versão do texto brasileiro de Dezembro de 2008, anotado em 30 de setembro de 2025, v. 10.3

Excerto do corpo


<entrevista id="E001">
<pergunta>
<p par=1>
<s> Qual o seu nome? </s>
</p>
</pergunta>
<resposta>
<p par=2>
<s> Lúcio Craveiro da Silva . </s>
</p>
</resposta>
<pergunta>
<p par=3>
<s> Onde nasceu? </s>
</p>
</pergunta>
<resposta>
<p par=4>
<s> Tortosendo, Covilhã . </s>
</p>
</resposta>
...

Dados quantitativos

Corpo MUSEUDAPESSOA Número de formasNúmero de tipos
Unidades 184688942637
Total de palavras 143161542627
Palavras em minúscula 111651930233
Palavras com inicial maiúscula1434648281
Palavras todas em maiúsculas 4862394
Números 8674365
Palavras com números11773
Palavras mistas228109
Pontuação1054188

Número de unidades estruturais

Atributo Número
mwe 24609
p 11770
s 93465
entrevista 215
pergunta 11015
resposta 11351
legenda 47
introd 4
corr 19

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 35304 57390
Locuções 24609 52282
Palavras gráficas 1431615 1431615
Palavras simples 1321943 1321943
Palavras 1381856 1431615

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 237178 17,94%
Verbos V.* 265168 20,06%
Adjectivos ADJ.* 50137 3,79%
Pronomes pessoais .*PERS.* 75439 5,71%
Preposições PRP.* 169572 12,83%
Conjunções K.* 79602 6,02%
Advérbios ADV.* 133385 10,09%
Determinantes .*DET.* 223651 16,92%
Especificadores .*SPEC.* 41806 3,16%
Numerais NUM.* 18678 1,41%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 30 de Setembro de 2025
Perguntas, comentários e sugestões