Acesso a corpos de português: Projecto AC/DC: corpo Diáspora TL-PT

Diáspora TL-PT : AC/DC : Linguateca
O corpo Diáspora TL-PT (Diáspora Timor Leste - Portugal) é um corpo de 12 entrevistas semi-guiadas a membros da comunidade timorense em Portugal, perfazendo seis horas de gravação, compiladas e transcritas no âmbito do projeto Patterns of multilingualism among different generations of the East-Timorese diasporic community in Portugal liderado por Susana Afonso e Francesco Goglia da Universidade de Exeter, no Reino Unido, e financiado pela British Academy (Small Grant SG100616). Para mais informação veja-se Afonso & Goglia (2012).

O corpo Diáspora TL-PT é composto por 12 ficheiros correspondendo cada um a uma entrevista.

Os entrevistados, membros da comunidade timorense em Portugal, têm diferentes idades e foram escolhidos para, tanto quanto possível, representarem as diferentes vagas de migração para Portugal

Como citar o corpo Diáspora TL-PT:

Estrutura do corpo

Marcadores posicionais: ent Marcadores estruturais: entrevista, pergunta, resposta, p [parágrafo], s [frase].

Versão do corpo

Corpus Diáspora TL - PT, anotado em outubro de 2013, criado a 13 de outubro de 2013, v. 1.4

Excerto do corpo


<entrevista E10>
<pergunta>
<s> -- Boa tarde, tia . </s>
<s> Então, está tudo bem ? </s>
</pergunta>
<resposta>
<s> -- Bem, obrigada. </s>
<s> Faça favor . </s>
<s> Tem aí uma cadeira . </s>
</resposta>
</entrevista>
...

Dados quantitativos

Corpo DIASPORA Número de formasNúmero de tipos
Unidades 293653078
Total de palavras 218553051
Palavras em minúscula 164772334
Palavras com inicial maiúscula2295524
Palavras todas em maiúsculas 2613
Números 13455
Palavras com números
Palavras mistas33
Pontuação183723

Número de unidades estruturais

Atributo Número
pergunta 245
s 1036
v 0
resposta 213
entrevista 5
mwe 347

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 711 908
Locuções 347 750
Palavras gráficas 21855 21855
Palavras simples 20197 20197
Palavras 21255 21855

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 3424 16,95%
Verbos V.* 3768 18,66%
Adjectivos ADJ.* 776 3,84%
Pronomes pessoais .*PERS.* 727 3,60%
Preposições PRP.* 2792 13,82%
Conjunções K.* 1275 6,31%
Advérbios ADV.* 2445 12,11%
Determinantes .*DET.* 3023 14,97%
Especificadores .*SPEC.* 518 2,56%
Numerais NUM.* 283 1,40%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 08 de Junho de 2014
Perguntas, comentários e sugestões