Acesso a corpos de português: Projecto AC/DC: corpo Literateca

Literateca : AC/DC : Linguateca
O corpo Literateca inclui todas as obras literárias presentes nos corpos disponibilizados pela Linguateca (Vercial, OBras, NOBRE, Tycho Brahe, Colonia e PANTERA) de forma a permitir que esse material possa ser interrogado duma só vez, evitando ao mesmo tempo sobreposições.

Os corpos que lhe deram origem continuam a existir e a serem mantidos independentemente (e prioritariamente). A Literateca é apenas uma forma mais simples de interagir com todos se o utilizador assim o desejar.

Tal como o corpo TODOS, tem apenas como atributos adicionais os atributos variante e corpo. Além disso, chamamos a atenção para o facto de poder estar pontualmente desatualizado em relação a versões modernas dos corpos individuais que o constituem.

No caso da sobreposição entre os vários corpos, usamos a ordem enunciada anteriormente. "Preferimos" os textos que se encontram no Vercial, etc.

Estrutura do corpo

Os marcadores estruturais são: s, p, e, dependendo dos corpos envolvidos, também ext, texto, entrevista, TEXTO, etc.

Para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

Versão do corpo

Corpo Literateca, criado a 8 de março de 2026, v. 14.2

Excerto do corpo


<ext id=1 gen=«literatura»>
<p par=1>
<s> Foi entre a sopa e a galinha de molho pardo -- especialidade do restaurante Mickey Mouse -- que Sergio falou (voz forte, porém pouco firme, dir-se-ia: trôpega): </s>
</p>
<p par=2>
<s> Sergio não hesitou em se mostrar desarvorado com o protesto . </s>
<s> A intervenção de Silvio, porém, foi imediata: </s>
</p>
(...)
</ext>

Dados quantitativos

Corpo LITERATECA Número de formasNúmero de tipos
Unidades 52206785565160
Total de palavras 37473704564782
Palavras em minúscula 28773916300575
Palavras com inicial maiúscula3580169112638
Palavras todas em maiúsculas 12141011642
Números 815152216
Palavras com números1191680
Palavras mistas280936400
Pontuação26652638

Número de unidades estruturais

Atributo Número
p 805912
s 2313858
t 2347
v 289303
obra 998
capitulo 699
parte 619
tit 0
autor 887
tituloobra 887
div 6059
mwe 567880
fala 43102
personagem 47507

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 988084 1648673
Locuções 567880 1225490
Palavras gráficas 37473704 37473704
Palavras simples 34599541 34599541
Palavras 36155505 37473704

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 7146550 20,66%
Verbos V.* 6102940 17,64%
Adjectivos ADJ.* 2190140 6,33%
Pronomes pessoais .*PERS.* 1757104 5,08%
Preposições PRP.* 5384210 15,56%
Conjunções K.* 1980125 5,72%
Advérbios ADV.* 2292003 6,62%
Determinantes .*DET.* 6491984 18,76%
Especificadores .*SPEC.* 909271 2,63%
Numerais NUM.* 323291 0,93%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 08 de Março de 2026
Perguntas, comentários e sugestões