Acesso a corpos de português: Projecto AC/DC: corpo Literateca

Literateca : AC/DC : Linguateca
O corpo Literateca inclui todas as obras literárias presentes nos corpos disponibilizados pela Linguateca (Vercial, OBras, NOBRE, Tycho Brahe, Colonia e PANTERA) de forma a permitir que esse material possa ser interrogado duma só vez, evitando ao mesmo tempo sobreposições.

Os corpos que lhe deram origem continuam a existir e a serem mantidos independentemente (e prioritariamente). A Literateca é apenas uma forma mais simples de interagir com todos se o utilizador assim o desejar.

Tal como o corpo TODOS, tem apenas como atributos adicionais os atributos variante e corpo. Além disso, chamamos a atenção para o facto de poder estar pontualmente desatualizado em relação a versões modernas dos corpos individuais que o constituem.

No caso da sobreposição entre os vários corpos, usamos a ordem enunciada anteriormente. "Preferimos" os textos que se encontram no Vercial, etc.

Estrutura do corpo

Os marcadores estruturais são: s, p, e, dependendo dos corpos envolvidos, também ext, texto, entrevista, TEXTO, etc.

Para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

Versão do corpo

Corpo Literateca, criado a 18 de janeiro de 2026, v. 14.1

Excerto do corpo


<ext id=1 gen=«literatura»>
<p par=1>
<s> Foi entre a sopa e a galinha de molho pardo -- especialidade do restaurante Mickey Mouse -- que Sergio falou (voz forte, porém pouco firme, dir-se-ia: trôpega): </s>
</p>
<p par=2>
<s> Sergio não hesitou em se mostrar desarvorado com o protesto . </s>
<s> A intervenção de Silvio, porém, foi imediata: </s>
</p>
(...)
</ext>

Dados quantitativos

Corpo LITERATECA Número de formasNúmero de tipos
Unidades 51874630563105
Total de palavras 37223404562744
Palavras em minúscula 28576472299409
Palavras com inicial maiúscula3562483112386
Palavras todas em maiúsculas 12136611639
Números 814112216
Palavras com números1190679
Palavras mistas279226379
Pontuação26500678

Número de unidades estruturais

Atributo Número
p 799869
s 2301204
t 2286
v 289303
obra 990
capitulo 699
parte 468
tit 0
autor 881
tituloobra 881
div 5951
mwe 564471
fala 43102
personagem 47507

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 983872 1641487
Locuções 564471 1218072
Palavras gráficas 37223404 37223404
Palavras simples 34363845 34363845
Palavras 35912188 37223404

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 7095128 20,65%
Verbos V.* 6062695 17,64%
Adjectivos ADJ.* 2173983 6,33%
Pronomes pessoais .*PERS.* 1745893 5,08%
Preposições PRP.* 5346762 15,56%
Conjunções K.* 1967778 5,73%
Advérbios ADV.* 2278003 6,63%
Determinantes .*DET.* 6449801 18,77%
Especificadores .*SPEC.* 903858 2,63%
Numerais NUM.* 321523 0,94%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 18 de Janeiro de 2026
Perguntas, comentários e sugestões