Acesso a corpos de português: Projecto AC/DC: corpo Literateca

Literateca : AC/DC : Linguateca
O corpo Literateca inclui todas as obras literárias presentes nos corpos disponibilizados pela Linguateca (Vercial, OBras, NOBRE, Tycho Brahe e Colonia) de forma a permitir que esse material possa ser interrogado duma só vez, evitando ao mesmo tempo sobreposições.

Os corpos que lhe deram origem continuam a existir e a serem mantidos independentemente (e prioritariamente). A Literateca é apenas uma forma mais simples de interagir com todos se o utilizador assim o desejar.

Tal como o corpo TODOS, tem apenas como atributos adicionais os atributos variante e corpo. Além disso, chamamos a atenção para o facto de poder estar pontualmente desatualizado em relação a versões modernas dos corpos individuais que o constituem.

No caso da sobreposição entre os vários corpos, usamos a ordem enunciada anteriormente. "Preferimos" os textos que se encontram no Vercial, etc.

Estrutura do corpo

Os marcadores estruturais são: s, p, e, dependendo dos corpos envolvidos, também ext, texto, entrevista, TEXTO, etc.

Para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

Versão do corpo

Corpo Literateca, criado a 22 de maio de 2022, v. 9.1

Excerto do corpo


<ext id=1 gen=«literatura»>
<p par=1>
<s> Foi entre a sopa e a galinha de molho pardo -- especialidade do restaurante Mickey Mouse -- que Sergio falou (voz forte, porém pouco firme, dir-se-ia: trôpega): </s>
</p>
<p par=2>
<s> Sergio não hesitou em se mostrar desarvorado com o protesto . </s>
<s> A intervenção de Silvio, porém, foi imediata: </s>
</p>
(...)
</ext>

Dados quantitativos

Corpo LITERATECA Número de formasNúmero de tipos
Unidades 51285429579417
Total de palavras 36769280577010
Palavras em minúscula 28134137301468
Palavras com inicial maiúscula3534028114518
Palavras todas em maiúsculas 12588111835
Números 840602093
Palavras com números1313698
Palavras mistas5296210841
Pontuação26649552073

Número de unidades estruturais

Atributo Número
p 786491
s 2279013
t 2177
v 296077
obra 963
capitulo 689
parte 474
tit 0
autor 852
tituloobra 852
div 5805
mwe 540797
fala 44677
personagem 45914

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 1089024 1718488
Locuções 540797 1169683
Palavras gráficas 36769280 36769280
Palavras simples 33881109 33881109
Palavras 35510930 36769280

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 7070127 20,87%
Verbos V.* 5928404 17,50%
Adjectivos ADJ.* 2195276 6,48%
Pronomes pessoais .*PERS.* 1720923 5,08%
Preposições PRP.* 5257408 15,52%
Conjunções K.* 1922830 5,68%
Advérbios ADV.* 2247204 6,63%
Determinantes .*DET.* 6337567 18,71%
Especificadores .*SPEC.* 923658 2,73%
Numerais NUM.* 331259 0,98%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 22 de Maio de 2022
Perguntas, comentários e sugestões