Acesso a corpos de português: Projecto AC/DC: corpo todos juntos

todos juntos : AC/DC : Linguateca
O corpo TODOS foi criado pela Linguateca de forma a permitir que todos os corpos da Linguateca pudessem ser interrogados duma só vez, evitando ao mesmo tempo que sobreposições de material produzissem repetição escusada e enganadora de concordâncias ou frequências.

É, portanto, especialmente apropriado para investigações relacionadas com género textual ou com anotação semântica.

Porque é automaticamente produzido a partir de todos os outros corpos do AC/DC, contém apenas os atributos estruturais e posicionais que pertençam à interseção de todos os corpos, além dos atributos variante e corpo. Além disso, chamamos a atenção para o facto de poder estar pontualmente desatualizado em relação a versões modernas de corpos individuais.

No caso da sobreposição entre o corpo NILC/São Carlos e o CHAVE, e do corpo CETEMPúblico e o CHAVE, foi escolhido o material do CHAVE.

O corpo contém cerca de 1300 milhões de palavras, distribuídas entre vários géneros e temas, correspondendo ao conteúdo de todos os corpos presentes no AC/DC.

GéneroUnidades
academico 409.552.077
blog 4.253.225
cartas 842.924
desc 3.432.044
encic 17.734.659
ensaio 2.219.797
jorn 669.804.963
legal 9.791.855
lit 48.597.042
littrad 77.742
mail 2.084.027
misto 389.380
oraldebate 37.004
oralent 6.674.191
oralfut 86.132
oralinf 292.678
oralmono 77.526.185
recensoes 265.223
religioso 874.402
revistas 647.609
teatro 1.148.728
tecnico 86.312.671
variado 137.824

Estrutura do corpo

Os marcadores estruturais são: s, p, e, dependendo dos corpos envolvidos, também ext, texto, entrevista, TEXTO, etc.

Versão do corpo

Corpus todos, criado a 4 de setembro de 2022, v. 8.1

Excerto do corpo


<ext id=1 gen=«literatura»>
<p par=1>
<s> Foi entre a sopa e a galinha de molho pardo -- especialidade do restaurante Mickey Mouse -- que Sergio falou (voz forte, porém pouco firme, dir-se-ia: trôpega): </s>
</p>
<p par=2>
<s> Sergio não hesitou em se mostrar desarvorado com o protesto . </s>
<s> A intervenção de Silvio, porém, foi imediata: </s>
</p>
(...)
</ext>

Dados quantitativos

Corpo TODOS Número de formasNúmero de tipos
Unidades 15189279646295254
Total de palavras 12610582995491047
Palavras em minúscula 8887322901455100
Palavras com inicial maiúscula1574734881130986
Palavras todas em maiúsculas 25115356375442
Números 2102615255906
Palavras com números2505480395382
Palavras mistas3406250412691
Pontuação83288930551356

Número de unidades estruturais

Atributo Número
TEXTO 0
CATEGORY 192967
0
art 21801
assinatura 1556
assunto 4858
autor 71244
caixa 1077
capitulo 714
cita 80
div 6932
entrevista 2278
ext 1415377
fala 115137
introd 4
legenda 836
li 100101
marca 16664
mens 4911
mwe 18130528
nota 2329
obra 897
p 5951417
parte 11631
pergunta 12902
personagem 121024
resposta 13422
s 55180342
situacao 561
subtitulo 3719
t 1192583
texto 23968
titulo 2210
tituloobra 897
u 1927081
v 294798
a 221343
data 193395
indic 5643

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 86280986 127913038
Locuções 18130528 38609211
Palavras gráficas 1261058299 1261058299
Palavras simples 1094536050 1094536050
Palavras 1198947564 1261058299

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 277167661 25,32%
Verbos V.* 145537153 13,30%
Adjectivos ADJ.* 77778842 7,11%
Pronomes pessoais .*PERS.* 17336037 1,58%
Preposições PRP.* 204459658 18,68%
Conjunções K.* 48772948 4,46%
Advérbios ADV.* 48246109 4,41%
Determinantes .*DET.* 198022464 18,09%
Especificadores .*SPEC.* 18158155 1,66%
Numerais NUM.* 36601144 3,34%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 04 de Setembro de 2022
Perguntas, comentários e sugestões