Acesso a corpos de português: Projecto AC/DC: corpo CorpiRef

CorpiRef : AC/DC : Linguateca
O CorpiRef é um corpo experimental para procurar personagens e as suas ações, usando -- por enquanto -- um processo manual de coreferência e anotação de sujeitos nulos. É um subconjunto do OBras, com as seguintes obras: Canaã, O Cortiço e Úrsula.

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra, (o nome da obra), autor (o autor da obra), capituloy, u (uma unidade de texto: frase, verso, título ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo], t [título], s [frase], e poesia [partes em poesia].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

Versão do corpo

Corpo CorpiRef, criado a 14 de outubro de 2025, versão 1.0

Excerto do corpo


u> <s> <t> Canaã </t> </s> </u>
<div "CAPÍTULO I">
<p>
<u> <s> Milkau cavalgava molemente o cansado cavalo que alugara para ir do Queimado à cidade do Porto do Cachoeiro, no Espírito Santo . </s> </u>
</p>
<p>
<u> <s> Os seus olhos de imigrante pasciam na doce redondeza do panorama . </s> </u>
...

Dados quantitativos

Corpo TYCHO Número de formasNúmero de tipos
Unidades 4226459149140
Total de palavras 3343966149117
Palavras em minúscula 257295495338
Palavras com inicial maiúscula35926528104
Palavras todas em maiúsculas 147882069
Números 190441442
Palavras com números800239
Palavras mistas41981692
Pontuação1759438

Número de unidades estruturais

Atributo Número
s 133393
p 133394
obra 76
t 1918
autor 76
tituloobra 76
data 514
variante 76
genero 76
grafia 76
div 2227
assinatura 1146
saudacao 441
mwe 49812
personagem 21725
fala 17305

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 130749 220329
Locuções 49812 105404
Palavras gráficas 3343966 3343966
Palavras simples 3018233 3018233
Palavras 3198794 3343966

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 595243 19,72%
Verbos V.* 529681 17,55%
Adjectivos ADJ.* 156050 5,17%
Pronomes pessoais .*PERS.* 158751 5,26%
Preposições PRP.* 463932 15,37%
Conjunções K.* 220026 7,29%
Advérbios ADV.* 197849 6,56%
Determinantes .*DET.* 529727 17,55%
Especificadores .*SPEC.* 98444 3,26%
Numerais NUM.* 43075 1,43%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 05 de Janeiro de 2026
Perguntas, comentários e sugestões