Acesso a corpos de português: Projecto AC/DC: corpo NOBRE

NOBRE : AC/DC : Linguateca
O corpo NOBRE (Novas OBRas publicadas na Europa) é um corpo de textos literários em português que já alcançaram o domínio público, criado para simplificar a construção do lado português do ELTEC, no âmbito do projeto COST "Distant Reading for European Literary History".

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

Versão do corpo

Corpo NOBRE, criado a 5 de janeiro de 2026, v. 13.0

Excerto do corpo


...

Dados quantitativos

Corpo NOBRE Número de formasNúmero de tipos
Unidades 12257616239683
Total de palavras 8939028238374
Palavras em minúscula 6939991146764
Palavras com inicial maiúscula76158735883
Palavras todas em maiúsculas 113822203
Números 8524967
Palavras com números443268
Palavras mistas43921839
Pontuação6448558

Número de unidades estruturais

Atributo Número
p 174431
s 512172
v 0
obra 168
capitulo 0
parte 0
tit 0
autor 168
tituloobra 168
div 33
mwe 133731
fala 555
personagem 560
t 68

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 233406 356027
Locuções 133731 291191
Palavras gráficas 8939028 8939028
Palavras simples 8291810 8291810
Palavras 8658947 8939028

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 1648816 19,88%
Verbos V.* 1515196 18,27%
Adjectivos ADJ.* 508206 6,13%
Pronomes pessoais .*PERS.* 439823 5,30%
Preposições PRP.* 1288711 15,54%
Conjunções K.* 456084 5,50%
Advérbios ADV.* 566620 6,83%
Determinantes .*DET.* 1531291 18,47%
Especificadores .*SPEC.* 217984 2,63%
Numerais NUM.* 66109 0,80%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 05 de Janeiro de 2026
Perguntas, comentários e sugestões