Acesso a corpos de português: Projecto AC/DC: corpo NOBRE

NOBRE : AC/DC : Linguateca
O corpo NOBRE (Novas OBRas publicadas na Europa) é um corpo de textos literários em português que já alcançaram o domínio público, criado para simplificar a construção do lado português do ELTEC, no âmbito do projeto COST "Distant Reading for European Literary History".

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

Versão do corpo

Corpo NOBRE, criado a 8 de março de 2026, v. 13.1

Excerto do corpo


...

Dados quantitativos

Corpo NOBRE Número de formasNúmero de tipos
Unidades 12509978242565
Total de palavras 9128201241245
Palavras em minúscula 7089531148474
Palavras com inicial maiúscula77449036287
Palavras todas em maiúsculas 114132206
Números 8578970
Palavras com números443268
Palavras mistas44771858
Pontuação6562178

Número de unidades estruturais

Atributo Número
p 177999
s 521880
v 0
obra 172
capitulo 0
parte 0
tit 0
autor 172
tituloobra 172
div 95
mwe 136349
fala 555
personagem 560
t 105

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 237198 361282
Locuções 136349 296902
Palavras gráficas 9128201 9128201
Palavras simples 8470017 8470017
Palavras 8843564 9128201

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 1688634 19,94%
Verbos V.* 1545254 18,24%
Adjectivos ADJ.* 520109 6,14%
Pronomes pessoais .*PERS.* 447843 5,29%
Preposições PRP.* 1317636 15,56%
Conjunções K.* 465342 5,49%
Advérbios ADV.* 576819 6,81%
Determinantes .*DET.* 1563458 18,46%
Especificadores .*SPEC.* 221859 2,62%
Numerais NUM.* 67449 0,80%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 08 de Março de 2026
Perguntas, comentários e sugestões