Acesso a corpos de português: Projecto AC/DC: corpo NOBRE

NOBRE : AC/DC : Linguateca
O corpo NOBRE (Novas OBRas publicadas na Europa) é um corpo de textos literários em português que já alcançaram o domínio público, criado para simplificar a construção do lado português do ELTEC, no âmbito do projeto COST "Distant Reading for European Literary History".

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

Versão do corpo

Corpus NOBRE, criado e anotado em fevereiro de 2019, v. 2.5

Excerto do corpo


...

Dados quantitativos

Corpo NOBRE Número de formasNúmero de tipos
Unidades 3614242123102
Total de palavras 2685365122837
Palavras em minúscula 212279582633
Palavras com inicial maiúscula21117016181
Palavras todas em maiúsculas 3479974
Números 2524370
Palavras com números10172
Palavras mistas1541711
Pontuação189932176

Número de unidades estruturais

Atributo Número
p 35485
s 145323
v 0
obra 56
capitulo 0
parte 0
tit 0
autor 56
tituloobra 56
div 0
mwe 41831

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 71715 278
Locuções 41831 91546
Palavras gráficas 2685365 2685365
Palavras simples 2593541 2593541
Palavras 2707087 2685365

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 508629 19,61%
Verbos V.* 443549 17,10%
Adjectivos ADJ.* 168249 6,49%
Pronomes pessoais .*PERS.* 129093 4,98%
Preposições PRP.* 392423 15,13%
Conjunções K.* 144490 5,57%
Advérbios ADV.* 173076 6,67%
Determinantes .*DET.* 466595 17,99%
Especificadores .*SPEC.* 66726 2,57%
Numerais NUM.* 21234 0,82%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 01 de Março de 2019
Perguntas, comentários e sugestões