Acesso a corpos de português: Projecto AC/DC: corpo NOBRE

NOBRE : AC/DC : Linguateca
O corpo NOBRE (Novas OBRas publicadas na Europa) é um corpo de textos literários em português que já alcançaram o domínio público, criado para simplificar a construção do lado português do ELTEC, no âmbito do projeto COST "Distant Reading for European Literary History".

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

Versão do corpo

Corpus NOBRE, criado e anotado em fevereiro de 2019, v. 2.4

Excerto do corpo


...

Dados quantitativos

Corpo NOBRE Número de formasNúmero de tipos
Unidades 3614244123130
Total de palavras 2685365122865
Palavras em minúscula 211880382584
Palavras com inicial maiúscula21515116249
Palavras todas em maiúsculas 3494985
Números 2524370
Palavras com números10172
Palavras mistas1541711
Pontuação189932176

Número de unidades estruturais

Atributo Número
p 35521
s 145375
v 0
obra 56
capitulo 0
parte 0
tit 0
autor 56
tituloobra 56
div 0
mwe 41832

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 71715 278
Locuções 41832 91548
Palavras gráficas 2685365 2685365
Palavras simples 2593539 2593539
Palavras 2707086 2685365

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 508629 19,61%
Verbos V.* 443549 17,10%
Adjectivos ADJ.* 168249 6,49%
Pronomes pessoais .*PERS.* 129093 4,98%
Preposições PRP.* 392309 15,13%
Conjunções K.* 144490 5,57%
Advérbios ADV.* 173190 6,68%
Determinantes .*DET.* 466595 17,99%
Especificadores .*SPEC.* 66726 2,57%
Numerais NUM.* 21234 0,82%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 10 de Fevereiro de 2019
Perguntas, comentários e sugestões