Acesso a corpos de português: Projecto AC/DC: corpo NOBRE

NOBRE : AC/DC : Linguateca
O corpo NOBRE (Novas OBRas publicadas na Europa) é um corpo de textos literários em português que já alcançaram o domínio público, criado para simplificar a construção do lado português do ELTEC, no âmbito do projeto COST "Distant Reading for European Literary History".

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

Versão do corpo

Corpus NOBRE, criado e anotado em agosto de 2019, v. 3.5

Excerto do corpo


...

Dados quantitativos

Corpo NOBRE Número de formasNúmero de tipos
Unidades 4927063146740
Total de palavras 3655805146421
Palavras em minúscula 287759595431
Palavras com inicial maiúscula28711219794
Palavras todas em maiúsculas 46731153
Números 3240502
Palavras com números11478
Palavras mistas24161028
Pontuação259125212

Número de unidades estruturais

Atributo Número
p 52501
s 198446
v 0
obra 73
capitulo 0
parte 0
tit 0
autor 73
tituloobra 73
div 15
mwe 54965

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 101974 411
Locuções 54965 120047
Palavras gráficas 3655805 3655805
Palavras simples 3535347 3535347
Palavras 3692286 3655805

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 691242 19,55%
Verbos V.* 604629 17,10%
Adjectivos ADJ.* 227865 6,45%
Pronomes pessoais .*PERS.* 175621 4,97%
Preposições PRP.* 536595 15,18%
Conjunções K.* 192219 5,44%
Advérbios ADV.* 231834 6,56%
Determinantes .*DET.* 635736 17,98%
Especificadores .*SPEC.* 88844 2,51%
Numerais NUM.* 27729 0,78%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 14 de Agosto de 2019
Perguntas, comentários e sugestões