Acesso a corpos de português: Projecto AC/DC: corpo OBras

OBras : AC/DC : Linguateca
O corpo OBras (Obras Brasileiras) é um corpo de textos brasileiros que já alcançaram o domínio público, criado numa colaboração entre a Linguateca, a Universidade de Oslo, a PUC-Rio, a Universidade Estadual do Maranhão (UEMA) e Anya Campos. Para mais informações veja-se a página do projeto.

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo], t [título] e s [frase], e poesia [partes em poesia].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

Versão do corpo

Corpo OBras, criado a 17 de janeiro de 2026, v. 18.1

Excerto do corpo


...

Dados quantitativos

Corpo OBRAS Número de formasNúmero de tipos
Unidades 14488552233454
Total de palavras 10270819233361
Palavras em minúscula 8041800137923
Palavras com inicial maiúscula87247938208
Palavras todas em maiúsculas 115663030
Números 8974791
Palavras com números222139
Palavras mistas20181113
Pontuação7832438

Número de unidades estruturais

Atributo Número
p 235306
s 634805
t 1851
v 23015
obra 336
capitulo 699
parte 13
tit 0
autor 336
tituloobra 336
div 2577
mwe 181946

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 242525 340025
Locuções 181946 394884
Palavras gráficas 10270819 10270819
Palavras simples 9535910 9535910
Palavras 9960381 10270819

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 2000705 20,98%
Verbos V.* 1731940 18,16%
Adjectivos ADJ.* 611239 6,41%
Pronomes pessoais .*PERS.* 480090 5,03%
Preposições PRP.* 1485954 15,58%
Conjunções K.* 522504 5,48%
Advérbios ADV.* 658754 6,91%
Determinantes .*DET.* 1825013 19,14%
Especificadores .*SPEC.* 238672 2,50%
Numerais NUM.* 81086 0,85%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 17 de Janeiro de 2026
Perguntas, comentários e sugestões