Acesso a corpos de português: Projecto AC/DC: corpo OBras

OBras : AC/DC : Linguateca
O corpo OBras (Obras Brasileiras) é um corpo de textos brasileiros que já alcançaram o domínio público, criado numa colaboração entre a Linguateca, a Universidade de Oslo, a PUC-Rio, a Universidade Estadual do Maranhão (UEMA) e Anya Campos. Para mais informações veja-se a página do projeto.

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo], t [título] e s [frase], e poesia [partes em poesia].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

Versão do corpo

Corpo OBras, criado a 7 de março de 2026, v. 18.2

Excerto do corpo


...

Dados quantitativos

Corpo OBRAS Número de formasNúmero de tipos
Unidades 14517326234140
Total de palavras 10292746234040
Palavras em minúscula 8058973138344
Palavras com inicial maiúscula87379938281
Palavras todas em maiúsculas 115703033
Números 9000791
Palavras com números222139
Palavras mistas20341124
Pontuação7843858

Número de unidades estruturais

Atributo Número
p 235795
s 635765
t 1872
v 23015
obra 337
capitulo 699
parte 13
tit 0
autor 337
tituloobra 337
div 2621
mwe 182237

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 242945 340586
Locuções 182237 395512
Palavras gráficas 10292746 10292746
Palavras simples 9556648 9556648
Palavras 9981830 10292746

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 2005147 20,98%
Verbos V.* 1735172 18,16%
Adjectivos ADJ.* 613296 6,42%
Pronomes pessoais .*PERS.* 481031 5,03%
Preposições PRP.* 1489577 15,59%
Conjunções K.* 523264 5,48%
Advérbios ADV.* 659926 6,91%
Determinantes .*DET.* 1828894 19,14%
Especificadores .*SPEC.* 239075 2,50%
Numerais NUM.* 81241 0,85%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 07 de Março de 2026
Perguntas, comentários e sugestões