Acesso a corpos de português: Projecto AC/DC: corpo OBras

OBras : AC/DC : Linguateca
O corpo OBras (Obras Brasileiras) é um corpo de textos brasileiros que já alcançaram o domínio público, criado numa colaboração entre a Linguateca, a Universidade de Oslo, a PUC-Rio e Anya Campos, iniciada em julho de 2013. Para mais informações veja-se a página do projeto.

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo], t [título] e s [frase], e poesia [partes em poesia].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

Versão do corpo

Corpus OBras, criado a 18 de junho de 2018, v. 5.3

Excerto do corpo


...

Dados quantitativos

Corpo OBRAS Número de formasNúmero de tipos
Unidades 7000544153511
Total de palavras 4975448151676
Palavras em minúscula 391186294142
Palavras com inicial maiúscula42934423766
Palavras todas em maiúsculas 2428391
Números 6024607
Palavras com números10255
Palavras mistas1434843
Pontuação402421312

Número de unidades estruturais

Atributo Número
p 75688
s 312103
v 0
obra 222
capitulo 673
parte 0
tit 0
autor 222
tituloobra 222
div 273
mwe 101388

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 132210 177987
Locuções 101388 218603
Palavras gráficas 4975448 4975448
Palavras simples 4578858 4578858
Palavras 4812456 4975448

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 965805 21,09%
Verbos V.* 842736 18,40%
Adjectivos ADJ.* 289507 6,32%
Pronomes pessoais .*PERS.* 234672 5,13%
Preposições PRP.* 699785 15,28%
Conjunções K.* 260653 5,69%
Advérbios ADV.* 332046 7,25%
Determinantes .*DET.* 883706 19,30%
Especificadores .*SPEC.* 112270 2,45%
Numerais NUM.* 48058 1,05%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 22 de Setembro de 2018
Perguntas, comentários e sugestões