Acesso a corpos de português: Projecto AC/DC: corpo OBras

OBras : AC/DC : Linguateca
O corpo OBras (Obras Brasileiras) é um corpo de textos brasileiros que já alcançaram o domínio público, criado numa colaboração entre a Linguateca, a Universidade de Oslo, a PUC-Rio, a Universidade Estadual do Maranhão (UEMA) e Anya Campos. Para mais informações veja-se a página do projeto.

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo], t [título] e s [frase], e poesia [partes em poesia].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

Versão do corpo

Corpus OBras, criado em fevereiro de 2019, v. 6.4

Excerto do corpo


...

Dados quantitativos

Corpo OBRAS Número de formasNúmero de tipos
Unidades 7051097154474
Total de palavras 5038239154102
Palavras em minúscula 396969495115
Palavras com inicial maiúscula42118223481
Palavras todas em maiúsculas 59821657
Números 5911611
Palavras com números18673
Palavras mistas1685780
Pontuação407619317

Número de unidades estruturais

Atributo Número
p 75620
s 315015
v 0
obra 221
capitulo 685
parte 9
tit 0
autor 223
tituloobra 223
div 272
mwe 89326

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 134059 4080
Locuções 89326 193982
Palavras gráficas 5038239 5038239
Palavras simples 4840177 4840177
Palavras 5063562 5038239

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 981962 20,29%
Verbos V.* 857106 17,71%
Adjectivos ADJ.* 294088 6,08%
Pronomes pessoais .*PERS.* 237065 4,90%
Preposições PRP.* 714915 14,77%
Conjunções K.* 263051 5,43%
Advérbios ADV.* 332590 6,87%
Determinantes .*DET.* 891181 18,41%
Especificadores .*SPEC.* 120389 2,49%
Numerais NUM.* 47409 0,98%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 10 de Abril de 2019
Perguntas, comentários e sugestões