Acesso a corpos de português: Projecto AC/DC: corpo OBras

OBras : AC/DC : Linguateca
O corpo OBras (Obras Brasileiras) é um corpo de textos brasileiros que já alcançaram o domínio público, criado numa colaboração entre a Linguateca, a Universidade de Oslo, a PUC-Rio, a Universidade Estadual do Maranhão (UEMA) e Anya Campos. Para mais informações veja-se a página do projeto.

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo], t [título] e s [frase], e poesia [partes em poesia].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

Versão do corpo

Corpo OBras, criado a 1 de outubro de 2020, v. 9.8

Excerto do corpo


...

Dados quantitativos

Corpo OBRAS Número de formasNúmero de tipos
Unidades 9787109188899
Total de palavras 6868239188452
Palavras em minúscula 5377404113531
Palavras com inicial maiúscula58777730301
Palavras todas em maiúsculas 94002579
Números 6659799
Palavras com números284144
Palavras mistas2017952
Pontuação547968366

Número de unidades estruturais

Atributo Número
p 148815
s 443918
t 1175
v 23049
obra 265
capitulo 689
parte 9
tit 0
autor 265
tituloobra 265
div 892
mwe 120198

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 165807 219208
Locuções 120198 261044
Palavras gráficas 6868239 6868239
Palavras simples 6387987 6387987
Palavras 6673992 6868239

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 1345924 21,07%
Verbos V.* 1163772 18,22%
Adjectivos ADJ.* 410386 6,42%
Pronomes pessoais .*PERS.* 324373 5,08%
Preposições PRP.* 974760 15,26%
Conjunções K.* 351382 5,50%
Advérbios ADV.* 448191 7,02%
Determinantes .*DET.* 1212496 18,98%
Especificadores .*SPEC.* 163835 2,56%
Numerais NUM.* 59104 0,93%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 01 de Outubro de 2020
Perguntas, comentários e sugestões