Acesso a corpos de português: Projecto AC/DC: corpo OBras

OBras : AC/DC : Linguateca
O corpo OBras (Obras Brasileiras) é um corpo de textos brasileiros que já alcançaram o domínio público, criado numa colaboração entre a Linguateca, a Universidade de Oslo, a PUC-Rio, a Universidade Estadual do Maranhão (UEMA) e Anya Campos. Para mais informações veja-se a página do projeto.

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo], t [título] e s [frase], e poesia [partes em poesia].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

Versão do corpo

Corpo OBras, criado a 6 de julho de 2024, v. 16.11

Excerto do corpo


...

Dados quantitativos

Corpo OBRAS Número de formasNúmero de tipos
Unidades 14626228236044
Total de palavras 10369863235194
Palavras em minúscula 8116484138500
Palavras com inicial maiúscula88322138806
Palavras todas em maiúsculas 117133049
Números 10340969
Palavras com números260166
Palavras mistas25891392
Pontuação804674526

Número de unidades estruturais

Atributo Número
p 236090
s 639156
t 1856
v 23015
obra 335
capitulo 689
parte 13
tit 0
autor 335
tituloobra 335
div 2615
mwe 179524

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 245969 344944
Locuções 179524 390005
Palavras gráficas 10369863 10369863
Palavras simples 9634914 9634914
Palavras 10060407 10369863

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 2021834 20,98%
Verbos V.* 1745696 18,12%
Adjectivos ADJ.* 617121 6,41%
Pronomes pessoais .*PERS.* 484368 5,03%
Preposições PRP.* 1505260 15,62%
Conjunções K.* 527032 5,47%
Advérbios ADV.* 664121 6,89%
Determinantes .*DET.* 1834341 19,04%
Especificadores .*SPEC.* 248937 2,58%
Numerais NUM.* 83029 0,86%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 12 de Julho de 2024
Perguntas, comentários e sugestões