Acesso a corpos de português: Projecto AC/DC: corpo OBras

OBras : AC/DC : Linguateca
O corpo OBras (Obras Brasileiras) é um corpo de textos brasileiros que já alcançaram o domínio público, criado numa colaboração entre a Linguateca, a Universidade de Oslo, a PUC-Rio, a Universidade Estadual do Maranhão (UEMA) e Anya Campos. Para mais informações veja-se a página do projeto.

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo], t [título] e s [frase], e poesia [partes em poesia].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

Versão do corpo

Corpo OBras, criado a 7 de agosto de 2023, v. 15.1

Excerto do corpo


...

Dados quantitativos

Corpo OBRAS Número de formasNúmero de tipos
Unidades 14427654230116
Total de palavras 10235100229484
Palavras em minúscula 8026618133797
Palavras com inicial maiúscula87193738313
Palavras todas em maiúsculas 115942965
Números 10278967
Palavras com números257164
Palavras mistas26301378
Pontuação797331526

Número de unidades estruturais

Atributo Número
p 229727
s 629450
t 1810
v 23018
obra 333
capitulo 686
parte 9
tit 0
autor 333
tituloobra 333
div 2588
mwe 177656

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 243399 330801
Locuções 177656 386345
Palavras gráficas 10235100 10235100
Palavras simples 9517954 9517954
Palavras 9939009 10235100

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 1998408 21,00%
Verbos V.* 1728083 18,16%
Adjectivos ADJ.* 609182 6,40%
Pronomes pessoais .*PERS.* 479540 5,04%
Preposições PRP.* 1494464 15,70%
Conjunções K.* 522156 5,49%
Advérbios ADV.* 656678 6,90%
Determinantes .*DET.* 1811992 19,04%
Especificadores .*SPEC.* 246100 2,59%
Numerais NUM.* 82582 0,87%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 08 de Agosto de 2023
Perguntas, comentários e sugestões