Acesso a corpos de português: Projecto AC/DC: corpo OBras

OBras : AC/DC : Linguateca
O corpo OBras (Obras Brasileiras) é um corpo de textos brasileiros que já alcançaram o domínio público, criado numa colaboração entre a Linguateca, a Universidade de Oslo, a PUC-Rio, a Universidade Estadual do Maranhão (UEMA) e Anya Campos. Para mais informações veja-se a página do projeto.

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo], t [título] e s [frase], e poesia [partes em poesia].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

Versão do corpo

Corpus OBras, criado a 2 de agosto de 2019, v. 7.7

Excerto do corpo


...

Dados quantitativos

Corpo OBRAS Número de formasNúmero de tipos
Unidades 8546160171950
Total de palavras 6009457171537
Palavras em minúscula 4720689103875
Palavras com inicial maiúscula50717427205
Palavras todas em maiúsculas 70501957
Números 6709815
Palavras com números254128
Palavras mistas1997883
Pontuação489148350

Número de unidades estruturais

Atributo Número
p 114510
s 386834
t 1014
v 20363
obra 245
capitulo 685
parte 9
tit 0
autor 247
tituloobra 247
div 659
mwe 107003

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 154028 846
Locuções 107003 232310
Palavras gráficas 6009457 6009457
Palavras simples 5776301 5776301
Palavras 6037332 6009457

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 1169198 20,24%
Verbos V.* 1023909 17,73%
Adjectivos ADJ.* 355265 6,15%
Pronomes pessoais .*PERS.* 287426 4,98%
Preposições PRP.* 848804 14,69%
Conjunções K.* 311282 5,39%
Advérbios ADV.* 399403 6,91%
Determinantes .*DET.* 1057650 18,31%
Especificadores .*SPEC.* 144595 2,50%
Numerais NUM.* 53869 0,93%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 11 de Agosto de 2019
Perguntas, comentários e sugestões