Acesso a corpos de português: Projecto AC/DC: corpo Colonia

Colonia : AC/DC : Linguateca
O Colonia é um corpo eletrônico anotado compilado para pesquisa sobre a história da língua portuguesa, com textos escritos entre 1500 e 1936, desenvolvido por Marcos Zampieri na Universidade de Colónia (Köln). Veja-se https://mzampieri.com/resources.html para mais informações. (Nota: À versão do AC/DC faltam ainda cinco textos.)

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o identificador original do projeto Colonia), tituloobra (o nome da obra), autor (o autor da obra) e dataobra. Também se encontram marcados, nas obras em que são relevantes, partes como parte, além dos marcadores estruturais comuns a todo o projeto AC/DC t (indicando título) e s [frase].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), data, variante e seculo, contendo o século em que a obra foi publicada.

Versão do corpo

Corpo COLONIA, criado a 5 de julho de 2024, v. 10.15

Excerto do corpo


<s>
CAROLINA
ADEUS ! Na estrada que conduz de Lisboa a *** erguia-se há poucos anos uma casa de bonita aparência , com sua vinha verdejante , seu pomar odorífero , seu jardim pequeno , mas bonito , suas alamedas , curtas mas frondosas .
</s>
<s>
O muro da quinta era alto bastante , e contudo os ramos das faias e dos choupos gigantes debruçavam-se sobre ele , assombrando com sua folhagem majestosa a estrada , que o mesmo muro flanqueava para um pequeno espaço .
</s>
...

Dados quantitativos

Corpo COLONIA Número de formasNúmero de tipos
Unidades 6965290174445
Total de palavras 5196107173976
Palavras em minúscula 4042832110566
Palavras com inicial maiúscula47556029326
Palavras todas em maiúsculas 165033434
Números 67861047
Palavras com números6648
Palavras mistas2255914
Pontuação401781342

Número de unidades estruturais

Atributo Número
p 294826
s 294826
texto 0
parte 1805
mwe 83859

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 144271 209224
Locuções 83859 181488
Palavras gráficas 5196107 5196107
Palavras simples 4805395 4805395
Palavras 5033525 5196107

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 971796 20,22%
Verbos V.* 868053 18,06%
Adjectivos ADJ.* 285521 5,94%
Pronomes pessoais .*PERS.* 253967 5,29%
Preposições PRP.* 734390 15,28%
Conjunções K.* 296848 6,18%
Advérbios ADV.* 344283 7,16%
Determinantes .*DET.* 877327 18,26%
Especificadores .*SPEC.* 136842 2,85%
Numerais NUM.* 40059 0,83%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 13 de Julho de 2024
Perguntas, comentários e sugestões