Acesso a corpos de português: Projecto AC/DC: corpo Colonia

Colonia : AC/DC : Linguateca
O Colonia é um corpo eletrônico anotado compilado para pesquisa sobre a história da língua portuguesa, com textos escritos entre 1500 e 1936, desenvolvido por Marcos Zampieri na Universidade de Colónia (Köln). Veja-se https://mzampieri.com/resources.html para mais informações. (Nota: À versão do AC/DC faltam ainda cinco textos.)

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o identificador original do projeto Colonia), tituloobra (o nome da obra), autor (o autor da obra) e dataobra. Também se encontram marcados, nas obras em que são relevantes, partes como parte, além dos marcadores estruturais comuns a todo o projeto AC/DC t (indicando título) e s [frase].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), data, variante e seculo, contendo o século em que a obra foi publicada.

Versão do corpo

Corpo COLONIA, criado a 4 de janeiro de 2026, v. 12.0

Excerto do corpo


<s>
CAROLINA
ADEUS ! Na estrada que conduz de Lisboa a *** erguia-se há poucos anos uma casa de bonita aparência , com sua vinha verdejante , seu pomar odorífero , seu jardim pequeno , mas bonito , suas alamedas , curtas mas frondosas .
</s>
<s>
O muro da quinta era alto bastante , e contudo os ramos das faias e dos choupos gigantes debruçavam-se sobre ele , assombrando com sua folhagem majestosa a estrada , que o mesmo muro flanqueava para um pequeno espaço .
</s>
...

Dados quantitativos

Corpo COLONIA Número de formasNúmero de tipos
Unidades 6658516174452
Total de palavras 4981875174438
Palavras em minúscula 3868824110685
Palavras com inicial maiúscula45754629340
Palavras todas em maiúsculas 163173435
Números 67851050
Palavras com números6648
Palavras mistas2224909
Pontuação3754928

Número de unidades estruturais

Atributo Número
p 279202
s 279202
obra 92
texto 92
parte 1727
mwe 82042
lixo 14

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 144538 203003
Locuções 82042 177003
Palavras gráficas 4981875 4981875
Palavras simples 4601869 4601869
Palavras 4828449 4981875

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 932482 20,26%
Verbos V.* 829117 18,02%
Adjectivos ADJ.* 274092 5,96%
Pronomes pessoais .*PERS.* 241347 5,24%
Preposições PRP.* 700416 15,22%
Conjunções K.* 285193 6,20%
Advérbios ADV.* 328282 7,13%
Determinantes .*DET.* 844421 18,35%
Especificadores .*SPEC.* 125625 2,73%
Numerais NUM.* 38591 0,84%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 05 de Janeiro de 2026
Perguntas, comentários e sugestões