Acesso a corpos de português: Projecto AC/DC: corpo Colonia

Colonia : AC/DC : Linguateca
O Colonia é um corpo eletrônico anotado compilado para pesquisa sobre a história da língua portuguesa, com textos escritos entre 1500 e 1936, desenvolvido por Marcos Zampieri na Universidade de Colónia (Köln). Veja-se https://mzampieri.com/resources.html para mais informações. (Nota: À versão do AC/DC faltam ainda cinco textos.)

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o identificador original do projeto Colonia), tituloobra (o nome da obra), autor (o autor da obra) e dataobra. Também se encontram marcados, nas obras em que são relevantes, partes como parte, além dos marcadores estruturais comuns a todo o projeto AC/DC t (indicando título) e s [frase].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), data, variante e seculo, contendo o século em que a obra foi publicada.

Versão do corpo

Corpo COLONIA, criado a 10 de janeiro de 2024, v. 10.10

Excerto do corpo


<s>
CAROLINA
ADEUS ! Na estrada que conduz de Lisboa a *** erguia-se há poucos anos uma casa de bonita aparência , com sua vinha verdejante , seu pomar odorífero , seu jardim pequeno , mas bonito , suas alamedas , curtas mas frondosas .
</s>
<s>
O muro da quinta era alto bastante , e contudo os ramos das faias e dos choupos gigantes debruçavam-se sobre ele , assombrando com sua folhagem majestosa a estrada , que o mesmo muro flanqueava para um pequeno espaço .
</s>
...

Dados quantitativos

Corpo COLONIA Número de formasNúmero de tipos
Unidades 6656587174477
Total de palavras 4979033174008
Palavras em minúscula 3869867110589
Palavras com inicial maiúscula45759829329
Palavras todas em maiúsculas 163113434
Números 67821047
Palavras com números6648
Palavras mistas2263918
Pontuação381883342

Número de unidades estruturais

Atributo Número
p 279202
s 279202
texto 0
parte 1727
mwe 79303

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 144271 202750
Locuções 79303 171391
Palavras gráficas 4979033 4979033
Palavras simples 4604892 4604892
Palavras 4828466 4979033

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 932718 20,25%
Verbos V.* 828575 17,99%
Adjectivos ADJ.* 274036 5,95%
Pronomes pessoais .*PERS.* 241299 5,24%
Preposições PRP.* 703342 15,27%
Conjunções K.* 285198 6,19%
Advérbios ADV.* 328282 7,13%
Determinantes .*DET.* 837207 18,18%
Especificadores .*SPEC.* 131003 2,84%
Numerais NUM.* 38592 0,84%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 15 de Janeiro de 2024
Perguntas, comentários e sugestões