Acesso a corpos de português: Projecto AC/DC: corpo Colonia

Colonia : AC/DC : Linguateca
O Colonia é um corpo eletrônico anotado compilado para pesquisa sobre a história da língua portuguesa, com textos escritos entre 1500 e 1936, desenvolvido pela Universidade de Colónia (Köln). A sua página principal é http://corporavm.uni-koeln.de/colonia/ onde todas as informações estão disponíveis. Veja também Zampieri & Becker (2013). (Nota: À versão do AC/DC faltam ainda cinco textos.)

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o identificador original do projeto Colonia), tituloobra (o nome da obra), autor (o autor da obra) e dataobra. Também se encontram marcados, nas obras em que são relevantes, partes como parte, além dos marcadores estruturais comuns a todo o projeto AC/DC t (indicando título) e s [frase].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), data, variante e seculo, contendo o século em que a obra foi publicada.

Versão do corpo

Corpus COLONIA, criado e anotado a 5 de dezembro de 2018, v. 4.0

Excerto do corpo


<s>
CAROLINA
ADEUS ! Na estrada que conduz de Lisboa a *** erguia-se há poucos anos uma casa de bonita aparência , com sua vinha verdejante , seu pomar odorífero , seu jardim pequeno , mas bonito , suas alamedas , curtas mas frondosas .
</s>
<s>
O muro da quinta era alto bastante , e contudo os ramos das faias e dos choupos gigantes debruçavam-se sobre ele , assombrando com sua folhagem majestosa a estrada , que o mesmo muro flanqueava para um pequeno espaço .
</s>
...

Dados quantitativos

Corpo COLONIA Número de formasNúmero de tipos
Unidades 6116996173524
Total de palavras 5022528173020
Palavras em minúscula 3906166109422
Palavras com inicial maiúscula45676129228
Palavras todas em maiúsculas 129932772
Números 6477774
Palavras com números8556
Palavras mistas36051420
Pontuação372421360

Número de unidades estruturais

Atributo Número
p 0
s 280477
texto 0
parte 1727
mwe 74897

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 166152 434
Locuções 74897 158526
Palavras gráficas 5022528 5022528
Palavras simples 4863568 4863568
Palavras 5104617 5022528

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 931992 19,16%
Verbos V.* 827802 17,02%
Adjectivos ADJ.* 278060 5,72%
Pronomes pessoais .*PERS.* 243319 5,00%
Preposições PRP.* 703690 14,47%
Conjunções K.* 290226 5,97%
Advérbios ADV.* 330663 6,80%
Determinantes .*DET.* 845237 17,38%
Especificadores .*SPEC.* 130912 2,69%
Numerais NUM.* 39022 0,80%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 11 de Dezembro de 2018
Perguntas, comentários e sugestões