Acesso a corpos de português: Projecto AC/DC: corpo CONDIVport2

CONDIVport2 : AC/DC : Linguateca
O corpus CONDIVport2 é o subcorpus de textos dos domínios da política e da sociedade da década de 2010 de jornais e revistas portugueses e brasileiros do mais vasto corpus CONDIVport (Silva, 2008), criado para estudar a CONvergência e a DIVergência entre estas duas variantes do português. O sufixo port distingue-o do seu congérene neerlandês, também denominado CONDIV. Veja-se uma descrição mais detalhada.

Este subcorpus contém por agora 66150 unidades do Jornal do Brasil (brasileiro) e 57542 do Diário de Notícias (português), perfazendo 344 textos.

Estrutura do corpo

O corpo está dividido em textos, assinalados pelo atributo texto; cada texto está dividido em parágrafos (atributo p) e frases (atributo s). Além disso, o CONDIVport2 contém os atributos posicionais variante (valores: PT, BR), id (valores: 1 a tN), tema, e fonte.
  • Valores de fonte possíveis: JB, DN.
Como todos os corpos do AC/DC, o CONDIVport está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo, por enquanto referente apenas a cor e roupa.

TamanhoFutebolModa/vestuárioSaúde
PT333341116792903168531337268
BR26493791367115801410480854
Todos 304640511182731818122

Versão do corpo

Corpus CONDIV2, versão texto de 15 de maio de 2017, anotado em dezembro de 2018, v. 2.0

Excerto do corpo


<texto num=1 tema=ciencia-e-tecnologia data=13/02/2017 fonte=JB>
<p>
<s> Matéria publicada nesta segunda-feira (13) pelo The Guardian conta que cientistas descobriram níveis "extraordinários" de poluição tóxica no lugar mais remoto e inacessível do planeta - a fossa das Marianas*, localizadas a 10 quilômetros de profundidade no oceano Pacífico . </s>
</p>
...

Dados quantitativos

Corpo CONDIV2 Número de formasNúmero de tipos
Unidades 20904120143
Total de palavras 17249719947
Palavras em minúscula 12789713482
Palavras com inicial maiúscula231874641
Palavras todas em maiúsculas 1204291
Números 2240346
Palavras com números18690
Palavras mistas36341
Pontuação9522180

Número de unidades estruturais

Atributo Número
texto 519
p 3927
s 6532
mwe 2520

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 7134 7
Locuções 2520 5144
Palavras gráficas 172497 172497
Palavras simples 167346 167346
Palavras 177000 172497

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 37443 22,37%
Verbos V.* 22054 13,18%
Adjectivos ADJ.* 9171 5,48%
Pronomes pessoais .*PERS.* 1824 1,09%
Preposições PRP.* 31566 18,86%
Conjunções K.* 6964 4,16%
Advérbios ADV.* 6491 3,88%
Determinantes .*DET.* 31011 18,53%
Especificadores .*SPEC.* 2783 1,66%
Numerais NUM.* 4214 2,52%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 10 de Dezembro de 2018
Perguntas, comentários e sugestões