Acesso a corpos de português: Projecto AC/DC: corpo CONDIVport2

CONDIVport2 : AC/DC : Linguateca
O corpus CONDIVport2 é o subcorpus de textos dos domínios da política e da sociedade da década de 2010 de jornais e revistas portugueses e brasileiros do mais vasto corpus CONDIVport (Silva, 2008), criado para estudar a CONvergência e a DIVergência entre estas duas variantes do português. O sufixo port distingue-o do seu congérene neerlandês, também denominado CONDIV. Veja-se uma descrição mais detalhada.

Este subcorpus contém por agora 66150 unidades do Jornal do Brasil (brasileiro) e 57542 do Diário de Notícias (português), perfazendo 344 textos.

Estrutura do corpo

O corpo está dividido em textos, assinalados pelo atributo texto; cada texto está dividido em parágrafos (atributo p) e frases (atributo s). Além disso, o CONDIVport2 contém os atributos posicionais variante (valores: PT, BR), id (valores: 1 a tN), tema, e fonte.
  • Valores de fonte possíveis: JB, DN.
Como todos os corpos do AC/DC, o CONDIVport está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo, por enquanto referente apenas a cor e roupa.

TamanhoFutebolModa/vestuárioSaúde
PT333341116792903168531337268
BR26493791367115801410480854
Todos 304640511182731818122

Versão do corpo

Corpus CONDIV2, versão texto de 15 de maio de 2017, anotado a 6 de julho de 2024, v. 4.1

Excerto do corpo


<texto num=1 tema=ciencia-e-tecnologia data=13/02/2017 fonte=JB>
<p>
<s> Matéria publicada nesta segunda-feira (13) pelo The Guardian conta que cientistas descobriram níveis "extraordinários" de poluição tóxica no lugar mais remoto e inacessível do planeta - a fossa das Marianas*, localizadas a 10 quilômetros de profundidade no oceano Pacífico . </s>
</p>
...

Dados quantitativos

Corpo CONDIV2 Número de formasNúmero de tipos
Unidades 21207520151
Total de palavras 17527719973
Palavras em minúscula 12797513458
Palavras com inicial maiúscula231714601
Palavras todas em maiúsculas 1338376
Números 2236349
Palavras com números18690
Palavras mistas37452
Pontuação9584177

Número de unidades estruturais

Atributo Número
texto 520
p 3928
s 6533
mwe 2618

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 10108 18814
Locuções 2618 5488
Palavras gráficas 175277 175277
Palavras simples 150975 150975
Palavras 163701 175277

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 38020 25,18%
Verbos V.* 22211 14,71%
Adjectivos ADJ.* 9163 6,07%
Pronomes pessoais .*PERS.* 1828 1,21%
Preposições PRP.* 31560 20,90%
Conjunções K.* 6970 4,62%
Advérbios ADV.* 6347 4,20%
Determinantes .*DET.* 30849 20,43%
Especificadores .*SPEC.* 2775 1,84%
Numerais NUM.* 4029 2,67%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 13 de Julho de 2024
Perguntas, comentários e sugestões