Acesso a corpos de português: Projecto AC/DC: corpo CONDIVport

CONDIVport : AC/DC : Linguateca
O corpus CONDIVport é o subcorpus de textos dos domínios do futebol, do vestuário/moda e da saúde das décadas de 50, 70 e 2000 de jornais e revistas portugueses e brasileiros do mais vasto corpus CONDIVport (Silva, 2008), criado para estudar a CONvergência e a DIVergência entre estas duas variantes do português. O sufixo port distingue-o do seu congérene neerlandês, também denominado CONDIV. Veja-se uma descrição mais detalhada.

Este subcorpus contém 3981 extractos de textos de jornais desportivos portugueses e brasileiros, das décadas de 1950, 1970 e 2000; 4372 textos (agrupados em 82 extractos, ou seja, provenientes de 82 edições) de revistas de moda portuguesas e brasileiras, das décadas de 1950, 1970, e 1990-2000, assim como 1815 textos de revistas e jornais de saúde nos mesmos períodos.

Estrutura do corpo

O corpo está dividido em extractos, assinalados pelo atributo ext; cada extracto está dividido em parágrafos (atributo p) e frases (atributo s). Nos casos da moda e da saúde, os extractos estão ainda subdivididos em textos, que correspondem a notícias completas. Além disso, o CONDIVport contém os atributos posicionais decada (valores: 50, 70, 2000), variante (valores: PT, BR), texto (valores:t1 a tN) e fonte.
  • Valores de fonte para os jornais desportivos: Bola, Record, MundoDesp, OJogo, JSports, OEestadoSP, GazetaEsp, Lance.
  • Valores de fonte para a moda/vestuário: Activa, Caras Especial Moda, Cosmopolitan, Crónica Feminina, Elle, Eva, Flama, GQ, Máxima, Maxmen, Men's Health, Modas e Bordados, Técnicas de Alfaiataria, Vestir e Vogue (PT) e Boa Forma, Burda, Cigarra, Cláudia, Cruzeiro, Desfile, Estilo, Figurino, Manchete, Manequim, Marie Claire, Máxima, Moda e Moldes e Vogue (BR).
  • Valores de fonte para a saúde: Boletins, Eva, Maria, Medicina Saúde, Modas e Bordados, Natura, Saúde e Bem-Estar, Saúde Lar e Século Ilustrado (PT), e Revista Brasileira, Revistas Populares e Revistas Saúde (BR).
Como todos os corpos do AC/DC, o CONDIVport está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo, por enquanto referente apenas a cor e roupa.

TamanhoFutebolModa/vestuárioSaúde
PT333341116792903168531337268
BR26493791367115801410480854
Todos 304640511182731818122

Versão do corpo

Corpus CONDIV, versão texto (futebol) de 15 de Fevereiro de 2006, versão texto (moda) de 18 de Dezembro de 2008, versão texto (saúde) de 2 de Fevereiro de 2010, anotado a 16 de julho de 2023, v. 12.1

Excerto do corpo


<ext dominio="Comentários" arquivo="" fonte="A Bola (notícia de 1ªpágina)" autor="Fernando Pampulha" palavras="" data="10 de Janeiro de 1949" st="" ti="Temas de Futebol" decada="50" imagem="" at="">
<p>
<s tipo="frag"> Temas de Futebol </s>
</p>
<p>
<s> A Inspiração valerá mais do que o «Saber»? </s>
</p>
<p>
<s tipo="frag"> Artigo de Fernando Pampulha </s>
</p>
...
</ext>
<ext variante=PT fonte=Activa decada=2000>
<texto edicao="Janeiro 2005" tipo=Casacos/Calças>
<s titulo> PORQUE É INVERNO...
</s>
<p par=moda1>
<s> ...os casacos de pele estão em evidência . </s>
</p>

Dados quantitativos

Corpo CONDIV Número de formasNúmero de tipos
Unidades 7119175154238
Total de palavras 5546787151889
Palavras em minúscula 417722178640
Palavras com inicial maiúscula59163635987
Palavras todas em maiúsculas 7456210670
Números 721101702
Palavras com números2729835
Palavras mistas47901363
Pontuação4006482077

Número de unidades estruturais

Atributo Número
ext 4078
texto 6222
p 148470
s 300985
mwe 96060

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 242927 345276
Locuções 96060 204163
Palavras gráficas 5546787 5546787
Palavras simples 4997348 4997348
Palavras 5336335 5546787

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 1210191 24,22%
Verbos V.* 757954 15,17%
Adjectivos ADJ.* 384166 7,69%
Pronomes pessoais .*PERS.* 99816 2,00%
Preposições PRP.* 906553 18,14%
Conjunções K.* 255362 5,11%
Advérbios ADV.* 298725 5,98%
Determinantes .*DET.* 960797 19,23%
Especificadores .*SPEC.* 95352 1,91%
Numerais NUM.* 133236 2,67%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 16 de Julho de 2023
Perguntas, comentários e sugestões