Acesso a corpos de português: Projecto AC/DC: corpo CONDIVport

CONDIVport : AC/DC : Linguateca
O corpus CONDIVport é o subcorpus de textos dos domínios do futebol, do vestuário/moda e da saúde das décadas de 50, 70 e 2000 de jornais e revistas portugueses e brasileiros do mais vasto corpus CONDIVport (Silva, 2008), criado para estudar a CONvergência e a DIVergência entre estas duas variantes do português. O sufixo port distingue-o do seu congérene neerlandês, também denominado CONDIV. Veja-se uma descrição mais detalhada.

Este subcorpus contém 3981 extractos de textos de jornais desportivos portugueses e brasileiros, das décadas de 1950, 1970 e 2000; 4372 textos (agrupados em 82 extractos, ou seja, provenientes de 82 edições) de revistas de moda portuguesas e brasileiras, das décadas de 1950, 1970, e 1990-2000, assim como 1815 textos de revistas e jornais de saúde nos mesmos períodos.

Estrutura do corpo

O corpo está dividido em extractos, assinalados pelo atributo ext; cada extracto está dividido em parágrafos (atributo p) e frases (atributo s). Nos casos da moda e da saúde, os extractos estão ainda subdivididos em textos, que correspondem a notícias completas. Além disso, o CONDIVport contém os atributos posicionais decada (valores: 50, 70, 2000), variante (valores: PT, BR), texto (valores:t1 a tN) e fonte.
  • Valores de fonte para os jornais desportivos: Bola, Record, MundoDesp, OJogo, JSports, OEestadoSP, GazetaEsp, Lance.
  • Valores de fonte para a moda/vestuário: Activa, Caras Especial Moda, Cosmopolitan, Crónica Feminina, Elle, Eva, Flama, GQ, Máxima, Maxmen, Men's Health, Modas e Bordados, Técnicas de Alfaiataria, Vestir e Vogue (PT) e Boa Forma, Burda, Cigarra, Cláudia, Cruzeiro, Desfile, Estilo, Figurino, Manchete, Manequim, Marie Claire, Máxima, Moda e Moldes e Vogue (BR).
  • Valores de fonte para a saúde: Boletins, Eva, Maria, Medicina Saúde, Modas e Bordados, Natura, Saúde e Bem-Estar, Saúde Lar e Século Ilustrado (PT), e Revista Brasileira, Revistas Populares e Revistas Saúde (BR).
Como todos os corpos do AC/DC, o CONDIVport está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo, por enquanto referente apenas a cor e roupa.

TamanhoFutebolModa/vestuárioSaúde
PT333341116792903168531337268
BR26493791367115801410480854
Todos 304640511182731818122

Versão do corpo

Corpus CONDIV, versão texto (futebol) de 15 de Fevereiro de 2006, versão texto (moda) de 18 de Dezembro de 2008, versão texto (saúde) de 2 de Fevereiro de 2010, anotado em 22 de Junho de 2013, v. 9.6

Excerto do corpo


<ext dominio="Comentários" arquivo="" fonte="A Bola (notícia de 1ªpágina)" autor="Fernando Pampulha" palavras="" data="10 de Janeiro de 1949" st="" ti="Temas de Futebol" decada="50" imagem="" at="">
<p>
<s tipo="frag"> Temas de Futebol </s>
</p>
<p>
<s> A Inspiração valerá mais do que o «Saber»? </s>
</p>
<p>
<s tipo="frag"> Artigo de Fernando Pampulha </s>
</p>
...
</ext>
<ext variante=PT fonte=Activa decada=2000>
<texto edicao="Janeiro 2005" tipo=Casacos/Calças>
<s titulo> PORQUE É INVERNO...
</s>
<p par=moda1>
<s> ...os casacos de pele estão em evidência . </s>
</p>

Dados quantitativos

Corpo CONDIV Número de formasNúmero de tipos
Unidades 7159365152218
Total de palavras 5576544150160
Palavras em minúscula 419526081380
Palavras com inicial maiúscula65507838628
Palavras todas em maiúsculas 136513380
Números 729511741
Palavras com números2500773
Palavras mistas47681247
Pontuação4064631982

Número de unidades estruturais

Atributo Número
ext 4081
texto 6223
p 148171
s 318359
mwe 108370

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 240547 374521
Locuções 108370 229017
Palavras gráficas 5576544 5576544
Palavras simples 4973006 4973006
Palavras 5321923 5576544

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 1217922 24,49%
Verbos V.* 752556 15,13%
Adjectivos ADJ.* 387706 7,80%
Pronomes pessoais .*PERS.* 103589 2,08%
Preposições PRP.* 877885 17,65%
Conjunções K.* 266812 5,37%
Advérbios ADV.* 312359 6,28%
Determinantes .*DET.* 963520 19,38%
Especificadores .*SPEC.* 78340 1,58%
Numerais NUM.* 132233 2,66%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 08 de Junho de 2014
Perguntas, comentários e sugestões