Acesso a corpos de português: Projecto AC/DC: corpo CONDIVport

CONDIVport : AC/DC : Linguateca
O corpus CONDIVport é o subcorpus de textos dos domínios do futebol, do vestuário/moda e da saúde das décadas de 50, 70 e 2000 de jornais e revistas portugueses e brasileiros do mais vasto corpus CONDIVport (Silva, 2008), criado para estudar a CONvergência e a DIVergência entre estas duas variantes do português. O sufixo port distingue-o do seu congérene neerlandês, também denominado CONDIV. Veja-se uma descrição mais detalhada.

Este subcorpus contém 3981 extractos de textos de jornais desportivos portugueses e brasileiros, das décadas de 1950, 1970 e 2000; 4372 textos (agrupados em 82 extractos, ou seja, provenientes de 82 edições) de revistas de moda portuguesas e brasileiras, das décadas de 1950, 1970, e 1990-2000, assim como 1815 textos de revistas e jornais de saúde nos mesmos períodos.

Estrutura do corpo

O corpo está dividido em extractos, assinalados pelo atributo ext; cada extracto está dividido em parágrafos (atributo p) e frases (atributo s). Nos casos da moda e da saúde, os extractos estão ainda subdivididos em textos, que correspondem a notícias completas. Além disso, o CONDIVport contém os atributos posicionais decada (valores: 50, 70, 2000), variante (valores: PT, BR), texto (valores:t1 a tN) e fonte.
  • Valores de fonte para os jornais desportivos: Bola, Record, MundoDesp, OJogo, JSports, OEestadoSP, GazetaEsp, Lance.
  • Valores de fonte para a moda/vestuário: Activa, Caras Especial Moda, Cosmopolitan, Crónica Feminina, Elle, Eva, Flama, GQ, Máxima, Maxmen, Men's Health, Modas e Bordados, Técnicas de Alfaiataria, Vestir e Vogue (PT) e Boa Forma, Burda, Cigarra, Cláudia, Cruzeiro, Desfile, Estilo, Figurino, Manchete, Manequim, Marie Claire, Máxima, Moda e Moldes e Vogue (BR).
  • Valores de fonte para a saúde: Boletins, Eva, Maria, Medicina Saúde, Modas e Bordados, Natura, Saúde e Bem-Estar, Saúde Lar e Século Ilustrado (PT), e Revista Brasileira, Revistas Populares e Revistas Saúde (BR).
Como todos os corpos do AC/DC, o CONDIVport está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo, por enquanto referente apenas a cor e roupa.

TamanhoFutebolModa/vestuárioSaúde
PT337291217034203254071344085
BR26550741371780801349481945
Todos 307520011267611826030

Versão do corpo

Corpus CONDIV, versão texto (futebol) de 15 de Fevereiro de 2006, versão texto (moda) de 18 de Dezembro de 2008, versão texto (saúde) de 2 de Fevereiro de 2010, anotado a 13 de julho de 2024, v. 13.2

Excerto do corpo


<ext dominio="Comentários" arquivo="" fonte="A Bola (notícia de 1ªpágina)" autor="Fernando Pampulha" palavras="" data="10 de Janeiro de 1949" st="" ti="Temas de Futebol" decada="50" imagem="" at="">
<p>
<s tipo="frag"> Temas de Futebol </s>
</p>
<p>
<s> A Inspiração valerá mais do que o «Saber»? </s>
</p>
<p>
<s tipo="frag"> Artigo de Fernando Pampulha </s>
</p>
...
</ext>
<ext variante=PT fonte=Activa decada=2000>
<texto edicao="Janeiro 2005" tipo=Casacos/Calças>
<s titulo> PORQUE É INVERNO...
</s>
<p par=moda1>
<s> ...os casacos de pele estão em evidência . </s>
</p>

Dados quantitativos

Corpo CONDIV Número de formasNúmero de tipos
Unidades 7200795157513
Total de palavras 5627261155195
Palavras em minúscula 418884181356
Palavras com inicial maiúscula59201736123
Palavras todas em maiúsculas 7578111033
Números 723621699
Palavras com números2740812
Palavras mistas46951379
Pontuação4007852063

Número de unidades estruturais

Atributo Número
ext 4081
texto 6222
p 148516
s 301068
mwe 96183

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 240456 346925
Locuções 96183 204145
Palavras gráficas 5627261 5627261
Palavras simples 5076191 5076191
Palavras 5412830 5627261

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 1217241 23,98%
Verbos V.* 759629 14,96%
Adjectivos ADJ.* 389317 7,67%
Pronomes pessoais .*PERS.* 99745 1,96%
Preposições PRP.* 904357 17,82%
Conjunções K.* 255199 5,03%
Advérbios ADV.* 298592 5,88%
Determinantes .*DET.* 963865 18,99%
Especificadores .*SPEC.* 95428 1,88%
Numerais NUM.* 132709 2,61%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 13 de Julho de 2024
Perguntas, comentários e sugestões