Corpus CONDIVport

O CONDIVport é um corpus de textos em português europeu e em português brasileiro, das décadas de 50, 70 e 90-2000, construído no âmbito do projecto Convergência e Divergência no Léxico do Português, financiado pela Fundação para a Ciência e a Tecnologia (Refª POCTI/ LIN/48575/2002). Este projecto, com a duração de dois anos (2004-2006), teve por objectivo principal estudar as relações lexicais sincrónicas e diacrónicas entre o português europeu e o português brasileiro e, particularmente, saber se nas últimas 5 décadas as duas variedades nacionais da língua portuguesa estão envolvidas num processo de convergência ou divergência lexical (Silva, 2008). Espera-se poder dar continuidade ao projecto, alargando a análise lexical a outros campos lexicais e a palavras funcionais (em particular, preposições) e estendendo-o ao domínio gramatical.

Estrutura do corpus

O corpus CONDIVport compreende textos de três domínios - futebol, moda e saúde - e está estruturado na base de três variáveis: Os textos são extraídos de três fontes: O CONDIVport compreende três subcorpora, correspondentes aos domínios do futebol, da moda/vestuário e da saúde, cada um dos quais se divide ainda entre registo formal (jornais e revistas) e registo informal (chats e etiquetas). O Quadro 1 sintetiza os componentes do CONDIVport e respectiva extensão em número de palavras.

FutebolModa/vestuárioSaúde
formalinformalformalinformalformal
Portugal
3,28 milhões
jornais de desporto
1,65 milhões
chats
13 milhões
revistas de moda
307 mil
etiquetas Braga, Lisboa
800 (fotos)
revistas de saúde pública e jornais
1,33 milhões
Brasil
2,63 milhões
jornais de desporto
1,36 milhões
chats
2,6 milhões
revistas de moda
797 mil
etiquetas São Paulo, Rio Janeiro
500 (fotos)
revistas de saúde pública e jornais
0,48 milhões
Total 3,0 milhões 15 milhões 1,1 milhões 1.300 (fotos) 1,8 milhões
Quadro 1. Componentes do CONDIVport e sua extensão em número de palavras (valores a negrito calculados automaticamente à data da última versão do corpus)

A distribuição dos textos pelas referidas décadas, com intervalos de duas décadas, explica-se pelo facto de ser essa a distância temporal razoável para se estudar a convergência e a divergência entre variantes de uma língua. Por insuficiência de materiais disponíveis, alguns (poucos) textos de revistas de moda pertencem às décadas de 40 e de 60. Atendendo aos objectivos do projecto, foram agrupados nas décadas (ou períodos) de 50 e 70, respectivamente.

Subcorpora disponibilizados

Futebol

O subcorpus de futebol do CONDIVport compreende textos de futebol, com cerca de 2,7 milhões de palavras, dos primeiros anos das décadas de 50, 70 e 90-2000, originalmente publicados nos seguintes jornais Os textos que integram o subcorpus foram seleccionados, correspondendo a uma parte dos textos de futebol existentes nos respectivos exemplares destes jornais.

Vestuário/moda

O subcorpus de vestuário/moda do CONDIVport compreende textos de vestuário e moda, com cerca de 800 mil unidades (correspondendo a setecentos e trinta mil palavras), originalmente publicados nas seguintes revistas

Saúde

O subcorpus de saúde do CONDIVport compreende textos de saúde, com cerca de um milhão e oitocentas mil unidades (correspondentes a um milhão e setecentas e vinte mil palavras), originalmente publicados em revistas de saúde pública, boletins de saúde, jornais e revistas generalistas

Equipa

A equipa de investigação é constituída por Os trabalhos de selecção, OCR, digitalização e revisão dos textos que integram o CONDIVport foram realizados por Ana Margarida Nunes (textos portugueses de futebol), Marlene Danaia Duarte (textos portugueses de moda e de saúde) e José Luiz de Lucca (textos brasileiros de futebol, moda e saúde). A segunda revisão de textos de saúde foi feita por Joana da Silva Rosa.

Os trabalhos informáticos de normalização, correcção e gestão foram realizados por José João Almeida e Alberto Simões.

No âmbito da Linguateca, Rui Vilela e Paulo Rocha adaptaram a formatação do subcorpus de futebol, e Diana Santos adaptou a formatação dos subcorpora de moda e saúde, com vista à sua disponibilização utilizando o IMS-CWB.

Agradecimentos

Estamos gratos aos jornais A Bola, Record, O Jogo, Jornal dos Sports, Gazeta Esportiva, Estado de São Paulo e Lance e às revistas portuguesas Activa, Caras Especial Moda, Cosmopolitan, Crónica Feminina, Elle, Eva, Flama, GQ, Máxima, Maxmen, Medicina e Saúde, Men's Health, Modas e Bordados, Saúde e Bem Estar, Saúde e Lar, Técnicas de Alfaiataria, Vestir e Vogue e brasileiras Boa Forma, Burda, Cigarra, Cláudia, Cruzeiro, Desfile, Estilo, Figurino, Isto É, Manchete, Manequim, Marie Claire, Máxima, Moda e Moldes, Veja, Vida e Saúde e Vogue pelas autorizações gentilmente concedidas.

Estamos gratos à Linguateca pelo acolhimento e pela colaboração prestada.


Augusto Soares da Silva
Última modificação: 26 de Março de 2010