Corpus CONDIVport

O CONDIVport é um corpus de textos em português europeu e em português brasileiro, das décadas de 50, 70 e 90-2000, construído no âmbito do projecto Convergência e Divergência no Léxico do Português, financiado pela Fundação para a Ciência e a Tecnologia (Refª POCTI/ LIN/48575/2002). Este projecto, com a duração de dois anos (2004-2006), teve por objectivo principal estudar as relações lexicais sincrónicas e diacrónicas entre o português europeu e o português brasileiro e, particularmente, saber se nas últimas 5 décadas as duas variedades nacionais da língua portuguesa estão envolvidas num processo de convergência ou divergência lexical (Silva, 2008). Espera-se poder dar continuidade ao projecto, alargando a análise lexical a outros campos lexicais e a palavras funcionais (em particular, preposições) e estendendo-o ao domínio gramatical.

Estrutura do corpus

O corpus CONDIVport compreende textos de três domínios - futebol, moda e saúde - e está estruturado na base de três variáveis:

geográfica: Portugal vs. Brasil;
diacrónica: 1950, 1970, 1990-2000;
estilística: jornais e revistas de qualidade > jornais e revistas populares > Internet off-line > etiquetas, Internet on-line (chats).

Os textos são extraídos de três fontes:

jornais e revistas de desporto, moda e saúde dos primeiros anos das décadas de 50, 70 e 90-2000, de Portugal e do Brasil;
linguagem da Internet centrada no domínio do futebol: conversação off-line de fóruns de discussão e conversação on-line de IRC ou chats;
etiquetas e catálogos de lojas de vestuário de diferentes cidades de Portugal e do Brasil.

O CONDIVport compreende três subcorpora, correspondentes aos domínios do futebol, da moda/vestuário e da saúde, cada um dos quais se divide ainda entre registo formal (jornais e revistas) e registo informal (chats e etiquetas). O Quadro 1 sintetiza os componentes do CONDIVport e respectiva extensão em número de palavras.

Futebol Moda/vestuário Saúde
formal informal formal informal formal
Portugal
3,28 milhões jornais de desporto
1,65 milhões chats
13 milhões revistas de moda
307 mil etiquetas Braga, Lisboa
800 (fotos) revistas de saúde pública e jornais
1,33 milhões
Brasil
2,63 milhões jornais de desporto
1,36 milhões chats
2,6 milhões revistas de moda
797 mil etiquetas São Paulo, Rio Janeiro
500 (fotos) revistas de saúde pública e jornais
0,48 milhões
Total 3,0 milhões 15 milhões 1,1 milhões 1.300 (fotos) 1,8 milhões
Quadro 1. Componentes do CONDIVport e sua extensão em número de palavras (valores a negrito calculados automaticamente à data da última versão do corpus)

A distribuição dos textos pelas referidas décadas, com intervalos de duas décadas, explica-se pelo facto de ser essa a distância temporal razoável para se estudar a convergência e a divergência entre variantes de uma língua. Por insuficiência de materiais disponíveis, alguns (poucos) textos de revistas de moda pertencem às décadas de 40 e de 60. Atendendo aos objectivos do projecto, foram agrupados nas décadas (ou períodos) de 50 e 70, respectivamente.

Subcorpora disponibilizados

Futebol

O subcorpus de futebol do CONDIVport compreende textos de futebol, com cerca de 2,7 milhões de palavras, dos primeiros anos das décadas de 50, 70 e 90-2000, originalmente publicados nos seguintes jornais

portugueses: A Bola, Record, Mundo Desportivo e O Jogo (4)
brasileiros: Jornal dos Sports, Gazeta Esportiva, Estado de São Paulo e Lance (4).

Os textos que integram o subcorpus foram seleccionados, correspondendo a uma parte dos textos de futebol existentes nos respectivos exemplares destes jornais.

Vestuário/moda

O subcorpus de vestuário/moda do CONDIVport compreende textos de vestuário e moda, com cerca de 800 mil unidades (correspondendo a setecentos e trinta mil palavras), originalmente publicados nas seguintes revistas

portuguesas (15): Activa, Caras Especial Moda, Cosmopolitan, Crónica Feminina, Elle, Eva, Flama, GQ, Máxima, Maxmen, Men's Health, Modas e Bordados, Técnicas de Alfaiataria, Vestir e Vogue
brasileiras (14): Boa Forma, Burda, Cigarra, Cláudia, Cruzeiro, Desfile, Estilo, Figurino, Manchete, Manequim, Marie Claire, Máxima, Moda e Moldes e Vogue

Saúde

O subcorpus de saúde do CONDIVport compreende textos de saúde, com cerca de um milhão e oitocentas mil unidades (correspondentes a um milhão e setecentas e vinte mil palavras), originalmente publicados em revistas de saúde pública, boletins de saúde, jornais e revistas generalistas

portugueses:
- (anos 50) Boletim da Direcção Geral de Educação Física, Desportos e Saúde Escolar (Ministério da Educação Nacional), Natura, O Comércio do Porto, O Século Ilustrado, Saúde e Lar;
- (anos 70) Eva (secção saúde - cuidados corporais), Modas e Bordados (secção saúde - cuidados corporais), Natura, Saúde e Lar;
- (anos 2000) Elle, Maria, Mariana, Medicina e Saúde, Saúde e Bem Estar.
brasileiros:
- (anos 50) Boletim do Serviço Nacional da Lepra. Departamento Nacional de Saúde, Boletim do SESP: Serviço Especial de Saúde Pública, Ministério da Educação e Saúde, Brasil-Médico, Clínica Tisiológica, Gazeta Clínica, Gazeta Médica, Jornal Brasileiro de Psiquiatria, Manchete, Maternidade e Infância (Arquivos Médico-Sociais), O Cruzeiro, Revista da Semana, Revista de Higiene e Saúde pública, Revista Paulista de Medicina, Seara Médica, Viver! Mensário de Saúde, Força e Beleza;
- (anos 70) Cipa Jornal: Serviço Social da Industria, Clínica Geral, Gastrenterologia Atual, Jornal Brasileiro de Medicina, Pais e Filhos, Realidade, Veja;
- (anos 2000) Âmbito Medicina Desportiva, Boa Forma, Isto É, Saúde, Saúde Edital, Veja, Vida e Saúde.

Equipa

A equipa de investigação é constituída por

Augusto Soares da Silva (coordenador)
José João Dias de Almeida
Alberto Manuel Brandão Simões
Ana Margarida Belém Nunes (bolseira)
Marlene Lopes Danaia Duarte (bolseira)
José Luiz de Lucca (bolseiro)

Os trabalhos de selecção, OCR, digitalização e revisão dos textos que integram o CONDIVport foram realizados por Ana Margarida Nunes (textos portugueses de futebol), Marlene Danaia Duarte (textos portugueses de moda e de saúde) e José Luiz de Lucca (textos brasileiros de futebol, moda e saúde). A segunda revisão de textos de saúde foi feita por Joana da Silva Rosa.

Os trabalhos informáticos de normalização, correcção e gestão foram realizados por José João Almeida e Alberto Simões.

No âmbito da Linguateca, Rui Vilela e Paulo Rocha adaptaram a formatação do subcorpus de futebol, e Diana Santos adaptou a formatação dos subcorpora de moda e saúde, com vista à sua disponibilização utilizando o IMS-CWB.

Agradecimentos

Estamos gratos aos jornais A Bola, Record, O Jogo, Jornal dos Sports, Gazeta Esportiva, Estado de São Paulo e Lance e às revistas portuguesas Activa, Caras Especial Moda, Cosmopolitan, Crónica Feminina, Elle, Eva, Flama, GQ, Máxima, Maxmen, Medicina e Saúde, Men's Health, Modas e Bordados, Saúde e Bem Estar, Saúde e Lar, Técnicas de Alfaiataria, Vestir e Vogue e brasileiras Boa Forma, Burda, Cigarra, Cláudia, Cruzeiro, Desfile, Estilo, Figurino, Isto É, Manchete, Manequim, Marie Claire, Máxima, Moda e Moldes, Veja, Vida e Saúde e Vogue pelas autorizações gentilmente concedidas.

Estamos gratos à Linguateca pelo acolhimento e pela colaboração prestada.

Augusto Soares da Silva
Última modificação: 26 de Março de 2010

	Futebol		Moda/vestuário		Saúde
	formal	informal	formal	informal	formal
Portugal 3,28 milhões	jornais de desporto 1,65 milhões	chats 13 milhões	revistas de moda 307 mil	etiquetas Braga, Lisboa 800 (fotos)	revistas de saúde pública e jornais 1,33 milhões
Brasil 2,63 milhões	jornais de desporto 1,36 milhões	chats 2,6 milhões	revistas de moda 797 mil	etiquetas São Paulo, Rio Janeiro 500 (fotos)	revistas de saúde pública e jornais 0,48 milhões
Total	3,0 milhões	15 milhões	1,1 milhões	1.300 (fotos)	1,8 milhões
Quadro 1. Componentes do CONDIVport e sua extensão em número de palavras (valores a negrito calculados automaticamente à data da última versão do corpus)