Corpus CONDIVport
O CONDIVport é um corpus de textos em português europeu e em português brasileiro, das décadas de 50, 70 e 90-2000, construído no âmbito do projecto
Convergência e Divergência
no Léxico do Português, financiado pela Fundação para a Ciência e a Tecnologia (Refª POCTI/ LIN/48575/2002). Este projecto, com a duração de dois anos (2004-2006), teve por objectivo principal estudar as relações lexicais sincrónicas e diacrónicas entre o português europeu e o português brasileiro e, particularmente, saber se nas últimas 5 décadas as duas variedades nacionais da língua portuguesa estão envolvidas num processo de convergência ou divergência lexical (Silva, 2008). Espera-se poder dar continuidade ao projecto, alargando a análise lexical a outros campos lexicais e a palavras funcionais (em particular, preposições) e estendendo-o ao domínio gramatical.
Estrutura do corpus
O corpus CONDIVport compreende textos de três domínios - futebol, moda e saúde - e está estruturado na base de três variáveis:
- geográfica: Portugal vs. Brasil;
- diacrónica: 1950, 1970, 1990-2000;
- estilística: jornais e revistas de qualidade > jornais e revistas populares > Internet off-line > etiquetas, Internet on-line (chats).
Os textos são extraídos de três fontes:
- jornais e revistas de desporto, moda e saúde dos primeiros anos das décadas de 50, 70 e 90-2000, de Portugal e do Brasil;
- linguagem da Internet centrada no domínio do futebol: conversação off-line de fóruns de
discussão e conversação on-line de IRC ou chats;
- etiquetas e catálogos de lojas de vestuário de diferentes cidades de Portugal e do
Brasil.
O CONDIVport compreende três subcorpora, correspondentes aos domínios do futebol, da moda/vestuário e da saúde, cada um dos quais se divide ainda entre registo formal (jornais e revistas) e registo informal (chats e etiquetas). O Quadro 1 sintetiza os componentes do CONDIVport e respectiva extensão em número de palavras.
| Futebol | Moda/vestuário | Saúde
|
| formal | informal | formal | informal | formal |
|
Portugal 3,28 milhões
| jornais de desporto 1,65 milhões
| chats 13 milhões
| revistas de moda 307 mil
| etiquetas Braga, Lisboa 800 (fotos)
| revistas de saúde pública e jornais 1,33 milhões
|
Brasil 2,63 milhões
| jornais de desporto 1,36 milhões
| chats 2,6 milhões
| revistas de moda 797 mil
| etiquetas São Paulo, Rio Janeiro 500 (fotos)
| revistas de saúde pública e jornais 0,48 milhões
|
Total
| 3,0 milhões
| 15 milhões
| 1,1 milhões
| 1.300 (fotos)
| 1,8 milhões
|
Quadro 1. Componentes do CONDIVport e sua extensão em número de palavras (valores a negrito calculados automaticamente à data da última versão do corpus)
|
A distribuição dos textos pelas referidas décadas, com intervalos de duas
décadas, explica-se pelo facto de ser essa a distância temporal razoável
para se estudar a convergência e a divergência entre variantes de uma
língua. Por insuficiência de materiais disponíveis, alguns (poucos) textos
de revistas de moda pertencem às décadas de 40 e de 60. Atendendo aos
objectivos do projecto, foram agrupados nas décadas (ou períodos) de 50 e
70, respectivamente.
Subcorpora disponibilizados
Futebol
O subcorpus de futebol do CONDIVport compreende textos de futebol, com cerca de 2,7 milhões de palavras, dos primeiros anos das décadas de 50, 70 e 90-2000, originalmente publicados nos seguintes jornais
- portugueses:
A Bola,
Record,
Mundo Desportivo e
O Jogo (4)
- brasileiros:
Jornal dos Sports,
Gazeta Esportiva,
Estado de São Paulo e
Lance (4).
Os textos que
integram o subcorpus foram seleccionados, correspondendo a uma parte dos textos de futebol existentes nos respectivos exemplares destes jornais.
Vestuário/moda
O subcorpus de vestuário/moda do CONDIVport compreende textos de vestuário e moda, com cerca de 800 mil unidades (correspondendo a setecentos e trinta mil palavras), originalmente publicados nas seguintes revistas
- portuguesas (15): Activa, Caras Especial Moda, Cosmopolitan, Crónica Feminina, Elle, Eva, Flama, GQ, Máxima, Maxmen, Men's Health, Modas e Bordados, Técnicas de Alfaiataria, Vestir e Vogue
- brasileiras (14): Boa Forma, Burda, Cigarra, Cláudia, Cruzeiro, Desfile, Estilo, Figurino, Manchete, Manequim, Marie Claire, Máxima, Moda e Moldes e Vogue
Saúde
O subcorpus de saúde do CONDIVport compreende textos de saúde, com cerca de um milhão e oitocentas mil unidades (correspondentes a um milhão e setecentas e vinte mil palavras), originalmente publicados em revistas de saúde pública, boletins de saúde, jornais e revistas generalistas
- portugueses:
- (anos 50) Boletim da Direcção Geral de Educação Física, Desportos e Saúde Escolar (Ministério da Educação Nacional), Natura, O Comércio do Porto, O Século Ilustrado, Saúde e Lar;
- (anos 70) Eva (secção saúde - cuidados corporais), Modas e Bordados (secção saúde - cuidados corporais), Natura, Saúde e Lar;
- (anos 2000) Elle, Maria, Mariana, Medicina e Saúde, Saúde e Bem Estar.
- brasileiros:
- (anos 50) Boletim do Serviço Nacional da Lepra. Departamento Nacional de Saúde, Boletim do SESP: Serviço Especial de Saúde Pública, Ministério da Educação e Saúde, Brasil-Médico, Clínica Tisiológica, Gazeta Clínica, Gazeta Médica, Jornal Brasileiro de Psiquiatria, Manchete, Maternidade e Infância (Arquivos Médico-Sociais), O Cruzeiro, Revista da Semana, Revista de Higiene e Saúde pública, Revista Paulista de Medicina, Seara Médica, Viver! Mensário de Saúde, Força e Beleza;
- (anos 70) Cipa Jornal: Serviço Social da Industria, Clínica Geral, Gastrenterologia Atual, Jornal Brasileiro de Medicina, Pais e Filhos, Realidade, Veja;
- (anos 2000) Âmbito Medicina Desportiva, Boa Forma, Isto É, Saúde, Saúde Edital, Veja, Vida e Saúde.
Equipa
A equipa de investigação é constituída por
- Augusto Soares da Silva (coordenador)
- José João Dias de Almeida
- Alberto Manuel Brandão Simões
- Ana Margarida Belém Nunes (bolseira)
- Marlene Lopes Danaia Duarte (bolseira)
- José Luiz de Lucca (bolseiro)
Os trabalhos de selecção, OCR, digitalização e revisão dos textos que integram o CONDIVport foram realizados por Ana Margarida Nunes (textos portugueses de futebol), Marlene Danaia Duarte (textos portugueses de moda e de saúde) e José Luiz de Lucca (textos brasileiros de futebol, moda e saúde). A segunda revisão de textos de saúde foi feita por Joana da Silva Rosa.
Os trabalhos informáticos de normalização, correcção e gestão foram realizados por José João Almeida e Alberto Simões.
No âmbito da Linguateca, Rui Vilela e Paulo Rocha adaptaram a formatação do subcorpus de futebol, e Diana Santos adaptou a formatação dos subcorpora de moda e saúde, com vista à sua disponibilização utilizando o IMS-CWB.
Agradecimentos
Estamos gratos aos jornais A Bola, Record, O Jogo, Jornal dos Sports, Gazeta Esportiva, Estado de São Paulo e Lance e às revistas portuguesas Activa, Caras Especial Moda, Cosmopolitan, Crónica Feminina, Elle, Eva, Flama, GQ, Máxima, Maxmen, Medicina e Saúde, Men's Health, Modas e Bordados, Saúde e Bem Estar, Saúde e Lar, Técnicas de Alfaiataria, Vestir e Vogue e brasileiras Boa Forma, Burda, Cigarra, Cláudia, Cruzeiro, Desfile, Estilo, Figurino, Isto É, Manchete, Manequim, Marie Claire, Máxima, Moda e Moldes, Veja, Vida e Saúde e Vogue pelas autorizações gentilmente concedidas.
Estamos gratos à Linguateca pelo acolhimento e pela colaboração prestada.
Augusto Soares da Silva
Última modificação: 26 de Março de 2010