Projeto AC/DC: corpo CONDIVport

AC/DC : Linguateca
O corpus CONDIVport é o subcorpus de textos dos domínios do futebol, do vestuário/moda e da saúde das décadas de 50, 70 e 2000 de jornais e revistas portugueses e brasileiros do mais vasto corpus CONDIVport (Silva, 2008), criado para estudar a CONvergência e a DIVergência entre estas duas variantes do português. O sufixo port distingue-o do seu congérene neerlandês, também denominado CONDIV. Veja-se uma descrição mais detalhada.

Procurar:     

Resultado:
Concordância
Distribuição das formas (word)
Distribuição dos lemas (lema)
Distribuição da categoria gramatical (PoS) (pos)
Distribuição do tempo verbal e/ou do caso pronominal (temcagr)
Distribuição de pessoa e/ou número (pessnum)
Distribuição do género morfológico (gen)
Distribuição da função sintáctica (func)
Distribuição por década (decada)
Distribuição por variante do português (variante)
Distribuição por tema (tema)
Distribuição por fonte (fonte)
Distribuição por texto (idtexto)
Distribuição por campo semântico (sema)
Distribuição por grupo (de cor, roupa, etc.) (grupo)
Opções
Resultados por ordem alfabética (só distribuições)
Ignorar maiúsculas/minúsculas (não admite parâmetros)
Amostra aleatória de linhas.

Tipo Jornalístico (desportivo, moda e saúde)
Variante(s) PT BR
Tamanho (unidades) 7.2 milhões
Tamanho (palavras) 5.6 milhões

Carateres úteis: | { } [ ]
Página principal
Procure noutros corpos:
AmostRA-NILC ANCIB Avante! Corpus Brasileiro CD HAREM CETEMPúblico CHAVE Colonia CONDIVport CONDIVport2 CoNE C-Oral-Brasil DiaCLAV Diáspora TL-PT ECI-EBR ECI-EE ENPCPUB (parte em português) Floresta FrasesPB FrasesPP Mariano Gago Moçambula Museu da Pessoa Natura/Minho OBras P'lo Norte Português Falado - Documentos Autênticos ReLi NILC/São Carlos todos juntos Tycho Brahe Vercial

Estrutura do corpo

O corpo está dividido em extractos, assinalados pelo atributo ext; cada extracto está dividido em parágrafos (atributo p) e frases (atributo s). Nos casos da moda e da saúde, os extractos estão ainda subdivididos em textos, que correspondem a notícias completas. Além disso, o CONDIVport contém os atributos posicionais decada (valores: 50, 70, 2000), variante (valores: PT, BR), texto (valores:t1 a tN) e fonte. Como todos os corpos do AC/DC, o CONDIVport está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo, por enquanto referente apenas a cor e roupa.

Veja um excerto do corpo e informação adicional.

Exemplo de pesquisas

Procurar: Resultado:
a palavra "Pelé"PeléConcordância
frases contendo a expressão "casaco comprido" "casaco" "comprido"Concordância
referências ao Flamengo em jornais portugueses da década de 70[word="Flamengo" & variante="PT" & decada="70"]Concordância
distribuição de "Vasco da Gama" por variante"Vasco" "da" "Gama"Distribuição por variante
uso de "Eusébio" por década, apenas no tema futebol[lema="Eusébio" & tema="futebol"] Distribuição por década

Dados quantitativos

Para informação sobre como foram obtidos este valores, consulte a página dos Corpos

Agradecimentos

Estamos gratos à equipa do projecto de investigação Convergência e Divergência no Léxico do Português, em especial ao investigador responsável Augusto Soares da Silva, pela autorização gentilmente cedida para a disponibilização deste corpus.

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última actualização: 02 de Agosto de 2016
Perguntas, comentários e sugestões