Projeto AC/DC: corpo CORDIAL-SIN

AC/DC : Linguateca
O Corpus Dialetal para o Estudo da Sintaxe/Syntax-oriented Corpus of Portuguese Dialects (CORDIAL-SIN) é um corpus anotado (POS-tags e treebank) representativo dos dialetos do português europeu (continentais e insulares). É constituído por transcrições (600.000 palavras) de discurso oral (livre e semidirigido) extraído de gravações do Arquivo Sonoro do Grupo de Dialetologia e Diacronia do Centro de Linguística da Universidade de Lisboa (CLUL), obtidas em 42 pontos do território continental e arquipélagos dos Açores e Madeira. O corpus foi construído no âmbito de projetos financiados pela FCT e deve ser referido como Martins, Ana Maria (coord.). [2000- ]. CORDIAL-SIN: Corpus Dialectal para o Estudo da Sintaxe / Syntax-oriented Corpus of Portuguese Dialects. CC licensed: CORDIAL-SIN by Centro de Linguística da Universidade de Lisboa. ISLRN: 144-935-399-699-8. URL: http://clul.ulisboa.pt/recurso/cordial-sin-syntax-oriented-corpus-portuguese-dialects.

Procurar:     

Resultado:
Concordância
Distribuição das formas (word)
Distribuição dos lemas (lema)
Distribuição da categoria gramatical (PoS) (pos)
Distribuição do tempo verbal e/ou do caso pronominal (temcagr)
Distribuição de pessoa e/ou número (pessnum)
Distribuição do género morfológico (gen)
Distribuição da função sintáctica (func)
Distribuição por fonte (fonte)
Distribuição por campo semântico (sema)
Distribuição por grupo (de cor, roupa, etc.) (grupo)
Distribuição das dependências (dependencias)
Opções
Resultados por ordem alfabética (só distribuições)
Resultados em formato separado por ponto e vírgula
Ignorar maiúsculas/minúsculas (não admite parâmetros)
Fazer nuvem com limite de
Amostra aleatória de linhas.

Tipo Fala espontânea
Variante(s) PT
Tamanho (unidades) 1.5 milhões
Tamanho (palavras) 844 mil

Carateres úteis: | { } [ ]
Página principal
Procure noutros corpos:
AmostRA-NILC ANCIB Avante! Corpus Brasileiro CD HAREM CETEMPúblico CHAVE Ciência Viva Colonia CONDIVport CONDIVport2 CoNE C-Oral-Brasil CORDIAL-SIN DHBB DiaCLAV Diáspora TL-PT ECI-EBR ECI-EE ENPCPUB (parte em português) Floresta FrasesPB FrasesPP Mariano Gago Literateca Marielle, presente! Moçambula Museu da Pessoa Natura/Minho NOBRE OBras PANTERA, lado português P'lo Norte Português Falado - Documentos Autênticos ReLi NILC/São Carlos todos juntos Tycho Brahe Vercial

Estrutura do corpo

O corpo contém as etiquetas entrevista (documento), fala (fala de um interlocutor), personagem (identificação do interlocutor), p (parágrafo) e s (frase).

O atributo posicional fonte indica a que excerto cada palavra pertence (ver lista das fontes).

Veja um excerto do corpo e informação adicional.

Exemplo de pesquisas

Procurar: Resultado:
a palavra "amigo"amigoConcordância
frases contendo a palavra "Algarve" <s> []* "Algarve" []* </s>Concordância
o substantivo "político" [lema="político" & pos="N.*"]Concordância
formas de palavras marcadas como emoções [sema="emo.*"]Distribuição das formas
distribuição dos nomes contendo "Mariano" "Mariano" Distribuição dos lemas

Dados quantitativos

Para informação sobre como foram obtidos este valores, consulte a página dos Corpos

Agradecimentos

Agradecemos calorosamente a Ana Maria Martins a pronta autorização para disponibilização do CORDIAL-SIN.

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 24 de Janeiro de 2021
Perguntas, comentários e sugestões