Corpus ReLi
Conteúdo
O ReLi (REsenha de LIvros) foi criado no âmbito do projeto Anotadores Semânticos baseados em Aprendizado Ativo, do LEARN, coordenado por Ruy Milidiú (Departamento de Informática - PUC-Rio). Consiste em 1600 resenhas de livros anotadas manualmente quanto à presença de opinião sobre o livro resenhado e sua polaridade.
Descrição detalhada do Corpus está em
- Freitas, C.; Motta, E.; Milidiú, R.; Cesar, J. Vampiro que brilha... rá! Desafios na anotação de opinião em um corpus de resenhas de livros. In: XI Encontro de Linguística de Corpus (ELC 2012), São Paulo, Brasil, 2012.
- Cláudia Freitas, Eduardo Motta, Ruy Luiz Milidiú & Juliana César. "Sparkling Vampire... lol! Annotating Opinions in a Book Review Corpus". In Sandra Aluísio & Stella E. O. Tagnin (eds.), New Language Technologies and Linguistic Research: A Two-Way Road. Cambridge Scholars Publishing, 2014, pp. 128-146.
O ReLi contém 1600 resenhas, de 14 livros diferentes, totalizando 12.470 frases e 259.978 palavras.
Quantidade de frases por polaridade:
- Frases com polaridade positiva: 2.883
- Frases com polaridade negativa: 596
- Frases que contêm opiniões positiva e negativas: 212
Quantidade de segmentos por polaridade:
- Segmentos de opinião positiva: 4.210
- Segmentos de opinião positiva: 1.024
Não foram consideradas opiniões neutras. Para ser anotado no ReLi, o trecho/segmento em questão deveria apresentar presença de opinião e polaridade (positiva ou negativa), simultaneamente. Não foram consideradas polaridades "a priori", e toda a anotação levou em consideração o contexto.
A anotação foi feita no âmbito da frase (polaridade total da frase) e de segmentos de frases (polaridade de trechos de uma frase que contém polaridade).
Elementos considerados durante a anotação:
- Alvo da opinião:
- Etiqueta associada: OBJ00 (por default, o livro); OBJ01, OBJ02 etc
- Exemplos: livro, personagens; capítulos; frases; leitura; linguagem; narrativa; ritmo; tema; texto; título; trama; vocabulário; trechos/partes; história; cenário; conteúdo; descrições; desenvolvimento; diálogos; falas; enredo; escrita; estilo..
- Segmento da frase que expressa opinião e polaridade:
- Etiqueta associada: op00 (por default, associada ao livro); op01, op02 etc. A cada uma dessas etiquetas está associado um valor de polaridade (+) ou (-)
- A opinião está sempre associada a um alvo, essa correspondência é dada pela numeração. Assim, a um OBJ01 corresponde uma opinião op01- ou op01+.
- Frase com polaridade
- Etiqueta associada: (+) ou (-), conforme a polaridade geral da frase.
- Cada frase só pode ter uma polaridade
Adicionalmente, algumas frases podem conter a etiqueta HELP, que indica frases consideradas difíceis pelos anotatdores.
O diretório ReLi está distribuído em 7 arquivos, que correspondem às resenhas de livros agrupadas por autor de livro resenhado, além do arquivo Leia-me.
Documentação associada:
- Anais_ELC2012_Freitasetal.pdf: Artigo que descreve detalhadamente o ReLI, opções de anotação e teste inter-anotadores.
Como citar: Freitas, C.; Motta, E.; Milidiú, R.; Cesar, J. Vampiro que brilha... rá! Desafios na anotação de opinião em um corpus de resenhas de livros. In: XI Encontro de Linguística de Corpus (ELC 2012), São Paulo, Brasil, 2012
-
Slides_ELC2012_Freitasetal.pdf: Slides de apresentação do artigo Freitas et al. (2012)
-
ManualAnotReLi_v2.pdf: última versão do manual de anotação do ReLi
Além disso disponibilizamos o léxico do ReLi, cuja criação está descrita em
- Freitas, Cláudia. "Sobre a construção de um léxico da afetividade para o processamento computacional do português". Rev. bras. linguist. apl. [online]. 2013, vol.13, n.4, pp. 1031-1059. Epub 19-Nov-2013. ISSN 1984-6398. pdf html
individualmente
ou num arquivo rar.
Cláudia Freitas agradece
- a Juliana Valadão Lopes e Vitor Santiago, pela colaboração na anotação do corpus;
- à Linguateca pela incorporação do recurso no projeto AC/DC.
Última actualização: 22 de setembro de 2014.
Perguntas, comentários e sugestões