Acesso a corpos de português: Projecto AC/DC: corpo ReLi

ReLi : AC/DC : Linguateca
O corpus ReLi é um corpo de 1601 resenhas de treze livros (de sete autores diferentes), compiladas de um sítio brasileiro de resenhas de livros, pela PUC-Rio, e acessível daqui. Essas resenhas foram anotadas em relação à opinião, ao objeto da opinião, e à sua polaridade, veja-se Freitas et al. (2012).

O corpus ReLi é composto de 7 arquivos, com as resenhas das obras de cada autor. Foram manualmente marcadas as seguintes informações:

object - indica segmento alvo de opinião. É designado por OBJXX, onde XX é o identificador do objeto no escopo da resenha, sendo 00 o objeto implícito livro

opinion - indica segmento que expressa opinião sobre um OBJXX. Tem a forma opXXS, onde S={-,+} para indicar a polaridade da opinião e XX é o ponteiro para o objeto

polarity - indica frase com opinião. Pode assumir os valores + e -.

Como citar o corpus ReLi: Freitas, C.; Motta, E.; Milidiú, R.; Cesar, J. Vampiro que brilha... rá! Desafios na anotação de opinião em um corpus de resenhas de livros. In: XI Encontro de Linguística de Corpus (ELC 2012), São Paulo, Brasil, 2012.

Estrutura do corpo

Marcadores posicionais: objeto, opiniao, polaridade Marcadores estruturais: livro [nome do livro resenhado], resenha, p [parágrafo], s [frase].

Distribuição por livro e autor

Versão do corpo

Corpus ReLi, versão do texto de Maio de 2013, anotado em novembro de 2015, v. 4.2

Excerto do corpo


<resenha id="1" nota="5.0">
<s>Quem tem pavor só de ouvir o nome Capitães da Areia , por causa da Fuvest , ficaria admirado com quão bom é esse livro .</s>
<s>Jorge Amado escreve de forma envolvente , e nos faz sentir vontade de ajudar cada um dos personagens .</s>
<s>Li , reli , e vou ler mais uma vez , porque vale a pena !</s>
</resenha>
...

Dados quantitativos

Corpo RELI Número de formasNúmero de tipos
Unidades 19676814272
Total de palavras 15106214235
Palavras em minúscula 10807011439
Palavras com inicial maiúscula121372053
Palavras todas em maiúsculas 9961
Números 495100
Palavras com números3819
Palavras mistas96688
Pontuação997632

Número de unidades estruturais

Atributo Número
mwe 3244
p 4082
t 771
s 9089
livro 0
rev 1

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 7282 6811
Locuções 3244 6944
Palavras gráficas 151062 151062
Palavras simples 137307 137307
Palavras 147833 151062

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 28274 20,59%
Verbos V.* 25667 18,69%
Adjectivos ADJ.* 10133 7,38%
Pronomes pessoais .*PERS.* 4982 3,63%
Preposições PRP.* 20640 15,03%
Conjunções K.* 8351 6,08%
Advérbios ADV.* 11013 8,02%
Determinantes .*DET.* 26333 19,18%
Especificadores .*SPEC.* 4197 3,06%
Numerais NUM.* 1457 1,06%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 17 de Agosto de 2016
Perguntas, comentários e sugestões