PROPOSTA DE AVALIAÇÃO DE SUMARIZAÇÃO & RI

Thiago A. Salgueiro Pardo

 

1) Corpora

     Temos dois corpora para sumarização, ambos formados por textos jornalísticos extraídos do corpus do NILC com uma média de 1-3 páginas. Um dos corpora, formado por 100 textos, tem associado aos textos sumários produzidos por um profissional do ensino da língua portuguesa do Brasil. O outro corpus tem 50 textos com sumários associados também, mas estes foram produzidos por falantes nativos do português do Brasil, que não são profissionais da área. Os sumários foram gerados com uma taxa de compressão de 70-80%.

   No total, são 150 textos. Apesar de ser muito pequeno para os fins necessários, esse corpus poderia ser aumentado de duas formas: (a) investimento conjunto para pagar um profissional para gerar sumários para outros textos ou (b) conforme sugestão da Diana, pedir ao pessoal da lista AVALIA que gere alguns sumários. Se cada pessoa da lista produzir alguns sumários, o número de textos do corpus pode ser aumentado bastante. Entretanto, devido a questões de padronização, não seria adequado ter um corpus formado por sumários produzidos por brasileiros e portugueses, dadas as diferenças entre as línguas. Poderiam, de outra forma, ser produzidos dois corpora distintos: um com sumários feitos por brasileiros e outro com sumários feitos por portugueses.

     Além desses corpora, há os corpora dos DUCs (Document Understanding Conferences), uma das conferências mais importantes atualmente sobre avaliação de sistemas de sumarização automática. Esses textos são todos jornalísticos. O NILC tem permissão de acesso e uso a esses corpora, mas não se sabe se é possível liberar o uso para todo o pessoal do AVALON.

 

2) Sumarização & RI

 

   No projeto EXPLOSA (do NILC), há um sumarizador automático extrativo chamado GistSumm, que é genérico o suficiente para ser aplicado a praticamente qualquer tipo e gênero textual. Após ter o corpus para a avaliação selecionado, os tópicos das consultas e as métricas de avaliação de RI determinadas (o que se imagina que será feito em Faro), seria possível avaliar, juntamente com a avaliação de RI pura, a RI que utiliza sumarização. Isso se daria da seguinte forma:

1) utilizando o GistSumm, geram-se sumários curtos para os textos do corpus, constituindo uma outra base a consultar

2) realizam-se as consultas sobre a base de textos e avalia-se (pelas medidas de recall, precision, etc.)

3) realizam-se as consultas sobre a base de sumários (sem considerar os textos-fonte) e avalia-se também

4) por fim, comparam-se os resultados, vendo o que melhorou e o que piorou na recuperação dos documentos relevantes.

    Obviamente, essa proposta acarreta esforço extra na avaliação, pois o trabalho da avaliação teria que ser duplicado para a base de sumários. De qualquer forma, imagina-se que a inclusão da sumarização na avaliação como proposta acima não interfere nos critérios de avaliação de RI.

   Essa seria uma forma de se fazer uma avaliação extrínseca da sumarização em RI, verificando os ganhos da RI com o uso da sumarização (caso haja algum), a adequação da sumarização a esta tarefa, etc.

   É importante dizer, entretanto, que o GistSumm só funciona com textos em formato “plain text”, isto é, arquivos txt. Ele não funcionará com textos codificados em html, xml, etc. Por isso, caso o corpus escolhido para a avaliação seja formatado, será necessário “limpá-lo” antes de se utilizar o GistSumm.