-----Original Message-----
From: Lucia Helena Machado Rino
To: merlin@linguateca.pt
Sent: 16/5/2003 23:40
Subject: [Merlin] tarefa conjunta de avaliacao de RI e SA
Sandra, Rachel e demais membros do Grupo Merlin/AVALIA,
Vou tentar retomar os principais aspectos que vêm sendo discutidos por vocês nesta lista e perdoem-me se algo os impedir de entender por
completo o que exponho abaixo. Peço-lhes que, neste caso, exponham suas
duvidas, que tentarei retomar o contexto.
Peço-lhes, desde já, também, desculpas por estar incluindo aqui uma questão “local”, já resolvida, de confecção de um corpus de sumários.
Mas creio que isso possa também interessar aos demais integrantes dessa lista.
A minha equipe no Projeto EXPLOSA está tentando montar um corpus de resumos autênticos (i.e., construídos por sumarizadores profissionais
manualmente) para textos jornalísticos de diversos domínios (gênero jornalístico, portanto, meio de distribuição: bancas de revista).
Decidimos por um corpus jornalístico, em detrimento dos outros já citados por vocês,
pela principal razão de apresentar uma linguagem supostamente voltada ao leitor MEDIO do português. Ou seja, um leitor
que tenha competência para entender os textos sem esforço. O motivo dessa escolha foi operacional: para a produção dos resumos manuais, não
podíamos contar com sumarizadores que tivessem conhecimento sobre algum
assunto especifico. Neste caso, também excluímos linguagens rebuscadas (p.ex., o suplemento MAIS, da Folha de São Paulo).
Temos, no momento, 150 textos-fonte, selecionados do próprio corpus do NILC. A razão dessa limitação também é dependente da tarefa humana: a
mão-de-obra é cara e, logo, não podíamos aumentar muito esse corpus. Entretanto, a Diana me sugeriu que eu solicitasse a voluntários que
elaborassem a mesma tarefa. Assim, eu poderia aumentar o número de textos originais. Neste caso, vejo outros problemas: 1º., o voluntariado
precisa ser levado a cabo, o que nem sempre acontece: as pessoas são muito ocupadas e acabam protelando a tarefa; 2º., não posso contar com
sumarizadores que não sejam falantes do português do Brasil, pois o estilo de escrita e a terminologia podem ser muito alteradas. Assim, meu
“campo de ação” fica restrito a escritores brasileiros, no momento.
Sobre a proposta de usarmos corpus comuns p/ nossas avaliações em RI e AS: eu não quero pensar em textos de domínios muito particulares, como o
jurídico, pois não vejo, no momento, modo de avaliar os resultados
automáticos sem contar com juizes HUMANOS, como já citei. Se adotarmos textos muito específicos, fica difícil, portanto, conseguir mão-de-obra
para isso, ainda mais se considerarmos que não é raro não termos grana p/ pagar o serviço.
Foi por esse motivo que o Marcelo usou o corpus jornalístico e é por esse motivo que eu acho que a gente deve adotar coisa semelhante, para
os testes conjuntos de AS e IR.
Assim, pensando nas propostas anteriores da Rachel, tenho a dizer o seguinte:
1. com a tarefa do profissional que agora posso pagar, teremos um total de 150 textos jornalísticos nesse corpus. Porém, DOIS corpus
distintos de sumários são derivados dele: um (51 sumarios) construído
por diversos escritores, não profissionais, mas, simplesmente, falantes do português, de nível de instrução superior; outro (100
sumarios) construído pelo especialista em sumarização, professor de 2º. Grau de
língua portuguesa e instrutor de vestibulandos na disciplina ‘redação’.
2. se formos anexar aos sumários também um elenco de perguntas, como sugeriu a Rachel, para a tarefa de IR, podemos contar ou com esse
mesmo profissional ou com um profissional de CI, não podemos? Será que
esse profissional não seria capaz de elaborar as perguntas? Minha questão é a seguinte: vocês teriam que indicar uma pessoa que pudesse
montar o corpus de perguntas para o mesmo corpus jornalístico.
3. sou de opinião que deveríamos manter também a mesma base para a tarefa de confecção dessas perguntas (posso estar enganada): o
profissional de CI (ou o professor de português) não deveria estar tão envolvido com o assunto, para ter perguntas objetivas.
4. se vocês quiserem aproveitar esse profissional de português que já vai elaborar meus sumários, eu poderia propor a ele a extensão usando
o mesmo corpus. No entanto, devo dizer que não tenho grana p/ pagar o
acréscimo que certamente ele apresentará no orçamento. Assim, se vocês toparem, vocês pagam com sua verba, ok?
5. eu pretendo estar levando os dados a ele na próxima semana. Se toparem minha sugestão, por favor, elaborem uma descrição da tarefa que
ele teria, que eu posso apresentar a ele, p/ pedir orçamento.
Vejam que não considero a questão dos logs e tampouco o vinculo com consultas diretamente na web, dada a natureza distinta dos dados para a
AS, a qual não é, no momento, contemplada por nos. Notem, também, que
estou desconsiderando a participação de portugueses em tarefas de confecção de dados de referencia, pois penso que, para meus resumos, a
diferença lingüística interferirá nas tarefas de avaliação. Essas questões certamente poderão ser trabalhadas, mas considero-as para um
futuro não tão próximo. Entretanto, ressalto que essa é uma questão *temporária* e que se refere, somente, à produção de material escrito
*de referencia*.
Acho que os sumários podem ser usados, sim, como indexadores. Para isso, poderíamos elaborar uma avaliação que investigasse, p.ex., se um sumario
cobre as expectativas de um usuário em sua busca. Há outras sugestões, que não vou descrever agora, mas é possível.
A propósito: os sumários produzidos por escritores humanos são baseados somente nos documentos, diferentemente da sugestão da Rachel, de ter
sumários gerados com base em termos de consulta. De qq modo, acho que, mesmo assim, poderíamos testar ambas as formas: se os resultados de um
sumarizador automático ou de um recuperador de informações são adequados às expectativas do usuário ou, mesmo, comparar qual deles o auxilia
mais.
Sobre questões mais gerais apresentadas na lista:
1. Eu poderia usar outro corpus diferente das minhas necessidades imediatas expostas acima, pois temos vários sistemas independentes que,
para funcionarem, precisariam somente ser customizados com o léxico,
stemmer e tagger, penso. Neste caso, os documentos descritos pelo Paulo Quaresma (acordãos dos Tribunais Portugueses) poderiam ser considerados,
se lhes interessar ter os sumários também (precisaríamos deles em
formato txt).
2. em um dos sistemas, o SuPor, é feita a clusterizacao da informação com base em caracteristicas mistas (lingüísticas e não
lingüísticas). Talvez esse método pudesse, também, ser comparado com as
tarefas especificas de RI.
3. tenho, também, todos os corpus do DUC (2001, 2002 e 2003). Embora em inglês, não creio que devamos ignorar o processamento do
inglês, já que frequentemente recebemos criticas severas por não compararmos nossos resultados com esses corpus de referencia. Eu tenho
licença de uso deles. Não sei se qualquer grupo pode te-la, mesmo não havendo participado de nenhum DUC. Acontece que nós nos inscrevemos no
DUC2003 e foi assim que eu consegui acesso e licença de uso de todos eles.
4. alias, neste ultimo DUC havia tarefas interessantes, que talvez façam a ponte com IR. Poderemos discutir isso mais adiante.
Por ora, acho que é só.
Lucia
****************************************************
Lucia Helena Machado Rino
Departamento de Computação
Centro de Ciências Exatas e de Tecnologia
UFSCar
Rod. Washington Luiz, km 235 Vila Monjolinho
Caixa Postal 676
13565-905 São Carlos - SP Brasil
Tel: +55 16 260-8597 Fax: +55 16 260-8233
www.dc.ufscar.br/~lucia
****************************************************