Nova pagina 1

-----Original Message-----
From: Lucia Helena Machado Rino
To: merlin@linguateca.pt
Sent: 16/5/2003 23:40
Subject: [Merlin] tarefa conjunta de avaliacao de RI e SA

Sandra, Rachel e demais membros do Grupo Merlin/AVALIA,

Vou tentar retomar os principais aspectos que vêm sendo discutidos por vocês nesta lista e perdoem-me se algo os impedir de entender por completo o que exponho abaixo. Peço-lhes que, neste caso, exponham suas
duvidas, que tentarei retomar o contexto.

Peço-lhes, desde já, também, desculpas por estar incluindo aqui uma questão “local”, já resolvida, de confecção de um corpus de sumários. Mas creio que isso possa também interessar aos demais integrantes dessa lista.

A minha equipe no Projeto EXPLOSA está tentando montar um corpus de resumos autênticos (i.e., construídos por sumarizadores profissionais manualmente) para textos jornalísticos de diversos domínios (gênero jornalístico, portanto, meio de distribuição: bancas de revista).

Decidimos por um corpus jornalístico, em detrimento dos outros já citados por vocês, pela principal razão de apresentar uma linguagem supostamente voltada ao leitor MEDIO do português. Ou seja, um leitor que tenha competência para entender os textos sem esforço. O motivo dessa escolha foi operacional: para a produção dos resumos manuais, não podíamos contar com sumarizadores que tivessem conhecimento sobre algum
assunto especifico. Neste caso, também excluímos linguagens rebuscadas (p.ex., o suplemento MAIS, da Folha de São Paulo).

Temos, no momento, 150 textos-fonte, selecionados do próprio corpus do NILC. A razão dessa limitação também é dependente da tarefa humana: a mão-de-obra é cara e, logo, não podíamos aumentar muito esse corpus. Entretanto, a Diana me sugeriu que eu solicitasse a voluntários que elaborassem a mesma tarefa. Assim, eu poderia aumentar o número de textos originais. Neste caso, vejo outros problemas: 1º., o voluntariado precisa ser levado a cabo, o que nem sempre acontece: as pessoas são muito ocupadas e acabam protelando a tarefa; 2º., não posso contar com sumarizadores que não sejam falantes do português do Brasil, pois o estilo de escrita e a terminologia podem ser muito alteradas. Assim, meu “campo de ação” fica restrito a escritores brasileiros, no momento.

Sobre a proposta de usarmos corpus comuns p/ nossas avaliações em RI e AS: eu não quero pensar em textos de domínios muito particulares, como o jurídico, pois não vejo, no momento, modo de avaliar os resultados
automáticos sem contar com juizes HUMANOS, como já citei. Se adotarmos textos muito específicos, fica difícil, portanto, conseguir mão-de-obra para isso, ainda mais se considerarmos que não é raro não termos grana p/ pagar o serviço.

Foi por esse motivo que o Marcelo usou o corpus jornalístico e é por esse motivo que eu acho que a gente deve adotar coisa semelhante, para os testes conjuntos de AS e IR.

Assim, pensando nas propostas anteriores da Rachel, tenho a dizer o seguinte:

1. com a tarefa do profissional que agora posso pagar, teremos um total de 150 textos jornalísticos nesse corpus. Porém, DOIS corpus distintos de sumários são derivados dele: um (51 sumarios) construído
por diversos escritores, não profissionais, mas, simplesmente, falantes do português, de nível de instrução superior; outro (100 sumarios) construído pelo especialista em sumarização, professor de 2º. Grau de
língua portuguesa e instrutor de vestibulandos na disciplina ‘redação’.
2. se formos anexar aos sumários também um elenco de perguntas, como sugeriu a Rachel, para a tarefa de IR, podemos contar ou com esse mesmo profissional ou com um profissional de CI, não podemos? Será que
esse profissional não seria capaz de elaborar as perguntas? Minha questão é a seguinte: vocês teriam que indicar uma pessoa que pudesse montar o corpus de perguntas para o mesmo corpus jornalístico.
3. sou de opinião que deveríamos manter também a mesma base para a tarefa de confecção dessas perguntas (posso estar enganada): o profissional de CI (ou o professor de português) não deveria estar tão envolvido com o assunto, para ter perguntas objetivas.

4. se vocês quiserem aproveitar esse profissional de português que já vai elaborar meus sumários, eu poderia propor a ele a extensão usando o mesmo corpus. No entanto, devo dizer que não tenho grana p/ pagar o
acréscimo que certamente ele apresentará no orçamento. Assim, se vocês toparem, vocês pagam com sua verba, ok?
5. eu pretendo estar levando os dados a ele na próxima semana. Se toparem minha sugestão, por favor, elaborem uma descrição da tarefa que ele teria, que eu posso apresentar a ele, p/ pedir orçamento.

Vejam que não considero a questão dos logs e tampouco o vinculo com consultas diretamente na web, dada a natureza distinta dos dados para a AS, a qual não é, no momento, contemplada por nos. Notem, também, que
estou desconsiderando a participação de portugueses em tarefas de confecção de dados de referencia, pois penso que, para meus resumos, a diferença lingüística interferirá nas tarefas de avaliação. Essas questões certamente poderão ser trabalhadas, mas considero-as para um futuro não tão próximo. Entretanto, ressalto que essa é uma questão *temporária* e que se refere, somente, à produção de material escrito *de referencia*.

Acho que os sumários podem ser usados, sim, como indexadores. Para isso, poderíamos elaborar uma avaliação que investigasse, p.ex., se um sumario cobre as expectativas de um usuário em sua busca. Há outras sugestões, que não vou descrever agora, mas é possível.

A propósito: os sumários produzidos por escritores humanos são baseados somente nos documentos, diferentemente da sugestão da Rachel, de ter sumários gerados com base em termos de consulta. De qq modo, acho que, mesmo assim, poderíamos testar ambas as formas: se os resultados de um sumarizador automático ou de um recuperador de informações são adequados às expectativas do usuário ou, mesmo, comparar qual deles o auxilia mais.

Sobre questões mais gerais apresentadas na lista:

1. Eu poderia usar outro corpus diferente das minhas necessidades imediatas expostas acima, pois temos vários sistemas independentes que, para funcionarem, precisariam somente ser customizados com o léxico,
stemmer e tagger, penso. Neste caso, os documentos descritos pelo Paulo Quaresma (acordãos dos Tribunais Portugueses) poderiam ser considerados, se lhes interessar ter os sumários também (precisaríamos deles em
formato txt).
2. em um dos sistemas, o SuPor, é feita a clusterizacao da informação com base em caracteristicas mistas (lingüísticas e não lingüísticas). Talvez esse método pudesse, também, ser comparado com as
tarefas especificas de RI.
3. tenho, também, todos os corpus do DUC (2001, 2002 e 2003). Embora em inglês, não creio que devamos ignorar o processamento do inglês, já que frequentemente recebemos criticas severas por não compararmos nossos resultados com esses corpus de referencia. Eu tenho licença de uso deles. Não sei se qualquer grupo pode te-la, mesmo não havendo participado de nenhum DUC. Acontece que nós nos inscrevemos no
DUC2003 e foi assim que eu consegui acesso e licença de uso de todos eles.
4. alias, neste ultimo DUC havia tarefas interessantes, que talvez façam a ponte com IR. Poderemos discutir isso mais adiante.

Por ora, acho que é só.

Lucia

****************************************************
Lucia Helena Machado Rino
Departamento de Computação
Centro de Ciências Exatas e de Tecnologia
UFSCar
Rod. Washington Luiz, km 235 Vila Monjolinho
Caixa Postal 676
13565-905 São Carlos - SP Brasil

Tel: +55 16 260-8597 Fax: +55 16 260-8233
www.dc.ufscar.br/~lucia
****************************************************