Coleções de teste para RI |
|
O objetivo desta página é fornecer um resumo das coleções ou propostas de coleções para avaliação de sistemas de RI e de outros sistemas discutidos pelo Grupo Merlin antes e durante nosso encontro no Avalon 2003. No total são apresentadas aqui duas propostas de avaliação, cinco coleções que estão sendo construídas, uma coleção que será disponibilizada para a comunidade de RI e uma coleção que já está disponível para a comunidade. Folha-RIcol - O Folha-RICol é uma coleção de documentos derivada do corpus do NILC desenvolvida no programa de pós-graduação da Pontifícia Universidade Católica do Rio Grande do SUL (PUCRS).Propostas de avalia ç ão de Sumarização Automática e RI - Tratam-se respectivamente de uma proposta de utilização de coleções de teste em comum para avaliação de RI e avaliação de sumarização automática enviada para a lista Merlin em 16/05/2003 por Lúcia Helena Machado Rino (NILC - Núcleo Interinstitucional de Lingüística Computacional - www.nilc.icmc.usp.br ) e de uma proposta de avaliação de RI que utilizaria sumarização automática enviada para a lista Merlin em 20/05/2003 por Thiago A. Salgueiro Pardo (NILC).
TumbaGovPT - Mário Silva, Bruno Martins e Miguel Costa do Tumba (http://www.tumba.pt/ ) apresentaram uma proposta de tarefa de avaliação e estão criando uma coleção de testes. Coleção de Documentos Jurídicos da Procuradoria Geral da República Portuguesa (PGR) - Paulo Quaresma - Universidade de Évora. Coleção por objetivos - Esta coleção será compostas por consultas que considerarão diferentes necessidades dos usuários de máquinas de busca e está sendo criada com a finalidade inicial de ser utilizada no projeto de doutoramento de Rachel Virgínia Xavier Aires (NILC). Coleção .gov.br - Esta coleção de teste será criada com páginas do domínio .gov.br retiradas do portal do e-gov. Será criada no NILC sob coordenação de Sandra Maria Aluísio. Coleção de Documentos Jurídicos do Projeto Lácio-Web - Esta coleção será composta por documentos jurídicos disponíveis na web de dois tipos: jurisprudência e legislação. Está sendo criada no NILC sob coordenação de Sandra Maria Aluísio. WBR99 - Trata-se de uma coleção criada no Latin - Laboratório para Tratamento da Informação ( www.dcc.ufmg.br/latin ) que será disponibilizada para a comunidade através do acesso externo a uma das máquinas do laboratório. O tamanho desta coleção é de 20G, contém: uma lista invertida de todos as paginas; uma lista de todas as palavras de cada pagina; uma lista de todos os links entre paginas e o texto das paginas, depois de removidas todas as tags HTML. |