Coleções de teste para RI


 

O objetivo desta página é fornecer um resumo das coleções ou propostas de coleções para avaliação de sistemas de RI e de outros sistemas discutidos pelo Grupo Merlin antes e durante nosso encontro no Avalon 2003. No total são apresentadas aqui duas propostas de avaliação, cinco coleções que estão sendo construídas, uma coleção que será disponibilizada para a comunidade de RI e uma coleção que já está disponível para a comunidade.

Folha-RIcol   - O Folha-RICol é uma coleção de documentos derivada do corpus do NILC desenvolvida no programa de pós-graduação da Pontifícia Universidade Católica do Rio Grande do SUL (PUCRS). 

Propostas de avalia ç ão de Sumarização Automática e RI   - Tratam-se respectivamente de uma proposta de utilização de coleções de teste em comum para avaliação de RI e avaliação de sumarização automática enviada para a lista Merlin em 16/05/2003 por Lúcia Helena Machado Rino (NILC - Núcleo Interinstitucional de Lingüística Computacional -  www.nilc.icmc.usp.br ) e de uma proposta de avaliação de RI que utilizaria sumarização automática enviada para a lista Merlin em 20/05/2003 por Thiago A. Salgueiro Pardo (NILC).

TumbaGovPT   -  Mário Silva, Bruno Martins e Miguel Costa do Tumba (http://www.tumba.pt/ ) apresentaram uma proposta de tarefa de avaliação e estão criando uma coleção de testes.

Coleção de Documentos Jurídicos da Procuradoria Geral da República Portuguesa (PGR)  - Paulo Quaresma - Universidade de Évora.

Coleção por objetivos - Esta coleção será compostas por consultas que considerarão diferentes necessidades dos usuários de máquinas de busca e está sendo criada com a finalidade inicial de ser utilizada no projeto de doutoramento de Rachel Virgínia Xavier Aires (NILC).

Coleção .gov.br - Esta coleção de teste será criada com páginas do domínio .gov.br  retiradas do portal do e-gov. Será criada no NILC sob coordenação de Sandra Maria Aluísio. 

Coleção de Documentos Jurídicos do Projeto Lácio-Web - Esta coleção será  composta por documentos jurídicos disponíveis na web de dois tipos: jurisprudência  e legislação. Está sendo criada no NILC sob coordenação de Sandra Maria Aluísio. 

WBR99 - Trata-se de uma coleção criada no Latin - Laboratório para Tratamento da Informação ( www.dcc.ufmg.br/latin ) que será disponibilizada para a comunidade através do acesso externo a uma das máquinas do laboratório. O tamanho desta coleção é de 20G, contém: uma lista invertida de todos as paginas; uma lista de todas as palavras de cada pagina; uma lista de todos os links entre paginas e o texto das paginas, depois de removidas todas as tags HTML.