Rachel Aires
A informação procurada por um usuário qualquer pode estar presente ou representada através de: portais de afinidades, páginas a respeito de eventos, páginas de notícias, páginas de empresas/instituições/organizações, páginas prestadoras de serviços ou páginas pessoais. Com todo volume de informação disponível atualmente não é razoável pensar que um usuário ficará contente apenas em perceber que os resultados estão de alguma forma relacionados à informação que procura, a satisfação do usuário está ligada ao fato destes resultados o ajudarem ou não a atingir seu objetivo. Por isso, é insuficiente julgarmos as ferramentas de RI na Web, apenas pelo fato de um documento ser realmente sobre os termos utilizados na consulta. Por exemplo, a consulta "emprego" pode trazer como resultados tanto uma reportagem sobre a oferta de empregos nos últimos 10 anos, como o depoimento em um blog de um jovem feliz com seu primeiro emprego. Estes dois resultados são sem dúvida relacionados ao termo emprego, mas não são relevantes para uma pessoa que está a procura de anúncios de empregos.
Nem todos os usuários de sistemas de RI para web estão sempre interessados em encontrar todos os documentos a respeito de um determinado assunto. São vários os possíveis objetivos que podemos levantar analisando logs de máquinas de busca, por exemplo, os usuários que procuram pela url de uma página que já visitaram e que apesar de se lembrarem do nome da página não se lembram da url. Analisando qualitativamente os logs de dezembro de 1999 e de julho de 2002 da máquina de busca todobr (www.todobr.com.br/), levantamos seis possíveis objetivos dos usuários no momento da busca: (i) procura pela url de uma página específica; (ii) procura por notícias; (iii) tentativa de traçar um panorama a respeito de um dado tema; (iv) procura por definições ou por explicações de como fazer uma determinada tarefa; (v) a url de qualquer página que preste um determinado serviço; (vi) informações a respeito de pessoas ou de uma organização. Apesar destes objetivos não terem sido levantados através de uma análise quantitativa por não termos como determinar apenas através dos logs quais eram os documentos relevantes para os usuários no momento em que fizeram suas consultas, escolhemos utilizá-los na criação de uma coleção de teste que considerasse diferentes necessidades dos usuários por acreditarmos que representam alguns dos objetivos mais comuns de usuários de máquinas de busca.
Esta coleção será criada contendo 60 consultas relacionadas cada uma com um dos seis objetivos levantados. Para possibilitar a reutilização desta coleção de teste será utilizado o padrão de definição de tópicos utilizado na conferência TREC (http://trec.nist.gov/data/web_topics.html). Um exemplo de descrição de objetivo do tipo v pode ser visto a seguir.
| <top>
<num> Number: 05 <title> Anúncios de empregos <desc> Description: Encontrar portais especializados em anúncios de empregos para profissionais em geral. <narr> Narrative: Documentos relevantes são páginas especializadas em anúncios de empregos, em anúncios em geral e também de empregos, ou a seção de anúncios de jornais on-line. Páginas de uma determinada empresa/organização que contenham anúncios de trabalho apenas da própria empresa/organização não são relevantes. Documentos que falem sobre anúncios, mas não apresentem anúncios de empregos também não são relevantes. </top> |
O julgamento de relevância será apenas binário como no TREC (http://trec.nist.gov/data.html).
A coleção de documentos será criada a partir da submissão de consultas a três máquinas de busca: www.google.com, www.alltheweb.com e www.altavista.com. Os documentos armazenados serão os 10 primeiros resultados de cada máquina de busca para cada consulta. Por exemplo, para a consulta classificados + empregos, seriam armazenados 28 documentos, pois dois links apareceram como resultados de duas máquinas de busca.