GikiP: piloto do GeoCLEF, recolha de informação geográfica cruzada na Wikipedia
Página em português, mantida pela
Linguateca, sobre a pista GeoCLEF do projecto internacional CLEF.
In English
Nota: o GikiP já acabou. Agora é o GikiCLEF 2009 que já está a decorrer.
Esta tarefa piloto, aceite pelos participantes e pelo resto da organização do GeoCLEF foi proposta por Nuno Cardoso como participante e aceite por Diana Santos como uma tarefa a cargo principalmente da Linguateca, como se poderá ver na apresentação do breakout do ano passado em Budapeste.
- Tópicos de 2008: alemão, inglês, e português
- Julgamentos
- Resultados
- Artigos a descrever o GikiP 2008:
- Diana Santos, Nuno Cardoso, Paula Carvalho, Iustin Dornescu, Sven Hartrumpf, Johannes Leveling & Yvonne Skalban. "Getting geographical answers from Wikipedia: the GikiP pilot at CLEF". In Francesca Borri, Alessandro Nardi & Carol Peters (eds.), CLEF 2008 Working notes (Aarhus, 17-19 de Setembro de 2008). Actas: pdf; Cópia local: pdf
- Apresentações sobre o GikiP no Encontro do CLEF em Aarhus, na Dinamarca, a 18 de Setembro de 2008 (apresentadores em negrito)
- Diana Santos, Nuno Cardoso, Paula Carvalho, Yvonne Skalban, Iustin Dornescu, Johannes Leveling & Sven Hartrumpf. Getting geographical answers from Wikipedia: the GikiP pilot at CLEF. pdf
- Johannes Leveling & Sven Hartrumpf. A fully-automatic approach to answer geographic queries: GIRSA-WP at GikiP. pdf
- Iustin Dornescu. Digging for information WikipediaQAList@wlv at GikiP. pdf
- Nuno Cardoso. Towards semantic flavored queries for GIR systems: RENOIR at the GikiP pilot task. pdf
Definição da tarefa
Encontrar artigos/entradas da Wikipedia que satisfazem uma dada necessidade de informação que exige algum raciocínio geográfico.
Os participantes devem usar as colecções da Wikipédia disponibilizadas pela pista de RAP (informação de como obtê-las é facultada ao registarem-se no CLEF).
Os tópicos foram disponibilizados aqui no dia 2 de Junho. Exemplos (formulação rigorosa pode ser encontrada em português, inglês e alemão.
- Que pintores holandeses são famosos pelo seus retratos?
- Estou interessada em físicos europeus que emigraram para os Estados Unidos entre as duas grandes guerras (século XX)
- Encontre mudanças de fronteiras de países no século XIX.
- Lugares onde Mozart viveu
- Guerras em solo canadiano
Para cada tópico/pergunta, os sistemas devem devolver uma lista de artigos da Wikipédia, usando a linha do artigo como aparece no ficheiro html.lst. Veja um exemplo fictício aqui.
Os sistemas apenas devem enviar respostas/documntos do tipo correcto. Ou seja, para os tópicos exemplo 1 e 2, pessoas (pintores ou físicos), e não nomes de barcos ou de países. Para o tópico exemplo 3, nomes de países, e não de guerras ou de reis.
O número máximo de respostas por pergunta é 100, mas os sistemas não devem mandar mais respostas do que as certas.
Cada participante tem direito no máximo a duas corridas (runs).
Avaliação
O resultado dos sistemas será pontuado através da seguinte fórmula, em que mult é um factor que favorece o multilinguismo, N é o número de artigos certos devolvido, e total é o número total de resultados mandado pelo sistema: mult*N*N/total.
Por outras palavras, a pontuação para cada tópico é o produto do número de resultados certos pela precisão do sistema (favorecida quanto mais multilingue for)
mult terá o valor 1, 2 ou 3 conforme os sistemas tenham conseguido arranjar respostas relevantes em apenas uma, duas ou nas três línguas do GikiP.
A pontuação final do sistema será a média para o conjunto dos tópicos.
Participantes em 2008
Apenas três sistemas participaram oficialmente:
- RENOIR
- REMBRANDT's Extended NER On IR Interactive retrievals. Nuno Cardoso, Universidade de Lisboa, Faculdade de Ciências, LaSIGE, XLDB (Portugal)
- WikipediaListQA@wlv
- Iustin Dornescu, Research Group in Computational Linguistics (CLG) at the University of Wolverhampton, Universidade de Wolverhampton (Reino Unido)
- GIRSA-WP
- Sven Hartrumpf and Johannes Leveling, Intelligent Information and Communication Systems (IICS), FernUniversität in Hagen (Alemanha)
-
Mais informação e motivação do GikiP
Há diferenças entre o GikiP e GeoCLEF com outra colecção?
Dada a diferente constituição da colecção, também a tarefa é consideravelmente diferente: não são documentos relevantes em geral, mas o mais relevante, que procuramos no GikiP.
De qualquer maneira, o tipo de perguntas a fazer à Wikipédia deverá naturalmente ser diferente do que se faz a uma colecção de notícias de jornais.
Relação com resposta automática a perguntas (RAP) e com recolha de informação (RI)
Esta tarefa pode considerar-se uma mistura de RAP com RI, visto que as respostas são os títulos/entradas dos documentos, cujo conteúdo pode ser visto como a justificação da resposta.
Uma tarefa semelhante foi definida no WiQA, cujo objectivo era responder, com base na Wikipedia, a um tipo de pergunta específico do TREC -- as perguntas "other", do tipo: "Que mais sabe sobre X?".
A maior diferença do GikiP é precisamente a concentração na informação geográfica (embora não só, visto que estamos interessados em cruzá-la com outra informação).
Onde está a geografia?
Uma das motivações do GikiP for precisamente o facto de tópicos do GeoCLEF, tais como "Rios com encostas com produção vinícola", serem muito mais apropriados em enciclopédias do que em notícias onde tal facto no máximo será expresso implicitamente.
Outra das motivações deste piloto é experimentar perguntas de maior complexidade, de acordo com a tipologia sugerida por Gey et al. (2006), em vez de apenas perguntas do tipo 1 e 2 como na tarefa principal do GeoCLEF. Tal é possível devido ao facto de as entradas de uma encoclopédia condensarem muita informação sobre um tópico.
Organizadores
O GikiP é organizado por Diana Santos e Paula Carvalho. Estamos gratas a Yvonne Skalban da Universidade de Wolverhampton pela tradução dos tópicos para alemão, a Ross Purves da Universidade de Zürich-Irsel pela revisão dos tópicos ingleses, e a Sven Hartrumpf da Universidade de Hagen e ao seu analisador sintáctivo VOCADI pela detecção de vários gatos na versão inicial dos tópicos.
Última actualização: 21 de Janeiro de 2009.