CLEF: Recolha de informação cruzada com português
Página em português, mantida pela
Linguateca, sobre o projecto internacional CLEF.
Perguntas gerais
O que é o CLEF?
O CLEF
(Cross-Language Evaluation Forum, Forum de avaliação entre várias
línguas) é uma série de avaliações conjuntas
pretendendo promever a pesquisa e desenvolvimento na área de recolha de
informação entre várias línguas (cruzada). A responsável global por este
projecto é Carol Peters.
Quem financia o CLEF?
O CLEF começou em 1998 como uma parte do TREC (o chamado "CLIR track").
Nos anos 2000-2001, foi financiado através da rede DELOS e pelo NIST (National Institute of Standards and
Technology, dos Estados Unidos).
Foi, em seguida, financiado no âmbito do Quinto Programa Quadro de I&D da União Europeia (projecto IST-2000-31002, mais informação pode ser encontrada nas páginas do CORDIS, Serviço de Informação à Comunidade de Pesquisa e Desenvolvimento).
Desde 2004, foi financiado pela rede DELOS Network of Excellence on Digital Libraries.
Desde 2008, é financiado pelo projecto TrebleCLEF.
Porque participa a Linguateca na organização do CLEF?
A Linguateca participa na organização do CLEF, no âmbito da nossa missão de
promover e organizar avaliações conjuntas na área do processamento computacional da língua portuguesa.
Quem financia a participação do português no CLEF?
A participação do português é financiada pela Linguateca, a nível de recursos humanos, e pelo diários PÚBLICO (Portugal) e Folha de São Paulo (Brasil), a nível de fornecimento de recursos.
Em que pistas ("tracks") do CLEF se apresenta o português?
- Em 2004, o português participou apenas nas tarefas ad
hoc (Recolha de Informação) e no QA@CLEF (Resposta Automática a Perguntas).
- Em 2005, além das duas tarefas anteriores, o português
participou no WebCLEF (recolha de informação cruzada na Rede), no ImageCLEF (Recolha de
imagens baseada em legendas) e no GeoCLEF (recolha de informação geográfica).
- Em 2006, o português participou nas
tarefas ad hoc, no QA@CLEF, e no GeoCLEF. A participação no WebCLEF, no ImageCLEF e na nova tarefa, a WiQA (Resposta Automática a Perguntas usando a Wikipédia) não se realizou devido à ausência de interessados.
- Em 2007, o português participa no GeoCLEF, no QA@CLEF, e na pista adhoc robusta multilingue.
- Em 2008, o português participa no GeoCLEF, no QA@CLEF, e na pista adhoc robusta multilingue.
- Em 2009, o português participa no GikiCLEF, no ResPubliQA e no LogCLEF.
Como posso inscrever o meu sistema?
Para informações sobre o registo e condições de participação no CLEF, consulte a página relativa à edição do corrente ano do CLEF.
Que colecções de textos são usadas para o português?
Nos anos 2004 a 2008, foram usados textos jornalísticos:
A colecção está descrita e é disponibilizada na página da colecção CHAVE.
A partir de Abril de 2007, a Linguateca também disponibiliza uma versão da mesma colecção anotada pelo PALAVRAS (Bick, 2000).
A partir de 2007 também diversos instantâneos da Wikipédia foram usados, tanto para RAP como no GikiP e no GikiCLEF.
Em 2009, ainda outras colecções multilingues incluindo o português foram utilizadas, como se pode ver na página respectiva.
Como posso obter as colecções de textos a ser usadas?
Encontrará informações relativas à obtenção de cada colecção nas páginas respectivas.
No entanto, para participar oficialmente no CLEF, deve requisitá-las à organização do CLEF durante a realização do mesmo.
Quais são os resultados da participação da Linguateca no CLEF?
A Linguateca disponibiliza a colecção CHAVE, contendo os textos, tópicos e perguntas utilizados nas edições prévias do CLEF.
Para mais informações, consulte a página da colecção CHAVE.
Compilamos e mantemos uma lista já razoável sobre a participação do português no CLEF, em Lista de publicações no CLEF.
Finalmente, em 2007 associámos informação sintáctica produzida pelo PALAVRAS à colecção CHAVE e disponibilizámos mais esta versão publicamente.
Quais os recursos disponíveis para RI em português?
Além da colecção CHAVE mencionada acima, e das colecções de RI acessíveis através do
repositório da Linguateca, estão ainda disponíveis
Última actualização: 23 de Março de 2009.
Perguntas, comentários e
sugestões