CLEF 2004 - Presença do português
Linguateca
Notícias
- 28 de Setembro de 2004: Os resultados (avaliados) submetidos pelos participantes na pista de Q&A, foram disponibilizados pela organização em http://clef-qa.itc.it/2004/resources.html
- 21 de Setembro de 2004: é disponibilizado o material utilizado na organização da
participação portuguesa no CLEF, intitulado a colecção CHAVE (subconjunto do CLEF para o o português).
- 15-17 de Setembro de 2004:
workshop do CLEF, onde foi apresentado um artigo [Santos & Rocha 2004] e respectivo poster referentes à
participação da Linguateca, assim como um artigo geral referente à pista de Q&A, incluindo os resultados.
- 27 de Abril de 2004: a participação da Linguateca no CLEF foi apresentada no SINTEF; a apresentação está disponível em PowerPoint ou em formato pdf
- 16 de Março de 2004: a tradução portuguesa dos tópicos a usar em RI está disponível no site do CLEF.
- 15 de Março de 2004: a coleção portuguesa está disponível no site do CLEF.
- 9 de Março de 2004: divulgámos uma amostra dos ficheiros da colecção que será usada no CLEF; ver abaixo para mais informação.
- 23 de Fevereiro de 2004: foi confirmada a presença do português no CLEF.
Perguntas gerais
O que é o CLEF?
O CLEF (Cross-Language Evaluation Forum, Forum de
avaliação conjunta cruzada) é uma série de avaliações conjuntas pretendendo promover a pesquisa e desenvolvimento na área de recolha de informação entre várias línguas (cruzada).
A responsável global por este projecto é
Carol Peters.
Quem financia o CLEF?
O CLEF foi um projecto que começou como uma parte do TREC (CLIR track) em 1998, foi financiado nos anos 2000-2001 através da rede DELOS e pelo NIST (National Institute of Standards and Technology americano); foi em seguida financiado no âmbito do Quinto Programa Quadro de I&D da União Europeia (projecto IST-2000-31002, mais
informação pode ser encontrada nas páginas do CORDIS, Serviço de
Informação à Comunidade de Pesquisa e Desenvolvimento).
Em 2004, é financiado pela rede DELOS Network of Excellence on Digital Libraries.
Porque participa a Linguateca na organização do CLEF?
A Linguateca participa na organização do CLEF, no âmbito da nossa missão de promover e organizar avaliações conjuntas na área do processamento computacional da língua portuguesa. Veja-se [Santos & Rocha 2004] para alguma discussão desta motivação.
Quem financia a participação do português no CLEF?
A participação do português é financiada pela Linguateca, a nível de recursos humanos, e pelo diário PÚBLICO, a nível de fornecimento de recursos.
Em que pistas ("tracks") do CLEF esteve presente o português?
O português esteve presente no CLEF, quer para RI monolingue, quer para RI cruzada (em inglês, "crosslingual IR"), veja-se http://clef.iei.pi.cnr.it/2004/2004agenda.html. A responsável destas pistas é Carol Peters.
Além disso, o português também estará presente nas categorias de resposta automática a perguntas (RaP, Q&A), tanto como língua fonte como língua alvo (ou seja, perguntas em português e
respostas em português), veja-se http://clef-qa.itc.it/2004/. O responsável por esta pista é Bernardo Magnini.
Que colecção de textos foi usada para o português?
A colecção de textos usada para o português nesta edição do CLEF consiste nos textos dos anos de 1994 e 1995 do diário português PÚBLICO. Para a
avaliação de RI, apenas o ano de 1995 foi usado; para a avaliação de RaP, foi usada a colecção completa, ou seja, os textos de ambos os anos.
| Colecções | RI | QA@CLEF |
| Origem | Público 1995 | Público 1994-1995 |
| Edições | 363 | 726 |
| Documentos | 55.070 | 106.821 |
| Tamanho | 183.340 kB | 348.078 kB |
| Unidades | Total | 33.458.269 | 64.573.983 |
| Diferentes | 407.631 | 605.092 |
| Palavras | Total | 28.596.674 | 55.538.483 |
| Diferentes | 392.999 | 580.740 |
Note-se que o Público não é publicado nos dias de Natal e Ano Novo, o que explica as edições aparentemente em falta.
Na tabela acima, uma palavra foi definida como uma letra seguida de uma sequência (eventualmente vazia) de letras e hífens.
Divulgamos aqui uma amostra dos ficheiros dessa colecção (SGML 351KB, SGML gzipado 135KB), e a respectiva DTD (provisória).
A colecção não está marcada com identificação dos títulos e autores. Contudo, disponibilizamos aqui uma lista de possíveis autores com base na marcação feita anteriormente no CETEMPúblico.
Que material disponibiliza a Linguateca?
A Linguateca disponibiliza a colecção CHAVE, que, além de conter os textos completos do PÚBLICO de 1994 e 1995, contém:
- uma lista de cinquenta tópicos em português, compilados em cooperação com os restantes organizadores do CLEF
- as avaliações (binárias) de cada tópico
- uma lista de 700 perguntas e respostas em português, compiladas em cooperação com os restantes organizadores do
QA@CLEF
- um conjunto não-exaustivo de documentos que suporta a(s) resposta(s) para um subconjunto de 199 dessas perguntas
Como posso obter o material disponibilizado pela Linguateca?
Como é habitual no CLEF, pedimos aos interessados que respeitem as seguintes condições:
- Registem-se para obter a colecção
- Mencionem sempre os seguintes factos: que a colecção consiste nas edições completas dos anos de 1994 e 1995 do
jornal PÚBLICO (www.publico.pt), que foi compilada pela Linguateca (www.linguateca.pt), e que essa compilação ocorreu no quadro do CLEF (www.clef-campaign.org)
- Usar a colecção apenas para pesquisa e desenvolvimento; não é permitida a sua revenda, nem o lucro pela sua
distribuição directa, online ou offline.
- Nenhum resultado obtido fora das avaliações conjuntas oficiais do CLEF pode invocar o nome do CLEF de um modo que sugira que o sistema foi avaliado por elas; i.e., todos os resultados obtidos fora das avaliações conjuntas devem mencionar claramente esse facto.
Informamos que a colecção CHAVE é parte de uma colecção bastante maior, que virá a ser distribuída pela ELRA, e que encorajamos todos os interessados em recolha de informação cruzada a obter.
Informação já desactualizada
Como posso inscrever o meu sistema?
AS INSCRIÇÕES ENCONTRAM-SE ENCERRADAS.
Pode no entanto consultar as instruções para registo e condições de
participação
na página http://clef.iei.pi.cnr.it:2002/2004/2004howto.html.
Quais as directrizes para a participação na avaliação de RAP?
As directrizes podem ser encontradas no sítio do QA@CLEF, no endereço http://clef-qa.itc.it/2004/guidelines.html.
Calendário(s)
Recolha de Informação (RI)
- 15 de Março de 2004: divulgação da colecção de textos
- 15 de Março de 2004: divulgação dos tópicos
- 15-17 de Setembro: workshop do CLEF.
Perguntas & Respostas (QA@CLEF)
- 15 de Março de 2004: divulgação da colecção de textos
- Março 2004: divulgação das perguntas para o ensaio
- 10 de Maio de 2004: divulgação das perguntas
- 17 de Maio de 2004: submissão dos resultados pelos participantes
- 15 de Julho de 2004: divulgação dos resultados individuais
- 15-17 de Setembro: workshop do CLEF.
Registo de pedido da colecção CHAVE
Para ter acesso à colecção, basta preencher o seguinte formulário e concordar com as condições acima descritas:
Última actualização: 15 de Agosto de 2005.
Perguntas, comentários e sugestões