A colecção CHAVE
Linguateca
CHAVE in English
A colecção CHAVE é o resultado da participação da Linguateca na organização do CLEF a partir de 2004, que além de potenciar a participação da comunidade envolvida no processamento da língua portuguesa nesta avaliação conjunta internacional, pretende fomentar e disseminar recursos públicos.
Veja a página do CLEF mantida pela Linguateca.
A partir de Abril de 2007, disponibilizamos também uma versão
anotada sintacticamente pelo PALAVRAS (Bick, 2000).
A partir de Janeiro de 2010, a colecção CHAVE existe também anotada automaticamente no que se refere às entidades mencionadas, pelo REMBRANDT, versão 0.7. (Cardoso, 2008).
A Linguateca disponibilizou assim a colecção CHAVE, que, além de conter os textos completos do PÚBLICO e da Folha de São Paulo de 1994 e 1995, contém ainda os seguintes recursos, relacionados com as diferentes pistas:
- Recolha de Informação (RI) Ad Hoc Track
(2004, 2005, 2006, Robusta: 2007)
- Resposta Automática a Perguntas QA@CLEF (2004, 2005, 2006, 2007, 2008)
- uma lista das perguntas e respostas em português e nas outras línguas participantes, compiladas em cooperação com os
restantes organizadores do QA@CLEF
- um conjunto não-exaustivo de documentos que suporta a(s) resposta(s) para um subconjunto dessas perguntas
- Recolha de Informação Geográfica GeoCLEF (2006, 2007, 2008)
- uma lista de tópicos em português, compilados em cooperação com os restantes organizadores do CLEF
- as avaliações (binárias) de cada tópico
A estrutura dos ficheiros disponibilizados é a seguinte:
- Textos: divididos em CHAVEPublico e CHAVEFolha, compactados por TGZ (Unix) ou ZIP (Windows): os textos utilizados nas edições do CLEF: textos completos dos jornais PÚBLICO e Folha de São Paulo dos anos de 1994 e 1995.
A partir de Abril de 2007, disponibilizamos também versões
anotadas sintacticamente pelo PALAVRAS (Bick, 2000), identificadas pelo prefixo cg..
- 2004 - Conjunto de recursos obtidos durante a edição do CLEF2004
- 2005 - Conjunto de recursos obtidos durante a edição do CLEF2005
- 2006 - Conjunto de recursos obtidos durante a edição do CLEF2006
- 2007 - Conjunto de recursos obtidos durante a edição do CLEF2007
- 2008 - Conjunto de recursos obtidos durante a edição do CLEF2008
- 200x/Monte - Avaliação dos documentos relativos a cada tópico .
- 200x/PerguntasRespostas - Perguntas e respostas compilados pelos organizadores do CLEF200x
- 200x/Topicos - Tópicos em português compilados pelos organizadores do CLEF200x
Informamos que a colecção CHAVE é parte de uma colecção bastante maior, para investigação em recolha de informação
cruzada, que virá a ser distribuída pela ELRA, e que encorajamos todos os interessados a obter.
Informação sobre os textos
Além dos textos usados em 2004, ou seja os textos dos anos de 1994 e 1995 do diário português PÚBLICO (note-se, aliás, que no CLEF 2004, na pista de RI apenas foram empregues textos de 1995), a partir de 2005 foram utilizados também textos dos mesmos anos do diário brasileiro Folha de São Paulo quer para RI (adhoc), RAP, ou RIG. Em 2007 deixaram de ser usados na pista de RI, passando a ser usados na pista robusta do CLEF.
A tabela seguinte fornece uma descrição quantitativa das coleções usadas.
|
Colecções | Público | Folha de São Paulo |
Anos | 1994-1995 | 1994-1995 |
Edições | 726 | 730 |
Documentos | 106.821 | 103.913 |
Tamanho | 348.078 kB | 226.690 kB |
Unidades | Total | 64.222.797 | 42.109.286 |
Diferentes | 500.197 | 426.469 |
Palavras | Total | 54.947.072 | 35.699.765 |
Diferentes | 472.817 | 393.885 |
Notas à tabela:
- O Público não é publicado nos dias de Natal
e Ano Novo, o que explica as quatro edições a menos.
- Uma palavra foi definida como uma letra seguida de uma sequência (eventualmente vazia) de letras e hífens. (Note-se que esta é uma simplificação, que leva a números muito diferentes dos obtidos no AC/DC, em que a coleção CHAVE também é contada.)
- Não foram contabilizadas as etiquetas identificadoras dos documentos.
Divulgamos aqui uma amostra dos ficheiros dessa colecção, para o Público (SGML 351KB, gzipado 135KB, e a respectiva DTD) e para o Folha de São Paulo (SGML 506KB, gzipado 197KB, e a respectiva DTD).
A colecção CHAVE não foi infelizmente marcada com títulos e autores à data da sua primeira disponibilização pelo CLEF, e agora, por questões metodológicas do CLEF, não a podemos alterar. Por isso, como um remendo auxiliar, disponibilizamos aqui uma lista de possíveis
autores para os textos do Público, com base na marcação feita anteriormente no CETEMPúblico, e outra de possíveis autores para os textos do Folha, tendo por base o CETENFolha.
Note-se que o acesso através da rede à colecção CHAVE, para consulta, é também possível através do projecto AC/DC, especificamente aqui.
Condições de uso
Como é habitual no CLEF, pedimos aos interessados que respeitem as seguintes condições:
- Registem-se (abaixo) para obter a colecção
- Mencionem sempre os seguintes factos:
- A colecção consiste nas edições completas dos anos de 1994 e 1995 dos jornais PÚBLICO (www.publico.pt) e Folha de São Paulo (www.folha.com.br).
- Foi compilada pela Linguateca (www.linguateca.pt).
- Essa compilação ocorreu no quadro do CLEF, www.clef-campaign.org.
- A anotação sintáctica foi produzida pelo PALAVRAS (Bick, 2000), e a anotação em termos de entidades mencionadas foi criada pelo REMBRANDT (Cardoso, 2008).
- Usar a colecção apenas para pesquisa e desenvolvimento; não é permitida a sua revenda, nem o lucro pela sua
distribuição directa, online ou offline.
- Nenhum resultado obtido fora das avaliações conjuntas oficiais do CLEF pode invocar o nome do CLEF de um modo que sugira que o sistema foi avaliado por elas; i.e., todos os resultados obtidos fora das avaliações conjuntas devem mencionar claramente esse facto.
Para ter acesso à colecção, basta preencher o seguinte formulário, se concordar com as condições acima descritas:
Ser-lhe-á fornecida uma senha para aceder à colecção.
Última actualização: 7 de outubro de 2020.
Perguntas, comentários e sugestões