Textos incluídos na Colecção Dourada do HAREM


Colecção Dourada HAREM


A Colecção Dourada HAREM encontra-se disponível e pode ser levantada (última revisão: 4 de Novembro de 2005) no link abaixo.

Colecção Dourada HAREM (ZIP, 217 KB)


Conteúdo textual da Colecção HAREM


A colecção de textos que apresentamos foi o resultado de um esforço para obter texto de todas as proveniências, incluíndo textos oriundos de Portugal, Brasil, Angola, Moçambique, Macau, Índia, Timor Leste e Cabo Verde. As suas características também são diversas, desde texto retirado da web, texto jornalístico, transcrições de entrevistas, textos técnicos retirados de relatórios extraídos da Web, textos políticos, entre outras proveniências.

Aqui está um resumo dos textos usados, e a sua origem.

Textos (entre parêntesis, a sua proveniência):
  1. Textos Web
    1. WPT03- Web Portuguesa de 2003
    2. WBR99 - Web Brasileira de 1999
  2. Textos jornalîsticos
    1. PÚBLICO, diário português
    2. Folha de São Paulo, diário brasileiro
    3. Avante - Jornal do Partido Comunista Português
    4. Diário do Minho - Jornal regional português
    5. Viseu Diário - Jornal regional português
    6. Jornal de Macau - Jornal de Macau
  3. Textos transcritos de entrevistas
    1. Museu da Pessoa, Brasil
    2. Museu da Pessoa, Portugal
  4. Textos de correio electrónico, compilados nos corpora
    1. ANCIB - lista da Associação Nacional de Bibliotecas (brasileira)
    2. CONE - mensagens não endereçadas
  5. Textos literários
    1. Texto Literário - textos diversos de autores portugueses, brasileiros, angolanos e moçambicanos
  6. Texto expositivo (técnico, científico, informativo ...)
    1. Textos científicos retirados de relatórios extraídos do WPT 03.
    2. Textos diversos e de variadas proveniências (Portugal, Brasil, Cabo Verde e Índia)
  7. Textos Políticos
    1. ECI-EBR, de origem brasileira
    2. EuroParl de origem portuguesa
    3. Discursos de origem timorense
Esta colecção, naturalmente, possui diversos casos que suscitaram dúvidas nas suas classificações, na definição dos âmbitos das categorias HAREM, e nas regras a aplicar em cada caso. A seguir, apresentamos uma lista dos casos mais 'difíceis' que encontrámos na Colecção Dourada.

Documentação dos problemas encontrados na compilação da colecção dourada

Textos incluídos na Colecção HAREM

Na avaliação HAREM, a Colecção Dourada foi diluída numa colecção maior e não anotada, a Colecção HAREM. Estas duas colecções, misturadas, formaram a colecção que os sistemas usaram nas suas tarefas. isto torma impossível aos participantes emendar casos pontuais, e permite a criação conjunta de um repositório maior para futuras iniciativas de REM.

A tabela seguinte descreve uma estimativa do tamanho da Colecção Dourada e da Colecção HAREM, discriminada por género e origem.

Nota: O número de entidades é uma estimativa grosseira por defeito.


Tipo de texto Variante Colecção Dourada Colecção HAREM
PalavrasEMs Palavras
Texto jornalístico Angola     223
Brasil 2891 261 38320
Cabo Verde     569
Macau 1585 108  
Moçambique     4774
Portugal 9188 560 42738
Total 13664 929 86624
Texto literário Angola 677 31  
Brasil 7594 36 14377
Moçambique 276 10  
Portugal 3512 118 26108
TOTAL 12059 320 40485
Texto expositivo Angola     1741
Brasil 5469 42 3531
Cabo Verde 513 38  
Índia 537 37  
Portugal 1276 167 27955
Total 7795 396 33227
Texto político Brasil 762 40 508
Portugal 4303 176 51830
Timor Leste 1150 46 8179
Total 6215 262 60517
Texto da Web Brasil 7668 492 71556
Portugal 6779 502 57274
Total 14447 994 128830
Texto transcrito de entrevistas Brasil 21170 301 20788
Portugal 10917 438 43777
Total 26971 539 64565
Texto de correio electrónico Brasil 4511 108 44527
Portugal 661 92 1020
Total 5172 200 45547
Texto técnico Brasil     3461
Portugal 2918 101 3099
Total 2918 101 6560
TOTAL ABSOLUTO 89241 3851 466355