Conteúdo textual da Colecção HAREM
A colecção de textos que apresentamos foi o resultado de um esforço para obter texto de todas as proveniências, incluíndo textos oriundos de Portugal, Brasil, Angola, Moçambique, Macau, Índia, Timor Leste e Cabo Verde. As suas características também são diversas, desde texto retirado da web, texto jornalístico, transcrições de entrevistas, textos técnicos retirados de relatórios extraídos da Web, textos políticos, entre outras proveniências.
Aqui está um resumo dos textos usados, e a sua origem.
Textos (entre parêntesis, a sua proveniência):
- Textos Web
- WPT03- Web Portuguesa de 2003
- WBR99 - Web Brasileira de 1999
- Textos jornalîsticos
- PÚBLICO, diário português
- Folha de São Paulo, diário brasileiro
- Avante - Jornal do Partido Comunista Português
- Diário do Minho - Jornal regional português
- Viseu Diário - Jornal regional português
- Jornal de Macau - Jornal de Macau
- Textos transcritos de entrevistas
- Museu da Pessoa, Brasil
- Museu da Pessoa, Portugal
- Textos de correio electrónico, compilados nos corpora
- ANCIB - lista da Associação Nacional de Bibliotecas (brasileira)
- CONE - mensagens não endereçadas
- Textos literários
- Texto Literário - textos diversos de autores portugueses, brasileiros, angolanos e moçambicanos
- Texto expositivo (técnico, científico, informativo ...)
- Textos científicos retirados de relatórios extraídos do WPT 03.
- Textos diversos e de variadas proveniências (Portugal, Brasil, Cabo Verde e Índia)
- Textos Políticos
- ECI-EBR, de origem brasileira
- EuroParl de origem portuguesa
- Discursos de origem timorense
Esta colecção, naturalmente, possui diversos casos que suscitaram dúvidas nas suas classificações, na definição dos âmbitos das categorias HAREM, e nas regras a aplicar em cada caso. A seguir, apresentamos uma lista dos casos mais 'difíceis' que encontrámos na Colecção Dourada.
Documentação dos problemas encontrados na compilação da colecção dourada
Textos incluídos na Colecção HAREM
Na avaliação HAREM, a Colecção Dourada foi diluída numa colecção maior e não anotada, a Colecção HAREM. Estas duas colecções, misturadas, formaram a colecção que os sistemas usaram nas suas tarefas. isto torma impossível aos participantes emendar casos pontuais, e permite a criação conjunta de um repositório maior para futuras iniciativas de REM.
A tabela seguinte descreve uma estimativa do tamanho da Colecção Dourada e da Colecção HAREM, discriminada por género e origem.
Nota: O número de entidades é uma estimativa grosseira por defeito.
| Tipo de texto |
Variante |
Colecção Dourada |
Colecção HAREM |
| Palavras | EMs |
Palavras |
Texto jornalístico
| Angola |
|
|
223 |
| Brasil |
2891 |
261 |
38320 |
| Cabo Verde |
|
|
569 |
| Macau |
1585 |
108 |
|
| Moçambique |
|
|
4774 |
| Portugal
| 9188
| 560
| 42738
|
| Total
| 13664
| 929
| 86624
|
| Texto literário
| Angola
| 677
| 31
|
|
| Brasil
| 7594
| 36
| 14377
|
| Moçambique
| 276
| 10
|
|
| Portugal
| 3512
| 118
| 26108
|
| TOTAL
| 12059
| 320
| 40485
|
| Texto expositivo
| Angola
|
|
| 1741
|
| Brasil
| 5469
| 42
| 3531
|
| Cabo Verde
| 513
| 38
|
|
| Índia
| 537
| 37
|
|
| Portugal
| 1276
| 167
| 27955
|
| Total
| 7795
| 396
| 33227
|
| Texto político
| Brasil
| 762
| 40
| 508
|
| Portugal
| 4303
| 176
| 51830
|
| Timor Leste
| 1150
| 46
| 8179
|
| Total
| 6215
| 262
| 60517
|
| Texto da Web |
Brasil |
7668 |
492 |
71556 |
| Portugal |
6779 |
502 |
57274 |
| Total
| 14447
| 994
| 128830
|
| Texto transcrito de entrevistas |
Brasil |
21170 |
301 |
20788 |
| Portugal |
10917
| 438
| 43777
|
| Total
| 26971
| 539
| 64565
|
| Texto de correio electrónico |
Brasil |
4511
| 108
| 44527
|
|
Portugal |
661
| 92
| 1020
|
| Total
| 5172
| 200
| 45547
|
| Texto técnico |
Brasil |
|
| 3461
|
| Portugal |
2918
| 101
| 3099
|
Total
| 2918
| 101
| 6560
|
| TOTAL ABSOLUTO
| 89241
| 3851
| 466355
|