Versão para impressão |
 | IMPORTANTE: Este sítio diz respeito ao Primeiro HAREM, que terminou em 2006, e encontra-se encerrado. O sítio actual do HAREM encontra-se em /HAREM.
|
|
Caros participantes do HAREM,
Para a criação da Colecção Dourada (subconjunto dos textos que serão o
objecto de análise no HAREM, e que serão revistos por todos os
participantes), vamos extrair textos das seguintes proveniências:
- 2 colecções da Web (Web Portuguesa - WPT 03 e Web Brasileira - WBR-99)
- 2 colecções de texto jornalístico (Provenientes do Público (PT) e da
Folha de S. Paulo (BR))
- textos literários
- textos técnico / científicos (a definir)
- textos de correio electrónico (dos corpora ANCIB e Cone)
- texto oral (do corpus Museu da Pessoa e das actas do parlamento
europeu)
Para a colecção dourada, estamos a pensar em
- 50 documentos da WPT03 e 50 documentos da WBR 99,
- 100 notícias de cada jornal,
- 30 a 300 fragmentos de textos literários do máximo de variantes do
português que conseguirmos (dependendo dos direitos de autor, estes
podem ter de ser muito pequenos).
- 200 mensagens de correio electrónico
- texto oral (um subconjunto dos corpora)
- textos técnico científicos (estamos ainda a pensar qual a melhor
forma, veja-se abaixo)
Os textos estarão no seguinte formato SGML:
<DOC>
<DOCID>HAREM-XXX-XXXXX</DOCID>
<TEXT>
(Documento)
</TEXT>
</DOC>
Um exemplo destes textos pode ser encontrado na Área Reservada (harem/participantes/demoHAREM_WPT03.txt.gz).
Trata-se de uma extracção aleatória de 500 documentos do WPT 03. Os
documentos da Web (como se pode constatar neste exemplo), nas sua
maioria, são de má qualidade, comparando com as outras colecções. No
entanto, estamos a criar filtros para extrair documentos de melhor
qualidade.
No entanto, antes de dar início ao processo, pretendemos algum feedback
vosso. Como tal, se possuírem outras colecções de texto que desejem ser
usadas para a criação da Colecção Dourada, esta é a altura.
Por favor, pronunciem-se com sugestões, dúvidas e adições até, o
mais tardar, esta sexta-feira, dia 15! Pretendemos colocar os
textos para a construção da colecção dourada acessíveis no início da
próxima semana.
Pela organização do HAREM.
Nuno Cardoso