Versão para impressão |
 | IMPORTANTE: Este sítio diz respeito ao Primeiro HAREM, que terminou em 2006, e encontra-se encerrado. O sítio actual do HAREM encontra-se em /HAREM.
|
|
Caros participantes,
Uma vez que este assunto está a preocupar vários participantes, vou
agora esclarecer nesta lista:
- A colecção WPT 03 que retiraram do sítio Web é uma amostra de como a
Web é: com conteúdos confusos, sem estruturas morfológicas, pontuações,
conteúdos com sentido e, para aumentar a confusão, com codificações
diferentes.
Por isso mesmo é que forneci uma cópia assim, para mostrar que há muito
a fazer para obter um subconjunto da Web que seja útil para todos nós.
- No entanto, quanto ao facto de haver documentos em UTF-8 e em
iso-8859-1, os textos dentro do WPT 03 estão na sua maioria em
iso-8859-1, havendo no entanto alguns textos em UTF-8. Tal facto é
devido aos servidores Web, que, no caso do Apache, possui uma directiva
chamada AddDefaultCharset, que envia os documentos nessa codificação, mesmo
que no próprio documento esteja lá escrito que a codificação é outra!
Como tal, a maior parte das vezes o servidor Web envia o documento,
rotulando-o com a codificação errada, aos batedores ("crawlers") dos
motores de pesquisa como os do tumba! (que criou a WPT 03), que depois
guardam-nos com a codificação errada.
- Este 'erro' já foi detectado pelo tumba! depois da criação do WPT 03,
e nas recolhas actuais já não há esse problema. Mas, por exemplo, o
Google ainda se confunde um pouco com este
'bug'! Pesquisem o Google por 'informação'... há cerca de 55000
resultados...
- Uma das tarefas a realizar, depois de produzir o subconjunto final do
WPT 03 para o HAREM, é procurar por documentos UTF-8 e recodificá-los
em iso-8859-1.
Como tal, deixem-me assegurar a todos os participantes que TODOS os
documentos estarão em codificação iso-8859-1.
Quanto á codificação UNIX / DOS, acho que não há necessidade de
fornecer os textos em 2 versões, uma vez que os utilizadores do Windows
têm à sua disposição ferramentas de conversão. A título de exemplo,
existe uma, gratuita, chamada tofrodos 1.7, que faz a
conversão de ficheiros de texto UNIX para DOS numa consola de comandos
DOS, ao executar: todos.exe
-a ficheiroUNIX.txt. Quem estiver interessado, posso enviar
essa ferramenta.
Pela Organização do HAREM,
Nuno Cardoso