HAREM - Avaliação de Reconhecimento de Entidades Mencionadas

Linguateca - 2006.
  Versão para impressão
IMPORTANTE: Este sítio diz respeito ao Primeiro HAREM, que terminou em 2006, e encontra-se encerrado. O sítio actual do HAREM encontra-se em /HAREM.


Caros participantes,

Uma vez que este assunto está a preocupar vários participantes, vou agora esclarecer nesta lista:

- A colecção WPT 03 que retiraram do sítio Web é uma amostra de como a Web é: com conteúdos confusos, sem estruturas morfológicas, pontuações, conteúdos com sentido e, para aumentar a confusão, com codificações diferentes.
Por isso mesmo é que forneci uma cópia assim, para mostrar que há muito a fazer para obter um subconjunto da Web que seja útil para todos nós.
- No entanto, quanto ao facto de haver documentos em UTF-8 e em iso-8859-1, os textos dentro do WPT 03 estão na sua maioria em iso-8859-1, havendo no entanto alguns textos em UTF-8. Tal facto é devido aos servidores Web, que, no caso do Apache, possui uma directiva chamada AddDefaultCharset, que envia os documentos nessa codificação, mesmo que no próprio documento esteja lá escrito que a codificação é outra!  Como tal, a maior parte das vezes o servidor Web envia o documento, rotulando-o com a codificação errada, aos batedores ("crawlers") dos motores de pesquisa como os do tumba! (que criou a WPT 03), que depois guardam-nos com a codificação errada.
- Este 'erro' já foi detectado pelo tumba! depois da criação do WPT 03, e nas recolhas actuais já não há esse problema. Mas, por exemplo, o Google ainda se confunde um pouco com este 'bug'!  Pesquisem o Google por 'informação'... há cerca de 55000 resultados...
- Uma das tarefas a realizar, depois de produzir o subconjunto final do WPT 03 para o HAREM, é procurar por documentos UTF-8 e recodificá-los em iso-8859-1.

Como tal, deixem-me assegurar a todos os participantes que TODOS os documentos estarão em codificação iso-8859-1.

Quanto á codificação UNIX / DOS, acho que não há necessidade de fornecer os textos em 2 versões, uma vez que os utilizadores do Windows têm à sua disposição ferramentas de conversão. A título de exemplo, existe uma, gratuita, chamada tofrodos 1.7, que faz a conversão de ficheiros de texto UNIX para DOS numa consola de comandos DOS, ao executar:   todos.exe -a ficheiroUNIX.txt.  Quem estiver interessado, posso enviar essa ferramenta.

Pela Organização do HAREM,

Nuno Cardoso


Esta página e a sua informação não se encontra actualizada. Clique aqui para visitar o síio actual do HAREM.