HAREM - Avaliação de Reconhecimento de Entidades Mencionadas

Linguateca - 2006.
  Versão para impressão
IMPORTANTE: Este sítio diz respeito ao Primeiro HAREM, que terminou em 2006, e encontra-se encerrado. O sítio actual do HAREM encontra-se em /HAREM.


Caros participantes no HAREM,

Antes que chovam dúvidas, convém esclarecer algumas coisas:

0) As etiquetas sugeridas são para introduzir no próprio texto.

<LOCAL TIPO="CORREIO" MORF="F,S">Sala 3</LOCAL>
<TEMPO tipo="HORA">19h45</TEMPO>
<ORGANIZAÇÃO tipo="ADMINISTRAÇÃO">Portugal</ORGANIZAÇÃO>

1) Quem não faz classificação morfológica não precisa de pôr em todas as entidades MORF="?,?" :-)

2) Novas categorias podem ser introduzidas, mas gostávamos que mandassem, ou para o avalia, ou para o harem, indicação de quais e exemplos/porquê. Isto para que, se outras pessoas acharem EMs desse tipo, possam usar a mesma identificação e não reinventar a roda.

3) Não é necessário usar todas as etiquetas, porque podem simplesmente não aparecer nos textos que vos foram atribuídos :-)
Se alguém só conseguir/quiser usar os TIPOS e não subtipos, que indique isso.

4) No caso de haver dúvidas sobre a interpretação, pedimos que marquem com | as várias, que depois poderão ser discutidas em conjunto; ou que mandem logo para discussão. Exemplos:

<MARCA|PRODUTO>Coca Cola</MARCA|PRODUTO>
<PESSOA TIPO="GRUPO|CARGO">Governo</PESSOA>

Têm três níveis de interlocutores: só a organização (harem-org), todos os participantes e observadores (que estão com uma tarefa semelhante em mãos) e todas a gente interessada em avaliação conjunta (a lista avalia). Escolham conforme a questão.

5) Pelas nossas contas, cada participante terá no máximo 400 entidades mencionadas para rever, e, estimando que apenas 10% sejam problemáticas, isso significa que na prática não pensamos dar mais de uma tarde de trabalho de puxar pela cabeça a cada participante para pensar em casos menos triviais.

Se algum participante tiver dificuldades intransponíveis com o formato que nós pedimos, também é possíve combinar (directamente com harem-org) que nós criemos um transdutor do seu formato para o requerido. O mais importante é que os participantes anotem. A sintaxe é o menos relevante.

Idem sobre o formato do texto enviado. Por exemplo, podemos converter a fatia para DOS se alguém (ainda) quiser.

Isto sobretudo no caso dos observadores, é importante realçar que é perfeitamente possível anotar as EMs manualmente!
Só que é importante ter um critério básico para identificar EMs, não vão começar a anotar todas os sintagmas nominais do texto! A sugestão é que a EM tem de ter pelo menos uma palavra em maiúsculas, e/ou algarismos.

Donde: "15 mn", "homem de Neanderthal" poderão ser EMs, mas "idade da pedra", "governo francês", "mobília alentejana", não.

6) No próprio HAREM, estamos a pensar que a cada textinho venha associado o género literário ("genre") do texto no seu identificador, para ajudar sistemas que tenham diferentes comportamentos conforme o tipo de texto. Para a colecção dourada, e visto que os textos podem ser inspeccionados manualmente, pensamos que todos vêem qual o género a que cada texto pertence. :-)

Bom trabalho! Pela organização do HAREM,
Diana

Esta página e a sua informação não se encontra actualizada. Clique aqui para visitar o síio actual do HAREM.