HAREM - Avaliação de Reconhecimento de Entidades Mencionadas

Linguateca - 2006.
  Versão para impressão
IMPORTANTE: Este sítio diz respeito ao Primeiro HAREM, que terminou em 2006, e encontra-se encerrado. O sítio actual do HAREM encontra-se em /HAREM.



Caros participantes,

Desta vez tentámos fazer uma sugestão de cima para baixo (top-down) e ver até que ponto todos os participantes se conseguem integrar neste modelo, embora estejamos abertos (claro!) a discussão de forma a obter um resultado mais consensual.

Pede-se aos sistemas participantes que anotem as entidades no lugar onde elas se encontram, com as seguintes categorias:

<LOCAL> - locais geográficos ou políticos ( Regiões, países, cidades, províncias, rios, montanhas, etc).
<NP> - Nomes de pessoas (alcunhas, iniciais, apelidos).
<ORG> - Empresas ou organizações privadas, públicas ou governamentais, escolas / universidades,
associações, partidos, etc
<PROD> - Produtos comerciais ou similares, tais como filmes, livros, projectos, serviços, marcas, modelos, etc.
<OUT> - EM não classificada nas categorias anteriores

eventualmente cada uma subespecificada com outra categoria mais informativa, por exemplo:

<ORG TIPO="EMPRESA">Sonae</ORG>
<ORG TIPO="EVENTO">Euro2004</ORG>
<ORG TIPO="GOVERNO">Secretaria de Estado</ORG>
<ORG TIPO="ENSINO">Universidade XXXX</ORG>
<ORG TIPO="OUTRO">Associação dos Árbitros de ...

Isto permite por uma lado ter um conjunto pequeno de categorias nas quais é possível (talvez) achar algum consenso, assim como permitir um conjunto de categorias mais finas para os sistemas mais desenvolvidos.

Além disso, pedimos que as EMs sejam marcadas com informação morfológica "género, número", ambos podendo ter a forma I. Exemplificando para o tipo <ORG> (e note-se que isto é só um exemplo!!, os tipos virão do levantamento dos sistemas participantes):

<ORG TIPO="EMPRESA" MORF="F,S">Sonae</ORG>
<ORG TIPO="EVENTO" MORF="M,S">Euro2004</ORG>
<ORG TIPO="GOVERNO" MORF="F,S">Secretaria de Estado</ORG>
<ORG TIPO="ENSINO" MORF="F,S">Universidade XXXX</ORG>
<ORG TIPO="OUTRO" MORF="F,S">Associação dos Árbitros de ...</ORG>

Perguntas:
Com base nesta proposta, podem indicar quais as tarefas que é fácil o vosso sistema resolver, que mais características de topo deviam ser incluídas e quais os TIPOs (subtipos) reconhecidos pelo vosso sistema, de forma a tentarmos uma harmonização (semelhante às Morfolimpíadas mas mais complicada porque o número de categorias potencial é infinito) para o HAREM?

Por exemplo,
- Dever-se-á acrescentar mais categorias de topo? ex: <ACONTECIMENTO> ?
- Deve-se usar as expressões numéricas e temporais ( <ENUMEX> e <TIMEX> do MUC-6) ?

Pedimos que mandem questões gerais para a lista avalia, e os pormenores de cada sistema directamente para nós, que junto com o resto da comissão organizadora tentaremos uma primeira "solução" de compromisso. Que não é fácil, e que depende em última análise do conjunto de todos os sistemas participantes, já o sabemos, dada a experiência da Cristina
(http://acdc.linguateca.pt/aval_conjunta/SREM/SREMLabel/etiquetas-cp.txt)

Outras questões que fará sentido desde já tb discutir é quantos sistemas aceitam etiquetas dentro de etiquetas, tal como:

Em 'Câmara Municipal de Lisboa', usa-se <ORG>Câmara Municipal de <LUGAR>Lisboa</LUGAR></ORG>

Nós gostaríamos de tentar esta abordagem, mas para isso era preciso que houvesse pelo menos dois sistemas cujo resultado fosse esse.


Pela Organização do Harem,

Nuno Cardoso & Diana Santos

Esta página e a sua informação não se encontra actualizada. Clique aqui para visitar o síio actual do HAREM.