Versão para impressão |
 | IMPORTANTE: Este sítio diz respeito ao Primeiro HAREM, que terminou em 2006, e encontra-se encerrado. O sítio actual do HAREM encontra-se em /HAREM.
|
|
HAREM - Avaliação conjunta de sistemas de Reconhecimento de
Entidades Mencionadas
O HAREM foi a primeira avaliação conjunta de sistemas de reconhecimento de entidades mencionadas, em colecções de documentos em português.
O HAREM (HAREM é uma Avaliação de Reconhecedores de Entidades Mencionadas) foi organizado pela Linguateca.
- Coordenação geral: Diana Santos e Nuno Cardoso.
- Construção da colecção dourada: Diana Santos, Nuno Cardoso, Paulo Rocha, Susana Afonso e Anabela Barreiro, sobre os contributos dos participantes.
- Sistema de avaliação: Nuno Seco, Rui Vilela, Nuno Cardoso e Diana Santos.
Motivação
Um dos objectivos da Linguateca é
promover a participação de sistemas que trabalham com a língua
portuguesa em avaliações conjuntas,
de forma a que os investigadores envolvidos no desenho e criação desses
sistemas possam:
- concordar numa especificação mínima de uma dada tarefa
- conhecer mutuamente a comunidade dedicada a uma dada aplicação
- avaliar os seus sistemas, e eventuais opções na sua
implementação, com uma estrutura independente
- obter recursos valiosos para avaliação no futuro
No caso do reconhecimento de entidades mencionadas, a tarefa é
relativamente simples e sem grandes compromissos teóricos.
Existe uma vasta
história a nível internacional, e houve grande interesse durante a
experiência
conduzida pela Cristina Mota no princípio de 2003, interesse esse depois reafirmado no plenário do encontro Avalon'2003.
Além disso, permite avaliar outro tipo de capacidades daquelas já
objecto de estudo nas Morfolimpíadas e no CLEF. Por um lado, é mais
semântica, por outro, tem menos complexidade do que perguntas e
respostas ou identificação do tópico de um documento.
Metodologia
À imagem do que foi feito para as Morfolimpíadas, o processo de avaliação conjunta começou com a criação de um
recurso dourado, a que se chamou também
Colecção Dourada, e que consistiu num conjunto de textos marcados com as entidades mencionadas, identificadas e classificadas correctamente, segundo um conjunto de
directivas aprovadas por todos os participantes.
Para o construir, foi fornecido um subconjunto da colecção a cada
participante, que o anotou automaticamente e reviu o resultado de
acordo com as directivas. Esses bocados da colecção foram em seguida ainda revistos por anotadores independentes e por outros participantes.
Essa colecção foi depois "embrulhada" num conjunto de texto
muito maior, a colecção HAREM, que foi distribuída aos participantes na própria
avaliação conjunta.
A organização encarregou-se de fazer programas que medem a identificação e classificação das entidades mencionadas (EMs), de forma a classificar cada sistema. Adoptaram-se métricas diferentes para identificação e classificação, inspiradas nas usadas noutras iniciativas semelhantes.
Pediu-se, portanto, o seguinte trabalho aos participantes:
- que participassem na escolha ou sugestão de textos (ou tipo de textos) a usar nesta tarefa
- que revissem e participassem na discussão das directivas de anotação (veja-se também a experiência de 2003)
- que participassem na criação da colecção dourada, quer automaticamente quer revendo o resultado
- que invocassem os seus sistemas sobre o material disponibilizado
pela organização (criado pela Linguateca e que inclui a colecção
dourada) e devolvessem o resultado no prazo acordado,
- que participassem num encontro para discutir o que correu bem e
o que poderia ser melhorado, após os resultados terem sido tornados
públicos, e para preparar futuras edições do HAREM.
Resumo dos fundamentos teóricos
Comparação com uma actividade humana
Para avaliar um sistema automático, há que saber o que uma pessoa faria.
Sobretudo em semântica, que tem a ver com compreensão, o juiz tem de concordar com a compreensão humana.
Assim, na colecção dourada, não tivemos contemplações para com os sistemas. De facto, estávamos a querer medir o limite superior (não especialmente -- por enquanto -- o limite inferior, a baseline, aquilo que qualquer sistema simples consegue). [A única excepção foi a questão da anáfora, que deveríamos ter resolvido também, mas que contamos marcar depois de ter decorrido o HAREM].
Em alguns casos, estamos conscientes de que é necessário um conjunto de informações muitíssimo complexo para decidir a referência, e portanto o tipo, de uma dada expressão.
Definição do problema: como delimitar em que categorias classificar
Tentámos procurar as categorias que tivessem uma marcação especial na língua (associada à forma gráfica), apenas sugerindo categorias que tivessem alguma contrapartida formal, seja a que nível for.
Por exemplo, usar aspas, ser objecto / sujeito de um dado tipo de verbos, ou de certas preposições, ter género, ser transformado / transformável em siglas, etc.
Definição do problema: que expressões linguísticas classificar
Por "entidade mencionada" designámos todas as expressões:
- Que tenham pelo menos uma palavra em maiúscula. E que só contenham um número muito pequeno (determinado lexicalmente) de palavras em minúscula, correspondentes a formas de tratamento, descrições de cargos ou descrições de doenças.
- Que tenham pelo menos um algarismo. Nesse caso, as unidades de medida ou monetárias associadas tb podem vir em minúsculas.
Isto está claramente virado para o processamento de texto escrito por oposição a texto oral transcrito.
Por outro lado, está claramente especificado (e portanto transformável) para todos os sistemas que queiram concorrer ao HAREM com um mínimo de penalização. (Basta remover as EMs só com minúsculas, assim como "reduzir" o tamanho das EMs a uma forma mais curta).
Definição do problema: classificar o quê
O que pretendemos avaliar num sistema de REM não é a classificação das EMs em intensão: não é o sistema saber a possibilidade de serem isto ou aquilo, mas sim identificar o sentido que representam no contexto em que estão inseridas.
Ou seja, consideramos que, para extracção de informação e para a compreensão de um texto, o que interessa é a análise da instância em concreto, em contexto.
Para esclarecer melhor esta distinção, podemos invocar a analogia com um analisador morfológico: uma palavra tem um conjunto de análises, mas em cada contexto tem uma. Uma EM pode ter vários sentidos (conjunto de classificações), mas num dado contexto tem um, e é esse que se quer descobrir na tarefa de REM.
Por outro lado, uma propriedade saliente ao nível da semântica da linguagem natural é que é possível uma ocorrência em contexto ter mais de uma interpretação: é a vagueza. Além disso, é possível que o contexto (ou co-texto) não seja suficientemente rico para decidir entre as várias interpretações. Isto tem a ver com os limites da tarefa mesmo para uma pessoa. Ambas estas situações levaram a que a classificação "correcta", escolhida para figurar na CD, pudesse ter em alguns casos mais do que uma alternativa (com "|" e ALT).
Resultados
Avaliação MiniHAREM de 2006:
5 sistemas participaram com
20 saídas diferentes.
Avaliação HAREM de 2005:
10 sistemas participaram com
18 saídas diferentes, e os
resultados globais podem ser consultados.
Recursos produzidos
Ao finalizar a primeira edição do HAREM, pusemos acessíveis os seguintes recursos: