HAREM: Reconhecimento de entidades mencionadas em português
Linguateca
In English
Recursos disponibilizados depois de ter decorrido o Segundo HAREM:
O livro sobre o Segundo HAREM encontra-se publicamente disponível.
Veja a página sobre o impacto do HAREM para conhecer ferramentas e dados produzidos por elementos da comunidade após o mesmo.
O que é o HAREM?
O HAREM é uma avaliação conjunta na área do reconhecimento de entidades mencionadas em português. Muito simplificadamente, é uma iniciativa que pretende avaliar o sucesso na identificação e consequente classificação automática dos nomes próprios na língua portuguesa.
O que é avaliação conjunta?
Veja a página relacionada com este conceito mantida pela Linguateca: Avaliação conjunta.
Quem organiza o HAREM?
O HAREM é organizado pela Linguateca, no âmbito do seu modelo IRA.
Mais especificamente, dentro da equipa da Linguateca, os organizadores do Segundo HAREM são, neste momento, Diana Santos (coord.), Cláudia Freitas, Hugo Oliveira, David Cruz, Paula Carvalho, Luís Miguel Cabral e Cristina Mota (esta apenas desde Maio de 2008).
O Primeiro HAREM teve como coordenadores Diana Santos e Nuno Cardoso, e como restantes organizadores Nuno Seco, Rui Vilela, Paulo Rocha, Susana Afonso e Anabela Barreiro.
Directivas do Segundo HAREM
- Directivas do HAREM clássico, incluindo SUBTIPOs: directivas html (12 de Março de 2008), exemplário pdf (4 de Março de 2008), tabela de categorias, tipos e subtipos (24 de Março de 2008)
- Directivas sobre o TEMPO, propostas por Hagège, Baptista e Mamede pdf
(13 de Abril de 2008)
- Directivas sobre a identificação de relações semânticas entre EM, pista ReRelEM: html (10 de Abril de 2008)
A organização do HAREM também disponibilizou um validador da sintaxe, que encorajamos vivamente os participantes a usar rotineiramente antes da avaliação propriamente dita.
Finalmente, colocámos também uma descrição da sintaxe e a lista de palavras em minúsculas acessíveis para todos os participantes.
Medidas de avaliação
As medidas encontram-se descritas em Segundo HAREM: Avaliação.
Muito resumidamente, as medidas incluem uma nova fórmula para a classificação semântica e as habituais medidas de precisão, abrangência, sobre-geração, sub-geração e ainda a medida-F.
Chamamos também a atenção para uma nova semântica da etiqueta ALT, que será usada para a codificação sistemática de alternativas. Desta vez, estamos à espera de que os sistemas utilizem esta etiqueta (ALT) também nas suas saídas, embora ofereçamos um modo "relaxado" semelhante ao primeiro HAREM.
Produzimos alguns exemplos detalhados de aplicação das medidas no Segundo HAREM em
Além disso, disponibilizámos separadamente propostas de avaliação para:
Material relativo ao Segundo HAREM
A colecção usada no Segundo HAREM já se encontra disponível, assim como a informação referente à origem e género dos textos:
As únicas diferenças relativas à processada pelos participantes são:
- a remoção de alguns textos repetidos, listados em repeticoes
- a limpeza de algumas sequências espúrias (<P /> (<P>) nos documentos relkj7666 e 2ght33.
Da mesma forma, a colecção dourada também se encontra disponível.
Material de exemplo e treino
Desenvolvemos também um conjunto de exemplos:
- Exemplo de colecção do Segundo HAREM: xml (11 de Janeiro de 2008)
- Exemplo da colecção dourada correspondente: xml (26 de Março de 2008)
Uma versão compatível com o Segundo HAREM da colecção dourada do Primeiro HAREM, para efeitos de treino, encontra-se aqui, assim como as colecções vazias correspondentes, e a colecção HAREM completa
Tornamos a indicar que nem todos os problemas ou enganos presentes nas colecções douradas do Primeiro HAREM foram revistos ou corrigidos, e que, portanto, quando houver disparidade entre as directivas do Segundo HAREM e o material de treino, o que vale são as directivas.
Finalmente, o grupo do TEMPO produziu uma versão dos primeiros 10% da CD do MiniHAREM anotado segundo as directivas do TEMPO, que agradecemos e colocamos também aqui:
- Material de treino para o TEMPO: tempo.xml (14 de Abril de 2008)
Programas de avaliação
Devido às mudanças das medidas e da sintaxe do segundo HAREM, foi preciso reformular os programas e, em alguns casos, criar novos.
Resultados
Os resultados globais encontram-se em
As medidas de desempenho (tempo e condições técnicas) fornecidas pelos sistemas encontram-se na seguinte tabela de tempos de execução e contexto.
Os resultados individuais, por sistema, encontram-se também acessíveis.
Criámos também uma lista de perguntas já respondidas sobre os resultados.
Onde posso obter mais informação sobre o HAREM?
A documentação mais completa e alargada encontra-se no livro sobre o HAREM; mas o sítio do Primeiro HAREM, assim como os vários artigos ou documentos publicados no seu âmbito, também são fontes de informação relevante sobre o HAREM:
Sobre o Segundo HAREM, todas as apresentações no Encontro já se encontram disponíveis na página respectiva, assim como o livro a ele respeitante se encontra publicado:
Calendário do Segundo HAREM
- 10 de Novembro de 2007
- Prazo limite para registo dos participantes: 22 grupos manifestaram interesse.
- 30 de Novembro de 2007
- Prazo limite para discussão sobre os moldes do Segundo HAREM
- Dezembro de 2007
- Directivas preliminares, exemplos preliminares.
- Janeiro de 2008
- Directivas finais publicadas, assim como material de teste congelado.
- 14 a 28 de Abril de 2008
- Avaliação conjunta: cada sistema teve 48 horas para mandar resultados: Participaram 10 sistemas dos 16 originalmente inscritos no Segundo HAREM.
- 16 de Maio de 2008
- Disponibilização da primeira versão da colecção dourada do Segundo HAREM para inspecção
- 4 de Junho de 2008
- Disponibilização da primeira versão da colecção dourada para o TEMPO completo para inspecção.
Disponibilização da versão final da colecção dourada do Segundo HAREM.
- 6 de Junho de 2008
- Disponibilização da primeira versão da colecção dourada para o ReRelEM para inspecção.
- 12 de Junho de 2008
- Disponibilização da versão final da colecção dourada para o TEMPO completo.
- 12 de Junho de 2008
- Disponibilização da versão final da colecção dourada para o TEMPO completo.
- 19 de Junho de 2008
- Divulgação dos resultados preliminares do HAREM clássico.
- 25 de Junho de 2008
- Divulgação dos resultados preliminares da avaliação do TEMPO.
- 31 de Julho de 2008
- Disponibilização da versão final da colecção dourada para o ReRelEM.
- 6 de Agosto de 2008
- Divulgação dos resultados preliminares da pista ReRelEM.
- 8 de Agosto de 2008
- Divulgação dos relatórios finais individuais (exceptuando a pista ReRelEM).
- 21 de Agosto de 2008
- Divulgação de novos resultados da pista ReRelEM.
- 7 de Setembro de 2008
- Encontro do Segundo HAREM: Participaram 38 pessoas no Encontro do Segundo HAREM, que se realizou no dia 7 de Setembro de 2008 em Aveiro como satélite do PROPOR 2008.
- 12 de Outubro de 2008
- Prazo para envio dos artigos para o livro do Segundo HAREM.
- 17 de Novembro de 2008
- Pacote de recursos finais do Segundo HAREM, versão 1.0, disponibilizado.
- 25 de Julho de 2009
- Livro do Segundo HAREM disponível ao público.
- 7 de Abril de 2010
- Nova CD do ReRelEM, completa, disponibilizada.
- 27 de Abril de 2010
- LÂMPADA 2.0 disponibilizada.
- 6 de Setembro de 2011
- Disponibilização das coleções do primeiro evento do Primeiro HAREM e do Segundo HAREM anotadas de acordo com as directivas do Segundo HAREM e Primeiro HAREM, respectivamente, quanto às entidades TEMPO.
Última actualização: 1 de abril de 2013.
Contate a
organização do HAREM