Avaliação Conjunta de SREM - Primeiros Resultados

NOTA PRÉVIA: Os resultados que apresentamos não dizem respeito a anotações feitas automaticamente por um dado sistema. Correspondem, pelo contrário, a uma anotação manual (ou semi-automática) das sequências que os anotadores consideram ser entidades mencionadas, e que, como tal, gostariam de ver anotadas por um Sistema de Reconhecimento de Entidades Mencionadas. 

Anotação do CETEMPúblico (10 primeiros extractos)

CETEMPúblico - Resultados por Anotador

Concordância-1: 31,58 (30 em 95) concordância em relação ao total de entidades em comum
Concordância-2: 37,97 (30 em 79) concordância em relação ao total de nomes próprios em comum
Concordância-3: 50,85 (30 em 59) concordância em relação ao total de nomes próprios identificados por todos os anotadores

Quadro das entidades em comum identificadas por pelo menos um dos anotadores (versão PDF)
Quadros comparativos entre anotadores (em relação às entidades em comum)
Quadro das entidades em que não houve acordo na sua segmentação
(versão PDF)

Lista de etiquetas usadas na anotação dos extractos (64 etiquetas diferentes)

 


Anotação do CETENFolha (20 primeiros extractos)

CETENFolha - Resultados por Anotador

Concordância-1: 24,59 (30 em 122) concordância em relação ao total de entidades
Concordância-2: 30,61 (30 em 98) concordância em relação ao total de nomes próprios
Concordância-3: 45,45 (30 em 66) concordância em relação ao total de nomes próprios identificados por todos os anotadores

Quadro das entidades em comum identificadas por pelo menos um dos anotadores (versão PDF)
Quadros comparativos entre anotadores (em relação às entidades em comum)
Quadro das entidades em que não houve acordo na segmentação
( versão PDF)

Lista de etiquetas usadas na anotação dos extractos (81 etiquetas diferentes)


Alguns esclarecimentos sobre os resultados:

Nos resultados apresentados:
   (i) entidade corresponde a toda a sequência que foi delimitada com etiquetas SGML pelos anotadores;
   (ii) nome próprio corresponde a uma entidade pertencente ao subconjunto das entidades que têm etiqueta NOMEPROP;
   (iii) entidade (ou nome próprio) em comum corresponde a uma sequência identificada por mais do que um anotador. Em termos de contabilização, se para uma mesma sequência um anotador tiver identificado, por exemplo, "secretário de Estado" e outro tiver identificado apenas "Estado", nenhuma das entidades contribuirá para o total de entidades em comum;

Nos dois quadros gerais apresentados, o valor que se encontra dentro das elipses a vermelho indica o menor número de entidades (ou de nomes próprios) reconhecidos pelos anotadores; o valor que se encontra dentro das elipses duplas a vermelho indica o maior número de entidades (ou de nomes próprios) reconhecidos pelos anotadores. 

Os valores de concordância entre os anotadores, que a seguir se apresentam, foram calculados:

(i) em relação ao: 

(a) número total de entidades em comum entre os diferentes anotadores (Concordância-1);
(b) número total de nomes próprios em comum entre os diferentes anotadores (Concordância-2);
(c) número total de nomes próprios em comum entre todos os anotadores (Concordância-3);

(ii) considerando que se um anotador não identificou uma entidade que outros reconheceram, essa entidade conta para o total de entidades em comum, mas não para o número de entidades em que há acordo (no caso das Concordância-1 e Concordância-2);

(iii) com base apenas na classe principal definida no atributo "TIPO", não tendo em conta a subcategorização feita por alguns dos anotadores (indicada entre parênteses nos quadros por anotador);

(iv) ignorando a possibilidade de haver uma equivalência admissível entre as classes inicialmente propostas (PESSOA, ORGANIZAÇÃO e LUGAR) e as classes, eventualmente subcategorizadas, introduzidas pelos anotadores. No entanto, dado que um dos anotadores propôs um conjunto bem variado de etiquetas que não contempla as classes inicialmente sugeridas, estabeleceu-se a equivalência entre ANTROPÓNIMO e PESSOA e entre TOPÓNIMO e LUGAR (e consequentemente entre LUGAR, que já existia, e LUGAR1);

(v) ignorando que possa haver classes que são equivalentes por classificarem com nomes diferentes o mesmo conjunto de entidades (ou de nomes próprios), ou classes que possam estar completamente contidas noutras;

(vi) não contabilizando as entidades identificadas dentro das etiquetas SGML que já se encontravam nos extractos, uma vez que essas etiquetas são atómicas e não deveriam ter sido analisadas. Esta é uma das situações que  indica a falta de clareza nas instruções dadas aos anotadores. 

 

As pessoas interessadas em participar na Avaliação Conjunta de sistemas de processamento computacional deverão, antes de mais, registar o seu interesse preenchendo o formulário em http://www.linguateca.pt/AvalConjunta (seguindo o link Registo). Ao inscrever-se passará a fazer parte da lista AVALIA (avalia@linguateca.pt), para a qual poderá enviar os seus comentários e sugestões. 


Autora: Cristina Mota, pólo do LabEL da Linguateca.
Data da última revisão: 22 de Maio de 2003