NOTA PRÉVIA: Os resultados que apresentamos não dizem respeito a anotações feitas automaticamente por um dado sistema. Correspondem, pelo contrário, a uma anotação manual (ou semi-automática) das sequências que os anotadores consideram ser entidades mencionadas, e que, como tal, gostariam de ver anotadas por um Sistema de Reconhecimento de Entidades Mencionadas.
|
|
| Anotação do CETENFolha (20 primeiros extractos) | |
|
|
Alguns esclarecimentos sobre os resultados:
Nos resultados apresentados:
(i) entidade corresponde a toda a sequência que foi delimitada com
etiquetas SGML pelos anotadores;
(ii) nome próprio corresponde a uma entidade pertencente
ao subconjunto das entidades que têm etiqueta NOMEPROP;
(iii) entidade (ou nome próprio) em comum corresponde a uma
sequência identificada por mais do que um anotador. Em termos de
contabilização, se para uma mesma sequência um
anotador tiver identificado, por exemplo, "secretário de Estado" e outro
tiver identificado apenas "Estado", nenhuma das entidades contribuirá para o
total de entidades em comum;
Nos dois quadros gerais apresentados, o valor que se encontra dentro das elipses a vermelho indica o menor número de entidades (ou de nomes próprios) reconhecidos pelos anotadores; o valor que se encontra dentro das elipses duplas a vermelho indica o maior número de entidades (ou de nomes próprios) reconhecidos pelos anotadores.
Os valores de concordância entre os anotadores, que a seguir se apresentam, foram calculados:
(i) em relação ao:
(a) número total de entidades em comum entre os diferentes anotadores (Concordância-1);
(b) número total de nomes próprios em comum entre os diferentes anotadores (Concordância-2);
(c) número total de nomes próprios em comum entre todos os anotadores (Concordância-3);(ii) considerando que se um anotador não identificou uma entidade que outros reconheceram, essa entidade conta para o total de entidades em comum, mas não para o número de entidades em que há acordo (no caso das Concordância-1 e Concordância-2);
(iii) com base apenas na classe principal definida no atributo "TIPO", não tendo em conta a subcategorização feita por alguns dos anotadores (indicada entre parênteses nos quadros por anotador);
(iv) ignorando a possibilidade de haver uma equivalência admissível entre as classes inicialmente propostas (PESSOA, ORGANIZAÇÃO e LUGAR) e as classes, eventualmente subcategorizadas, introduzidas pelos anotadores. No entanto, dado que um dos anotadores propôs um conjunto bem variado de etiquetas que não contempla as classes inicialmente sugeridas, estabeleceu-se a equivalência entre ANTROPÓNIMO e PESSOA e entre TOPÓNIMO e LUGAR (e consequentemente entre LUGAR, que já existia, e LUGAR1);
(v) ignorando que possa haver classes que são equivalentes por classificarem com nomes diferentes o mesmo conjunto de entidades (ou de nomes próprios), ou classes que possam estar completamente contidas noutras;
(vi) não contabilizando as entidades identificadas dentro das etiquetas SGML que já se encontravam nos extractos, uma vez que essas etiquetas são atómicas e não deveriam ter sido analisadas. Esta é uma das situações que indica a falta de clareza nas instruções dadas aos anotadores.
As pessoas interessadas em participar na Avaliação Conjunta de sistemas de processamento computacional deverão, antes de mais, registar o seu interesse preenchendo o formulário em http://www.linguateca.pt/AvalConjunta (seguindo o link Registo). Ao inscrever-se passará a fazer parte da lista AVALIA (avalia@linguateca.pt), para a qual poderá enviar os seus comentários e sugestões.