Segundo HAREM: Avaliação
HAREM, Linguateca
In English
As EM podem ser consideradas como tendo um de três possíveis
pontuações: correcta, em falta ou espúria, ao serem emparelhadas com o
que está na colecção dourada.
No Segundo HAREM vamos usar a
medida (melhorada) de classificação semântica combinada (CSC) para as
EM correctas do ponto de vista de emparelhamento/identificação.
Para o caso genérico em que uma EM pode estar marcada na CD como
vaga entre várias (N) interpretações, e um sistema também pode atribuir
vagueza na sua saída (podendo dar origem a M classificações espúrias),
a fórmula geral usada para avaliar uma dada EM no Segundo HAREM será a
seguinte:
num-cats = número total de CATEGORIAs (9 no cenário total, mas variando conforme o cenário selectivo)
num-tipos = número total de TIPOs para a CATEGORIA em questão
num-subtipos = número total de subtipos para o par CATEGORIA/TIPO em questão
cat-certa = 1 (se a CATEGORIA estiver correcta) ou 0 (se a CATEGORIA estiver errada)
cat-espuria = 1 (se a CATEGORIA for espúria) ou 0 (se não o for)
tipo-certo = 1 (se o TIPO estiver correcta) ou 0 (se o TIPO estiver errado)
tipo-espurio = 1 (se o TIPO for espúrio) ou 0 (se não o for)
subtipo-certo = 1 (se o SUBTIPO estiver correcta) ou 0 (se o SUBTIPO estiver errado)
subtipo-espurio = 1 (se o SUBTIPO for espúrio) ou 0 (se não o for)
α, β e γ são parâmetros que serão ajustados mais tarde,
correspondendo a pesos que podem ser diferentes, das categorias, tipos
e subtipos.
Se a EM não for vaga nem assim considerada pelo sistema, a fórmula pode escrever-se da seguinte maneira:
Naturalmente, além da medida que acabamos de referir para as EM
identificadas, avaliamos simplesmente as EM EmFalta contando-as (cada
EM vale 1) e da mesma forma para as EM espúrias.
As métricas (correspondendo à agregação dos valores das medidas para todas as EM) que usaremos são as usuais:
Precisão
A precisão é uma medida da qualidade da resposta do sistema, e mede
a proporção de respostas correctas em todas as respostas fornecidas
pelo sistema. Calcula-se da seguinte forma (a primeira linha é a versão
padrão, a segunda é a sua generalização quando cada EM não conta apenas
1:
Precisão = Nº de EM correctamente classificadas / Nº de EM classificadas pelo sistema
Precisão = Σ pontuação obtida por cada EM / Pontuação máxima se as EM estivessem todas certas
Abrangência
A abrangência mede a percentagem de soluções (neste caso, contidas
na colecção dourada, CD) que o sistema conseguiu recuperar. Calcula-se
da seguinte forma:
Abrangência = Nº de EM correctamente classificadas / Nº de EM classificadas na CD
Abrangência = Σ pontuação obtida por cada EM / pontuação máxima na CD
Medida F
A medida F combina as medidas de precisão e de abrangência, de acordo com a seguinte fórmula:
Medida-F = (2 * Precisão * Abrangência) / (Precisão + Abrangência)
Sobre-geração
A sobre-geração mede o excesso de resultados espúrios que um
sistema produz, ou seja, quantas vezes produz resultados errados.
Calcula-se da seguinte forma:
Sobre-geração = Nº de EM espúrias / Nº de EM classificadas pelo sistema
Sub-geração
A sub-geração é uma medida de quanto faltou ao sistema analisar,
dada a solução conhecida (a colecção dourada, no nosso caso).
Calcula-se da seguinte forma:
Sub-geração = Nº de EM em falta / Nº de EM na CD
- Dada a nova sintaxe do Segundo HAREM, conceptualmente, as antigas
medidas de identificação e por categorias correspondem à execução de
véus (no primeiro caso, não seleccionando nenhuma categoria, no segundo
caso, não seleccionando nenhum tipo).
- A medida de classificação semântica aqui apresentada é apenas
uma generalização e melhoria da anterior CSC, em que é levada em conta
de maneira sistemática a possibilidade de os sistemas também
classificarem as EM com mais de uma classificação. Veja-se um exemplo detalhado de avaliação de EM vagas.
- Os cenários selectivos mantêm-se neste Segundo HAREM, sendo
possível optar por classificar só um subconjunto de CATEGORIAs ou só
CATEGORIAs e alguns ou nenhuns TIPOs ou SUBTIPOs. Nesse caso, as
medidas referem-se apenas ao subconjunto escolhido pelo sistema, obtido
através da aplicação dos véus respectivos.
- Ao contrário do primeiro HAREM, as entidades parcialmente identificadas não serão contabilizadas como correctas.
Ou seja, são tratadas como erradas, o que significa simultaneamente
Espúrias (identificadas pelo sistema, mas não presentes na CD),
enquanto que as EM presentes na CD são contabilizadas como Em Falta.
- Neste Segundo HAREM, a etiqueta ALT, além de continuar a ser
utilizada para indicar um conjunto assistemático de alternativas, passa
também a ser utilizada para indicar várias possibilidades igualmente
válidas para a classificação de um fragmento de texto (veja-se uma lista (não exaustiva) de classificações abrangidas pelo ALT.) Os participantes são pois encorajados a usarem esta etiqueta também nas suas saídas.
Além da versão de avaliação do Primeiro HAREM (em que não tinham
<ALT>) e que chamamos modo relaxado, vamos também oferecer uma
avaliação estrita, descrita em Avaliação de ALT em diferentes cenários.
- Note-se que a medida CSC permite pontuar separadamente os três
seguintes casos conceptualmente diferentes e marcados de forma
diferente: ignorância (valor de CATEG ou TIPO vazio), certeza de ser
diferente (marcação de OUTRO), engano (classificação diferente da que
está na CD).
- Se uma dada categoria ou tipo não tem SUBTIPOs, considera-se
que tal é semelhante a ter apenas um: OUTRO; donde o factor
multiplicativo na fórmula da CSC fica 1-1=0.
Última actualização: 1 de Abril de 2008.