HAREM - Avaliação de Reconhecimento de Entidades Mencionadas

Linguateca - 2006.
  Versão para impressão

Avaliação no HAREM: Método e medidas

Versão 4.0 de 29 de Setembro de 2005

Neste documento apresenta-se em pormenor a forma de avaliação a ser utilizada no HAREM.

Em primeiro lugar, apresentamos, para cada uma das três tarefas cobertas pelo HAREM -- as tarefas de identificação, classificação morfológica e classificação semântica--, a forma como cada instância individual é classificada, exemplificando com um extracto de uma hipotética colecção dourada e o resultado, também hipotético, de um dado sistema.

Depois apresentam-se as medidas empregues, com as fórmulas a aplicar em cada caso.

Finalmente, descrevem-se os vários relatórios referentes ao resultado dos sistemas, que vão ser fornecidos aos participantes, relatórios esses que irão dar um panorama do desempenho de cada sistema, bem como permitir compará-lo com o global dos outros sistemas.

  1. Formatos das etiquetas
  2. Tarefa de identificação
  3. Tarefa de classificação semântica
  4. Tarefa de classificação morfológica
  5. Medidas de Avaliação
  6. Relatórios de Avaliação

1. Formatos de etiquetas

Para os participantes que só pretendem participar na tarefa de identificação e não nas tarefas de classificação semântica, sugere-se que utilizem a etiqueta de abertura <EM> e a etiqueta de fecho </EM>, para delimitar as EMs.
Para os participantes que também participem na tarefa de classificação semântica, a etiqueta de abertura será do formato <CATEGORIA TIPO="SUBTIPO">, onde CATEGORIA é substituído por uma das categorias válidas para classificação da EM, e SUBTIPO por um dos subtipos válidos para cada categoria da EM.
Em caso de de pretender atribuir mais do que uma categoria, deve-se usar o operador '|', tanto na categoria como no atributo TIPO.
IMPORTANTE: Caso o sistema não pretenda/consiga preencher o campo TIPO, deve colocar nesse campo a palavra 'OUTRO', em maiúsculas.

2 Tarefa de identificação

A avaliação da tarefa de identificação tem por objectivo medir a eficiência dos sistemas dos participantes em delimitar correctamente as EMs, em comparação com as EMs que foram manualmente delimitadas na Colecção Dourada (CD).

Esta avaliação está dependente da noção de átomo, que entendemos como sendo qualquer sequência de letras (e somente letras) ou dígitos individuais. Os átomos a serem contabilizados nestas fórmulas incluem preposições ou conjunções, mas para efeitos de alinhamento (veja-se a documentação na página do AlinhEM, que é o programa que identifica os átomos das EMs que são relevantes), não são consideradas as preposições e conjunções. Na descrição do AlinhEM está disponível uma lista das palavras que o AlinhEM despreza assim como as regras de atomização.


A avaliação atribuirá a seguinte pontuação:

  • Correcta quando o átomo inicial e o átomo final da EM são iguais na submissão e na Colecção Dourada, e o número de átomos da EM é o mesmo nas duas listas.
  • Parcialmente Correcta (por defeito) quando pelo menos um átomo da saída do sistema corresponde a um átomo de uma EM na Colecção Dourada, e o número total de átomos da EM do sistema participante é menor do que o número de átomos da respectiva EM da Colecção Dourada.
  • Parcialmente Correcta (por excesso) quando pelo menos um átomo da saída do sistema corresponde a um átomo de uma EM na Colecção Dourada, e o número total de átomos da EM do sistema participante é maior ou igual ao número de átomos da respectiva EM da Colecção Dourada.
  • Em Falta quando o sistema do participante falhou em detectar correctamente qualquer átomo de uma certa EM da Colecção Dourada.
  • Espúria quando foi delimitada uma alegada "EM", que não consta na CD, parcialmente ou no total.
A tarefa de identificação será vista segundo dois cenários:
  • Total - Considerando TODAS as etiquetas na Colecção Dourada.
  • Selectivo - Considerando apenas as etiquetas que o participante se propõe identificar.

2.1 Pontuação na Identificação Parcialmente Correcta

Enquanto que às EMs correctas é atribuída a pontuação 1, as EMs identificadas como parcialmente correctas serão pontuadas pela fórmula:

0,5 * (nc / nd)

Onde:
nc - nº de átomos comuns entre as duas EMs
nd - nº de átomos distintos entre as duas EMs

Por outras palavras:
nc - cardinalidade da intersecção dos átomos de duas EMs
nd - cardinalidade da reunião dos átomos de duas EMs

O factor de erro, usado no cálculo do 'Erro Combinado', é dado pela fórmula:

1- 0,5 * (nc / nd)

A seguir, ilustramos exemplos de pontuação da identificação nas tabela 1 e 2 (as cores diferentes são para distinguir melhor as EMs dos exemplos).

Caso Sistema do Participante Colecção Dourada
1o novo presidente do CNPq , Evando Mirra o novo presidente do CNPq, Evando Mirra
2a partir de 1991a partir de 1991
3Graduou-se em Engenharia Mecanica e EletricaGraduou-se em Engenharia Mecanica e Eletrica
4Rua13 de Maio, 733 - Bela Vista-(11) 3262 3256Rua 13 de Maio, 733 - Bela Vista - (11) 3262 3256
5Senhores Comandantes das F-FDTL e da PNTLSenhores Comandantes das F-FDTL e da PNTL
6assassinato do secretário-geral do Partido Revolucionário Institucionalassassinato do secretário-geral do Partido Revolucionário Institucional
7Estúdio da Oficina Cultural Oswald de Andrade São Paulo , 21 de novembro de 1994Estúdio da Oficina Cultural Oswald de Andrade São Paulo, 21 de novembro de 1994

Tabela 1: Lista de exemplos para ilustração da pontuação da tarefa de identificação

Caso Etiquetas Pontuação Pontuação total
1 Saída
presidente do CNPq , Evando
CD
CNPq
1/2 * (1/4)
nc: CPNq
nd:presidente, do, CPNq, Evando
0,225
Saída
presidente do CNPq , Evando
CD
Evando Mirra
1/2 * (1/5)
nc:Evando
nd:presidente, do, CPNq, Evando, Mirra
2 Saída
991
CD
1991
1/2*(3/4)
nc: 9, 9, 1
nd: 1, 9, 9, 1
0,375
3 Saída
Engenharia Mecanica
CD
Engenharia Mecanica e Eletrica
1/2 * (2/4)
nc: Engenharia, Mecânica
nd: Engenharia, Mecânica, e, Elétrica
0,375
Saída
Elétrica
CD
Engenharia Mecanica e Eletrica
1/2 * (1/4)
nc:Elétrica
nd:Engenharia, Mecânica, e, Elétrica
4 Saída
Rua
CD
Rua 13 de Maio, 733 - Bela Vista
1/2 * (1/10)
nc:Rua
nd:Rua, 1, 3, de, Maio, 7, 3, 3, Bela, Vista
1,35
Saída
13 de Maio
CD
Rua 13 de Maio, 733 - Bela Vista
1/2 * (4/10)
nc:1, 3, de, Maio
nd:Rua, 1, 3, de, Maio, 7, 3, 3, Bela, Vista
Saída
Bela Vista
CD
Rua 13 de Maio, 733 - Bela Vista
1/2 * (2/10)
nc: Bela, Vista
nd: Rua,1, 3, de, Maio, 7, 3, 3, Bela, Vista
Saída
(11) 3262 3256
CD
(11) 3262 3256
1
5 Saída
Senhores Comandantes das F-
CD
Senhores Comandantes das F-FDTL e da PNTL
1/2 * (4/6)
nc: Senhores, Comandantes, das, F-
nd: Senhores, Comandantes, das, F-, FDTL, PNTL
0,5
Saída
FDTL
CD
Senhores Comandantes das F-FDTL e da PNTL
1/2 * (1/6)
nc: FDTL
nd: Senhores, Comandantes, das, F-, FDTL, PNTL
Saída
PNTL
CD
Senhores Comandantes das F-FDTL e da PNTL
1/2 * (1/6)
nc: PNTL
nd: Senhores, Comandantes, F-, das, FDTL, PNTL
6 Saída
secretário-geral do Partido Revolucionário Institucional
1/2 * (3/6)
nc: Partido, Revolucionário, Institucional
nd: secretário, geral, do, Partido, Revolucionário, Institucional
0,25
7 Saída
Oficina Cultural Oswald de Andrade
CD
Estúdio da Oficina Cultural Oswald de Andrade
1/2 * (5/6)
nc: Oficina, Cultural, Oswald, de, Andrade
nd: Estúdio, Oficina, Cultural, Oswald, de, Andrade
1,11(1)
Saída
São Paulo , 21
CD
São Paulo
1/2 * (2/4)
nc: São, Paulo
nd: São, Paulo, 2, 1
Saída
São Paulo , 21
CD
21 de novembro de 1994
1/2 * (2/9)
nc: 2, 1
nd: 2, 1, de, Novembro, de, 1, 9, 9, 4
Saída
novembro de 1994
CD
21 de novembro de 1994
1/2 * (6/9)
nc: Novembro, de, 1, 9, 9, 4
nd: 2, 1, de, Novembro, de, 1, 9, 9, 4

Tabela 2: Pontuação da tarefa de identificação, nos exemplos da tabela 1.

De seguida, apresentamos uma hipotética frase da Colecção Dourada com um exemplo de uma saída possível de um sistema, que reflecte as diversas pontuações e avaliações globais na Tarefa de identificação.
Dada a seguinte frase na Colecção Dourada:

Terminou ontem no <LOCAL TIPO="ALARGADO">Laboratório Nacional de Engenharia Civil</LOCAL>, em <LOCAL TIPO="ADMINISTRATIVO">Lisboa</LOCAL>, o <ACONTECIMENTO TIPO="EVENTO">Encontro de Reflexão</ACONTECIMENTO> sobre a concretização do <ABSTRACCAO TIPO="PLANO">Plano Hidrológico</ABSTRACCAO> espanhol.

Se a saída do sistema que pretendemos avaliar fosse a seguinte:

<PESSOA TIPO="INDIVIDUAL">Terminou</PESSOA> ontem no <LOCAL TIPO="ALARGADO">Laboratório Nacional</LOCAL> de <ABSTRACCAO TIPO="DISCIPLINA">Engenharia Civil</ABSTRACCAO>, em <LOCAL TIPO="ADMINISTRATIVO">Lisboa</LOCAL>, o Encontro de Reflexão sobre a concretização do <ABSTRACCAO TIPO="PLANO">Plano Hidrológico espanhol</ABSTRACCAO>.

A avaliação pormenorizada, caso a caso, encontra-se na tabela 3. Na tabela 4, apresentamos os valores que as medidas adoptadas para a avaliação, resumidas na secção 5, iriam tomar neste caso.

Caso EM Colecção Dourada EM Saída do Sistema Pontuação
1 - Terminou 0 (Espúrio)
2 Laboratório Nacional de Engenharia Civil Laboratório Nacional 0,5*(2/5)=0,2 (Parcialmente Correcto por Defeito)
3 Laboratório Nacional de Engenharia Civil Engenharia Civil 0,5*(2/5)=0,2 (Parcialmente Correcto por Defeito)
4 Lisboa Lisboa 1 (Correcto)
5 Encontro de Reflexão - 0 (Em Falta)
6 Plano Hidrológico Plano Hidrológico espanhol 0,5*(2/3) = 0,333 (Parcialmente Correcto Por Excesso)

Tabela 3: Avaliação individuada em relação à tarefa de identificação

Medida Valor
Precisão (1 + 0,2 + 0,2 + 0,333) / 5 = 34,7%
Abrangência (1 + 0,2 + 0,2 + 0,333) / 4 = 43,3%
Medida F 2*0,347*0,433/(0,347+0,433) = 0,385
Sobre-geração 1/5 = 20%
Sub-geração 1/4 = 25%
Erro Combinado ((1-0,2) + (1-0,2) + (1-0,333) + 1 + 1)/6 = 71,1%

Tabela 4: Avaliação Global em relação à tarefa de identificação

2.2 Identificações alternativas

No caso de considerar que há mais do que uma delimitação correcta na tarefa em questão de uma ou mais EMs, é possível usar a etiqueta <ALT> para assinalar as várias opções, na Colecção Dourada ou na saída do sistema. Como tal, o avaliador do HAREM irá comparar a CD com a saída do sistema e optar pela melhor alternativa, usando o seguinte algoritmo:
  • 1º: Melhor medida F para cada caso.
  • 2º: Menos valor de Erro Combinado.
  • 3º: Maior número de alinhamentos.

Para auxiliar na selecção da opção ALT nos casos mais difíceis, tais como alternativas sem EMs, os programas de selecção de ALTs para as tarefas do HAREM introduziram nas medidas Precisão e Abrangência um alinhamento correcto em cada alternativa considerada. Tal introdução não prejudica a selecção, e evita o problema de as alternativas sem EMs, mesmo que sejam as melhores opções, terem uma Medida-F de não definida (0 no numerador e no denominador).
A documentação do AltinaID explica em detalhe este processo, e a tabela 5b e 5c demonstram como é feito esse cálculo.

Para ilustrar melhor a escolha de alternativas, utilizaremos o seguinte exemplo, com três alternativas:

<ALT> <EM>Governo PSD de Cavaco Silva</EM> |
<EM>Governo PSD</EM> de <EM>Cavaco Silva</EM> |
Governo PSD de Cavaco Silva </ALT>

O avaliador irá escolhar a alternativa que produz melhores resultados. A tabela 5a demonstra com vários exemplos de saídas de sistema, e para cada caso, a pontuação (valores de Medida F e Erro Combinado são calculados nas tabelas 5b e 5c). As tabelas 5b e 5c calculam a precisão, abrangência, a medida F e o erro combinado, e para cada caso escolhe qual das alternativas <ALT> será a escolhida. As medidas na tabela 5b e 5c são calculadas adicionando para cada alternativa um elemento correcto.
Na Tabela 5a, as células a amarelo indicam a alternativa escolhida.

Caso Sistema do Participante Identificação ALT1 Identificação ALT2 Identificação ALT3
1 <EM>Governo PSD de Cavaco Silva</EM> 1 Correcto
Medida-F: 1
Erro Combinado: 0%
2 Parc. Correcto
Medida-F: 0,56
Erro Combinado: 53,3%
1 Espúrio
Medida-F: 0,67
Erro Combinado: 50,0%
2 Governo <EM>PSD de Cavaco Silva</EM> 1 Em Falta
Medida-F: 0,67
Erro Combinado: 50,0%
2 Em Falta
Medida-F: 0,5
Erro Combinado: 66,7%
Sem pontuação
Medida-F: 1
Erro Combinado: 0%
3 Governo <EM>PSD de Cavaco Silva</EM> 1 Parc.Cor. por Def.
Medida-F: 0,7
Erro Combinado: 30%
2 Parc.Cor. por Exc.
Medida-F: 0,54
Erro Combinado: 55%
1 Espúrio
Medida-F: 0,67
Erro Combinado: 50%
4 <EM>Governo</EM> <EM>PSD</EM> de Cavaco Silva 2 Parc. Correcto
Medida-F: 0,48
Erro Combinado: 60%
2 Parc. Correcto+1 Em Falta
Medida-F: 0,5
Erro Combinado: 62,5%
2 Espúrio
Medida-F: 0,5
Erro Combinado: 66,7%
5 Governo <EM>PSD</EM> de Cavaco <EM>Silva</EM> 2 Parc. Correcto
Medida-F: 0,48
Erro Combinado: 60%
2 Parc. Correcto
Medida-F: 0,5
Erro Combinado: 50%
2 Espúrio
Medida-F: 0,48
Erro Combinado: 66,7%
6 <EM>Governo PSD</EM> de Cavaco Silva 1 Parc. Correcto
Medida-F: 0,6
Erro Combinado: 40%
1 Correcto, 1 EmFalta
Medida-F: 0,8
Erro Combinado: 33,3%
1 Espúrio
Medida-F: 0,67
Erro Combinado: 50%
7 Governo PSD de Cavaco <EM>Silva</EM> 1 Parc. Correcto
Medida-F: 0,55
Erro Combinado: 45%
1 Parc. Correcto, 1 Em Falta
Medida-F: 0,5
Erro Combinado: 58,3%
1 Espúrio
Medida-F: 0,67
Erro Combinado: 50%
8 Governo <EM>PSD de Cavaco</EM> Silva 1 Parc. Correcto
Medida-F: 0,65
Erro Combinado: 45%
2 Parc. Correcto
Medida-F: 0,5
Erro Combinado: 58,3%
1 Espúrio
Medida-F: 0,67
Erro Combinado: 50%

Tabela 5a: Exemplos de selecção de alternativa - cálculo de pontuação.

CasoPrecisãoAbrangência
ALT1ALT2ALT3 ALT1ALT2ALT3
1 (1+1)/(1+1)=100%(0,4+1)/(1+1)=70%(0+1)/(1+1)=50% (1+1)/(1+1)=100%(0,4+1)/(2+1)=46,7%(0+1)/(0+1)=100%
2 (0+1)/(0+1)=100%(0+1)/(0+1)=100%(0+1)/(0+1)=100% (0+1)/(1+1)=50%(0+1)/(2+1)=33,3%(0+1)/(0+1)=100%
3 (0,4+1)/(1+1)=70%(0,35+1)/(1+1)=67,5%(0+1)/(1+1)=50% (0,4+1)/(1+1)=70%(0,35+1)/(2+1)=45%(0+1)/(0+1)=100%
4 (0,2+1)/(2+1)=40%(0,5+1)/(2+1)=50%(0+1)/(2+1)=33,3% (0,2+1)/(1+1)=60%(0,5+1)/(2+1)=50%(0+1)/(0+1)=100%
5 (0,2+1)/(2+1)=40%(0,5+1)/(2+1)=50%(0+1)/(2+1)=33,3% (0,2+1)/(1+1)=60%(0,5+1)/(2+1)=50%(0+1)/(0+1)=100%
6 (0,2+1)/(1+1)=60%(1+1)/(1+1)=100%(0+1)/(1+1)=50% (0,2+1)/(1+1)=60%(1+1)/(2+1)=66,7%(0+1)/(0+1)=100%
7 (0,1+1)/(1+1)=55%(0,25+1)/(1+1)=62,5%(0+1)/(1+1)=50% (0,1+1)/(1+1)=55%(0,25+1)/(2+1)=41,7%(0+1)/(0+1)=100%
8 (0,3+1)/(1+1)=65%(0,25+1)/(1+1)=62,5%(0+1)/(1+1)=50% (0,3+1)/(1+1)=65%(0,25+1)/(2+1)=41,7%(0+1)/(0+1)=100%

Tabela 5b: Selecção de alternativa - cálculo de precisão e abrangência.

CasoMedida FErro CombinadoEscolha
ALT1ALT2ALT3 ALT1ALT2ALT3
12*1*1/(1+1)=12*0,7*0,467/(0,7+0,467)=0,562*0,5*1/(0,5+1)=0,666 0/(0+1)=0%(2*(1-0,2))/(2+1)=53,3%1/(1+1)=50% ALT 1
22*1*0,5/(1+0,5)=0,662*1*0,33/(1+0,33)=0,52*1*1/(1+1)=1 1/(1+1)=50%(2*1)/(2+1)=66,6%0/(0+1)=0% ALT 3
32*0,7*0,7/(0,7+0,7)=0,72*0,675*0,45/(0,675+0,45)=0,542*0,5*1/(0,5+1)=0,666 0,6/(1+1)=30%((1-0,1)+(1-0,25))/(2+1)=55,0%1/(1+1)=50% ALT 1
42*0,4*0,6/(0,4+0,6)=0,482*0,33*1/(1+0,33)=0,52*0,5*0,5/(0,5+0,5)=0,5 (2*(1-0,1))/(2+1)=60%(2*(1-0,25)+1)/(3+1)=62,5%2/(2+1)=66,7%ALT 2
52*0,4*0,6/(0,4+0,6)=0,482*0,5*0,5/(0,5+0,5)=0,52*0,33*1/(1+0,33)=0,5 (2*(1-0,1))/(2+1)=60%(2*(1-0,25))/(2+1)=50%2/(2+1)=66,7%ALT 2
62*0,6*0,6/(0,6+0,6)=0,62*1*0,666/(1+0,666)=0,82*0,5*1/(1+0,5)=0,667 (1-0,2)/(1+1)=40%1/(2+1)=33,3%1/(1+1)=50%ALT 2
72*0,55*0,55/(0,55+0,55)=0,552*0,625*0,417/(0,625+0,417)=0,52*0,5*1/(1+0,5)=0,667 (1-0,1)/(1+1)=45%(1+(1-0,25))/(2+1)=58,3%1/(1+1)=50%ALT 3
82*0,65*0,65/(0,65+0,65)=0,652*0,625*0,417/(0,625+0,417)=0,52*0,5*1/(1+0,5)=0,667 (1-0,3)/(1+1)=35%(2*(1-0,125))/(2+1)=58,3%1/(1+1)=50%ALT 3

Tabela 5c: Selecção de alternativa - cálculo de medida F e de erro combinado, e selecção.

3 Tarefa de classificação semântica

A avaliação da classificação semântica pretende medir até que ponto os sistemas dos participantes conseguem classificar a EM numa hierarquia de categorias e subtipos definidos pelo HAREM, que foi exaustivamente criada e revista conjuntamente, de maneira a reflectir as diversas categorias e subtipos que as EMs podem apresentar.
Para simplificar a medição desta tarefa e, ao mesmo tempo, fornecer mais informação aos participantes sobre o desempenho dos seus sistemas, optou-se por avaliar a classificação semântica em quatro modalidades:

  • Classificação semântica por categorias, onde se pontua apenas a categoria da etiqueta.
  • Classificação semântica por tipo, onde se pontua apenas as EMs que tiveram categoria(s) pontuada(s) como Correcta(s), e onde se avalia o subtipo da etiqueta (atributo TIPO).
  • Classificação semântica combinada, onde se avalia as categorias e os tipos da EM, através de uma pontuação que combina as duas.
  • Classificação semântica plana, onde se avalia os pares categoria-tipo como folhas de uma classificação plana, considerando apenas como certos os casos que tenham categoria e tipo correctos.
Os relatórios da classificação semântica irão ser criados segundo quatro cenários:
  • Total - Considerando TODAS as etiquetas classificadas com a respectiva categoria na CD.
    • Absoluto - Considerando todas as etiquetas, incluindo as que não foram identificadas como correctas ou parcialmente correctas.
    • Relativo - Considerando apenas as etiquetas identificadas como correctas ou parcialmente correctas.
  • Selectivo - Considerando apenas as etiquetas que o participante se propõe classificar.
    • Absoluto - Considerando todas as etiquetas, incluindo as que não foram identificadas como correctas ou parcialmente correctas.
    • Relativo - Considerando apenas as etiquetas identificadas como correctas ou parcialmente correctas.
Nas tabelas seguintes, há que considerar que os exemplos são relativos a etiquetas que o participante queria classificar (modo Selectivo), ou então a todas as etiquetas da CD (modo Total).

3.1 Tarefa de classificação semântica por categorias

A classificação semântica por categorias principais irá pontuar as EMs da seguinte maneira, ilustrada também para facilidade de referência na tabela 6.

CasoSaída SistemaSoluçãoCorrectaEmFaltaEspúria
1<A><A>A--
2<B><A>-AB
3<A><A|B|C>A--
4<D><A|B|C>-A|B|CD
Tabela 6: Avaliação Individuada na classificação semântica por categorias

Correcta Quando a resposta do sistema coincidir com a informação na CD.

  • Quando o sistema atribui uma categoria, se esta for igual na CD, é pontuada como Correcta (caso 1).
  • Se pertence a um conjunto de várias correctas na CD, além de ser pontuada igualmente como Correcta, o sistema não será prejudicado por faltarem as outras (ou seja, o caso 3 resulta na mesma pontuação que o caso 1)
Em Falta De todas as vezes que na colecção dourada está uma classificação (única ou múltipla) que o sistema não atribui, essa categoria é classificada como Em Falta.
  • No caso de haver uma categoria na CD (caso 2), essa categoria é marcada Em Falta.
  • No caso de na CD existirem várias categorias que o sistema não classificou (caso 4), o conjunto dessas categorias são marcadas Em Falta, a não ser que a categoria que o sistema classificou esteja correcta (caso 3); neste caso, nada é considerado Em Falta.
Espúria No caso do sistema atribuir uma categoria que não existe na CD, essa categoria é marcada como Espúria (casos 2 e 4).

3.2 Avaliação para classificação semântica por tipos

A classificação semântica por tipos irá pontuar as EMs de um modo semelhante à da classificação semântica por categorias, mas entrando em conta apenas com os casos em que as categorias foram correctamente identificadas, ou seja, é uma medida relativa por excelência. A Tabela 7 resume a pontuação atribuída nos diversos casos. O raciocínio é análogo ao caso anterior referente às categorias.

CasoSaída SistemaSoluçãoCorrectaEmFaltaEspúria
1 <A><A TIPO="X">-X-
2<A TIPO="OUTRO"><A TIPO="X">-X-
3<A TIPO="OUTRO"><A|A|A TIPO="X|Y|Z">-X|Y|Z-
4<A TIPO="X"><A TIPO="X">X--
5<A TIPO="X"><A TIPO="Y">-YX
6<A TIPO="X"><A|B|C TIPO="X|Y|Z">X--
7 <A TIPO="X"><A|A|A TIPO="X|Y|Z">X--
8<A TIPO="X"><A|A|A TIPO="W|Y|Z">-W|Y|ZX

Tabela 7: Avaliação Individuada na classificação semântica por tipos

3.3 Avaliação para classificação semântica combinada

A classificação semântica combinada é uma modalidade que combina a pontuação da categoria e do tipo através de uma fórmula única, de modo a indicar o nível da classificação semântica como um todo:

Class.Sem.Comb = 0, se a categoria não estiver correcta.
Class.Sem.Comb = 1, se a categoria estiver correcta mas o tipo não estiver correcto.
Class.Sem.Comb = 1 + (1 - nc/n) - (ne/n), se a categoria estiver correcta e pelo menos um tipo correcto.

nc - nº de tipos correctos
ne - nº de tipos espúrios.
n - número de tipos possível nessa categoria. Note-se que para calcular estes últimos valores, é preciso naturalmente conhecer quantos TIPOS diferentes cada categoria pode ter, o que está descrito na tabela 8.

Categoria Número de TIPOs distintos Valor máximo
ABSTRACCAO 81,875
ACONTECIMENTO 31,666
COISA 3 1,666
LOCAL 5 1,8
OBRA 4 1,75
ORGANIZACAO 4 1,75
PESSOA 6 1,833
TEMPO 4 1,75
VALOR 3 1,666

Tabela 8: Quantos TIPOS uma CATEGORIA pode ter no HAREM

Veja-se a tabela 9 com alguns exemplos, em que assume que a categoria A tem quatro tipos distintos.

Caso Saída do Sistema Solução Classificação semântica combinada
1 <A TIPO="B"> <A TIPO="C"> 1
2 <A TIPO="B"> <A TIPO="B"> 1+1*(1-1/4)=1.75
3 <A TIPO="B"> <A|Z TIPO="B|Y"> 1+1*(1-1/4)=1.75
4 <A TIPO="B"> <A|A TIPO="C|D"> 1

Tabela 9: Avaliação Individuada na classificação semântica combinada

3.4 Avaliação para classificação semântica plana

A avaliação plana é a modalidade da avaliação semântica que tem como objecto de estudo o par (CATEGORIA, TIPO). Por exemplo, se as EMs em análise fossem <LOCAL TIPO="GEOGRAFICO">Coimbra</LOCAL> e <PESSOA TIPO="INDIVIDUAL">Magalhães</PESSOA> então os pares a serem avaliados seriam (LOCAL, GEOGRAFICO) e (PESSOA, INDIVIDUAL), respectivamente. Um par é considerado correcto quando a categoria e o tipo são o mesmo na entidade correspondente da colecção dourada. Esta avaliação é efectuada para cada alinhamento conseguido utilizando o AlinhEM. A tabela 10 clarifica processo da avaliação plana individuada.

CasoSaída SistemaSoluçãoCorrectaEmFaltaEspúria
1 <A TIPO="X"><A TIPO="X">(A,X)--
2<A TIPO="Y"><A TIPO="X">-(A,X)(A,Y)
3<A TIPO="Y"><A|A|A TIPO="X|Y|Z">(A,Y)--
4<A TIPO="W"><A|A|A TIPO="X|Y|Z">-(A,X|Y|Z)(A,W)
5<M TIPO="O"><A TIPO="X">-(A,X)(M,O)

Tabela 10: Avaliação Individuada na classificação semântica plana

3.5 Exemplo de atribuição de pontuação, para a Tarefa de classificação semântica

No seguinte exemplo, e para não sobrecarregar o presente documento, apresentamos um exemplo de saída do sistema que identifica correctamente todas as EMs da CD (portanto transformando os cenários relativo e absoluto no mesmo).
Exemplo da Colecção Dourada;

Plano hidrológico de <ORGANIZACAO|LOCAL TIPO="ADMINISTRACAO|ADMINISTRATIVO">Espanha</ORGANIZACAO|LOCAL> analisado em <LOCAL TIPO="ADMINISTRATIVO">Lisboa</LOCAL>. Terminou ontem no <LOCAL TIPO="ALARGADO">Laboratório Nacional de Engenharia Civil</LOCAL>, em <LOCAL TIPO="ADMINISTRATIVO">Lisboa</LOCAL>, o <ACONTECIMENTO TIPO="EVENTO">Encontro de Reflexão</ACONTECIMENTO> sobre a concretização do <ABSTRACCAO TIPO="PLANO">Plano Hidrológico</ABSTRACCAO> espanhol. Em análise esteve um documento que prevê a transferência de significativos volumes de água dos rios <LOCAL TIPO="GEOGRAFICO">Douro</LOCAL> e <LOCAL TIPO="GEOGRAFICO">Tejo</LOCAL> para a bacia hidrográfica do rio <LOCAL TIPO="GEOGRAFICO">Jucar</LOCAL>.

Exemplo de Saída do Sistema:

<LOCAL TIPO="GEOGRAFICO">Plano hidrológico de Espanha</LOCAL> analisado em <LOCAL TIPO="ADMINISTRATIVO">Lisboa</LOCAL>. Terminou ontem no <LOCAL TIPO="ALARGADO">Laboratório Nacional</LOCAL> de <ORGANIZACAO TIPO="SUB">Engenharia Civil</ORGANIZACAO>, em <LOCAL TIPO="ADMINISTRATIVO">Lisboa</LOCAL>, o <ABSTRACCAO TIPO="PLANO">Encontro de Reflexão</ABSTRACCAO> sobre a concretização do <ABSTRACCAO TIPO="PLANO">Plano Hidrológico</ABSTRACCAO> espanhol. <ABSTRACCAO TIPO="DISCIPLINA">Em análise</ABSTRACCAO> esteve um documento que prevê a transferência de significativos volumes de água dos rios <LOCAL TIPO="GEOGRAFICO">Douro</LOCAL> e <LOCAL TIPO="GEOGRAFICO">Tejo</LOCAL> para a bacia hidrográfica do rio <ABSTRACCAO TIPO="PLANO">Jucar</ABSTRACCAO>.

Por uma questão de simplicidade na exposição dos conceitos envolvidos nas quatro medidas de avaliação semântica acima mencionadas omitimos situações em que a correspondência entre uma entidade identificada pelo sistema é considerada parcialmente correcta. No entanto, e para tornar o próximo exemplo mais real iremos considerar alinhamentos parciais, aos quais está associado um factor de correcção (semelhante ao caso da identificação) que influencia os cálculos das várias medidas. Especificamente referimo-nos aos seguintes casos:

  • <LOCAL TIPO="GEOGRAFICO">Plano hidrológico de Espanha</LOCAL>
  • <LOCAL TIPO="ALARGADO">Laboratório Nacional</LOCAL>
  • <ORGANIZACAO TIPO="SUB">Engenharia Civil</ORGANIZACAO>

Em qualquer destes casos a correspondência com a CD é parcial, logo a sua avaliação tem de ser condicionada por um factor de correcção que condiciona a contribuição desta entidade para a avaliação semântica global. O factor de correcção é dado pela fórmula:

(nc / nd)

Onde:
nc - nº de átomos comuns entre as duas EMs
nd - nº de átomos distintos entre as duas EMs

Isto significa que a contribuição da entidade <LOCAL TIPO="GEOGRAFICO">Plano hidrológico de Espanha</LOCAL> é de 0.25 (nc=1; nd=4) e não 1 para o somatório total de entidades correctas.

As etiquetas para o exemplo são classificadas semanticamente na tabela 11. Note-se que no caso das identificações parciais colocamos entre parênteses o correspondente factor de correcção.

Caso Saída do Sistema Correcta Em Falta Espúria
1 <LOCAL TIPO="GEOGRAFICO">Plano hidrológico de Espanha</LOCAL> LOCAL (0.25) - -
2 <LOCAL TIPO="ADMINISTRATIVO">Lisboa</LOCAL> LOCAL - -
3 <LOCAL TIPO="ALARGADO">Laboratório Nacional</LOCAL> LOCAL (0.4) - -
4 <ORGANIZACAO TIPO="SUB">Engenharia Civil</ORGANIZACAO> - * ORGANIZACAO
5 <LOCAL TIPO="ADMINISTRATIVO">Lisboa</LOCAL> LOCAL - -
6 <ABSTRACCAO TIPO="PLANO">Encontro de Reflexão</ABSTRACCAO> - ACONTECIMENTO ABSTRACCAO
7 <ABSTRACCAO TIPO="PLANO">Plano Hidrológico</ABSTRACCAO> ABSTRACCAO - -
8 <ABSTRACCAO TIPO="DISCIPLINA">Em análise</ABSTRACCAO> - - ABSTRACCAO
9 <LOCAL TIPO="GEOGRAFICO"> Douro</LOCAL> LOCAL - -
10 <LOCAL TIPO="GEOGRAFICO">Tejo</LOCAL> LOCAL - -
11 <ABSTRACCAO TIPO= "PLANO">Jucar</ABSTRACCAO> - LOCAL ABSTRACCAO
Total - 5,56 2 4

Tabela 11: Avaliação individuada na classificação semântica por categorias.
* Note-se que a entidade anterior do sistema alinha com a mesma entidade da CD, daí que, como é considerada correcta no alinhamento anterior, não podemos considerar a categoria LOCAL em falta.

Na tabela 12 apresentamos a classificação por tipos. De notar que os casos 4, 6, 8 e 11 não são classificados, porque não foram considerados 'correctos' na tabela 11.

Caso Saída do Sistema Correcta Em Falta Espúria
1 <LOCAL TIPO="GEOGRAFICO">Plano hidrológico de Espanha</LOCAL> - ADMINISTRATIVO GEOGRAFICO
2 <LOCAL TIPO="ADMINISTRATIVO">Lisboa</LOCAL> ADMINISTRATIVO - -
3 <LOCAL TIPO="ALARGADO">Laboratório Nacional</LOCAL> ALARGADO (0.4) - -
5 <LOCAL TIPO="ADMINISTRATIVO">Lisboa</LOCAL> ADMINISTRATIVO - -
7 <ABSTRACCAO TIPO="PLANO">Plano Hidrológico</ABSTRACCAO>PLANO - -
9 <LOCAL TIPO="GEOGRAFICO"> Douro</LOCAL> GEOGRAFICO - -
10 <LOCAL TIPO="GEOGRAFICO">Tejo</LOCAL> GEOGRAFICO - -
Total - 5,4 1 1

Tabela 12: Avaliação individuada na classificação semântica por tipos
* Note-se que o tipo ALARGADO já foi considerado correcto para a entidade anterior, portanto não pode ser considerado em falta para esta EM.

Na tabela 13 apresentamos o resultado da classificação combinada. Salientamos que os casos 1 e 3 são multiplicados pelo factor de correcção, respectivamente, 0,25 e 0,4.

CasoClassificação
11 + 0 * (1 - 1 / 5) * 0.25 = 0.25
21 + 1 * (1 - 1 / 5) = 1.8
31 + 1 * (1 - 1 / 5) * 0.4 = 0.72
40.0
51 + 1 * (1 - 1 / 5) = 1.8
60.0
71 + 1 * (1 - 1 / 8) = 1.875
80.0
91 + 1 * (1 - 1 / 5) = 1.8
101 + 1 * (1 - 1 / 5) = 1.8
110.0
Total10.045

Tabela 13: Avaliação individuada para a classificação semântica combinada.

Na tabela 14 apresentamos o resultado da classificação plana. Salientamos que o caso 1 e 3 são multiplicados pelo factor de correcção, 0.25 e 0.4, respectivamente.

Caso Saída do Sistema Correcta Em Falta Espúria
1 <LOCAL TIPO="GEOGRAFICO">Plano hidrológico de Espanha</LOCAL> -(LOCAL,
ADMINISTRATIVO)
(LOCAL,GEOGRAFICO)
2 <LOCAL TIPO="ADMINISTRATIVO">Lisboa</LOCAL> (LOCAL,
ADMINISTRATIVO)
- -
3 <LOCAL TIPO="ALARGADO">Laboratório Nacional</LOCAL> (LOCAL,
ALARGADO) (0.4)
- -
4 <ORGANIZACAO TIPO="SUB">Engenharia Civil</ORGANIZACAO> - *(ORGANIZACAO,SUB)
5 <LOCAL TIPO="ADMINISTRATIVO">Lisboa</LOCAL> (LOCAL,
ADMINISTRATIVO)
- -
6 <ABSTRACCAO TIPO="PLANO">Encontro de Reflexão</ABSTRACCAO> -(ACONTECIMENTO, EVENTO) (ABSTRACCAO,PLANO)
7 <ABSTRACCAO TIPO="PLANO">Plano Hidrológico</ABSTRACCAO>(ABSTRACCAO,PLANO) - -
8 <ABSTRACCAO TIPO="DISCIPLINA">Em análise</ABSTRACCAO> - -(ABSTRACCAO, DISCIPLINA)
9 <LOCAL TIPO="GEOGRAFICO"> Douro</LOCAL> (LOCAL,GEOGRAFICO) - -
10 <LOCAL TIPO="GEOGRAFICO">Tejo</LOCAL> (LOCAL, GEOGRAFICO) - -
11 <ABSTRACCAO TIPO= "PLANO">Jucar</ABSTRACCAO> - (LOCAL, GEOGRAFICO) (ABSTRACCAO, PLANO)
Total - 5,4 3 5

Tabela 14: Avaliação individuada para a classificação semântica plana.

As tabelas 15, 16, 17 e 18 dão as medidas para a classificação semântica, por categorias, por tipos, combinada e plana, respectivamente.

MedidaValor
Precisão5,65 / 11 = 51,36%
Abrangência5,65 / 9 = 62,77%
Medida F(2 * 0,5136 * 0,6277) / (0,5136 + 0,6277) = 0,565
Sobre-geração4 / 11 = 36,36%
Sub-geração2 / 9 = 22,2%

Tabela 15: Avaliação Global em relação à tarefa de classificação semântica por categorias.

MedidaValor
Precisão5,4 / 7 = 77,14%
Abrangência5,4 / 7 = 77,14%
Medida F2*0,7714*0,7714/(0,7714+0,7714) = 0,7714
Sobre-geração1 / 7 = 14,28%
Sub-geração1 / 7 = 14,28%

Tabela 16: Avaliação Global em relação à tarefa de classificação semântica por tipos.

MedidaValor
Precisão
Máxima do sistema *
10,045 / 20,05 = 50,1%
Abrangência
Máxima na CD **
10,045 / 16,14 = 62,23%
Medida F(2*0,501*0,6223)/(0,501+0,6223) = 0,555

Tabela 17: Avaliação Global em relação à tarefa de classificação semântica combinada.
* Note-se que denominador do cálculo da precisão corresponde ao somatório do cálculo da classificação semântica combinada assumindo que as classificações atribuídas pelo sistema estão totalmente correctas. Para melhor perceber este conceito imagine que as categorias da tabela 11 e os tipos (agora com os restantes casos 4,6,8 e 11 ) da tabela 12 estivessem a ser sempre considerados correctos.
** Analogamente, o denominador do cálculo da abrangência utiliza a mesma fórmula para calcular o somatório das classificações combinadas para cada uma das entidades na CD.

MedidaValor
Precisão5,4 / 11 = 49,1%
Abrangência5,4 / 9 = 60,0%
Medida F(2*0,491*0,600)/(0,491+0,600) = 0,55
Sobre-geração5 / 11 = 45,45%
Sob-geração3 / 9 = 33,33%

Tabela 18: Avaliação Global em relação à tarefa de classificação plana.

4 Tarefa de classificação morfológica

A avaliação da tarefa de classificação morfológica tem por objectivo medir a aptidão do sistema em definir qual o género e o número das EMs identificadas, em comparação com as respectivas classificações morfológicas feitas manualmente na CD.
Os relatórios da classificação morfológica terão em conta quatro cenários:

  • Total - Considerando TODAS as etiquetas classificadas morfologicamente na CD.
    • Absoluto - Considerando todas as etiquetas, incluindo as que não foram identificadas como correctas ou parcialmente correctas.
    • Relativo - Considerando apenas as etiquetas identificadas como correctas ou parcialmente correctas.
  • Selectivo - Considerando apenas as etiquetas que o participante se propõe classificar morfologicamente.
    • Absoluto - Considerando todas as etiquetas, incluindo as que não foram identificadas como correctas ou parcialmente correctas.
    • Relativo - Considerando apenas as etiquetas identificadas como correctas ou parcialmente correctas.
A avaliação morfológica é apenas feita sobre as EMs que também foram classificadas morfologicamente na CD. As classificações morfológicas feitas a EMs que não estão classificadas na CD (como por exemplo as EMs de categoria TEMPO) são simplesmente ignoradas no processamento subsequente.
Os cenários Absoluto e Relativo implicam a alteração da pontuação da classificação morfológica à EM em certos casos, como no caso 10 da tabela 19. Tal facto deve-se ao facto de, no cenário Absoluto, poder haver classificações morfológicas de EMs que são espúrias na tarefa de identificação, e como tal, também serão consideradas espúrias. No cenário Relativo, tal não acontece, pois tais EMs são ignoradas.
Quando uma EM foi imperfeitamente reconhecida (ou seja, foi classificada na tarefa de identificação como parcialmente correcta), apenas contámos os casos em que essa identificação parcial concordava na primeira palavra da EM, multiplicado por um peso de 0.5 as EMs que estão morfologicamente correctas.
A pontuação resultante da avaliação será feita para o género, para o número, e numa combinação dos dois resultados. A pontuação segue as regras ilustradas na tabela 19. No fim, calculamos as medidas descritas na secção 5.
Nas tabela seguinte, há que considerar que os exemplos são relativos a etiquetas que o participante queria classificar (modo Selectivo), ou então a todas as etiquetas da CD (modo Total), e considerando identificações correctas.

Caso MORF CD MORF sistema Pontuação Género Pontuação Número Pontação Combinada
1 M,S M,S Correcto Correcto Correcto
2 M,S F,S Incorrecto Correcto Incorrecto
3 M,S M,P Correcto Incorrecto Incorrecto
4 M,S F,P Incorrecto Incorrecto Incorrecto
5 M,S ?,S Em Falta Correcto Em Falta
6 ?,S M,S Sobreespecificado Correcto Incorrecto
7 ?,S ?,S Correcto Correcto Correcto
8 M,S Não submetido Em Falta Em Falta Em Falta
9 sem identificação Não submetido Ignorado Ignorado Ignorado
10 sem identificação Submetido, sem ter '?' Ignorado (Cenário Relativo)
Espúrio (Cenário Absoluto)
Ignorado (Cenário Relativo)
Espúrio (Cenário Absoluto)
Ignorado (Cenário Relativo)
Espúrio (Cenário Absoluto)

Tabela 19: Avaliação individuada da classificação morfológica

Se considerarmos um cenário relativo (ou seja, só considerando as EMs com pontuação maior que 0 na tarefa de Identificação) e os 10 exemplos da tabela 19 como um exemplo de saída do sistema participante (note-se que os casos 9 e 10 serão ignorados e não contabilizados), a avaliação global produziria os seguintes resultados, resumidos na tabela 20:

Cenário Relativo
Medida Género Número Combinado
Precisão 3/7 = 42,8% 5/7 = 71,4% 2/7 = 28,3%
Abrangência 3/8 = 37,5% 5/8 = 62,5% 2/8 = 25,0%
Medida F 2*0,428*0,375/(0,428+0,375)=0,40 2*0,714*0,625/(0,714+0,625)=0,666 2*0,283*0,25/(0,283+0,25)=0,266
Sobre-especificação 1/7 = 14,3% 0/7 = 0% -
Sub-geração 2/8 = 25,0% 1/8 = 12,5% -
Cenário Absoluto
Precisão 3/8 = 37,5% 5/8 = 62,5% 2/8 = 25,0%
Abrangência 3/8 = 37,5% 5/8 = 62,5% 2/8 = 25,0%
Medida F 2*0,375*0,375/(0,375+0,375)=0,375 2*0,625*0,625/(0,625+0,625)=0,625 2*0,25*0,25/(0,25+0,25)=0,25
Sobre-especificação 1/8 = 12,5% 0/8 = 0% -
Sub-geração 2/8 = 25,0% 1/8 = 12,5% -

Tabela 20: Avaliação Global da classificação morfológica

5 Medidas de Avaliação

Apresentamos aqui as medidas que serão utilizadas nos diversos cenários, para resumir o desempenho dos sistemas, especificando a sua forma exacta para cada tarefa. Notamos que, quando a CD contém EMs com alternativas <ALT>, será usada a alternativa que maximiza a pontuação do sistema em cada caso.

5.1 Precisão

A precisão é uma medida da qualidade da resposta do sistema, e mede a proporção de respostas correctas em todas as respostas fornecidas pelo sistema.

5.1.1 Identificação

Na tarefa de identificação a precisão mede o teor de EMs correctas e parcialmente correctas em todas as EMs identificadas pelo sistema. EMs pontuadas como parcialmente correctas são multiplicadas pelo respectivo factor, ou seja, 0,5 * nc / nd (apresentado e motivado na secção 2.1).

Precisãoidentificação = (Nº de EMs correctas + X) / Nº de EMs identificadas pelo sistema
Em que X é o somatório dos valores obtidos para cada EM parcialmente identificada.

5.1.2 Classificação morfológica

Na tarefa de classificação morfológica, a precisão mede o teor de classificações em género/número correctas, de todas as produzidas pelo sistema (que tenham classificação morfológica na CD). Ou seja, excluindo sempre os casos em que a EM da CD não se encontra marcada morfologicamente.

Calcula-se a precisão para o género morfológico, para o número morfológico, e para a combinação de ambas as categorias.

Há dois cenários de avaliação: independente da identificação (absoluto), ou relativo, apenas para os casos em que a identificação resultou, ou seja, apenas contando o subconjunto de EMs classificadas pelo sistema que correspondam a EMs na CD.

Absoluto: Precisãogénero = (Nº de EMs identificadas correctamente e com género correcto + 0,5 * Nº de EMs identificadas parcialmente correctamente e com género correcto) / (Total de EMs com classificações de género produzidas pelo sistema)

Relativo: Precisãogénero = (Nº de EMs identificadas correctamente e com género correcto + 0,5 * Nº de EMs identificadas parcialmente correctamente e com género correcto) / (Total de EMs com classificações de género produzidas pelo sistema em EMs identificadas correctamente ou parcialmente)

Absoluto: Precisãonúmero = (Nº de EMs identificadas correctamente e com número correcto + 0,5 * Nº de EMs identificadas parcialmente correctamente e com número correcto) / (Total de EMs com classificações de número produzidas pelo sistema)

Relativo: Precisãonúmero = (Nº de EMs identificadas correctamente e com número correcto + 0,5 * Nº de EMs identificadas parcialmente correctamente e com número correcto) / (Total de EMs com classificações de número produzidas pelo sistema em EMs identificadas correctamente ou parcialmente)

Absoluto: Precisãocombinada = (Nº de EMs identificadas correctamente e com género e número correcto + 0,5 * Nº de EMs identificadas parcialmente correctamente e com género e número correcto) / (Total de EMs com classificações de número e género produzidas pelo sistema)

Relativo: Precisãocombinada = (Nº de EMs identificadas correctamente e com género e número correcto + 0,5 * Nº de EMs identificadas parcialmente correctamente e com género e número correcto) / (Total de EMs com classificações de número e género produzidas pelo sistema em EMs identificadas correctamente ou parcialmente)

5.1.3 Classificação semântica

Definimos quatro formas de avaliar a classificação semântica:
categorias
só conta a correcção na atribuição das categorias
tipos
mede a capacidade de discriminação dentro de categorias (por tipos)
CSC (combinada)
entra em conta com categorias e com tipos, pontuando estes últimos de acordo com a sua entropia
plana
só conta como correcta a atribuição de categoria e tipo correctos
Tal como para a classificação morfológica, existem dois cenários: relativo (às EMs correctamente identificadas) e absoluto (para todas as EMs).

Para cada uma destas formas, a precisão é dada pela fórmula:

Absoluto: Precisãocategorias = (Nº de EMs correctamente identificadas e com categoria correcta + Y ) / Nº de EMs classificadas pelo sistema
Relativo: Precisãocategorias = (Nº de EMs correctamente identificadas e com categoria correcta + Y ) / Nº de EMs parcial ou correctamente identificadas classificadas pelo sistema
Em que Y é o somatório dos valores obtidos para cada EM parcialmente identificada e com categoria correcta, dados pela fórmula (nc / nd).

A classificação por tipos é, por definição, sempre relativa:
Relativo: Precisãotipos = (Nº de EMs correctamente identificadas e com categoria e tipo correctos + Z ) / Nº de EMs correctamente ou parcialmente identificadas e correctamente classificadas em categoria
Em que Z é o somatório dos valores obtidos para cada EM parcialmente identificada e com categoria e tipo correctos, dados pela fórmula (nc / nd).

Para a classificação semântica combinada, a precisão mede o grau de sucesso de acordo com a classificação máxima (calculada assumindo que todas as categorias e tipos propostos pelo sistema estiverem correctos):

Absoluto: PrecisãoCSC = Valor da medida semântica combinada obtida pelo sistema / Valor máximo da medida semântica combinada para a saída do sistema
Relativo: PrecisãoCSC = Valor da medida semântica combinada obtida pelo sistema / Valor máximo da medida semântica combinada para a saída do sistema só considerando EMs parcial ou correctamente identificadas

Absoluto: Precisãoplana = (Nº de EMs correctamente identificadas e com categoria e tipo correctos + Z ) / Nº de EMs classificadas pelo sistema
Relativo: Precisãoplana = (Nº de EMs correctamente identificadas e com categoria e tipo correctos + Z ) / Nº de EMs parcial ou correctamente identificadas e classificadas pelo sistema
Em que Z é o somatório dos valores obtidos para cada EM parcialmente identificada e com categoria e tipo correctos, dados pela fórmula (nc / nd).

5.2 Abrangência

A abrangência mede a percentagem de soluções (neste caso, contidas na colecção dourada, CD) que o sistema conseguiu recuperar.

5.2.1 Identificação

A abrangência na tarefa de identificação mede o teor de EMs da colecção dourada que conseguiu identificar.

Abrangênciaidentificação = (Nº de EMs correctas + X) / Total de EMs na Colecção Dourada
Onde X é o somatório dos valores obtidos multiplicando cada EM parcialmente identificada pelo factor (0,5 * nc / nd).

5.2.2 Classificação morfológica

Na tarefa de classificação morfológica, a abrangência mede o teor de classificações em género/número que se encontram na colecção dourada em que o sistema conseguiu acertar.

Tal como para a precisão, mede-se a abrangência no género morfológico, no número morfológico, e na combinação de ambos.

No cenário relativo, restringe-se o denominador às EMs da CD que foram parcial ou correctamente identificadas pelo sistema.

Absoluto: Abrangênciagénero = (Nº de EMS correctamente identificadas com classificações de género correctas + 0,5 * Nº de EMs identificadas parcialmente correctamente com classificações de género correctas) / (Nº de EMs com classificações de género na CD)
Relativo: Abrangênciagénero = (Nº de EMS correctamente identificadas com classificações de género correctas + 0,5 * Nº de EMs identificadas parcialmente correctamente com classificações de género correctas) / (Nº de EMS parcial ou correctamente identificadas com classificações de género na CD)

Absoluto: Abrangêncianúmero = (Nº de EMS correctamente identificadas com classificações de número correctas + 0,5 * Nº de EMs identificadas parcialmente correctamente com classificações de número correctas) / (Nº de EMs com classificações de número na CD)
Relativo: Abrangêncianúmero = (Nº de EMS correctamente identificadas com classificações de número correctas + 0,5 * Nº de EMs identificadas parcialmente correctamente com classificações de número correctas) / (Nº de EMS parcial ou correctamente identificadas com classificações de número na CD)

Absoluto: Abrangênciacombinada = (Nº de EMS correctamente identificadas com classificações de número e género correctas + 0,5 * Nº de EMs identificadas parcialmente correctamente com classificações de número e género correctas) / (Nº de EMs com classificação morfológica na CD)
Relativo: Abrangênciacombinada = (Nº de EMS correctamente identificadas com classificações de número e género correctas + 0,5 * Nº de EMs identificadas parcialmente correctamente com classificações de número e género correctas) / (Nº de EMS parcial ou correctamente identificadas com com classificação morfológica na CD)

Note-se que os denominadores nos três casos (género, número e combinada), embora formulados de maneira diferente, são exactamente iguais.

5.2.3 Classificação semântica

Também se define a abrangência de forma diferente para cada uma das quatro formas, e de forma diferente para os cenários absoluto e relativo.

Absoluto: Abrangênciacategorias = (Nº de EMs correctamente identificadas e com categoria correcta + Y ) / Nº de EMs classificadas na Colecção Dourada
Relativo: Abrangênciacategorias = (Nº de EMs correctamente identificadas e com categoria correcta + Y ) / Nº de EMs partial ou correctamente identificadas e classificadas na Colecção Dourada
Em que Y é o somatório dos valores obtidos para cada EM parcialmente identificada e com categoria correcta, dados pela fórmula (nc / nd).

Abrangênciatipos = (Nº de EMs correctamente identificadas e com categoria e tipo correctos + Z ) / Nº de EMs correctamente classificadas em categoria na Colecção Dourada
Em que Z é o somatório dos valores obtidos para cada EM parcialmente identificada e com categoria e tipo correctos, dados pela fórmula (nc / nd).

Na avaliação da classificação semântica combinada, a abrangência mede o nível de cobertura de acordo com a classificação máxima (se tanto as categorias como os tipos enviados estiverem correctos). Mais uma vez, no cenário absoluto usam-se todas as EMs na CD, e no relativo apenas o subconjunto parcial ou correctamente identificado.

Absoluto: AbrangênciaCSC = Valor da medida semântica combinada obtida pelo sistema / Valor máximo da medida semântica combinada na CD
Relativo: AbrangênciaCSC = Valor da medida semântica combinada obtida pelo sistema / Valor máximo da medida semântica combinada na CD usando apenas as EMs correctamente identificadas

Absoluto: Abrangênciaplana = (Nº de EMs correctamente identificadas e com categoria e tipo correctos + Z ) / Nº de EMs na CD
Relativo: Abrangênciaplana = (Nº de EMs correctamente identificadas e com categoria e tipo correctos + Z ) / Nº de EMs parcial ou correctamente identificadas na CD
Em que Z é o somatório dos valores obtidos para cada EM parcialmente identificada e com categoria e tipo correctos, dados pela fórmula (nc / nd).

5.3 Medida F

A medida F combina as medidas de precisão e de abrangência para cada tarefa, de acordo com a seguinte fórmula:

Medida-F = (2 * Precisão * Abrangência) / (Precisão + Abrangência)

5.4 Sobre-geração

A sobre-geração mede o excesso de resultados espúrios que um sistema produz, ou seja, quantas vezes produz resultados errados.

5.4.1 Identificação

A sobre-geração, na tarefa de identificação, mede quantas EMs identificadas pelo sistema não existem na Colecção Dourada.

Sobre-geraçãoidentificação = Nº de EMs espúrias / Nº de EMs identificadas pelo sistema

5.4.2 Classificação morfológica

Relembramos que não se considera, para efeitos de avaliação, espúrios morfológicos (ou seja, só contam para avaliação os casos que também contêm classificação morfológica na CD). Assim, só no cenário absoluto é que há medida de sobre-geração, uma vez que num cenário relativo, não existem EMs com morfologia identificadas como espúrias, sendo portanto o valor desta medida sempre 0.

Sobre-geraçãogénero = (Nº de EMs com classificações em género espúrias) / (Nº de EMS com classificações em género produzidas pelo sistema e que tenham tb classificação morfológica na CD)

Sobre-geraçãonúmero = (Nº de EMs com classificações em número espúrias) / (Nº de EMS com classificações de número produzidas pelo sistema e que tenham tb classificação morfológica na CD)

Sobre-geraçãocombinada = (Nº de EMs com classificações em número ou género espúrias) / (Nº de EMS com classificações de número ou género produzidas pelo sistema e que tenham tb classificação morfológica na CD)

Para a tarefa de classificação morfológica, consideramos também a medida de sobre-especificação, que mede a percentagem dos casos sobre-especificados em todos os casos analisados pelo sistema. Por sobre-especificado entendemos os casos em que na CD está "?" e o sistema escolheu um determinado valor concreto.

Absoluto: Sobre-especificaçãogénero = (Nº de EMs com classificações de género sobre-especificadas em EMs identificadas correctamente + 0,5 * Nº de EMs com classificações em género sobre-especificadas em EMs identificadas parcialmente correctamente) / (Nº de EMs com classificações de género produzidas pelo sistema)
Relativo: Sobre-especificaçãogénero = (Nº de EMs com classificações de género sobre-especificadas em EMs identificadas correctamente + 0,5 * Nº de EMs com classificações em género sobre-especificadas em EMs identificadas parcialmente correctamente) / (Nº de EMs com classificações de género produzidas pelo sistema em EMs identificadas parcial ou correctamente)

Absoluto: Sobre-especificaçãonúmero = (Nº de EMs com classificações de número sobre-especificadas em EMs identificadas correctamente + 0,5 * Nº de EMs com classificações em número sobre-especificadas em EMs identificadas parcialmente correctamente) / (Nº de EMs com classificações de número produzidas pelo sistema)
Relativo: Sobre-especificaçãonúmero = (Nº de EMs com classificações de número sobre-especificadas em EMs identificadas correctamente + 0,5 * Nº de EMs com classificações em número sobre-especificadas em EMs identificadas parcialmente correctamente) / (Nº de EMs com classificações de número produzidas pelo sistema em EMs identificadas parcial ou correctamente)

Absoluto: Sobre-especificaçãocombinada = (Nº de EMs com classificações de número ou género sobre-especificadas em EMs identificadas correctamente + 0,5 * Nº de EMs com classificações em número ou género sobre-especificadas em EMs identificadas parcialmente correctamente) / (Nº de EMs com classificações morfológicas produzidas pelo sistema)
Relativo: Sobre-especificaçãocombinada = (Nº de EMs com classificações de número ou género sobre-especificadas em EMs identificadas correctamente + 0,5 * Nº de EMs com classificações em número ou género sobre-especificadas em EMs identificadas parcialmente correctamente) / (Nº de EMs com classificações morfológicas produzidas pelo sistema em EMs identificadas parcial ou correctamente)

5.4.3 Classificação semântica

A sobregeração na classificação semântica mede o número de EMs com uma classificação semântica espúria, em comparação com a colecção dourada. Damos a sobre-geração para as quatro medidas acima mencionadas, para os cenários absoluto e relativo.

Absoluto: Sobre-geraçãocategorias = (Nº de EMs com classificação semântica espúria na categoria / Nº de EMs classificadas com categoria pelo sistema)
Relativo: Sobre-geraçãocategorias = (Nº de EMs parcial ou correctamente identificadas com classificação semântica espúria na categoria / Nº de EMs parcial ou correctamente identificadas classificadas com categoria pelo sistema)

Relativo: Sobre-geraçãotipos = (Nº de EMs com classificação semântica espúria no tipo / Nº de EMs parcial ou correctamente identificadas classificadas com categoria e tipo pelo sistema )

Absoluto: Sobre-geraçãoplana = (Nº de EMs com classificação semântica espúria na categoria ou no tipo/ Nº de EMs classificadas com categoria e tipo pelo sistema)
Relativo: Sobre-geraçãoplana = (Nº de EMs correctamente identificadas com classificação semântica espúria na categoria ou no tipo + W)/ Nº de EMs parcial ou correctamente identificadas classificadas com categoria e tipo pelo sistema)
Em que W é o somatório dos valores obtidos para cada EM parcialmente identificada e com classificação semântica espúria na categoria ou no tipo, dados pela fórmula (nc / nd).

5.5 Sub-geração

A sub-geração é uma medida de quanto faltou ao sistema analisar, dada a solução conhecida (a colecção dourada, no nosso caso).

5.5.1 Identificação

A sub-geração, na tarefa de identificação, mede o teor de EMs que existem na colecção dourada, que não foram identificadas pelo sistema. Sub-geraçãoidentificação = (Nº de EMsem falta / Nº de EMs na colecção dourada)

5.5.2 Classificação morfológica

Na tarefa de classificação morfológica, a subgeração mede o número de classificações em falta comparadas com a informação morfológica na CD. Classificações em falta incluem tanto casos em que nenhuma classificação foi dada, como casos em que o sistema pôs ? para a classificação do género ou número enquanto na CD existe um valor mais específico.

Como anteriormente, apresentamos separadamente as fórmulas para o cenário absoluto e relativo.

Absoluto: Sub-geraçãogénero = (Nº de EMs com classificações em género em falta /Nº de classificações em género na colecção dourada)
Relativo: Sub-geraçãogénero = (Nº de EMs parcial ou correctamente identificadas com classificações em género em falta /Nº de EMs parcial ou correctamente identificadas com classificações em género na colecção dourada)

Absoluto: Sub-geraçãonúmero = (Nº de EMs com classificações em número em falta /Nº de classificações em número na colecção dourada)
Relativo: Sub-geraçãonúmero = (Nº de EMs parcial ou correctamente identificadas com classificações em número em falta /Nº de EMs parcial ou correctamente identificadas com classificações em número na colecção dourada)

Absoluto: Sub-geraçãocombinada = (Nº de EMs com classificações em género ou número em falta /Nº de classificações morfológicas na colecção dourada)
Relativo: Sub-geraçãocombinada = (Nº de EMs parcial ou correctamente identificadas com classificações em género em falta /Nº de EMs parcial ou correctamente identificadas com classificações morfológicas na colecção dourada)

5.5.3 Classificação semântica

A sub-geração na classificação semântica mede as classificações semânticas em falta.

Absoluto: Sub-geraçãocategorias = (Nº de EMs com classificação semântica em falta na categoria / Nº de EMs com categoria na Colecção Dourada)
Relativo: Sub-geraçãocategorias = (Nº de EMs correctamente identificadas com classificação semântica em falta na categoria + R)/ Nº de EMs parcial ou correctamente identificads com categoria na Colecção Dourada)
Em que R é o somatório dos valores obtidos para cada EM parcialmente identificada e com classificação semântica em falta na categoria, dados pela fórmula (nc / nd).

Relativo: Sub-geraçãotipos = (Nº de EMs correctamente identificadas com classificação semântica em falta no tipo + S)/ Nº de EMs parcial ou correctamente identificadas com tipo na Colecção Dourada)
Em que S é o somatório dos valores obtidos para cada EM parcialmente identificada e com classificação semântica em falta no tipo, dados pela fórmula (nc / nd).

to: Sub-geraçãoplana = (Nº de EMs com classificação semântica em falta na categoria ou no tipo/ Nº de EMs com categoria na Colecção Dourada)
Relativo: Sub-geraçãoplana = (Nº de EMs correctamente identificadas com classificação semântica em falta na categoria ou no tipo + T)/ Nº de EMs parcial ou correctamente identificads com categoria e tipo na Colecção Dourada
Em que T é o somatório dos valores obtidos para cada EM parcialmente identificada e com classificação semântica em falta na categoria ou no tipo, dados pela fórmula (nc / nd).

6 Relatórios de Avaliação

6.1 Relatórios individuais

Estes relatórios dizem respeito a cada resultado submetido pelo participante, e avalia o desempenho desse sistema em particular.

6.1.1 Tarefa de IDENTIFICAÇÃO

É avaliada em dois cenários diferentes:
  • Total - relativo a todas as EMs da Colecção Dourada, mesmo as EMs que o sistema não se propôs tentar identificar
  • Selectivo - relativo às EMs da Colecção Dourada que o sistema se propôs tentar identificar.
Para cada cenário, são fornecidos os seguintes relatórios:
  • Identificação global - Dá as estatísticas sobre todas as EMs identificadas, para todos os textos.
  • Identificação discriminada por género textual - Dá as estatísticas sobre todas as EMs identificadas, discriminadas por género de texto.
  • Identificação discriminada por variante - Dá as estatísticas sobre todas as EMs identificadas, discriminadas pela variante do texto.
  • Identificação discriminada por categoria - Fornece estatísticas sobre todas as EMs identificadas, discriminadas pela categoria semântica a que se referem.

6.1.2 Tarefa de CLASSIFICAÇÃO MORFOLÓGICA

É avaliada de quatro formas diferentes:
  • Classificação morfológica Total Absoluta - referente a todas as EMs classificadas morfologicamente na CD, para todos os textos, mesmo as EMs que o sistema não se propôs tentar classificar.
  • Classificação morfológica Selectiva Absoluta - relativo a todas as EMs classificadas morfologicamente, para todos os textos, nas categorias que o sistema se propôs tentar classificar.
  • Classificação morfológica Total Relativa - relativo a todas as EMs classificadas morfologicamente, para todos os textos, que foram identificadas como correctas ou parcialmente correctas pela tarefa de identificação.
  • Classificação morfológica Selectiva Relativa - relativo a todas as EMs classificadas morfologicamente, para todos os textos, que foram identificadas como correctas ou parcialmente correctas pela tarefa de identificação, nas categorias que o sistema se propôs tentar classificar.
Para cada cenário, são dadas as seguintes estatísticas:
  • Classificação morfológica global - dá as estatísticas sobre as EM classificadas morfologicamente, para todos os textos.
  • Classificação morfológica discriminada por género textual - dá as estatísticas sobre as EM classificadas morfologicamente, discriminadas por género.
  • Classificação morfológica discriminada por variante - dá as estatísticas sobre as EM classificadas morfologicamente, discriminadas pela variante do texto.
  • Classificação morfológica discriminada por categoria - dá as estatísticas sobre as EM classificadas morfologicamente, discriminadas pela categoria semântica a que se referem.

6.1.3 Tarefa de CLASSIFICAÇÃO SEMÂNTICA

É avaliada de quatro formas diferentes, tal como a classificação morfológica, separando absoluto vs. relativo e total vs. selectivo:
  • Classificação semântica Total Absoluta - relativo a todas as EMs classificadas na CD, para todos os textos, mesmo as EMs que o sistema não se propôs tentar classificar.
  • Classificação semântica Selectiva Absoluta - relativo a todas as EMs classificadas na CD, para todos os textos, nas categorias que o sistema se propôs tentar classificar.
  • Classificação semântica Total Relativa - relativo a todas as EMs classificadas na CD, para todos os textos, que foram identificadas como correctas ou parcialmente correctas pela tarefa de identificação.
  • Classificação semântica Selectiva Relativa - relativo a todas as EMs classificadas na CD, para todos os textos, que foram identificadas como correctas ou parcialmente correctas pela tarefa de identificação, nas categorias que o sistema se propôs tentar classificar.
Para cada relatório, são dadas as seguintes estatísticas:
  • Classificação semântica global - dá as estatísticas sobre as EM classificadas, para todos os textos.
  • Classificação semântica discriminada por género textual - dá as estatísticas sobre as EM classificadas, discriminadas por género do texto.
  • Classificação semântica discriminada por variante - dá as estatísticas sobre as EM classificadas, discriminadas pela variante do texto.
  • Classificação semântica discriminada por categoria - dá as estatísticas sobre as EM classificadas, discriminadas pela categoria semântica a que se referem.

6.2 Relatórios comparativos

Estes relatórios comparativos contêm os resultados de todos os sistemas participantes, de maneira a fornecer uma panorâmica geral dos sistemas de REM para o português.

Os relatórios descritos na subsecção anterior serão repetidos, juntando os valores de todos os sistemas, anonimizados, de maneira a dar um panorama geral do desempenho dos sistemas no HAREM.


Autores: Nuno Cardoso, Diana Santos & Nuno Seco
Última actualização: 16/06/2006 13:55:44