Versão para impressão
Avaliação no HAREM: Método e medidas
Versão 4.0 de 29 de Setembro de 2005
Neste documento apresenta-se em pormenor a forma de avaliação a ser utilizada no HAREM.
Em primeiro lugar, apresentamos, para cada uma das três tarefas
cobertas pelo HAREM -- as tarefas de identificação, classificação
morfológica e classificação semântica--, a forma como cada instância
individual é classificada, exemplificando com um extracto de uma
hipotética colecção dourada e o resultado, também hipotético, de um
dado sistema.
Depois apresentam-se as medidas empregues, com as fórmulas a aplicar em cada caso.
Finalmente, descrevem-se os vários relatórios referentes ao
resultado dos sistemas, que vão ser fornecidos aos participantes,
relatórios esses que irão dar um panorama do desempenho de cada
sistema, bem como permitir compará-lo com o global dos outros sistemas.
- Formatos das etiquetas
- Tarefa de identificação
- Tarefa de classificação semântica
- Tarefa de classificação morfológica
- Medidas de Avaliação
- Relatórios de Avaliação
Para os participantes que só pretendem participar na
tarefa de identificação e não nas tarefas de classificação semântica,
sugere-se que utilizem a etiqueta de abertura <EM> e a etiqueta
de fecho </EM>, para delimitar as EMs.
Para os participantes que também participem na tarefa de classificação
semântica, a etiqueta de abertura será do formato <CATEGORIA
TIPO="SUBTIPO">, onde CATEGORIA é substituído por uma das categorias
válidas para classificação da EM, e SUBTIPO por um dos subtipos válidos
para cada categoria da EM.
Em caso de de pretender atribuir mais do que uma categoria, deve-se
usar o operador '|', tanto na categoria como no atributo TIPO.
IMPORTANTE: Caso o sistema não pretenda/consiga preencher o campo TIPO, deve colocar nesse campo a palavra 'OUTRO', em maiúsculas.
2 Tarefa de identificação
A avaliação da tarefa de identificação tem por objectivo medir a eficiência dos sistemas dos participantes em delimitar correctamente as EMs, em comparação com as EMs que foram manualmente delimitadas na Colecção Dourada (CD).
Esta avaliação está dependente da noção de átomo, que entendemos como sendo qualquer sequência de letras (e somente letras) ou dígitos individuais. Os átomos a serem contabilizados nestas fórmulas incluem preposições ou conjunções, mas para efeitos de alinhamento (veja-se a documentação na página do AlinhEM, que é o programa que identifica os átomos das EMs que são relevantes), não são consideradas as preposições e conjunções. Na descrição do AlinhEM está disponível uma lista das palavras que o AlinhEM despreza assim como as regras de atomização.
A avaliação atribuirá a seguinte pontuação:
- Correcta quando o átomo inicial e o átomo final da EM são
iguais na submissão e na Colecção Dourada, e o número de átomos da EM é
o mesmo nas duas listas.
- Parcialmente Correcta (por defeito) quando pelo menos
um átomo da saída do sistema corresponde a um átomo de uma EM na
Colecção Dourada, e o número total de átomos da EM do sistema
participante é menor do que o número de átomos da respectiva EM
da Colecção Dourada.
- Parcialmente Correcta (por excesso) quando pelo menos
um átomo da saída do sistema corresponde a um átomo de uma EM na
Colecção Dourada, e o número total de átomos da EM do sistema
participante é maior ou igual ao número de átomos da respectiva EM
da Colecção Dourada.
- Em Falta quando o sistema do participante falhou em detectar correctamente qualquer átomo de uma certa EM da Colecção Dourada.
- Espúria quando foi delimitada uma alegada "EM", que não consta na CD, parcialmente ou no total.
A tarefa de identificação será vista segundo dois cenários:
- Total - Considerando TODAS as etiquetas na Colecção Dourada.
- Selectivo - Considerando apenas as etiquetas que o participante se propõe identificar.
2.1 Pontuação na Identificação Parcialmente Correcta
Enquanto
que às EMs correctas é atribuída a pontuação 1, as EMs identificadas
como parcialmente correctas serão pontuadas pela fórmula:
0,5 * (nc / nd)
Onde:
nc - nº de átomos comuns entre as duas EMs
nd - nº de átomos distintos entre as duas EMs
Por outras palavras:
nc - cardinalidade da intersecção dos átomos de duas EMs
nd - cardinalidade da reunião dos átomos de duas EMs
O factor de erro, usado no cálculo do 'Erro Combinado', é dado pela fórmula:
1- 0,5 * (nc / nd)
A seguir, ilustramos exemplos de pontuação da identificação nas tabela
1 e 2 (as cores diferentes são para distinguir melhor as EMs dos
exemplos).
| Caso |
Sistema do Participante |
Colecção Dourada |
| 1 | o novo presidente do CNPq , Evando Mirra |
o novo presidente do CNPq, Evando Mirra |
| 2 | a partir de 1991 | a partir de 1991 |
| 3 | Graduou-se em Engenharia Mecanica e Eletrica | Graduou-se em Engenharia Mecanica e Eletrica |
| 4 | Rua13 de Maio, 733 - Bela Vista-(11) 3262 3256 | Rua 13 de Maio, 733 - Bela Vista - (11) 3262 3256 |
| 5 | Senhores Comandantes das F-FDTL e da PNTL | Senhores Comandantes das F-FDTL e da PNTL |
| 6 | assassinato do secretário-geral do Partido Revolucionário Institucional | assassinato do secretário-geral do Partido Revolucionário Institucional |
| 7 | Estúdio da Oficina Cultural Oswald de Andrade São Paulo , 21 de novembro de 1994 | Estúdio da Oficina Cultural Oswald de Andrade São Paulo, 21 de novembro de 1994 |
Tabela 1: Lista de exemplos para ilustração da pontuação da tarefa de identificação
| Caso |
Etiquetas |
Pontuação |
Pontuação total |
| 1 |
Saída presidente do CNPq , Evando
CD CNPq
| 1/2 * (1/4)
nc: CPNq
nd:presidente, do, CPNq, Evando |
0,225 |
Saída presidente do CNPq , Evando
CD Evando Mirra
| 1/2 * (1/5)
nc:Evando
nd:presidente, do, CPNq, Evando, Mirra |
| 2 |
Saída 991 CD 1991 |
1/2*(3/4)
nc: 9, 9, 1
nd: 1, 9, 9, 1 |
0,375 |
| 3 |
Saída
Engenharia Mecanica
CD Engenharia Mecanica e Eletrica
|
1/2 * (2/4)
nc: Engenharia, Mecânica
nd: Engenharia, Mecânica, e, Elétrica |
0,375 |
Saída
Elétrica
CD Engenharia Mecanica e Eletrica
| 1/2 * (1/4)
nc:Elétrica
nd:Engenharia, Mecânica, e, Elétrica |
| 4 |
Saída
Rua
CD Rua 13 de Maio, 733 - Bela Vista |
1/2 * (1/10)
nc:Rua
nd:Rua, 1, 3, de, Maio, 7, 3, 3, Bela, Vista |
1,35 |
Saída
13 de Maio
CD Rua 13 de Maio, 733 - Bela Vista |
1/2 * (4/10)
nc:1, 3, de, Maio
nd:Rua, 1, 3, de, Maio, 7, 3, 3, Bela, Vista |
Saída
Bela Vista
CD Rua 13 de Maio, 733 - Bela Vista |
1/2 * (2/10)
nc: Bela, Vista
nd: Rua,1, 3, de, Maio, 7, 3, 3, Bela, Vista |
Saída
(11) 3262 3256
CD (11) 3262 3256
| 1 |
| 5 |
Saída Senhores Comandantes das F-
CD Senhores Comandantes das F-FDTL e da PNTL |
1/2 * (4/6)
nc: Senhores, Comandantes, das, F-
nd: Senhores, Comandantes, das, F-, FDTL, PNTL |
0,5 |
Saída FDTL
CD Senhores Comandantes das F-FDTL e da PNTL |
1/2 * (1/6)
nc: FDTL
nd: Senhores, Comandantes, das, F-, FDTL, PNTL |
Saída PNTL
CD Senhores Comandantes das F-FDTL e da PNTL |
1/2 * (1/6)
nc: PNTL
nd: Senhores, Comandantes, F-, das, FDTL, PNTL |
| 6 |
Saída secretário-geral do Partido Revolucionário Institucional |
1/2 * (3/6)
nc: Partido, Revolucionário, Institucional
nd: secretário, geral, do, Partido, Revolucionário, Institucional |
0,25 |
| 7 |
Saída Oficina Cultural Oswald de Andrade
CD Estúdio da Oficina Cultural Oswald de Andrade |
1/2 * (5/6)
nc: Oficina, Cultural, Oswald, de, Andrade
nd: Estúdio, Oficina, Cultural, Oswald, de, Andrade |
1,11(1) |
Saída São Paulo , 21
CD São Paulo |
1/2 * (2/4)
nc: São, Paulo
nd: São, Paulo, 2, 1 |
Saída São Paulo , 21
CD 21 de novembro de 1994 |
1/2 * (2/9)
nc: 2, 1
nd: 2, 1, de, Novembro, de, 1, 9, 9, 4 |
Saída novembro de 1994
CD 21 de novembro de 1994 |
1/2 * (6/9)
nc: Novembro, de, 1, 9, 9, 4
nd: 2, 1, de, Novembro, de, 1, 9, 9, 4 |
Tabela 2: Pontuação da tarefa de identificação, nos exemplos da tabela 1.
De seguida, apresentamos uma hipotética frase da Colecção
Dourada com um exemplo de uma saída possível de um sistema, que reflecte
as diversas pontuações e avaliações globais na Tarefa de identificação.
Dada a seguinte frase na Colecção Dourada:
Terminou ontem no <LOCAL TIPO="ALARGADO">Laboratório
Nacional de Engenharia Civil</LOCAL>, em <LOCAL
TIPO="ADMINISTRATIVO">Lisboa</LOCAL>, o <ACONTECIMENTO
TIPO="EVENTO">Encontro de Reflexão</ACONTECIMENTO> sobre a
concretização do <ABSTRACCAO TIPO="PLANO">Plano
Hidrológico</ABSTRACCAO> espanhol.
Se a saída do sistema que pretendemos avaliar fosse a seguinte:
<PESSOA TIPO="INDIVIDUAL">Terminou</PESSOA> ontem no
<LOCAL TIPO="ALARGADO">Laboratório Nacional</LOCAL> de
<ABSTRACCAO TIPO="DISCIPLINA">Engenharia
Civil</ABSTRACCAO>, em <LOCAL
TIPO="ADMINISTRATIVO">Lisboa</LOCAL>, o Encontro de Reflexão
sobre a concretização do <ABSTRACCAO TIPO="PLANO">Plano
Hidrológico espanhol</ABSTRACCAO>.
A avaliação pormenorizada, caso a caso, encontra-se na tabela 3. Na
tabela 4, apresentamos os valores que as medidas adoptadas para a
avaliação, resumidas na secção 5, iriam tomar neste caso.
| Caso |
EM Colecção Dourada |
EM Saída do Sistema |
Pontuação |
| 1 |
- |
Terminou |
0 (Espúrio) |
| 2 |
Laboratório Nacional de Engenharia Civil |
Laboratório Nacional |
0,5*(2/5)=0,2 (Parcialmente Correcto por Defeito) |
| 3 |
Laboratório Nacional de Engenharia Civil |
Engenharia Civil |
0,5*(2/5)=0,2 (Parcialmente Correcto por Defeito) |
| 4 |
Lisboa |
Lisboa |
1 (Correcto) |
| 5 |
Encontro de Reflexão |
- |
0 (Em Falta) |
| 6 |
Plano Hidrológico |
Plano Hidrológico espanhol |
0,5*(2/3) = 0,333 (Parcialmente Correcto Por Excesso) |
Tabela 3: Avaliação individuada em relação à tarefa de identificação
| Medida |
Valor |
| Precisão |
(1 + 0,2 + 0,2 + 0,333) / 5 = 34,7% |
| Abrangência |
(1 + 0,2 + 0,2 + 0,333) / 4 = 43,3% |
| Medida F |
2*0,347*0,433/(0,347+0,433) = 0,385 |
| Sobre-geração |
1/5 = 20% |
| Sub-geração |
1/4 = 25% |
| Erro Combinado |
((1-0,2) + (1-0,2) + (1-0,333) + 1 + 1)/6 = 71,1% |
Tabela 4: Avaliação Global em relação à tarefa de identificação
2.2 Identificações alternativas
No caso de considerar que há mais do que uma delimitação correcta na
tarefa em questão de uma ou mais EMs, é possível usar a etiqueta
<ALT> para assinalar as várias opções, na Colecção Dourada ou na
saída do sistema. Como tal, o avaliador do HAREM irá comparar a CD com
a saída do sistema e optar pela melhor alternativa, usando o seguinte
algoritmo:
-
1º: Melhor medida F para cada caso.
-
2º: Menos valor de Erro Combinado.
-
3º: Maior número de alinhamentos.
Para auxiliar na selecção da opção ALT nos casos mais difíceis,
tais como alternativas sem EMs, os programas de selecção de ALTs para
as tarefas do HAREM introduziram nas medidas Precisão e Abrangência um
alinhamento correcto em cada alternativa considerada. Tal introdução
não prejudica a selecção, e evita o problema de as alternativas sem
EMs, mesmo que sejam as melhores opções, terem uma Medida-F de
não definida (0 no numerador e no denominador).
A documentação do
AltinaID explica em detalhe este processo, e a tabela 5b e 5c demonstram como é feito esse cálculo.
Para ilustrar melhor a escolha de alternativas, utilizaremos o seguinte exemplo, com três alternativas:
<ALT> <EM>Governo PSD de Cavaco Silva</EM> |
<EM>Governo PSD</EM> de <EM>Cavaco Silva</EM> |
Governo PSD de Cavaco Silva </ALT>
O avaliador irá escolhar a alternativa que produz melhores resultados.
A tabela 5a demonstra com vários exemplos de saídas de sistema, e para
cada caso, a pontuação (valores de Medida F e Erro Combinado são
calculados nas tabelas 5b e 5c). As tabelas 5b e 5c calculam a
precisão, abrangência, a medida F e o erro combinado, e para cada caso
escolhe qual das alternativas <ALT> será a escolhida. As medidas
na tabela 5b e 5c são calculadas adicionando para cada alternativa um
elemento correcto.
Na Tabela 5a, as células a amarelo indicam a alternativa escolhida.
| Caso |
Sistema do Participante |
Identificação ALT1 |
Identificação ALT2 |
Identificação ALT3 |
| 1 |
<EM>Governo PSD de Cavaco Silva</EM> |
1 Correcto Medida-F: 1 Erro Combinado: 0% |
2 Parc. Correcto Medida-F: 0,56 Erro Combinado: 53,3% |
1 Espúrio Medida-F: 0,67 Erro Combinado: 50,0% |
| 2 |
Governo <EM>PSD de Cavaco Silva</EM> |
1 Em Falta Medida-F: 0,67 Erro Combinado: 50,0% |
2 Em Falta Medida-F: 0,5 Erro Combinado: 66,7% |
Sem pontuação Medida-F: 1 Erro Combinado: 0% |
| 3 |
Governo <EM>PSD de Cavaco Silva</EM> |
1 Parc.Cor. por Def. Medida-F: 0,7 Erro Combinado: 30% |
2 Parc.Cor. por Exc. Medida-F: 0,54 Erro Combinado: 55% |
1 Espúrio Medida-F: 0,67 Erro Combinado: 50% |
| 4 |
<EM>Governo</EM> <EM>PSD</EM> de Cavaco Silva |
2 Parc. Correcto Medida-F: 0,48 Erro Combinado: 60% |
2 Parc. Correcto+1 Em Falta Medida-F: 0,5 Erro Combinado: 62,5% |
2 Espúrio Medida-F: 0,5 Erro Combinado: 66,7% |
| 5 |
Governo <EM>PSD</EM> de Cavaco <EM>Silva</EM> |
2 Parc. Correcto Medida-F: 0,48 Erro Combinado: 60% |
2 Parc. Correcto Medida-F: 0,5 Erro Combinado: 50% |
2 Espúrio Medida-F: 0,48 Erro Combinado: 66,7% |
| 6 |
<EM>Governo PSD</EM> de Cavaco Silva |
1 Parc. Correcto Medida-F: 0,6 Erro Combinado: 40% |
1 Correcto, 1 EmFalta Medida-F: 0,8 Erro Combinado: 33,3% |
1 Espúrio Medida-F: 0,67 Erro Combinado: 50% |
| 7 |
Governo PSD de Cavaco <EM>Silva</EM> |
1 Parc. Correcto Medida-F: 0,55 Erro Combinado: 45% |
1 Parc. Correcto, 1 Em Falta Medida-F: 0,5 Erro Combinado: 58,3% |
1 Espúrio Medida-F: 0,67 Erro Combinado: 50% |
| 8 |
Governo <EM>PSD de Cavaco</EM> Silva |
1 Parc. Correcto Medida-F: 0,65 Erro Combinado: 45% |
2 Parc. Correcto Medida-F: 0,5 Erro Combinado: 58,3% |
1 Espúrio Medida-F: 0,67 Erro Combinado: 50% |
Tabela 5a: Exemplos de selecção de alternativa - cálculo de pontuação.
| Caso | Precisão | Abrangência |
| ALT1 | ALT2 | ALT3 |
ALT1 | ALT2 | ALT3 |
| 1 |
(1+1)/(1+1)=100% | (0,4+1)/(1+1)=70% | (0+1)/(1+1)=50% |
(1+1)/(1+1)=100% | (0,4+1)/(2+1)=46,7% | (0+1)/(0+1)=100% |
| 2 |
(0+1)/(0+1)=100% | (0+1)/(0+1)=100% | (0+1)/(0+1)=100% |
(0+1)/(1+1)=50% | (0+1)/(2+1)=33,3% | (0+1)/(0+1)=100% |
| 3 |
(0,4+1)/(1+1)=70% | (0,35+1)/(1+1)=67,5% | (0+1)/(1+1)=50% |
(0,4+1)/(1+1)=70% | (0,35+1)/(2+1)=45% | (0+1)/(0+1)=100% |
| 4 |
(0,2+1)/(2+1)=40% | (0,5+1)/(2+1)=50% | (0+1)/(2+1)=33,3% |
(0,2+1)/(1+1)=60% | (0,5+1)/(2+1)=50% | (0+1)/(0+1)=100% |
| 5 |
(0,2+1)/(2+1)=40% | (0,5+1)/(2+1)=50% | (0+1)/(2+1)=33,3% |
(0,2+1)/(1+1)=60% | (0,5+1)/(2+1)=50% | (0+1)/(0+1)=100% |
| 6 |
(0,2+1)/(1+1)=60% | (1+1)/(1+1)=100% | (0+1)/(1+1)=50% |
(0,2+1)/(1+1)=60% | (1+1)/(2+1)=66,7% | (0+1)/(0+1)=100% |
| 7 |
(0,1+1)/(1+1)=55% | (0,25+1)/(1+1)=62,5% | (0+1)/(1+1)=50% |
(0,1+1)/(1+1)=55% | (0,25+1)/(2+1)=41,7% | (0+1)/(0+1)=100% |
| 8 |
(0,3+1)/(1+1)=65% | (0,25+1)/(1+1)=62,5% | (0+1)/(1+1)=50% |
(0,3+1)/(1+1)=65% | (0,25+1)/(2+1)=41,7% | (0+1)/(0+1)=100% |
Tabela 5b: Selecção de alternativa - cálculo de precisão e abrangência.
| Caso | Medida F | Erro Combinado | Escolha |
| ALT1 | ALT2 | ALT3 |
ALT1 | ALT2 | ALT3 |
| 1 | 2*1*1/(1+1)=1 | 2*0,7*0,467/(0,7+0,467)=0,56 | 2*0,5*1/(0,5+1)=0,666 |
0/(0+1)=0% | (2*(1-0,2))/(2+1)=53,3% | 1/(1+1)=50% |
ALT 1 |
| 2 | 2*1*0,5/(1+0,5)=0,66 | 2*1*0,33/(1+0,33)=0,5 | 2*1*1/(1+1)=1 |
1/(1+1)=50% | (2*1)/(2+1)=66,6% | 0/(0+1)=0% |
ALT 3 |
| 3 | 2*0,7*0,7/(0,7+0,7)=0,7 | 2*0,675*0,45/(0,675+0,45)=0,54 | 2*0,5*1/(0,5+1)=0,666 |
0,6/(1+1)=30% | ((1-0,1)+(1-0,25))/(2+1)=55,0% | 1/(1+1)=50% |
ALT 1 |
| 4 | 2*0,4*0,6/(0,4+0,6)=0,48 | 2*0,33*1/(1+0,33)=0,5 | 2*0,5*0,5/(0,5+0,5)=0,5 |
(2*(1-0,1))/(2+1)=60% | (2*(1-0,25)+1)/(3+1)=62,5% | 2/(2+1)=66,7% | ALT 2 |
| 5 | 2*0,4*0,6/(0,4+0,6)=0,48 | 2*0,5*0,5/(0,5+0,5)=0,5 | 2*0,33*1/(1+0,33)=0,5 |
(2*(1-0,1))/(2+1)=60% | (2*(1-0,25))/(2+1)=50% | 2/(2+1)=66,7% | ALT 2 |
| 6 | 2*0,6*0,6/(0,6+0,6)=0,6 | 2*1*0,666/(1+0,666)=0,8 | 2*0,5*1/(1+0,5)=0,667 |
(1-0,2)/(1+1)=40% | 1/(2+1)=33,3% | 1/(1+1)=50% | ALT 2 |
| 7 | 2*0,55*0,55/(0,55+0,55)=0,55 | 2*0,625*0,417/(0,625+0,417)=0,5 | 2*0,5*1/(1+0,5)=0,667 |
(1-0,1)/(1+1)=45% | (1+(1-0,25))/(2+1)=58,3% | 1/(1+1)=50% | ALT 3 |
| 8 | 2*0,65*0,65/(0,65+0,65)=0,65 | 2*0,625*0,417/(0,625+0,417)=0,5 | 2*0,5*1/(1+0,5)=0,667 |
(1-0,3)/(1+1)=35% | (2*(1-0,125))/(2+1)=58,3% | 1/(1+1)=50% | ALT 3 |
Tabela 5c: Selecção de alternativa - cálculo de medida F e de erro combinado, e selecção.
3 Tarefa de classificação semântica
A avaliação da classificação semântica pretende medir até que ponto os
sistemas dos participantes conseguem classificar a EM numa hierarquia
de categorias e subtipos definidos pelo HAREM, que foi exaustivamente
criada e revista conjuntamente, de maneira a reflectir as diversas
categorias e subtipos que as EMs podem apresentar.
Para simplificar a medição desta tarefa e, ao mesmo tempo, fornecer
mais informação aos participantes sobre o desempenho dos seus sistemas,
optou-se por avaliar a classificação semântica em quatro modalidades:
-
Classificação semântica por categorias, onde se pontua apenas a categoria da etiqueta.
-
Classificação semântica por tipo, onde se pontua apenas as EMs que tiveram categoria(s) pontuada(s) como Correcta(s), e onde se avalia
o subtipo da etiqueta (atributo TIPO).
-
Classificação semântica combinada, onde se avalia as categorias e os tipos da EM, através de uma pontuação que combina as duas.
-
Classificação semântica plana, onde se avalia os pares categoria-tipo como folhas de uma classificação plana, considerando apenas como certos os casos que tenham categoria e tipo correctos.
Os relatórios da classificação semântica irão ser criados segundo quatro cenários:
- Total - Considerando TODAS as etiquetas classificadas com a respectiva categoria na CD.
- Absoluto - Considerando todas as etiquetas, incluindo as que não foram identificadas como correctas ou parcialmente correctas.
- Relativo - Considerando apenas as etiquetas identificadas como correctas ou parcialmente correctas.
- Selectivo - Considerando apenas as etiquetas que o participante se propõe classificar.
- Absoluto - Considerando todas as etiquetas, incluindo as que não foram identificadas como correctas ou parcialmente correctas.
- Relativo - Considerando apenas as etiquetas identificadas como correctas ou parcialmente correctas.
Nas tabelas seguintes, há que considerar que os exemplos são relativos a etiquetas que o participante queria classificar (modo
Selectivo), ou então a todas as etiquetas da CD (modo Total).
3.1 Tarefa de classificação semântica por categorias
A classificação semântica por categorias principais irá pontuar as EMs da
seguinte maneira, ilustrada também para facilidade de referência na
tabela 6.
| Caso | Saída Sistema | Solução | Correcta | EmFalta | Espúria |
| 1 | <A> | <A> | A | - | - |
| 2 | <B> | <A> | - | A | B |
| 3 | <A> | <A|B|C> | A | - | - |
| 4 | <D> | <A|B|C> | - | A|B|C | D |
Tabela 6: Avaliação Individuada na classificação semântica por categorias
Correcta Quando a resposta do sistema coincidir com a informação na CD.
-
Quando o sistema atribui uma categoria, se esta for igual na CD, é pontuada como Correcta (caso 1).
-
Se pertence a um conjunto de várias correctas na CD, além de ser pontuada igualmente como Correcta, o sistema não será prejudicado por faltarem as outras (ou seja, o caso 3 resulta na mesma pontuação que o caso 1)
Em Falta De todas as vezes que na colecção dourada está uma classificação (única ou múltipla) que o sistema não atribui, essa categoria é classificada como Em Falta.
-
No caso de haver uma categoria na CD (caso 2), essa categoria é marcada Em Falta.
-
No caso de na CD existirem várias categorias que o sistema não classificou (caso 4), o conjunto dessas categorias são marcadas Em Falta, a não ser que a categoria que o sistema classificou esteja correcta (caso 3); neste caso, nada é considerado Em Falta.
Espúria No caso do sistema atribuir uma categoria que não existe na CD, essa categoria é marcada como Espúria (casos 2 e 4).
3.2 Avaliação para classificação semântica por tipos
A classificação semântica por tipos irá pontuar as EMs de um modo semelhante à da classificação semântica por categorias, mas entrando em
conta apenas com os casos em que as categorias foram correctamente identificadas, ou seja, é uma medida relativa por excelência. A Tabela 7 resume a pontuação atribuída nos diversos casos. O raciocínio é análogo ao caso anterior referente às categorias.
| Caso | Saída Sistema | Solução | Correcta | EmFalta | Espúria |
| 1 | <A> | <A TIPO="X"> | - | X | - |
| 2 | <A TIPO="OUTRO"> | <A TIPO="X"> | - | X | - |
| 3 | <A TIPO="OUTRO"> | <A|A|A TIPO="X|Y|Z"> | - | X|Y|Z | - |
| 4 | <A TIPO="X"> | <A TIPO="X"> | X | - | - |
| 5 | <A TIPO="X"> | <A TIPO="Y"> | - | Y | X |
| 6 | <A TIPO="X"> | <A|B|C TIPO="X|Y|Z"> | X | - | - |
| 7 | <A TIPO="X"> | <A|A|A TIPO="X|Y|Z"> | X | - | - |
| 8 | <A TIPO="X"> | <A|A|A TIPO="W|Y|Z"> | - | W|Y|Z | X |
Tabela 7: Avaliação Individuada na classificação semântica por tipos
3.3 Avaliação para classificação semântica combinada
A classificação semântica combinada é uma modalidade que combina a pontuação da categoria e do tipo através de uma fórmula única, de modo
a indicar o nível da classificação semântica como um todo:
Class.Sem.Comb = 0, se a categoria não estiver correcta.
Class.Sem.Comb = 1, se a categoria estiver correcta mas o tipo não estiver correcto.
Class.Sem.Comb = 1 + (1 - nc/n) - (ne/n), se a categoria estiver correcta e pelo menos um tipo correcto.
nc - nº de tipos correctos
ne - nº de tipos espúrios.
n - número de tipos possível nessa categoria. Note-se que
para calcular estes últimos valores, é preciso naturalmente conhecer
quantos TIPOS diferentes cada categoria pode ter, o que está descrito
na tabela 8.
| Categoria | Número de TIPOs distintos | Valor máximo |
| ABSTRACCAO | 8 | 1,875 |
| ACONTECIMENTO | 3 | 1,666 |
| COISA | 3 | 1,666 |
| LOCAL | 5 | 1,8 |
| OBRA | 4 | 1,75 |
| ORGANIZACAO | 4 | 1,75 |
| PESSOA | 6 | 1,833 |
| TEMPO | 4 | 1,75 |
| VALOR | 3 | 1,666 |
Tabela 8: Quantos TIPOS uma CATEGORIA pode ter no HAREM
Veja-se a tabela 9 com alguns exemplos, em que assume que a categoria A tem quatro tipos distintos.
| Caso | Saída do Sistema | Solução | Classificação semântica combinada |
| 1 | <A TIPO="B"> | <A TIPO="C"> | 1 |
| 2 | <A TIPO="B"> | <A TIPO="B"> | 1+1*(1-1/4)=1.75 |
| 3 | <A TIPO="B"> | <A|Z TIPO="B|Y"> | 1+1*(1-1/4)=1.75 |
| 4 | <A TIPO="B"> | <A|A TIPO="C|D"> | 1 |
Tabela 9: Avaliação Individuada na classificação semântica combinada
3.4 Avaliação para classificação semântica plana
A avaliação plana é a modalidade da avaliação semântica que tem como objecto de estudo o par (CATEGORIA, TIPO). Por exemplo, se as EMs em análise fossem <LOCAL TIPO="GEOGRAFICO">Coimbra</LOCAL> e <PESSOA TIPO="INDIVIDUAL">Magalhães</PESSOA> então os pares a serem avaliados seriam (LOCAL, GEOGRAFICO) e (PESSOA, INDIVIDUAL), respectivamente. Um par é considerado correcto quando a categoria e o tipo são o mesmo na entidade correspondente da colecção dourada. Esta avaliação é efectuada para cada alinhamento conseguido utilizando o AlinhEM. A tabela 10 clarifica processo da avaliação plana individuada.
| Caso | Saída Sistema | Solução | Correcta | EmFalta | Espúria |
| 1 | <A TIPO="X"> | <A TIPO="X"> | (A,X) | - | - |
| 2 | <A TIPO="Y"> | <A TIPO="X"> | - | (A,X) | (A,Y) |
| 3 | <A TIPO="Y"> | <A|A|A TIPO="X|Y|Z"> | (A,Y) | - | - |
| 4 | <A TIPO="W"> | <A|A|A TIPO="X|Y|Z"> | - | (A,X|Y|Z) | (A,W) |
| 5 | <M TIPO="O"> | <A TIPO="X"> | - | (A,X) | (M,O) |
Tabela 10: Avaliação Individuada na classificação semântica plana
3.5 Exemplo de atribuição de pontuação, para a Tarefa de classificação semântica
No seguinte exemplo, e para não sobrecarregar o presente documento,
apresentamos um exemplo de saída do sistema que identifica
correctamente todas as EMs da CD (portanto transformando os cenários
relativo e absoluto no mesmo).
Exemplo da Colecção Dourada;
Plano hidrológico de <ORGANIZACAO|LOCAL
TIPO="ADMINISTRACAO|ADMINISTRATIVO">Espanha</ORGANIZACAO|LOCAL>
analisado em <LOCAL TIPO="ADMINISTRATIVO">Lisboa</LOCAL>.
Terminou ontem no <LOCAL TIPO="ALARGADO">Laboratório Nacional de
Engenharia Civil</LOCAL>, em <LOCAL
TIPO="ADMINISTRATIVO">Lisboa</LOCAL>, o <ACONTECIMENTO
TIPO="EVENTO">Encontro de Reflexão</ACONTECIMENTO> sobre a
concretização do <ABSTRACCAO TIPO="PLANO">Plano
Hidrológico</ABSTRACCAO> espanhol. Em análise esteve um documento
que prevê a transferência de significativos volumes de água dos rios
<LOCAL TIPO="GEOGRAFICO">Douro</LOCAL> e <LOCAL
TIPO="GEOGRAFICO">Tejo</LOCAL> para a bacia hidrográfica do
rio <LOCAL TIPO="GEOGRAFICO">Jucar</LOCAL>.
Exemplo de Saída do Sistema:
<LOCAL TIPO="GEOGRAFICO">Plano hidrológico de Espanha</LOCAL> analisado em <LOCAL TIPO="ADMINISTRATIVO">Lisboa</LOCAL>. Terminou ontem no <LOCAL TIPO="ALARGADO">Laboratório Nacional</LOCAL> de <ORGANIZACAO TIPO="SUB">Engenharia Civil</ORGANIZACAO>, em <LOCAL TIPO="ADMINISTRATIVO">Lisboa</LOCAL>, o <ABSTRACCAO TIPO="PLANO">Encontro de Reflexão</ABSTRACCAO> sobre a concretização do <ABSTRACCAO TIPO="PLANO">Plano Hidrológico</ABSTRACCAO> espanhol. <ABSTRACCAO TIPO="DISCIPLINA">Em análise</ABSTRACCAO> esteve um documento que prevê a transferência de significativos volumes de água dos rios <LOCAL TIPO="GEOGRAFICO">Douro</LOCAL> e <LOCAL TIPO="GEOGRAFICO">Tejo</LOCAL> para a bacia hidrográfica do rio <ABSTRACCAO TIPO="PLANO">Jucar</ABSTRACCAO>.
Por uma questão de simplicidade na exposição dos conceitos envolvidos nas quatro medidas de avaliação semântica acima mencionadas omitimos situações em que a correspondência entre uma entidade identificada pelo sistema é considerada parcialmente correcta. No entanto, e para tornar o próximo exemplo mais real iremos considerar alinhamentos parciais, aos quais está associado um factor de correcção (semelhante ao caso da identificação) que influencia os cálculos das várias medidas. Especificamente referimo-nos aos seguintes casos:
-
<LOCAL TIPO="GEOGRAFICO">Plano hidrológico de Espanha</LOCAL>
-
<LOCAL TIPO="ALARGADO">Laboratório Nacional</LOCAL>
-
<ORGANIZACAO TIPO="SUB">Engenharia Civil</ORGANIZACAO>
Em qualquer destes casos a correspondência com a CD é parcial, logo a sua avaliação tem de ser condicionada por um factor de correcção que condiciona a contribuição desta entidade para a avaliação semântica global. O factor de correcção é dado pela fórmula:
(nc / nd)
Onde:
nc - nº de átomos comuns entre as duas EMs
nd - nº de átomos distintos entre as duas EMs
Isto significa que a contribuição da entidade <LOCAL TIPO="GEOGRAFICO">Plano hidrológico de Espanha</LOCAL> é de 0.25 (nc=1; nd=4) e não 1 para o somatório total de entidades correctas.
As etiquetas para o exemplo são classificadas semanticamente na tabela 11. Note-se que no caso das identificações parciais colocamos entre parênteses o correspondente factor de correcção.
| Caso | Saída do Sistema | Correcta | Em Falta | Espúria |
| 1 | <LOCAL TIPO="GEOGRAFICO">Plano hidrológico de Espanha</LOCAL> | LOCAL (0.25) | - | - |
| 2 | <LOCAL TIPO="ADMINISTRATIVO">Lisboa</LOCAL> | LOCAL | - | - |
| 3 | <LOCAL TIPO="ALARGADO">Laboratório Nacional</LOCAL> | LOCAL (0.4) | - | - |
| 4 | <ORGANIZACAO TIPO="SUB">Engenharia Civil</ORGANIZACAO> | - | * | ORGANIZACAO |
| 5 | <LOCAL TIPO="ADMINISTRATIVO">Lisboa</LOCAL> | LOCAL | - | - |
| 6 | <ABSTRACCAO TIPO="PLANO">Encontro de Reflexão</ABSTRACCAO> | - | ACONTECIMENTO | ABSTRACCAO |
| 7 | <ABSTRACCAO TIPO="PLANO">Plano Hidrológico</ABSTRACCAO> | ABSTRACCAO | - | - |
| 8 | <ABSTRACCAO TIPO="DISCIPLINA">Em análise</ABSTRACCAO> | - | - | ABSTRACCAO |
| 9 | <LOCAL TIPO="GEOGRAFICO"> Douro</LOCAL> | LOCAL | - | - |
| 10 | <LOCAL TIPO="GEOGRAFICO">Tejo</LOCAL> | LOCAL | - | - |
| 11 | <ABSTRACCAO TIPO= "PLANO">Jucar</ABSTRACCAO> | - | LOCAL | ABSTRACCAO |
| Total | - | 5,56 | 2 | 4 |
Tabela 11: Avaliação individuada na classificação semântica por categorias.
* Note-se que a entidade anterior do sistema alinha com a mesma entidade da CD, daí que, como é considerada correcta no alinhamento anterior, não podemos considerar a categoria LOCAL em falta.
Na tabela 12 apresentamos a classificação por tipos. De notar que os casos 4, 6, 8 e 11 não são classificados, porque não foram considerados 'correctos' na tabela 11.
| Caso | Saída do Sistema | Correcta | Em Falta | Espúria |
| 1 | <LOCAL TIPO="GEOGRAFICO">Plano hidrológico de Espanha</LOCAL> | - | ADMINISTRATIVO | GEOGRAFICO |
| 2 | <LOCAL TIPO="ADMINISTRATIVO">Lisboa</LOCAL> | ADMINISTRATIVO | - | - |
| 3 | <LOCAL TIPO="ALARGADO">Laboratório Nacional</LOCAL> | ALARGADO (0.4) | - | - |
| 5 | <LOCAL TIPO="ADMINISTRATIVO">Lisboa</LOCAL> | ADMINISTRATIVO | - | - |
| 7 | <ABSTRACCAO TIPO="PLANO">Plano Hidrológico</ABSTRACCAO> | PLANO | - | - |
| 9 | <LOCAL TIPO="GEOGRAFICO"> Douro</LOCAL> | GEOGRAFICO | - | - |
| 10 | <LOCAL TIPO="GEOGRAFICO">Tejo</LOCAL> | GEOGRAFICO | - | - |
| Total | - | 5,4 | 1 | 1 |
Tabela 12: Avaliação individuada na classificação semântica por tipos
* Note-se que o tipo ALARGADO já foi considerado correcto para a entidade anterior, portanto não pode ser considerado em falta para esta EM.
Na tabela 13 apresentamos o resultado da classificação combinada. Salientamos que os casos 1 e 3 são multiplicados pelo factor de correcção, respectivamente, 0,25 e 0,4.
| Caso | Classificação |
| 1 | 1 + 0 * (1 - 1 / 5) * 0.25 = 0.25 |
| 2 | 1 + 1 * (1 - 1 / 5) = 1.8 |
| 3 | 1 + 1 * (1 - 1 / 5) * 0.4 = 0.72 |
| 4 | 0.0 |
| 5 | 1 + 1 * (1 - 1 / 5) = 1.8 |
| 6 | 0.0 |
| 7 | 1 + 1 * (1 - 1 / 8) = 1.875 |
| 8 | 0.0 |
| 9 | 1 + 1 * (1 - 1 / 5) = 1.8 |
| 10 | 1 + 1 * (1 - 1 / 5) = 1.8 |
| 11 | 0.0 |
| Total | 10.045 |
Tabela 13: Avaliação individuada para a classificação semântica combinada.
Na tabela 14 apresentamos o resultado da classificação plana. Salientamos que o caso 1 e 3 são multiplicados pelo factor de correcção, 0.25 e 0.4, respectivamente.
| Caso | Saída do Sistema | Correcta | Em Falta | Espúria |
| 1 | <LOCAL TIPO="GEOGRAFICO">Plano hidrológico de Espanha</LOCAL> | - | (LOCAL, ADMINISTRATIVO) | (LOCAL,GEOGRAFICO) |
| 2 | <LOCAL TIPO="ADMINISTRATIVO">Lisboa</LOCAL> | (LOCAL, ADMINISTRATIVO) | - | - |
| 3 | <LOCAL TIPO="ALARGADO">Laboratório Nacional</LOCAL> | (LOCAL, ALARGADO) (0.4) | - | - |
| 4 | <ORGANIZACAO TIPO="SUB">Engenharia Civil</ORGANIZACAO> | - | * | (ORGANIZACAO,SUB) |
| 5 | <LOCAL TIPO="ADMINISTRATIVO">Lisboa</LOCAL> | (LOCAL, ADMINISTRATIVO) | - | - |
| 6 | <ABSTRACCAO TIPO="PLANO">Encontro de Reflexão</ABSTRACCAO> | - | (ACONTECIMENTO, EVENTO) | (ABSTRACCAO,PLANO) |
| 7 | <ABSTRACCAO TIPO="PLANO">Plano Hidrológico</ABSTRACCAO> | (ABSTRACCAO,PLANO) | - | - |
| 8 | <ABSTRACCAO TIPO="DISCIPLINA">Em análise</ABSTRACCAO> | - | - | (ABSTRACCAO, DISCIPLINA) |
| 9 | <LOCAL TIPO="GEOGRAFICO"> Douro</LOCAL> | (LOCAL,GEOGRAFICO) | - | - |
| 10 | <LOCAL TIPO="GEOGRAFICO">Tejo</LOCAL> | (LOCAL, GEOGRAFICO) | - | - |
| 11 | <ABSTRACCAO TIPO= "PLANO">Jucar</ABSTRACCAO> | - | (LOCAL, GEOGRAFICO) | (ABSTRACCAO, PLANO) |
| Total | - | 5,4 | 3 | 5 |
Tabela 14: Avaliação individuada para a classificação semântica plana.
As tabelas 15, 16, 17 e 18 dão as medidas para a classificação semântica, por categorias, por tipos, combinada e plana, respectivamente.
| Medida | Valor |
| Precisão | 5,65 / 11 = 51,36% |
| Abrangência | 5,65 / 9 = 62,77% |
| Medida F | (2 * 0,5136 * 0,6277) / (0,5136 + 0,6277) = 0,565 |
| Sobre-geração | 4 / 11 = 36,36% |
| Sub-geração | 2 / 9 = 22,2% |
Tabela 15: Avaliação Global em relação à tarefa de classificação semântica por categorias.
| Medida | Valor |
| Precisão | 5,4 / 7 = 77,14% |
| Abrangência | 5,4 / 7 = 77,14% |
| Medida F | 2*0,7714*0,7714/(0,7714+0,7714) = 0,7714 |
| Sobre-geração | 1 / 7 = 14,28% |
| Sub-geração | 1 / 7 = 14,28% |
Tabela 16: Avaliação Global em relação à tarefa de classificação semântica por tipos.
| Medida | Valor |
Precisão Máxima do sistema * | 10,045 / 20,05 = 50,1% |
Abrangência Máxima na CD ** | 10,045 / 16,14 = 62,23% |
| Medida F | (2*0,501*0,6223)/(0,501+0,6223) = 0,555 |
Tabela 17: Avaliação Global em relação à tarefa de classificação semântica combinada.
* Note-se que denominador do cálculo da precisão corresponde ao somatório do cálculo da classificação semântica combinada assumindo que as classificações atribuídas pelo sistema estão totalmente correctas. Para melhor perceber este conceito imagine que as categorias da tabela 11 e os tipos (agora com os restantes casos 4,6,8 e 11 ) da tabela 12 estivessem a ser sempre considerados correctos.
** Analogamente, o denominador do cálculo da abrangência utiliza a mesma fórmula para calcular o somatório das classificações combinadas para cada uma das entidades na CD.
| Medida | Valor |
| Precisão | 5,4 / 11 = 49,1% |
| Abrangência | 5,4 / 9 = 60,0% |
| Medida F | (2*0,491*0,600)/(0,491+0,600) = 0,55 |
| Sobre-geração | 5 / 11 = 45,45% |
| Sob-geração | 3 / 9 = 33,33% |
Tabela 18: Avaliação Global em relação à tarefa de classificação plana.
4 Tarefa de classificação morfológica
A
avaliação da tarefa de classificação morfológica tem por objectivo
medir a aptidão do sistema em definir qual o género e o número das EMs
identificadas, em comparação com as respectivas classificações
morfológicas feitas manualmente na CD.
Os relatórios da classificação morfológica terão em conta quatro cenários:
- Total - Considerando TODAS as etiquetas classificadas morfologicamente na CD.
- Absoluto - Considerando todas as etiquetas, incluindo as que não foram identificadas como correctas ou parcialmente correctas.
- Relativo - Considerando apenas as etiquetas identificadas como correctas ou parcialmente correctas.
- Selectivo - Considerando apenas as etiquetas que o participante se propõe classificar morfologicamente.
- Absoluto - Considerando todas as etiquetas, incluindo as que não foram identificadas como correctas ou parcialmente correctas.
- Relativo - Considerando apenas as etiquetas identificadas como correctas ou parcialmente correctas.
A avaliação morfológica é apenas feita sobre as EMs que também foram
classificadas morfologicamente na CD. As classificações morfológicas
feitas a EMs que não estão classificadas na CD (como por exemplo as EMs
de categoria TEMPO) são simplesmente ignoradas
no processamento subsequente.
Os cenários Absoluto e Relativo implicam a alteração da pontuação da
classificação morfológica à EM em certos casos, como no caso 10 da
tabela 19. Tal facto deve-se ao facto de, no cenário Absoluto, poder
haver classificações morfológicas de EMs que são espúrias na tarefa de
identificação, e como tal, também serão consideradas espúrias. No
cenário Relativo, tal não acontece, pois tais EMs são ignoradas.
Quando uma EM foi imperfeitamente reconhecida (ou seja, foi
classificada na tarefa de identificação como parcialmente correcta),
apenas contámos os casos em que essa identificação parcial concordava
na primeira palavra da EM, multiplicado por um peso de 0.5 as EMs que
estão morfologicamente correctas.
A pontuação resultante da avaliação será feita para o género, para o
número, e numa combinação dos dois resultados. A pontuação segue as
regras ilustradas na tabela 19. No fim, calculamos as medidas descritas
na secção 5.
Nas tabela seguinte, há que considerar que os exemplos são relativos a
etiquetas que o participante queria classificar (modo Selectivo), ou
então a todas as etiquetas da CD (modo Total), e considerando
identificações correctas.
| Caso | MORF CD | MORF sistema | Pontuação Género | Pontuação Número | Pontação Combinada |
| 1 | M,S | M,S | Correcto | Correcto | Correcto |
| 2 | M,S | F,S | Incorrecto | Correcto | Incorrecto |
| 3 | M,S | M,P | Correcto | Incorrecto | Incorrecto |
| 4 | M,S | F,P | Incorrecto | Incorrecto | Incorrecto |
| 5 | M,S | ?,S | Em Falta | Correcto | Em Falta |
| 6 | ?,S | M,S | Sobreespecificado | Correcto | Incorrecto |
| 7 | ?,S | ?,S | Correcto | Correcto | Correcto |
| 8 | M,S | Não submetido | Em Falta | Em Falta | Em Falta |
| 9 | sem identificação | Não submetido | Ignorado | Ignorado | Ignorado |
| 10 | sem identificação | Submetido, sem ter '?' | Ignorado (Cenário Relativo) Espúrio (Cenário Absoluto) | Ignorado (Cenário Relativo) Espúrio (Cenário Absoluto) | Ignorado (Cenário Relativo) Espúrio (Cenário Absoluto) |
Tabela 19: Avaliação individuada da classificação morfológica
Se considerarmos um cenário relativo (ou seja, só considerando
as EMs com pontuação maior que 0 na tarefa de Identificação) e os 10
exemplos da tabela 19 como um exemplo de saída do sistema participante
(note-se que os casos 9 e 10 serão ignorados e não contabilizados), a
avaliação global produziria os seguintes resultados, resumidos na
tabela 20:
| Cenário Relativo |
| Medida | Género | Número | Combinado |
| Precisão | 3/7 = 42,8% | 5/7 = 71,4% | 2/7 = 28,3% |
| Abrangência | 3/8 = 37,5% | 5/8 = 62,5% | 2/8 = 25,0% |
| Medida F | 2*0,428*0,375/(0,428+0,375)=0,40 | 2*0,714*0,625/(0,714+0,625)=0,666 | 2*0,283*0,25/(0,283+0,25)=0,266 |
| Sobre-especificação | 1/7 = 14,3% | 0/7 = 0% | - |
| Sub-geração | 2/8 = 25,0% | 1/8 = 12,5% | - |
| Cenário Absoluto |
| Precisão | 3/8 = 37,5% | 5/8 = 62,5% | 2/8 = 25,0% |
| Abrangência | 3/8 = 37,5% | 5/8 = 62,5% | 2/8 = 25,0% |
| Medida F | 2*0,375*0,375/(0,375+0,375)=0,375 | 2*0,625*0,625/(0,625+0,625)=0,625 | 2*0,25*0,25/(0,25+0,25)=0,25 |
| Sobre-especificação | 1/8 = 12,5% | 0/8 = 0% | - |
| Sub-geração | 2/8 = 25,0% | 1/8 = 12,5% | - |
Tabela 20: Avaliação Global da classificação morfológica
Apresentamos
aqui as medidas que serão utilizadas nos diversos cenários, para
resumir o desempenho dos sistemas, especificando a sua forma exacta
para cada tarefa. Notamos que, quando a CD contém EMs com alternativas
<ALT>, será usada a alternativa que maximiza a pontuação do
sistema em cada caso.
A precisão é uma medida da qualidade da resposta do sistema, e mede
a proporção de respostas correctas em todas as respostas fornecidas
pelo sistema.
Na tarefa de identificação a precisão mede o teor de EMs correctas e
parcialmente correctas em todas as EMs identificadas pelo sistema. EMs
pontuadas como parcialmente correctas são multiplicadas pelo respectivo
factor, ou seja, 0,5 * nc / nd (apresentado e motivado na secção 2.1).
Precisãoidentificação = (Nº de EMs correctas + X) / Nº de EMs identificadas pelo sistema
Em que X é o somatório dos valores obtidos para cada EM parcialmente identificada.
Na tarefa de classificação morfológica, a precisão mede o teor de
classificações em género/número correctas, de todas as produzidas pelo
sistema (que tenham classificação morfológica na CD). Ou seja,
excluindo sempre os casos em que a EM da CD não se encontra marcada
morfologicamente.
Calcula-se a precisão para o género morfológico, para o número morfológico, e para a combinação de ambas as categorias.
Há dois cenários de avaliação: independente da
identificação (absoluto), ou relativo, apenas para os casos em que a
identificação resultou, ou seja, apenas contando o subconjunto de EMs
classificadas pelo sistema que correspondam a EMs na CD.
Absoluto: Precisãogénero = (Nº de EMs identificadas
correctamente e com género correcto + 0,5 * Nº de EMs identificadas
parcialmente correctamente e com género correcto) / (Total de EMs com
classificações de género produzidas pelo sistema)
Relativo: Precisãogénero = (Nº de EMs identificadas
correctamente e com género correcto + 0,5 * Nº de EMs identificadas
parcialmente correctamente e com género correcto) / (Total de EMs com
classificações de género produzidas pelo sistema em EMs identificadas
correctamente ou parcialmente)
Absoluto: Precisãonúmero = (Nº de EMs identificadas
correctamente e com número correcto + 0,5 * Nº de EMs identificadas
parcialmente correctamente e com número correcto) / (Total de EMs com
classificações de número produzidas pelo sistema)
Relativo: Precisãonúmero = (Nº de EMs identificadas
correctamente e com número correcto + 0,5 * Nº de EMs identificadas
parcialmente correctamente e com número correcto) / (Total de EMs com
classificações de número produzidas pelo sistema em EMs identificadas
correctamente ou parcialmente)
Absoluto: Precisãocombinada = (Nº de EMs
identificadas correctamente e com género e número correcto + 0,5 * Nº
de EMs identificadas parcialmente correctamente e com género e número
correcto) / (Total de EMs com classificações de número e género
produzidas pelo sistema)
Relativo: Precisãocombinada = (Nº de EMs
identificadas correctamente e com género e número correcto + 0,5 * Nº
de EMs identificadas parcialmente correctamente e com género e número
correcto) / (Total de EMs com classificações de número e género
produzidas pelo sistema em EMs identificadas correctamente ou
parcialmente)
Definimos quatro formas de avaliar a classificação semântica:
- categorias
- só conta a correcção na atribuição das categorias
- tipos
- mede a capacidade de discriminação dentro de categorias (por tipos)
- CSC (combinada)
- entra em conta com categorias e com tipos, pontuando estes últimos de acordo com a sua entropia
- plana
- só conta como correcta a atribuição de categoria e tipo correctos
Tal como para a classificação morfológica, existem dois cenários:
relativo (às EMs correctamente identificadas) e absoluto (para todas as
EMs).
Para cada uma destas formas, a precisão é dada pela fórmula:
Absoluto: Precisãocategorias = (Nº de EMs correctamente identificadas e com categoria correcta + Y ) / Nº de EMs classificadas pelo sistema
Relativo: Precisãocategorias
= (Nº de EMs correctamente identificadas e com categoria correcta + Y )
/ Nº de EMs parcial ou correctamente identificadas classificadas pelo
sistema
Em que Y é o somatório dos valores obtidos para cada EM parcialmente
identificada e com categoria correcta, dados pela fórmula (nc / nd).
A classificação por tipos é, por definição, sempre relativa:
Relativo: Precisãotipos
= (Nº de EMs correctamente identificadas e com categoria e tipo
correctos + Z ) / Nº de EMs correctamente ou parcialmente identificadas
e correctamente classificadas em categoria
Em que Z é o somatório dos valores obtidos para cada EM parcialmente
identificada e com categoria e tipo correctos, dados pela fórmula (nc /
nd).
Para a classificação semântica combinada, a precisão mede o grau de
sucesso de acordo com a classificação máxima (calculada assumindo que
todas as categorias e tipos propostos pelo sistema estiverem correctos):
Absoluto: PrecisãoCSC = Valor da medida semântica combinada obtida pelo sistema / Valor máximo da medida semântica combinada para a saída do sistema
Relativo: PrecisãoCSC
= Valor da medida semântica combinada obtida pelo sistema / Valor
máximo da medida semântica combinada para a saída do sistema só
considerando EMs parcial ou correctamente identificadas
Absoluto: Precisãoplana = (Nº de EMs correctamente identificadas e com categoria e tipo correctos + Z ) / Nº de EMs classificadas pelo sistema
Relativo: Precisãoplana
= (Nº de EMs correctamente identificadas e com categoria e tipo
correctos + Z ) / Nº de EMs parcial ou correctamente identificadas e
classificadas pelo sistema
Em que Z é o somatório dos valores obtidos para cada EM parcialmente
identificada e com categoria e tipo correctos, dados pela fórmula (nc /
nd).
A abrangência mede a percentagem de soluções (neste caso, contidas na colecção dourada, CD) que o sistema conseguiu recuperar.
A abrangência na tarefa de identificação mede o teor de EMs da colecção dourada que conseguiu identificar.
Abrangênciaidentificação = (Nº de EMs correctas + X) / Total de EMs na Colecção Dourada
Onde X é o somatório dos valores obtidos multiplicando cada EM parcialmente identificada pelo factor (0,5 * nc / nd).
Na tarefa de classificação morfológica, a abrangência mede o teor de
classificações em género/número que se encontram na colecção dourada em
que o sistema conseguiu acertar.
Tal como para a precisão, mede-se a abrangência no género morfológico, no número morfológico, e na combinação de ambos.
No cenário relativo, restringe-se o denominador às EMs da CD que foram parcial ou correctamente identificadas pelo sistema.
Absoluto: Abrangênciagénero = (Nº de EMS
correctamente identificadas com classificações de género correctas +
0,5 * Nº de EMs identificadas parcialmente correctamente com
classificações de género correctas) / (Nº de EMs com classificações de
género na CD)
Relativo: Abrangênciagénero =
(Nº de EMS correctamente identificadas com classificações de género
correctas + 0,5 * Nº de EMs identificadas parcialmente correctamente
com classificações de género correctas) / (Nº de EMS parcial ou
correctamente identificadas com classificações de género na CD)
Absoluto: Abrangêncianúmero = (Nº de EMS
correctamente identificadas com classificações de número correctas +
0,5 * Nº de EMs identificadas parcialmente correctamente com
classificações de número correctas) / (Nº de EMs com classificações de
número na CD)
Relativo: Abrangêncianúmero =
(Nº de EMS correctamente identificadas com classificações de número
correctas + 0,5 * Nº de EMs identificadas parcialmente correctamente
com classificações de número correctas) / (Nº de EMS parcial ou
correctamente identificadas com classificações de número na CD)
Absoluto: Abrangênciacombinada = (Nº de EMS
correctamente identificadas com classificações de número e género
correctas + 0,5 * Nº de EMs identificadas parcialmente correctamente
com classificações de número e género correctas) / (Nº de EMs com
classificação morfológica na CD)
Relativo: Abrangênciacombinada
= (Nº de EMS correctamente identificadas com classificações de número e
género correctas + 0,5 * Nº de EMs identificadas parcialmente
correctamente com classificações de número e género correctas) / (Nº de
EMS parcial ou correctamente identificadas com com classificação
morfológica na CD)
Note-se que os denominadores nos três casos (género, número e
combinada), embora formulados de maneira diferente, são exactamente
iguais.
Também se define a abrangência de forma diferente para cada uma das
quatro formas, e de forma diferente para os cenários absoluto e
relativo.
Absoluto: Abrangênciacategorias = (Nº de EMs correctamente identificadas e com categoria correcta + Y ) / Nº de EMs classificadas na Colecção Dourada
Relativo: Abrangênciacategorias
= (Nº de EMs correctamente identificadas e com categoria correcta + Y )
/ Nº de EMs partial ou correctamente identificadas e classificadas na
Colecção Dourada
Em que Y é o somatório dos valores obtidos para cada EM parcialmente
identificada e com categoria correcta, dados pela fórmula (nc / nd).
Abrangênciatipos = (Nº de EMs correctamente
identificadas e com categoria e tipo correctos + Z ) / Nº de EMs
correctamente classificadas em categoria na Colecção Dourada
Em que Z é o somatório dos valores obtidos para cada EM parcialmente
identificada e com categoria e tipo correctos, dados pela fórmula (nc /
nd).
Na avaliação da classificação semântica combinada, a abrangência
mede o nível de cobertura de acordo com a classificação máxima (se
tanto as categorias como os tipos enviados estiverem correctos). Mais
uma vez, no cenário absoluto usam-se todas as EMs na CD, e no relativo
apenas o subconjunto parcial ou correctamente identificado.
Absoluto: AbrangênciaCSC = Valor da medida semântica combinada obtida pelo sistema / Valor máximo da medida semântica combinada na CD
Relativo: AbrangênciaCSC
= Valor da medida semântica combinada obtida pelo sistema / Valor
máximo da medida semântica combinada na CD usando apenas as EMs
correctamente identificadas
Absoluto: Abrangênciaplana = (Nº de EMs correctamente identificadas e com categoria e tipo correctos + Z ) / Nº de EMs na CD
Relativo: Abrangênciaplana
= (Nº de EMs correctamente identificadas e com categoria e tipo
correctos + Z ) / Nº de EMs parcial ou correctamente identificadas na CD
Em que Z é o somatório dos valores obtidos para cada EM parcialmente
identificada e com categoria e tipo correctos, dados pela fórmula (nc /
nd).
A medida F combina as medidas de precisão e de abrangência para cada tarefa, de acordo com a seguinte fórmula:
Medida-F = (2 * Precisão * Abrangência) / (Precisão + Abrangência)
A sobre-geração mede o excesso de resultados espúrios que um sistema produz, ou seja, quantas vezes produz resultados errados.
A sobre-geração, na tarefa de identificação, mede quantas EMs identificadas pelo sistema não existem na Colecção Dourada.
Sobre-geraçãoidentificação = Nº de EMs espúrias / Nº de EMs identificadas pelo sistema
Relembramos que não se considera, para efeitos de avaliação,
espúrios morfológicos (ou seja, só contam para avaliação os casos que
também contêm classificação morfológica na CD). Assim, só no cenário
absoluto é que há medida de sobre-geração, uma vez que num cenário
relativo, não existem EMs com morfologia identificadas como espúrias,
sendo portanto o valor desta medida sempre 0.
Sobre-geraçãogénero = (Nº de EMs com classificações
em género espúrias) / (Nº de EMS com classificações em género
produzidas pelo sistema e que tenham tb classificação morfológica na CD)
Sobre-geraçãonúmero = (Nº de EMs com classificações
em número espúrias) / (Nº de EMS com classificações de número
produzidas pelo sistema e que tenham tb classificação morfológica na CD)
Sobre-geraçãocombinada = (Nº de EMs com
classificações em número ou género espúrias) / (Nº de EMS com
classificações de número ou género produzidas pelo sistema e que tenham
tb classificação morfológica na CD)
Para a tarefa de classificação morfológica, consideramos também a medida de sobre-especificação,
que mede a percentagem dos casos sobre-especificados em todos os casos
analisados pelo sistema. Por sobre-especificado entendemos os casos em
que na CD está "?" e o sistema escolheu um determinado valor concreto.
Absoluto: Sobre-especificaçãogénero = (Nº de EMs
com classificações de género sobre-especificadas em EMs identificadas
correctamente + 0,5 * Nº de EMs com classificações em género
sobre-especificadas em EMs identificadas parcialmente correctamente) /
(Nº de EMs com classificações de género produzidas pelo sistema)
Relativo: Sobre-especificaçãogénero
= (Nº de EMs com classificações de género sobre-especificadas em EMs
identificadas correctamente + 0,5 * Nº de EMs com classificações em
género sobre-especificadas em EMs identificadas parcialmente
correctamente) / (Nº de EMs com classificações de género produzidas
pelo sistema em EMs identificadas parcial ou correctamente)
Absoluto: Sobre-especificaçãonúmero = (Nº de EMs
com classificações de número sobre-especificadas em EMs identificadas
correctamente + 0,5 * Nº de EMs com classificações em número
sobre-especificadas em EMs identificadas parcialmente correctamente) /
(Nº de EMs com classificações de número produzidas pelo sistema)
Relativo: Sobre-especificaçãonúmero
= (Nº de EMs com classificações de número sobre-especificadas em EMs
identificadas correctamente + 0,5 * Nº de EMs com classificações em
número sobre-especificadas em EMs identificadas parcialmente
correctamente) / (Nº de EMs com classificações de número produzidas
pelo sistema em EMs identificadas parcial ou correctamente)
Absoluto: Sobre-especificaçãocombinada = (Nº de EMs
com classificações de número ou género sobre-especificadas em EMs
identificadas correctamente + 0,5 * Nº de EMs com classificações em
número ou género sobre-especificadas em EMs identificadas parcialmente
correctamente) / (Nº de EMs com classificações morfológicas produzidas
pelo sistema)
Relativo: Sobre-especificaçãocombinada
= (Nº de EMs com classificações de número ou género sobre-especificadas
em EMs identificadas correctamente + 0,5 * Nº de EMs com classificações
em número ou género sobre-especificadas em EMs identificadas
parcialmente correctamente) / (Nº de EMs com classificações
morfológicas produzidas pelo sistema em EMs identificadas parcial ou
correctamente)
A sobregeração na classificação semântica mede o número de EMs com
uma classificação semântica espúria, em comparação com a colecção
dourada. Damos a sobre-geração para as quatro medidas acima
mencionadas, para os cenários absoluto e relativo.
Absoluto: Sobre-geraçãocategorias = (Nº de EMs com classificação semântica espúria na categoria / Nº de EMs classificadas com categoria pelo sistema)
Relativo: Sobre-geraçãocategorias
= (Nº de EMs parcial ou correctamente identificadas com classificação
semântica espúria na categoria / Nº de EMs parcial ou correctamente
identificadas classificadas com categoria pelo sistema)
Relativo: Sobre-geraçãotipos = (Nº de EMs com
classificação semântica espúria no tipo / Nº de EMs parcial ou
correctamente identificadas classificadas com categoria e tipo pelo
sistema )
Absoluto: Sobre-geraçãoplana = (Nº de EMs com
classificação semântica espúria na categoria ou no tipo/ Nº de EMs
classificadas com categoria e tipo pelo sistema)
Relativo: Sobre-geraçãoplana
= (Nº de EMs correctamente identificadas com classificação semântica
espúria na categoria ou no tipo + W)/ Nº de EMs parcial ou
correctamente identificadas classificadas com categoria e tipo pelo
sistema)
Em que W é o somatório dos valores obtidos para cada EM parcialmente
identificada e com classificação semântica espúria na categoria ou no
tipo, dados pela fórmula (nc / nd).
A sub-geração é uma medida de quanto faltou ao sistema analisar, dada a solução conhecida (a colecção dourada, no nosso caso).
A sub-geração, na tarefa de identificação, mede o teor de EMs que
existem na colecção dourada, que não foram identificadas pelo sistema.
Sub-geraçãoidentificação = (Nº de EMsem falta / Nº de EMs na colecção dourada)
Na tarefa de classificação morfológica, a subgeração mede o número
de classificações em falta comparadas com a informação morfológica na
CD. Classificações em falta incluem tanto casos em que nenhuma
classificação foi dada, como casos em que o sistema pôs ? para a
classificação do género ou número enquanto na CD existe um valor mais
específico.
Como anteriormente, apresentamos separadamente as fórmulas para o cenário absoluto e relativo.
Absoluto: Sub-geraçãogénero = (Nº de EMs com classificações em género em falta /Nº de classificações em género na colecção dourada)
Relativo: Sub-geraçãogénero
= (Nº de EMs parcial ou correctamente identificadas com classificações
em género em falta /Nº de EMs parcial ou correctamente identificadas
com classificações em género na colecção dourada)
Absoluto: Sub-geraçãonúmero = (Nº de EMs com classificações em número em falta /Nº de classificações em número na colecção dourada)
Relativo: Sub-geraçãonúmero
= (Nº de EMs parcial ou correctamente identificadas com classificações
em número em falta /Nº de EMs parcial ou correctamente identificadas
com classificações em número na colecção dourada)
Absoluto: Sub-geraçãocombinada = (Nº de EMs com classificações em género ou número em falta /Nº de classificações morfológicas na colecção dourada)
Relativo: Sub-geraçãocombinada
= (Nº de EMs parcial ou correctamente identificadas com classificações
em género em falta /Nº de EMs parcial ou correctamente identificadas
com classificações morfológicas na colecção dourada)
A sub-geração na classificação semântica mede as classificações semânticas em falta.
Absoluto: Sub-geraçãocategorias = (Nº de EMs com classificação semântica em falta na categoria / Nº de EMs com categoria na Colecção Dourada)
Relativo: Sub-geraçãocategorias
= (Nº de EMs correctamente identificadas com classificação semântica em
falta na categoria + R)/ Nº de EMs parcial ou correctamente
identificads com categoria na Colecção Dourada)
Em que R é o somatório dos valores obtidos para cada EM parcialmente
identificada e com classificação semântica em falta na categoria, dados
pela fórmula (nc / nd).
Relativo: Sub-geraçãotipos = (Nº de EMs
correctamente identificadas com classificação semântica em falta no
tipo + S)/ Nº de EMs parcial ou correctamente identificadas com tipo na
Colecção Dourada)
Em que S é o somatório dos valores obtidos para cada EM parcialmente
identificada e com classificação semântica em falta no tipo, dados pela
fórmula (nc / nd).
to: Sub-geraçãoplana = (Nº de EMs com classificação semântica em falta na categoria ou no tipo/ Nº de EMs com categoria na Colecção Dourada)
Relativo: Sub-geraçãoplana
= (Nº de EMs correctamente identificadas com classificação semântica em
falta na categoria ou no tipo + T)/ Nº de EMs parcial ou correctamente
identificads com categoria e tipo na Colecção Dourada
Em que T é o somatório dos valores obtidos para cada EM parcialmente
identificada e com classificação semântica em falta na categoria ou no
tipo, dados pela fórmula (nc / nd).
6 Relatórios de Avaliação
6.1 Relatórios individuais
Estes relatórios dizem respeito a cada resultado submetido pelo participante, e avalia o desempenho desse sistema em particular.
6.1.1 Tarefa de IDENTIFICAÇÃO
É avaliada em dois cenários diferentes:
- Total - relativo a todas as EMs da Colecção Dourada, mesmo as EMs que o sistema não se propôs tentar identificar
- Selectivo - relativo às EMs da Colecção Dourada que o sistema se propôs tentar identificar.
Para cada cenário, são fornecidos os seguintes relatórios:
- Identificação global - Dá as estatísticas sobre todas as EMs identificadas, para todos os textos.
- Identificação discriminada por género textual - Dá as
estatísticas sobre todas as EMs identificadas, discriminadas por género
de texto.
- Identificação discriminada por variante - Dá as estatísticas
sobre todas as EMs identificadas, discriminadas pela variante do texto.
- Identificação discriminada por categoria - Fornece
estatísticas sobre todas as EMs identificadas, discriminadas pela
categoria semântica a que se referem.
6.1.2 Tarefa de CLASSIFICAÇÃO MORFOLÓGICA
É avaliada de quatro formas diferentes:
- Classificação morfológica Total Absoluta - referente a todas as EMs
classificadas morfologicamente na CD, para todos os textos, mesmo as
EMs que o sistema não se propôs tentar classificar.
- Classificação morfológica Selectiva Absoluta - relativo a
todas as EMs classificadas morfologicamente, para todos os textos, nas
categorias que o sistema se propôs tentar classificar.
- Classificação morfológica Total Relativa - relativo a todas
as EMs classificadas morfologicamente, para todos os textos, que foram
identificadas como correctas ou parcialmente correctas pela tarefa de
identificação.
- Classificação morfológica Selectiva Relativa - relativo a
todas as EMs classificadas morfologicamente, para todos os textos, que
foram identificadas como correctas ou parcialmente correctas pela
tarefa de identificação, nas categorias que o sistema se propôs tentar
classificar.
Para cada cenário, são dadas as seguintes estatísticas:
- Classificação morfológica global - dá as estatísticas sobre as EM classificadas morfologicamente, para todos os textos.
- Classificação morfológica discriminada por género textual - dá
as estatísticas sobre as EM classificadas morfologicamente,
discriminadas por género.
- Classificação morfológica discriminada por variante - dá as
estatísticas sobre as EM classificadas morfologicamente, discriminadas
pela variante do texto.
- Classificação morfológica discriminada por categoria - dá as
estatísticas sobre as EM classificadas morfologicamente, discriminadas
pela categoria semântica a que se referem.
6.1.3 Tarefa de CLASSIFICAÇÃO SEMÂNTICA
É avaliada de quatro formas diferentes, tal como a classificação morfológica, separando
absoluto vs. relativo e total vs. selectivo:
- Classificação semântica Total Absoluta - relativo a todas as EMs
classificadas na CD, para todos os textos, mesmo as EMs que o sistema
não se propôs tentar classificar.
- Classificação semântica Selectiva Absoluta - relativo a todas
as EMs classificadas na CD, para todos os textos, nas categorias que o
sistema se propôs tentar classificar.
- Classificação semântica Total Relativa - relativo a todas as
EMs classificadas na CD, para todos os textos, que foram identificadas
como correctas ou parcialmente correctas pela tarefa de identificação.
- Classificação semântica Selectiva Relativa - relativo a todas
as EMs classificadas na CD, para todos os textos, que foram
identificadas como correctas ou parcialmente correctas pela tarefa de
identificação, nas categorias que o sistema se propôs tentar
classificar.
Para cada relatório, são dadas as seguintes estatísticas:
- Classificação semântica global - dá as estatísticas sobre as EM classificadas, para todos os textos.
- Classificação semântica discriminada por género textual - dá
as estatísticas sobre as EM classificadas, discriminadas por género do
texto.
- Classificação semântica discriminada por variante - dá as
estatísticas sobre as EM classificadas, discriminadas pela variante do
texto.
- Classificação semântica discriminada por categoria - dá as
estatísticas sobre as EM classificadas, discriminadas pela categoria
semântica a que se referem.
6.2 Relatórios comparativos
Estes relatórios comparativos
contêm os resultados de todos os sistemas participantes, de maneira a
fornecer uma panorâmica geral dos sistemas de REM para o português.
Os relatórios descritos na subsecção anterior serão repetidos,
juntando os valores de todos os sistemas, anonimizados, de maneira a
dar um panorama geral do desempenho dos sistemas no HAREM.
Autores: Nuno Cardoso, Diana Santos & Nuno Seco