Proposta de avaliação

DIP - Desafio de identificação de personagens
Propomos para cada uma das cinco tarefas uma medida separada. A pontuação total será uma média (eventualmente ponderada) das cinco medidas. Para concretizar a apresentação das medidas, vamos imaginar que um sistema fictício produz o seguinte resultado, em relação ao Dom Casmurro. Sobre as personagens:
139,1,Sr. Bentinho,M,escravo|advogado
139,2,Capitu,M,
139,3,Dom Casmurro,M,advogado
139,4,Sancha|D. Sancha|Sanchinha,F,
139,5,Padre Cabral,M,padre|agregado
139,6,Dona Fortunata|Tartaruga,F,funcionário de repartição pública
139,7,Tijuca,F,lavradora
139,8,Prima Glória|Mana Glória,F,
139,9,Thomaz,M,
E sobre as relações familiares entre elas:
139,2,mulher,3
139,8,irmã,6
139,6,mãe,2
Para facilidade de comparação, indicamos aqui o que temos na coleção dourada também:
139,0,Doutor João da Costa|João da Costa,M,médico
139,1,Cosme|Mano Cosme|Primo Cosme|Tio Cosme,M,advogado
139,2,Ezequiel A. de Santiago,M,
139,3,D. Glória|Dona Glória|D. Maria da Glória Fernandes Santiago|Prima Glória|Mana Glória,F,
139,4,Pedro de Albuquerque Santiago,M,fazendeiro|deputado
139,5,Sancha|Sanchinha|D. Sancha|Sinhazinha Sancha,F,
139,6,Justina|Prima Justina|D. Justina,F,
139,7,Padre Cabral|Cabral,M,padre
139,8,Pádua|João|Sr. Pádua|Joãozinho|Tartaruga,M,funcionário de repartição pública
139,9,Dona Fortunata,F, 
139,10,Bento|Padre Bentinho|Sr. Bentinho|Doutor Santiago|Dom Casmurro,M,advogado
139,11,Escobar|Ezequiel de Sousa Escobar,M,investidor em café
139,12,José Dias|Sr. José Dias,M,médico|agregado
139,13,Capitu|Capitolina,F,
139,14,Capituzinha,F,
139,15,Joana,F,escrava
139,11,Escobar|Ezequiel de Sousa Escobar,M,investidor em café
139,12,José Dias|Sr. José Dias,M,médico|agregado
139,13,Capitu|Capitolina,F,
139,14,Capituzinha,F,
139,15,Joana,F,escrava
139,16,Miquelina,F,escrava
139,17,Maria Gorda,F,escrava
139,18,Thomaz,M,escravo
139,19,João Fulo,M,escravo
139,20,Pai João,M,escravo
139,21,Pedro Benguella,M,escravo
139,22,António Moçambique,M,escravo
139,23,José,M,escravo
139,24,Damião,M,escravo
139,25,Gurgel,M,
139,26,Manduca,M,
139,27,D. Pedro II,M,imperador do Brasil
e as relações
139,10,marido,13
139,13,mãe,2
139,3,mãe,10
139,3,viúva,4
139,9,mãe,13
139,9,mulher,8
139,25,pai,5
139,14,filha,5
139,14,filha,11
139,1,irmão,3
139,6,prima,3
139,4,pai,10
139,4,marido,3
139,5,mulher,11

Avaliação da identificação (AI)

Para cada obra, existe um número total de formas de referir personagens, a que chamamos abreviadamente "nomes". Propomos medir a qualidade de um sistema pelo número de formas ou nomes que também identificou, e penalizá-lo pelas formas que sugeriu e que não se referem a personagens da obra.

A forma tradicional de fazer isso é usar a medida-F, a média harmónica da precisão (P) e da abrangência (A):

P=num. formas corretamente identificadas/num. formas identificadas pelo sistema

A=num. formas corretamente identificadas/num. formas certas

AI=2*P*A/(P+A)

Como no Dom Casmurro existem no total 53 formas diferentes de identificar personagens, e o sistema "acertou" nos seguintes 12 nomes de personagens:

  
  Capitu
  D. Sancha
  Dom Casmurro
  Dona Fortunata
  Mana Glória
  Padre Cabral
  Prima Glória
  Sancha
  Sanchinha
  Sr. Bentinho
  Tartaruga
  Thomaz
 
o valor obtido por este sistema fictício seria então, P= 12/13; A=12/53 e AI=0,364.

Avaliação da co-identificação ou unificação (ACI)

Reduzimos a co-identificação à deteção de relações de identidade entre as diversas formas de identificar uma personagem. Assim, se uma personagem é chamada ao longo da obra de três formas diferentes, há duas relações de identidade a detetar. Em geral, com N formas, há R(N-1)+ N-1 relações de identidade, em que R(0) e R(1) são zero, e R(N-1) é o número de relações com N-1 formas.

Da mesma forma que acima, sugerimos pontuar o número de relações corretas e penalizar as incorretas, relativo ao número total, considerando apenas relações entre personagens identificadas pelo sistema.

Para também pontuarmos os casos de personagens que apenas têm um nome único, marcamo-las com a relação nome-ZERO.

ACI=medida F sobre o universo de relações entre os nomes identificados.

Apliquemos então esta medida ao exemplo: Estas são as 10 relações que o sistema identificou, associadas a nomes que existem na CD:

D. Sancha-Sancha
D. Sancha-Sanchinha
Dona Fortunata-Tartaruga
Mana Glória-Prima Glória
Sancha-Sanchinha
Capitu-ZERO
Dom Casmurro-ZERO
Padre Cabral-ZERO
Sr. Bentinho-ZERO
Thomaz-ZERO
e estas são as relações de identidade (50) na coleção dourada
Bento-Dom Casmurro
Bento-Doutor Santiago
Bento-Padre Bentinho
Bento-Sr. Bentinho
Cabral-Padre Cabral
Capitolina-Capitu
Cosme-Mano Cosme
Cosme-Primo Cosme
Cosme-Tio Cosme
D. Glória-D. Maria da Glória Fernandes Santiago
D. Glória-Dona Glória
D. Glória-Mana Glória
D. Glória-Prima Glória
D. Justina-Justina
D. Justina-Prima Justina
D. Maria da Glória Fernandes Santiago-Dona Glória
D. Maria da Glória Fernandes Santiago-Mana Glória
D. Maria da Glória Fernandes Santiago-Prima Glória
D. Sancha-Sancha
D. Sancha-Sanchinha
D. Sancha-Sinhazinha Sancha
Dom Casmurro-Doutor Santiago
Dom Casmurro-Padre Bentinho
Dom Casmurro-Sr. Bentinho
Dona Glória-Mana Glória
Dona Glória-Prima Glória
Doutor João da Costa-João da Costa
Doutor Santiago-Padre Bentinho
Doutor Santiago-Sr. Bentinho
Escobar-Ezequiel de Sousa Escobar
José Dias-Sr. José Dias
João-Joãozinho
João-Pádua
João-Sr. Pádua
João-Tartaruga
Joãozinho-Pádua
Joãozinho-Sr. Pádua
Joãozinho-Tartaruga
Justina-Prima Justina
Mana Glória-Prima Glória
Mano Cosme-Primo Cosme
Mano Cosme-Tio Cosme
Padre Bentinho-Sr. Bentinho
Primo Cosme-Tio Cosme
Pádua-Sr. Pádua
Pádua-Tartaruga
Sancha-Sanchinha
Sancha-Sinhazinha Sancha
Sanchinha-Sinhazinha Sancha
Sr. Pádua-Tartaruga

Mas a comparaço deve ser feita entrando apenas com as personagens detetadas pelo sistema, quer dizer, apenas sobre as relações que estariam certas só com aquelas personagens, que são apenas as (7) seguintes:

D. Sancha-Sancha
D. Sancha-Sanchinha
Dom Casmurro-Sr. Bentinho
Mana Glória-Prima Glória
Sancha-Sanchinha
Dona Fortunata-ZERO
Thomaz-ZERO
O sistema tem pois precisão de 5/10 e abrangência de 5/7, com uma medida F de 0,588.

Avaliação do género (AG)

Se a "personagem" contiver géneros distintos segundo a coleção dourada (estiver marcada com A, ambos), não recebe pontuação. Além disso, conta-se +1 por género correto associado a uma personagem, e -1 por incorreto, relativo ao número de personagens propostas pelo sistema.

AG= (número de casos certos - número de casos errados)/(número de personagens marcadas com género)

Considerando os seguintes géneros propostos pelo nosso sistema fictício, teremos de calcular o género da "personagem" proposta a partir dos géeros corretos na coleção dourada:

Sr. Bentinho - M
Capitu - F
Dom Casmurro - M
Sancha, D. Sancha, Sanchinha - FFF
Padre Cabral - M
Dona Fortunata, Tartaruga - FM
Tijuca - 0
Prima Glória, mana Glória - FF
Thomaz - M
Temos 2 casos errados: E um que não conta: Assim o número das atribuições de género que são contadas é 8.

AG = (6 - 2)/8=0,5

Avaliação da profissão/ocupação/estatuto social (APOES)

Considerando apenas os casos em que os nomes propostos pelo sistema existem na coleção dourada, e que existe pelo menos uma marcação de profissão, usamos a medida-F.

APOES=medida-F

Considerando as seguintes profissões/ocupações/estatutos sociais propostos pelo nosso sistema fictício

  Sr. Bentinho - escravo
  Sr. Bentinho - advogado
  Dom Casmurro - advogado
  Padre Cabral - padre 
  Padre Cabral - agregado
  Dona Fortunata - funcionário de repartição pública
  Tartaruga - funcionário de repartição pública
  Tijuca - lavradora
  Thomaz - (nada)
E as informações profissionais relacionadas com estes nomes na coleção dourada são:
  Sr. Bentinho - advogado
  Dom Casmurro - advogado
  Padre Cabral - padre
  Tartaruga - funcionário de repartição pública
  Dona Fortunata - (nada)
  Thomaz - escravo
Como na CD Tijuca não existe como nome, apenas 8 casos são avaliados.

O valor obtido seria: Prec=4/8 Abran=4/8 APOES= 0,615.

Avaliação das relações familiares (AR)

Para avaliar as relações, é preciso primeiro identificar (ou alinhar) os identificadores das personagens propostas pelo sistema. E filtrar as relações que se referem a essas personagens na coleção dourada.

Para podermos comparar as relações, temos de identificar as correspondências usando os identificadores do sistema e do CD.

Substituição: 1 por 10
Substituição: 2 por 13
Substituição: 2 por 14
Substituição: 3 por 10
Substituição: 4 por 5
Substituição: 5 por 7
Substituição: 6 por 8
Substituição: 6 por 9
Substituição: 8 por 3
Substituição: 9 por 18
O que converte o resultado do sistema em:
139,13,mulher,10
139,3,irmã,8
139,8,mãe,13
Depois, é preciso expandir as relações familiares propostas pelo sistema e as da coleção dourada, para que por exemplo X filho de Y e Y pai de X sejam ambas válidas.

Aqui está a expansão do resultado do sistema, que é, aliás, feita com base no género apresentado pelo sistema: Ou seja, se X pai de Y e Y é F, temos Y filha de X.

139,10,marido,13
139,13,filho,8
139,13,mulher,10
139,3,irmã,8
139,8,irmã,3
139,8,mãe,13
Reduzindo a coleção dourada à personagens identificadas pelo sistema, e expandida para abarcar todas as relações independentemente da forma como foram expressas, temos
139,10,filho,3
139,10,marido,13
139,13,filho,9
139,13,mulher,10
139,14,filha,5
139,3,mãe,10
139,5,mãe,14
139,8,marido,9
139,9,mulher,8
139,9,mãe,13
A medida de avaliação é a medida-F, a média harmónica da precisão e da abrangência.

O nosso sistema fictício tem precisão 2/6=0,333 e abrangência 2/10=0,200, portanto AR=0,25.

Pontuação final do sistema

Média simples: (0,363+0,588+0,5+0,615+0,25)/5=0,463

Um sistema que fosse perfeito, receberia 1.


Última atualização: 2 de maio de 2022.