Perguntas já respondidas

DIP - Desafio de identificação de personagens

Perguntas gerais

  1. O que é uma avaliação conjunta? É uma atividade de avaliação em torno de uma tarefa que se pretende resolver, e para a qual se definem os objetivos e as formas de avaliar conjuntamente. Em inglês é chamada "evaluation contest", "joint evaluation", "shared task" e por vezes "challenge" (o que nos levou ao desafio no nome do DIP). Sobre esse paradigma no processamento computacional do português, veja-se esta página e em especial o capítulo de introdução ao livro Avaliação conjunta: um novo paradigma no processamento computacional da língua portuguesa.
  2. Porquê o DIP? A leitura distante é um novo paradigma nas humanidades digitais, e em particular nos estudos literários, que exige competência informática para abarcar um número maior de obras do que aquele que um estudioso pode ler e analisar. O DIP é assim uma iniciativa para dotarmos o português de ferramentas que permitam a leitura distante na nossa língua. A escolha das personagens como primeiro tema foi motivada por dois tipos de considerações: 1) práticas ou oportunísticas: pela proximidade com o reconhecimento de entidades mencionadas, especificamente nomes de pessoas, técnica corrente no processamento de linguagem natural, assim como pelos trabalhos em extração de informação que precisam de compreender as várias diferentes menções a uma mesma entidade; e 2) literárias: pareceu-nos que seria uma das propriedades das obras que pode ser alvo de estudos mais variados a nível de leitura distante, além de poder ser também um sinal formal de intertextualidade, se personagens de obras anteriores forem referidas em novas obras.
  3. De que obras estamos a falar? Muito simplesmente, estamos a falar de obras de prosa consideradas literárias, no sentido de serem ficcionais e/ou apresentadas como tal, nomeadamente dos géneros narrativos romance, novela ou conto. O conjunto das obras será equilibrado em termos nacionais (metade portuguesas, outra metade brasileiras), que tentaremos distribuir o melhor possível por período, canonicidade, gênero do autor, etc. Vale também dizer que as obras serão maioritariamente do domínio público, mas tentaremos também incluir obras autorizadas por autores contemporâneos.
  4. Qual a diferença entre participante e observador? Um participante no DIP é uma pessoa ou grupo que concorre com um programa, para tentar obter automaticamente resultados sobre as personagens de cada obra. Um observador é uma pessoa que tem muito interesse no resultado e nos quer ajudar, junto com os participantes, a definir os objetivos e os critérios de avaliação, mas que não tem meios ou capacidades de criar um programa automático.
  5. Quem pode participar? Todos os que quiserem aceitar o desafio e desenvolver uma ou várias soluções computacionais que extraiam a informação desejada.
  6. Porque é que X não foi convidad@? Foi certamente por lapso. Tentámos contactar toda a gente que pudesse estar interessada no DIP, enviando o anúncio para um sem-número de departamentos de literatura e de humanidades digitais, para muitas pessoas que sabemos que trabalham na área, assim como para todas as listas de discussão que conhecíamos. Todos são bem-vindos. Se X não foi convidad@, por favor envie-lhe o anúncio e convença-@ a participar!
  7. Preciso estar na primeira reunião (em novembro de 2021) para participar? Não, basta resolver o problema e enviar os resultados no prazo. Contudo, a primeira reunião é uma ocasião em que todos os participantes podem influir na forma e objetivo do DIP. Se não for à reunião, perde essa oportunidade.
  8. Quais são as condições mínimas para participação? Para ser participante, ou concorrente, basta dispor de técnicas computacionais para realizar uma ou mais das tarefas objeto da avaliação. E aplicá-lo às obras que tornaremos públicas.
  9. Quais são os requisitos para participar? Como já dito antes, para ser um participante, a única coisa que precisa é entregar os resultados no prazo. Mas espera-se também que apresente o seu sistema ou metodologia, junto com uma reflexão sobre os resultados e o que se aprendeu com o exercício, no encontro que faremos sobre o DIP. Posteriormente, os participantes serão convidados a escrever um artigo que será publicado no volume da revista Linguamática dedicado ao DIP.
  10. É preciso participar em todas as tarefas? Não, a única que é obrigatória é a própria identificação da personagem. O género, ocupação/profissão/estatuto social e relação familiar são opcionais.
  11. O que ganho com a minha participação? Além de participar numa tarefa desafiante, irá aprender mais sobre o problema, conhecer os outros atores na área e ter pelo menos um artigo publicado.
  12. Quem decide os valores "certos" segundo os quais o meu sistema será avaliado? Essa é a prerrogativa da organização, mas todos os critérios e decisões serão discutidos em geral com todos os participantes, de forma a haver consenso em relação à bitola usada. Logo que o prazo de entrega dos resultados do DIP fechar, a coleção dourada -- ou seja, os valores "certos" a partir dos quais os sistemas serão avaliados -- será tornada pública. Conscientes de que mesmo com a metodologia aprovada em conjunto pode haver discordância nos casos concretos, indicamos que estamos obviamente abertos a discussão e mesmo correção da coleção dourada se tal se mostrar necessário.

Perguntas técnicas

  1. Qual o formato das obras que vão ser disponibilizadas? Cerca de metade das obras serão disponibilizadas em texto simples (txt); e outra metade em pdf. Enquanto o pdf é o formato em que a maioria das obras digitalizadas se encontram, e portanto é mais realista para a leitura distante de grandes quantidades de obras, sabemos que a conversão de pdf em texto não é pacífica, e por isso aceitamos que um participante processe apenas as obras em txt.
  2. Qual o formato dos resultados? Cada obra terá um identificador fornecido por nós, será disponibilizada como obra001, obra002... obra200. Aqui mostramos exemplos do formato esperado, em csv (valores separados por vírgulas), para As Pupilas do Senhor Reitor (obra021) e o Dom Casmurro (obra139): personagens e relacoes. Os dois arquivos terão de ser incluí:dos num zip, visto que o EasyChair apenas aceita a entrega de um "objeto" por participante.
  3. Que informação será dada aos participantes sobre a obra? Nenhuma, a não ser a que se encontra na própria obra distribuída (página de título, etc.)
  4. Para onde são enviados os resultados ? O envio dos resultados será feito através da plataforma EasyChair, em https://easychair.org/cfp/DIP2022. Mais detalhes serão anunciados aqui próximo do evento.
  5. Há diferença entre personagens principais e outras? Todas as personagens de uma obra são objeto do DIP, e não se pretende fazer diferença nem detectar tipos de personagens.
  6. Há um vocabulário fixo de profissões/ocupações/posições sociais e/ou de relações familiares? Não, qualquer palavra com o mesmo significado (p. ex. boticário e farmacêutico) é aceite como correta, também independentemente da grafia (pharmaceutico).
  7. O que fazer quando o enredo torna duas personagens numa? É relativamente comum que um autor nos apresente inicialmente duas personagens, que mais tarde vimos a compreender serem a mesma pessoa. No DIP, aceitamos ambas as alternativas: duas personagens, ou uma só. É possível, contudo, que pontuemos melhor o sistema que compreendeu que estávamos em presença de uma única personagem.
  8. Quais os possíveis valores de gênero para as personagens? Da mesma forma, embora mais raramente, pode dar-se o caso de uma personagem ser inicialmente apresentada como de um género, e depois virmos que é doutro. Nesses casos, aceitamos como resposta certa duas personagens, cada uma com o seu género, ou uma personagem com género "m|f". No caso de não ser claro em toda a obra qual o género de uma personagem, o valor correcto é 0.
  9. O que fazer quando uma personagem tem mais do que uma profissão/ocupação/posição social, e/ou relação familiar ao longo da obra? Muito mais frequente é a situação de uma personagem mudar de ocupação ao longo do enredo, ou passar de escravizado a livre, ou mudar de relação familiar: solteiro, casado, viúvo. No DIP, para não entrar demasiado nos pormenores do enredo, aceitamos como certas todas as profissões/ocupações/posições sociais mencionadas, e todas as relações familiares presentes na obra.
  10. "A filho de B" e "B mãe de A" são equivalentes? E "C irmão de D" e "D irmã de C"? Ou é preciso explicitar todas? As relações familiares são sempre entre personagens que foram identificadas. Por isso A já se sabe que é masculino e B feminina (e idem para C e D). Dado isso, a informação nas duas relações é exatamente a mesma. O que significa que não interessa a forma exata como o sistema indica o resultado, o programa de avaliação saberá traduzi-lo.
  11. "A casado com B" e "B viúva de A" são equivalentes? Não exatamente. Para B ser viúva de A é uma pressuposição que foi casada com A, mas no enredo na obra pode ser só já viúva. Nesse caso não está correto que o sistema indique "A casado com B". Pelo contrário, se ambas as situações corresponderem a partes diferentes da história, ambas devem ser propostas pelo sistema.
  12. O que fazer com personagens na primeira pessoa? Em narrativas autodiegéticas, ou homodiegéticas, uma personagem está na primeira pessoa. Se o seu nome próprio nunca for mencionado, está fora do âmbito do DIP. Mas se soubermos como é chamada, ou seja, se alguma vez aparecer o seu nome próprio, esse deve ser identificado como qualquer outra personagem.

Última atualização: 21 de novembro de 2021.