Avaliação de Sistemas de Reconhecimento de Entidades Mencionadas
Uma primeira proposta de avaliação conjunta.
(Mensagem enviada no dia 29 de Janeiro de 2003 para a lista avalia@www.linguateca.pt)

Caros (futuros) avaliadores,

Mesmo sabendo como é difícil dar início a um processo de avaliação, disponibilizei-me para ajudar a organizar a avaliação de sistemas de reconhecimento de entidades citadas (do inglês Named Entity Recognition), tendo em conta a minha experiência anterior na elaboração de um módulo de gramáticas locais de identificação e classificação de nomes próprios (pessoas, organizações e lugares).

Para não começarmos do zero, avanço com uma proposta preliminar para o "arrancar" deste processo fortemente inspirada nas conferências MUC (Message Understanding Conference) 6 e 7, as quais abrangeram a avaliação de sistemas, ou de módulos de sistemas, que faziam reconhecimentos de entidades citadas para o inglês.

O primeiro passo a dar será estabelecer e caracterizar as entidades que pretendemos identificar e de que forma serão anotadas. Por exemplo, nas MUC foi pedido aos sistemas participantes que reconhecessem as seguintes entidades (os exemplos são naturalmente de português):
   - Nomes Próprios de
      -- Pessoas (ex: Fernando Pessoa, Maria do Carmo, Sampaio)
      -- Organizações (ex: IST, Instituto Superior Técnico, Portugal Telecom)
      -- Lugares (ex: Sintra, Serra da Estrela, Minho)
   - Expressões temporais
      -- Datas (ex: 24 de Janeiro de 2000, segundo semestre de 1992, anos 60)
      -- Horas (ex: meio-dia, 13:40, 4 horas da manhã)
   - Expressões numéricas
      -- Monetárias: (ex: 20 milhões de euros, 900 mil contos)
      -- Percentuais: (ex: 10.5%, sete por cento)
Definiu-se que as entidades seriam marcadas usando etiquetas SGML. Para exemplificar a utilização de cada uma dessas etiquetas (mais genéricas e na sua forma original), recorri aos extractos da Parte 20 do CETEMPublico:
   NOME DE PESSOA: (...) aquilo que <ENAMEX TYPE="PERSON">Fernando Pessoa</ENAMEX> tão expressivamente denominou (...)
   NOME DE ORGANIZAÇÃO: (...) a <ENAMEX TYPE="ORGANIZATION">Portugal Telecom</ENAMEX> voltou a ultrapassar (...)
   NOME DE LUGAR: (...) vai do <ENAMEX TYPE="LOCATION">Minho</ENAMEX> à região do (...)
   DATA : Foi durante o <TIMEX TYPE="DATE">segundo semestre de 1992</ENAMEX> que a inflacção (...)
   HORA: (...) se estipula as <TIMEX TYPE="TIME">4 horas da manhã</ENAMEX> como limite de (...)
   MONETÁRIA: (...) com <NUMEX TYPE="MONEY">900 mil contos</ENAMEX> a fundo perdido (...)
   PERCENTAGEM: (...) aos <NUMEX TYPE="PERCENT">sete por cento</ENAMEX> do capital (...)

Este primeiro passo resultará num conjunto de critérios e de recomendações (guidelines) que deverá igualmente conter exemplos que ilustrem o que deve e não deve
ser marcado. Suponhamos que optávamos por avaliar apenas o reconhecimento de nomes próprios. As recomendações deverão tornar claro, por exemplo:
  - (acima de tudo) quais os tipos de nomes próprios que os sistemas devem ser capazes de identificar (e classificar). Deve um nome de um estabelecimento comercial (livraria, cinema, discoteca, etc.) ser identificado como uma organização?
  - se os sistemas devem reconhecer entidades "estrangeiras" (Ex: "Empire State Building", "New York Times", "BBC", "Manchester United")
  - o que fazer no caso de uma entidade estar encaixada noutra . Ex: "Lisboa" em:
'Crise na faculdade influencia eleições de amanhã para a reitoria da <ENAMEX TYPE="ORGANIZATION">Universidade Técnica de Lisboa</ENAMEX>' faz parte do nome da organização, logo, não deve ser marcado como lugar, enquanto que em: 'A <ENAMEX TYPE="ORGANIZATION">Polícia Judiciária</ENAMEX> de <ENAMEX TYPE="LOCATION">Lisboa</ENAMEX> anunciou ontem a conclusão de três inquéritos respeitantes (...)' deverá ser marcada como tal uma vez que não faz parte do nome da instituição.

Num segundo passo, com base nos critérios estabelecidos nas recomendações, será necessário criar recursos para a avaliação. Por recursos de avaliação entende-se um conjunto de textos que serão manualmente anotados de acordo com as recomendações e que serão fornecidos aos participantes: uma parte, como exemplo do que se pretende ver anotado, e uma outra parte, na sua forma não anotada, para serem anotados automaticamente pelos sistemas de forma a comparar o resultado com a versão que foi manualmente anotada (e que não foi fornecida ao participante).

Naturalmente, que estes dois passos se podem ir realizando em paralelo. Ou seja, podemos ir tentando definir o que queremos reconhecer ao mesmo tempo que fornecemos textos com os exemplos anotados.

Penso que uma boa forma de darmos então estes dois primeiros passos conjuntos e em conjunto, seria marcarmos independentemente nos 10 primeiros extractos do CETEMPublico (CP) e do CETENFolha (CF) as entidades que devem ser reconhecidas. Findo este primeiro passo comparávamos resultados.
Alternativamente, em vez de usarmos extractos do CP e do CF, cada grupo também poderia enviar os textos que preferisse com exemplos que achasse interessante, mas seria mais difícil fazer uma comparação inicial.

Sugeria, para terminar a minha proposta, que esta primeira fase se realizasse em 2 ou 3 semanas.

Aguardo naturalmente sugestões, críticas, comentários, reacções, etc.
 

Um abraço a todos,
Cristina.
 

PS:
Como motivação envio o extracto 26 do CETEMPublico, apenas com os nomes próprios (de pessoas, organizações, lugares e outros nomes próprios que não cabem em nenhuma destas categorias mais "MUCianas") marcados usando a marcação das MUC, que aliás sugeria que adoptássemos na sua versão adaptada para o português.

<ext n=26 sec=soc sem=91b>
<p>
<s>O caso ocorreu numa noite de 1978, na ilha de <NOMEPROP TIPO="LUGAR">Carvalo</NOMEPROP>, ao largo da <NOMEPROP TIPO="LUGAR">Córsega</NOMEPROP>.</s>
<s>O príncipe jantava com amigos num restaurante deste paraíso para milionários, quando um grupo barulhento de jovens da alta sociedade italiana acostou na enseada de
<NOMEPROP TIPO="LUGAR">Palma</NOMEPROP>, ao lado do seu iate, o <NOMEPROP TIPO="BARCO">L'Aniram</NOMEPROP>.</s>
<s>Os advogados da defesa sublinharam no processo que este facto perturbou altamente o "senhor de <NOMEPROP TIPO="LUGAR">Sabóia</NOMEPROP>".</s>
<s>Naquele ano, as <NOMEPROP TIPO="ORGANIZAÇÃO">Brigadas Vermelhas</NOMEPROP> (<NOMEPROP TIPO="ORGANIZAÇÃO">BR</NOMEPROP>) estavam no auge da actividade terrorista, o líder cristão-democrata <NOMEPROP TIPO="PESSOA">Aldo Moro</NOMEPROP> acabara de ser raptado, e o príncipe -- proibido de entrar em <NOMEPROP TIPO="LUGAR">Itália</NOMEPROP> desde o exílio do pai em 1946 -- teria mesmo recebido ameaças das <NOMEPROP TIPO="ORGANIZAÇÃO">BR</NOMEPROP>.</s>
</p>
<t>Uma vida por um barco</t>
<p>
<s>O certo é que, pouco depois, <NOMEPROP TIPO="PESSOA">Vítor-Emanuel</NOMEPROP> apercebeu-se que um barco pneumático fora deslocado do seu iate e atracado ao <NOMEPROP TIPO="BARCO">Cocke</NOMEPROP>, o navio dos jovens italianos.</s>
<s>"Irritado com este acto de apropriação", foi buscar uma espingarda <NOMEPROP TIPO="ARMA">US 30</NOMEPROP> semiautomática, utilizada em safaris, e 31 cartuchos, e dirigiu-se para o <NOMEPROP TIPO="BARCO">Cocke</NOMEPROP>.</s>
<s>Um dos jovens, <NOMEPROP TIPO="PESSOA">Nicola Pende</NOMEPROP>, acorda com um grito:</s>
<s>"Roubaste o meu barco, vais pagar."</s>
<s>Pouco depois, o príncipe aponta-lhe a arma ao ventre.</s>
<s>Na confusão que se segue, parte um primeiro tiro, depois um segundo, e os dois homens caem ao mar.</s>
</p>
</ext>
 


Autora: Cristina Mota. pólo do LabEL da Linguateca.
Data da última revisão: 26 de Fevereiro de 2003