Caros (futuros) avaliadores,
Mesmo sabendo como é difícil dar início a um processo de avaliação, disponibilizei-me para ajudar a organizar a avaliação de sistemas de reconhecimento de entidades citadas (do inglês Named Entity Recognition), tendo em conta a minha experiência anterior na elaboração de um módulo de gramáticas locais de identificação e classificação de nomes próprios (pessoas, organizações e lugares).
Para não começarmos do zero, avanço com uma proposta preliminar para o "arrancar" deste processo fortemente inspirada nas conferências MUC (Message Understanding Conference) 6 e 7, as quais abrangeram a avaliação de sistemas, ou de módulos de sistemas, que faziam reconhecimentos de entidades citadas para o inglês.
O primeiro passo a dar será estabelecer e caracterizar as entidades
que pretendemos identificar e de que forma serão anotadas. Por exemplo,
nas MUC foi pedido aos sistemas participantes que reconhecessem as seguintes entidades (os
exemplos são naturalmente de português):
- Nomes Próprios de
-- Pessoas (ex: Fernando Pessoa, Maria
do Carmo, Sampaio)
-- Organizações (ex: IST,
Instituto Superior Técnico, Portugal Telecom)
-- Lugares (ex: Sintra, Serra da Estrela,
Minho)
- Expressões temporais
-- Datas (ex: 24 de Janeiro de 2000,
segundo semestre de 1992, anos 60)
-- Horas (ex: meio-dia, 13:40, 4 horas
da manhã)
- Expressões numéricas
-- Monetárias: (ex: 20 milhões
de euros, 900 mil contos)
-- Percentuais: (ex: 10.5%, sete por
cento)
Definiu-se que as entidades seriam marcadas usando etiquetas SGML.
Para exemplificar a utilização de cada uma dessas etiquetas
(mais genéricas e na sua forma original), recorri aos extractos
da Parte 20 do CETEMPublico:
NOME DE PESSOA: (...) aquilo que <ENAMEX TYPE="PERSON">Fernando
Pessoa</ENAMEX> tão expressivamente denominou (...)
NOME DE ORGANIZAÇÃO: (...) a <ENAMEX
TYPE="ORGANIZATION">Portugal Telecom</ENAMEX> voltou a ultrapassar (...)
NOME DE LUGAR: (...) vai do <ENAMEX TYPE="LOCATION">Minho</ENAMEX>
à região do (...)
DATA : Foi durante o <TIMEX TYPE="DATE">segundo semestre
de 1992</ENAMEX> que a inflacção (...)
HORA: (...) se estipula as <TIMEX TYPE="TIME">4 horas
da manhã</ENAMEX> como limite de (...)
MONETÁRIA: (...) com <NUMEX TYPE="MONEY">900
mil contos</ENAMEX> a fundo perdido (...)
PERCENTAGEM: (...) aos <NUMEX TYPE="PERCENT">sete por
cento</ENAMEX> do capital (...)
Este primeiro passo resultará num conjunto de critérios
e de recomendações (guidelines) que deverá igualmente
conter exemplos que ilustrem o que deve e não deve
ser marcado. Suponhamos que optávamos por avaliar apenas o reconhecimento
de nomes próprios. As recomendações deverão
tornar claro, por exemplo:
- (acima de tudo) quais os tipos de nomes próprios que
os sistemas devem ser capazes de identificar (e classificar). Deve um nome
de um estabelecimento comercial (livraria, cinema, discoteca, etc.) ser identificado como uma organização?
- se os sistemas devem reconhecer entidades "estrangeiras" (Ex:
"Empire State Building", "New York Times", "BBC", "Manchester United")
- o que fazer no caso de uma entidade estar encaixada noutra
. Ex: "Lisboa" em:
'Crise na faculdade influencia eleições de amanhã
para a reitoria da <ENAMEX TYPE="ORGANIZATION">Universidade Técnica
de Lisboa</ENAMEX>' faz parte do nome da organização, logo, não deve ser marcado como lugar,
enquanto que em: 'A <ENAMEX TYPE="ORGANIZATION">Polícia Judiciária</ENAMEX>
de <ENAMEX TYPE="LOCATION">Lisboa</ENAMEX> anunciou ontem a conclusão
de três inquéritos respeitantes (...)' deverá ser marcada
como tal uma vez que não faz parte do nome da instituição.
Num segundo passo, com base nos critérios estabelecidos nas recomendações, será necessário criar recursos para a avaliação. Por recursos de avaliação entende-se um conjunto de textos que serão manualmente anotados de acordo com as recomendações e que serão fornecidos aos participantes: uma parte, como exemplo do que se pretende ver anotado, e uma outra parte, na sua forma não anotada, para serem anotados automaticamente pelos sistemas de forma a comparar o resultado com a versão que foi manualmente anotada (e que não foi fornecida ao participante).
Naturalmente, que estes dois passos se podem ir realizando em paralelo. Ou seja, podemos ir tentando definir o que queremos reconhecer ao mesmo tempo que fornecemos textos com os exemplos anotados.
Penso que uma boa forma de darmos então estes dois primeiros
passos conjuntos e em conjunto, seria marcarmos independentemente nos 10 primeiros
extractos do CETEMPublico (CP) e do CETENFolha (CF) as entidades que devem ser reconhecidas.
Findo este primeiro passo comparávamos resultados.
Alternativamente, em vez de usarmos extractos do CP e do CF, cada grupo
também poderia enviar os textos que preferisse com exemplos que
achasse interessante, mas seria mais difícil fazer uma comparação inicial.
Sugeria, para terminar a minha proposta, que esta primeira fase se realizasse em 2 ou 3 semanas.
Aguardo naturalmente sugestões, críticas, comentários,
reacções, etc.
Um abraço a todos,
Cristina.
PS:
Como motivação envio o extracto 26 do CETEMPublico, apenas
com os nomes próprios (de pessoas, organizações, lugares
e outros nomes próprios que não cabem em nenhuma destas categorias mais
"MUCianas") marcados usando a marcação das MUC, que aliás
sugeria que adoptássemos na sua versão adaptada para o português.
<ext n=26 sec=soc sem=91b>
<p>
<s>O caso ocorreu numa noite de 1978, na ilha de <NOMEPROP
TIPO="LUGAR">Carvalo</NOMEPROP>, ao largo da <NOMEPROP
TIPO="LUGAR">Córsega</NOMEPROP>.</s>
<s>O príncipe jantava com amigos num restaurante deste paraíso
para milionários, quando um grupo barulhento de jovens da alta sociedade
italiana acostou na enseada de
<NOMEPROP TIPO="LUGAR">Palma</NOMEPROP>,
ao lado do seu iate, o <NOMEPROP TIPO="BARCO">L'Aniram</NOMEPROP>.</s>
<s>Os advogados da defesa sublinharam no processo que este facto
perturbou altamente o "senhor de <NOMEPROP TIPO="LUGAR">Sabóia</NOMEPROP>".</s>
<s>Naquele ano, as <NOMEPROP TIPO="ORGANIZAÇÃO">Brigadas
Vermelhas</NOMEPROP> (<NOMEPROP
TIPO="ORGANIZAÇÃO">BR</NOMEPROP>) estavam
no auge da actividade terrorista, o líder cristão-democrata <NOMEPROP
TIPO="PESSOA">Aldo Moro</NOMEPROP> acabara de ser raptado,
e o príncipe -- proibido de entrar em <NOMEPROP
TIPO="LUGAR">Itália</NOMEPROP> desde o exílio
do pai em 1946 -- teria mesmo recebido ameaças das <NOMEPROP
TIPO="ORGANIZAÇÃO">BR</NOMEPROP>.</s>
</p>
<t>Uma vida por um barco</t>
<p>
<s>O certo é que, pouco depois, <NOMEPROP
TIPO="PESSOA">Vítor-Emanuel</NOMEPROP> apercebeu-se
que um barco pneumático fora deslocado do seu iate e atracado ao
<NOMEPROP TIPO="BARCO">Cocke</NOMEPROP>, o navio dos jovens italianos.</s>
<s>"Irritado com este acto de apropriação", foi buscar
uma espingarda <NOMEPROP TIPO="ARMA">US 30</NOMEPROP>
semiautomática, utilizada em safaris, e 31 cartuchos, e dirigiu-se
para o <NOMEPROP TIPO="BARCO">Cocke</NOMEPROP>.</s>
<s>Um dos jovens, <NOMEPROP TIPO="PESSOA">Nicola
Pende</NOMEPROP>, acorda com um grito:</s>
<s>"Roubaste o meu barco, vais pagar."</s>
<s>Pouco depois, o príncipe aponta-lhe a arma ao ventre.</s>
<s>Na confusão que se segue, parte um primeiro tiro, depois
um segundo, e os dois homens caem ao mar.</s>
</p>
</ext>