HAREM - Avaliação de Reconhecimento de Entidades Mencionadas

Linguateca - 2006.
  Versão para impressão
IMPORTANTE: Este sítio diz respeito ao Primeiro HAREM, que terminou em 2006, e encontra-se encerrado. O sítio actual do HAREM encontra-se em /HAREM.


Directivas e categorias para identificação e classificação na colecção dourada do HAREM



Nesta página encontram-se as directivas de anotação da colecção dourada no HAREM. A primeira versão foi publicada pela organização a 26 de Outubro de 2004.

O presente conjunto de directivas, actualizado no dia 24 de Novembro, incorpora já o resultado da discussão e várias sugestões dos participantes.

Definição do que é uma EM
Etiquetas

Directivas de anotação gerais
Directivas de anotação específicas
Proposta de novas categorias

Definição do que é uma EM


É extremamente importante ter um critério básico para identificar EMs, para que não haja anotação excessiva (de por exemplo todos os sintagmas nominais no texto).

A nossa sugestão de definição é que uma EM tem de ter pelo menos uma palavra em maiúsculas, e ou algarismos. Donde: "15 mn", "homem de Neanderthal" poderão ser EMs, mas "idade da pedra", "governo francês", "mobília alentejana", grafados assim, não.

Etiquetas

Etiquetas - (só) Identificação

<EM>Entidade</EM> - A usar apenas por sistemas que pretendam apenas identificar, e não classificar semanticamente, as entidades.

Os outros sistemas usarão apenas as etiquetas classificadoras descritas em "Classificação semântica".

Etiquetas - Classificação Morfológica

A classificação morfológica será feita através de um atributo MORF, dentro da identificação da entidade a que se refere. Este atributo poderá tomar os seguintes valores:

MORF="M,S" - masculino singular
MORF="M,P" - masculino plural
MORF="F,S" - feminino singular
MORF="F,P" - feminino plural

Se não for possível identificar o número ou o género, deverá constar um '?' no local respectivo.

Exemplos:

<EM MORF="?,S">Braga</EM>
<PESSOA TIPO="INDIVIDUAL" MORF="?,S">Braga de Oliveira</PESSOA>

Etiquetas - Classificação Semântica

O nível superior é para ser considerado o nome da entidade; os nomes em negrito por baixo de cada são para ser marcados como valores do atributo TIPO, em maiúsculas.

<PESSOA TIPO="CARGO">Director da Biblioteca Nacional</PESSOA>

Entre parênteses e em itálico, apresentamos exemplos de entidades a que poderia, num dado contexto, ser atribuída essa classificação, o que não significa que em todos os contextos o deva ser.

IMPORTANTE: Todas as categorias possuem um tipo OUTRO, para situações em que a subclassificação não cai em nenhum dos tipos propostos.

PESSOA
  • individual (dr. João Soares, Cristina, Luís de Camões, Deus, Harry Potter, general Spínola)
  • cargo (Papa, Ministro dos Negócios Estrangeiros, Rainha da Abissínia, presidente do Boavista FC)
  • grupo (Beatles, Simpsons, Carlos e Diana, equipa do Benfica)

ORGANIZACAO
  • administracao - organizações que têm que ver com a administração e governação de um território, tal como ministérios, municípios, câmaras, autarquias, secretarias de estado (secretaria de Estado da Cultura, Brasil, câmara de São Paulo, Assembleia Geral do INESC)
  • instituicao - organizações sem fins lucrativos, que preste serviços públicos, como associações, universidades, colectividades, escolas, partidos políticos (Associação de Amizade Portugal-Bulgária, Universidade Federal do Rio Grande do Sul, Liceu Maria Amália, PC do B, Museu do Ar)
  • empresa - organizações com fins lucrativos, como empresas, sociedades, clubes (Boavista FC, Círculo de Leitores, Livraria Barata, (discoteca) Sete e Meio)
TEMPO
  • data - refere uma data precisa, explicita ou implicitamente (20 de Outubro de 1994, Maio de 2004, 1830, 20 de outubro -- esta ultima se ficar subentendido que se refere a um certo ano)
  • hora - Quando explicita ou implicitamente se refere a uma hora (18h, 4 e meia)
  • periodo - intervalo de tempo contínuo e não repetido, com apenas um início e um fim (Inverno, anos 80, século XIX, 1984, pós-25 de Abril, a Idade do Bronze)
  • ciclico - períodos recorrentes (véspera de Natal, 1º de Janeiro, 2.o semestre)
LOCAL
  • correio - moradas, números de salas, salas de cinema (Sala 6, Caixa Postal 2400, Rua da Escola 15B)
  • administrativo - localidades criadas pelo Homem (Rio de Janeiro, Alentejo, bairro dos Anjos, freguesia de São Mamede, Ásia Menor, Região Autónoma dos Açores, jardim das Amoreiras)
  • geografico - acidentes geográficos (Lago Negro, delta do Nilo, foz do Tejo, cordilheira dos Andes, estreito de Gibraltar, arquipélago dos Açores)
  • virtual - localização num espaço virtual, como URLs, números de telefone, endereços electrónicos, canais de televisão, meios de comunicação social (www.linguateca.pt , Canal Manchete, Público, telef. 245 687 476)
  • alargado - qualquer edifício que tenha nome, qualquer entidade física que seja usada para indicar um lugar (centro Comercial Amoreiras)
OBRA
  • produto (Omo, Bic, Morris Mini, Airbus 400, Sumol, esquentador Vulcano)
  • reproduzida - obras de arte das quais há muitos exemplares, o nome representa o original a partir do qual se fazem as reproduções ("Turn it on again", "Olhai os lírios do campo", "E tudo o vento levou", Sinfonia em si bemol de Carlos Seixas)
  • arte - obras de arte das quais há um exemplar único (torre Eiffel, Guernica, Cristo-Rei, Capela Sistina, Igreja da Luz )
  • publicacao - obras escritas não referidas pelo nome, tais como citações de livros, artigos, decretos, directivas, etc. (Maia et al. (2004), Santos & Sarmento (2003:114), Mota (op.cit.), decreto Lei 254/94)
  • prato (bacalhau à Brás, bolas de Berlim, Tiramisu de chocolate )
ACONTECIMENTO
  • efemeride - Acontecimento ocorrido no passado e não repetível (25 de Abril, 11 de Setembro, 2.a guerra mundial)
  • organizado - Acontecimento grandioso, que poderá durar vários dias, e geralmente conter vários "eventos" (Copa, Euro 2004, Jogos Olímpicos de Inverno, Festival de Jazz do Estoril)
  • evento - Acontecimento pontual, organizado ou não (Benfica-Sporting, Chico Buarque no Coliseu, Buzinão na Ponte)
ABSTRACCAO
  • disciplina - disciplinas científicas, teorias, tecnologias e práticas (Inteligência Artificial, Neurofisiologia, Teoria da Relatividade, GSM, Tai-chi, futebol de 5)
  • marca (Vista Alegre, Benneton, Stradivarius, Nokia, Apple, Christian Dior)
  • estado - estados ou condições (doença de Alzheimer, AIDS, sindroma de Chang)
  • escola - modas, facções (Barroco, Renascimento, Bushismo)
COISA
  • objecto (fragata D. Luís, contador Geiger, flauta de Bisel, o meu exemplar dos Lusíadas)
  • substancia (Paracetamol, H2O)

VALOR
  • classificacao (2-0, 15', 3ª)
  • quantidade (15 m, 30 kg, 50 mm, 1,4 kHz, 27º, 23%, 2.500, ph 2,5)
  • moeda (300$00, $US 15, £39, Cr 500)
  • ordem - ordenação no texto (1., a), c., ix, pp. 15)
VARIADO
  • Outros casos, como prémios, fenómenos naturais ou papéis de teatro (prémio Valmor, tufão El Nino, voo 714, Rei Lear, pacto de Varsóvia )

Directivas de anotação

Mais algumas regras têm de ser associadas ao processo para ser mais rigorosa a definição da tarefa de cada participante.

Em primeiro lugar, as etiquetas sugeridas são para introduzir no próprio texto.

<LOCAL TIPO="CORREIO" MORF="F,S">Sala 3</LOCAL>
<TEMPO TIPO="HORA">19h45</TEMPO>
<ORGANIZAÇÃO TIPO="ADMINISTRAÇÃO">Portugal</ORGANIZAÇÃO>

Caracteres acentuados nas etiquetas

As etiquetas, parâmetros e atributos deverão estar escritos em maiúsculas. Inicialmente, foi proposto aos participantes para colocarem as categorias escritas com acentos e cedilhas, como no caso de ORGANIZAÇÃO. No entanto, de maneira a compatibilizar a Colecção Dourada com analisadores XML, recomenda-se a anotação com termos sem acentos ou cedilhas. Seja como for, se as etiquetas usadas possuirem caracteres com acentos e cedilhas, a organização do HAREM tratará de convertê-los para caracteres não acentuados.

Formato das etiquetas

Todos os atributos deverão estar dentro de aspas.

<PESSOA TIPO=GRUPO> - Errado
<PESSOA TIPO="GRUPO"> - Correcto

Etiquetas dentro de etiquetas

É permitido o uso de etiquetas dentro de etiquetas, desde que o texto envolvente não seja exactamente igual.
ex: <ORGANIZACAO TIPO="EMPRESA"><ABSTRACCAO TIPO="MARCA">FIAT 127</ABSTRACCAO><ORGANIZACAO> - Errado.
<ORGANIZACAO TIPO="EMPRESA">FIAT <ABSTRACCAO TIPO="MARCA">127</ABSTRACCAO><ORGANIZACAO> - Certo.
No caso anterior, se uma etiqueta dentro de uma etiqueta tiver o texto envolvente igual, não deve ser anotado assim, mas sim no formato <A|B TIPO="C|D">.
As etiquetas de nível superior devem ser as primeiras a serem fechadas.
ex: <B><I>Texto</I></B> - Certo
<B><I>Texto</B></I> - Errado
As siglas devem ser etiquetadas, mesmo que a sua expansão esteja incluída no texto. Exemplos de como se deve identificar as EMs:
<EM>Instituto para a Paridade dos Géneros</EM> (<EM>IPG</EM> )
<EM>Instituto para a Paridade dos Géneros</EM> - <EM>IPG</EM>
<EM>Instituto para a Paridade dos Géneros</EM>, <EM>IPG</EM>

Anotação parcial

Não é necessário usar todas as etiquetas, até porque podem simplesmente não aparecer nos textos atribuídos. Donde, se alguém só conseguir ou quiser usar as categorias principais (PESSOA ORGANIZAÇÃO etc) e não os tipos (TIPO), simplesmente indique isso ao devolver o seu quinhão.

Impossibilidade de decidir

Dividimos esta questão entre decisões sobre a classificação e sobre a própria identificação da EM.

Várias classificações possíveis para uma mesma entidade


No caso de haver dúvidas sobre a interpretação, algo que é tanto mais possível quanto maior a quantidade de etiquetas que sugerimos, pedimos que marquem com o sinal "|" as várias possibilidades, que depois poderão ser discutidas em conjunto.

Pode haver dois tipos de vagueza: dentro de uma mesma categoria principal:

O <PESSOA TIPO="GRUPO|CARGO">Governo</PESSOA> esteve no Faial.
ou entre duas categorias principais diferentes:
Odeio a <ORGANIZAÇÃO|OBRA TIPO="EMPRESA|PRODUTO">Coca Cola</ORGANIZAÇÃO|OBRA>
Se não se puder subtipificar (ou seja, se for fácil identificar a categoria principal mas não o valor do TIPO), pode usar-se "?".
Já não há <PESSOA TIPO="?">Pai Natal</PESSOA>
Isto, conjugado com dúvidas sobre a categoria principal, ficaria
Recebi um <OBRA|COISA|VARIADO TIPO="ARTE|OBJECTO|?">Óscar</OBRA|COISA|VARIADO> ontem.

Várias alternativas de identificação

A interpretação do texto, sobre a qual o anotador não consegue decidir, implica identificação de diferentes EMs. Ou seja, é possível em alguns casos que haja mais de uma alternativa de identificação de EMs, tal como em
<PESSOA TIPO="GRUPO">Carlos e Diana</PESSOA>
<PESSOA TIPO="INDIVIDUAL">Carlos</PESSOA> e <PESSOA TIPO="INDIVIDUAL">Diana</PESSOA>

<ORGANIZAÇÃO TIPO="ADMINISTRACAO">Câmara Municipal de Lisboa</ORGANIZAÇÃO>
<ORGANIZAÇÃO TIPO="ADMINISTRACAO">Câmara Municipal</ORGANIZAÇÃO> de <LOCAL TIPO="GEOGRÁFICO|ADMINISTRATIVO">Lisboa</LOCAL>

<PESSOA TIPO="GRUPO">generais Spínola e Costa Gomes</PESSOA>
generais <PESSOA TIPO="INDIVIDUAL">Spínola</PESSOA> e <PESSOA TIPO="INDIVIDUAL">Costa Gomes/<PESSOA>
no Pedimos, nesse caso, para as pessoas marcarem ambos recorrendo a uma nova etiqueta ALT, que engloba o máximo de texto envolvido:
<ALT> <PESSOA TIPO="GRUPO">Carlos e Diana</PESSOA> | 
<PESSOA TIPO="INDIVIDUAL">Carlos</PESSOA> e <PESSOA TIPO="INDIVIDUAL">Diana</PESSOA></ALT>
É importante, contudo, só usar esta etiqueta quando do contexto não puder ser decidido que interpretação distinta é que está em causa.

Esta etiqueta não é, pois, para usar por aqueles anotadores que acharem que tanto "Câmara Municipal de Lisboa" como "Lisboa" devem ser marcados na expressão Câmara Municipal de Lisbo. Para isso basta um encaixe:

<ORGANIZAÇÃO TIPO="ADMINISTRACAO">Câmara Municipal de <LOCAL TIPO="GEOGRÁFICO|ADMINISTRATIVO">Lisboa</LOCAL> </ORGANIZAÇÃO>

Sem classificação morfológica

Quem não tem um sistema que faça automaticamente classificação morfológica, não precisa de pôr em todas as entidades MORF="?,?" ou anotar à mão. Basta que nos diga que não vai concorrer na parte da morfologia.

Directivas de anotação específicas


Pormenores associados ao tratamento da categoria <PESSOA>


Os títulos das pessoas devem estar incluídos na etiqueta, quando fazem parte das formas de tratamento:
O <PESSOA TIPO="INDIVIDUAL">Dr. Sampaio</PESSOA> 
O <PESSOA TIPO="CARGO">Presidente da República</PESSOA> 
O <PESSOA TIPO="INDIVIDUAL">presidente Jorge Sampaio</PESSOA>
O <PESSOA TIPO="INDIVIDUAL">padre Melícias</PESSOA>
assim como referências a parentescos quando são usados na identificação / tratamento da pessoa
<PESSOA TIPO="INDIVIDUAL">tio Zeca</PESSOA> 
<PESSOA TIPO="INDIVIDUAL">mãe Bhaer</PESSOA>
Da mesma forma, formas de tratamento isoladas, que incluam maiúsculas, devem ser anotadas como PESSOA
<PESSOA TIPO="INDIVIDUAL">EM>V. Ex.a</PESSOA>
Quando um cargo e a pessoa que a ocupa são mencionados no mesmo sintagma nominal, estamos em presença de apenas uma EM do tipo PESSOA.
O <PESSOA TIPO="INDIVIDUAL">Presidente da República Jorge Sampaio</PESSOA> chegou hoje.
O <PESSOA TIPO="CARGO">Presidente da República</PESSOA> chegou hoje.

Pormenores associados ao tratamento da categoria <ACONTECIMENTO>


Um bom exemplo da separação entre ORGANIZADO e EVENTO é o Euro2004, que foi um acontecimento organizado, que incluiu vários eventos (jogos, festas, conferências, etc).
Quando se diz que um evento pode ser organizado ou não, dá-se o exemplo de um jogo de futebol (organizado) ou de uma manifestação popular espontânea (não organizada).

Pormenores associados ao tratamento da categoria <OBRA>


A categoria OBRA compreende produtos humanos, em qualquer formato.

Um PRODUTO poderá ser concreto (ex: uma caneta BIC) ou virtual, incluindo entidades como software (o Acrobat Reader) ou mesmo serviços (Correio Azul).
Note-se que é muito frequente que um produto contenha na sua designação um nome de marca (ou da empresa que o vende), mas é para ser marcado como PRODUTO. Esta é aliás uma situação análoga ao facto de várias instituições e obras conterem na sua designação nomes de pessoas.

Para OBRAs que tenham um nome, usa-se REPRODUZIDA ou ARTE, conforme haja várias instâncias ou apenas um objecto único.

PUBLICACAO engloba produtos literários que não sejam referidos pelo seu nome, apenas por citações, tal como livros, artigos, decretos, directivas, etc.

Veja-se a distinção:

<OBRA TIPO="REPRODUZIDA">"Os Lusíadas"</OBRA> descrevem a odisseia dos portugueses 
<OBRA TIPO="PUBLICACAO">Camões (1554)</OBRA> diz que...

Pormenores associados ao tratamento da categoria <TEMPO>


Há que ter atenção que por vezes, uma dada EM da categoria TEMPO pode ter duas interpretações:
No dia 6 de Novembro comemora-se... 
No dia 6 de Novembro vai haver uma greve... 
No primeiro caso, como acontece todos os anos, é CICLICO. No segundo caso, e se pelo contexto se souber o ano, é uma DATA.

Da mesma maneira:

Em Agosto de 2000 foi publicada a 2ª edição do livro "Como..."  - DATA
Em Agosto de 2000 houve 34 tentativas de suicídio... - PERIODO
Ou seja, sempre que implicitamente se tenta definir uma data concreta, o tipo é DATA.

Horas com modificação onde são medidas são ainda horas, uma vez que é parte essencial para percebermos o tempo da ocorrência.
O atentado ocorreu às <TEMPO>13h, hora de Lisboa</TEMPO>, e fez...

Pormenores associados ao tratamento da categoria <VALOR>


Define-se VALOR como a referência a quantidades. Se possuirem uma unidade de grandeza, deve ser incluída.
Os valores de tempo são quantidades, não períodos!
O autocarro demora <TEMPO TIPO="PERIODO">45 minutos</TEMPO> a fazer o percurso - Errado.
O autocarro demora <VALOR TIPO="QUANTIDADE">45 minuto</QUANTIDADE> a fazer o percurso - Certo.

Às <TEMPO TIPO="DATA">3 horas</TEMPO> há um debate... - Certo.
Às <VALOR TIPO="QUANTIDADE">3 horas</VALOR> há um debate... - Errado.
Todos os valores são para ser etiquetados.

Proposta de novas categorias

Ao anotar o texto, os participantes podem sentir a necessidade de introduzir novas categorias.

Pedimos que, logo que o façam, enviem essa sugestão para a lista avalia ou para a organização. Se, por um lado, é importante que, se outras pessoas acharem EMs desse tipo, possam usar a mesma identificação e não reinventar a roda ou sugerir uma solução semelhante, é preciso também, para evitar um caos completo, que sejam aprovadas /apadrinhadas pela organização (que terá de refazer os programas nesse sentido).

Esta página e a sua informação não se encontra actualizada. Clique aqui para visitar o síio actual do HAREM.