| Linguateca - 2005. |
Versão para impressão
O presente conjunto de directivas, actualizado no dia 24 de Novembro, incorpora já o resultado da discussão e várias sugestões dos participantes.
Definição do que é uma EM
Etiquetas
Directivas de anotação gerais
A nossa sugestão de definição é que uma EM tem de ter pelo menos uma palavra em maiúsculas, e ou algarismos.
Donde: "15 mn", "homem de Neanderthal" poderão ser EMs, mas "idade da pedra", "governo francês", "mobília alentejana", grafados assim, não.
Os outros sistemas usarão apenas as etiquetas classificadoras descritas em "Classificação semântica".
MORF="M,S" - masculino singular
Se não for possível identificar o número ou o género, deverá constar um '?' no local respectivo.
Exemplos:
Entre parênteses e em itálico, apresentamos exemplos de entidades a que poderia, num dado contexto, ser atribuída essa classificação, o que não significa que em todos os contextos o deva ser.
IMPORTANTE: Todas as categorias possuem um tipo OUTRO, para situações em que a subclassificação não cai em nenhum dos tipos propostos.
Em primeiro lugar, as etiquetas sugeridas são para introduzir no próprio texto.
Pode haver dois tipos de vagueza: dentro de uma mesma categoria principal:
Esta etiqueta não é, pois, para usar por aqueles anotadores que acharem que tanto "Câmara Municipal de Lisboa" como "Lisboa" devem ser marcados na expressão Câmara Municipal de Lisbo. Para isso basta um encaixe:
Um PRODUTO poderá ser concreto (ex: uma caneta BIC) ou virtual, incluindo entidades como software (o Acrobat Reader) ou mesmo serviços (Correio Azul).
Para OBRAs que tenham um nome, usa-se REPRODUZIDA ou ARTE, conforme haja várias instâncias ou apenas um objecto único. PUBLICACAO engloba produtos literários que não sejam referidos pelo seu nome, apenas por citações, tal como livros, artigos, decretos, directivas, etc.
Veja-se a distinção:
Da mesma maneira:
Pedimos que, logo que o façam, enviem essa sugestão para a lista avalia ou para a organização.
Se, por um lado, é importante que, se outras pessoas acharem EMs desse tipo, possam usar a mesma identificação e não reinventar a roda ou sugerir uma solução semelhante, é preciso também, para evitar um caos completo, que sejam aprovadas /apadrinhadas pela organização (que terá de refazer os programas nesse sentido).
Etiquetas
Etiquetas - (só) Identificação
<EM>Entidade</EM> - A usar apenas por sistemas que pretendam apenas identificar, e não classificar semanticamente, as entidades.
Etiquetas - Classificação Morfológica
A classificação morfológica será feita através de um atributo MORF, dentro da identificação da entidade a que se refere. Este atributo poderá tomar os seguintes valores:
MORF="M,P" - masculino plural
MORF="F,S" - feminino singular
MORF="F,P" - feminino plural
<EM MORF="?,S">Braga</EM>
<PESSOA TIPO="INDIVIDUAL" MORF="?,S">Braga de Oliveira</PESSOA>
Etiquetas - Classificação Semântica
O nível superior é para ser considerado o nome da entidade; os nomes em negrito por baixo de cada são para ser marcados como valores do atributo TIPO, em maiúsculas.
<PESSOA TIPO="CARGO">Director da Biblioteca Nacional</PESSOA>
Directivas de anotação
Mais algumas regras têm de ser associadas ao processo para ser mais rigorosa a definição da tarefa de cada participante.
<LOCAL TIPO="CORREIO" MORF="F,S">Sala 3</LOCAL>
<TEMPO TIPO="HORA">19h45</TEMPO>
<ORGANIZAÇÃO TIPO="ADMINISTRAÇÃO">Portugal</ORGANIZAÇÃO>
Caracteres acentuados nas etiquetas
As etiquetas, parâmetros e atributos deverão estar escritos em maiúsculas. Inicialmente, foi proposto aos participantes para colocarem as categorias escritas com acentos e cedilhas, como no caso de ORGANIZAÇÃO. No entanto, de maneira a compatibilizar a Colecção Dourada com analisadores XML, recomenda-se a anotação com termos sem acentos ou cedilhas. Seja como for, se as etiquetas usadas possuirem caracteres com acentos e cedilhas, a organização do HAREM tratará de convertê-los para caracteres não acentuados.
Formato das etiquetas
Todos os atributos deverão estar dentro de aspas.
<PESSOA TIPO=GRUPO> - Errado
<PESSOA TIPO="GRUPO"> - Correcto
Etiquetas dentro de etiquetas
É permitido o uso de etiquetas dentro de etiquetas, desde que o texto envolvente não seja exactamente igual.
ex: <ORGANIZACAO TIPO="EMPRESA"><ABSTRACCAO TIPO="MARCA">FIAT 127</ABSTRACCAO><ORGANIZACAO> - Errado.
<ORGANIZACAO TIPO="EMPRESA">FIAT <ABSTRACCAO TIPO="MARCA">127</ABSTRACCAO><ORGANIZACAO> - Certo.
No caso anterior, se uma etiqueta dentro de uma etiqueta tiver o texto envolvente igual, não deve ser anotado assim, mas sim no formato <A|B TIPO="C|D">.
As etiquetas de nível superior devem ser as primeiras a serem fechadas.
ex: <B><I>Texto</I></B> - Certo
<B><I>Texto</B></I> - Errado
As siglas devem ser etiquetadas, mesmo que a sua expansão esteja incluída no texto. Exemplos de como se deve identificar as EMs:
<EM>Instituto para a Paridade dos Géneros</EM> (<EM>IPG</EM> )
<EM>Instituto para a Paridade dos Géneros</EM> - <EM>IPG</EM>
<EM>Instituto para a Paridade dos Géneros</EM>, <EM>IPG</EM>
Anotação parcial
Não é necessário usar todas as etiquetas, até porque podem simplesmente não aparecer nos textos atribuídos. Donde, se alguém só conseguir ou quiser usar as categorias principais (PESSOA ORGANIZAÇÃO etc) e não os tipos (TIPO), simplesmente indique isso ao devolver o seu quinhão.
Impossibilidade de decidir
Dividimos esta questão entre decisões sobre a classificação e sobre a própria identificação da EM.
Várias classificações possíveis para uma mesma entidade
No caso de haver dúvidas sobre a interpretação, algo que é tanto mais possível quanto maior a quantidade de etiquetas que sugerimos, pedimos que marquem com o sinal "|" as várias possibilidades, que depois poderão ser discutidas em conjunto.
O <PESSOA TIPO="GRUPO|CARGO">Governo</PESSOA> esteve no Faial.
ou entre duas categorias principais diferentes:
Odeio a <ORGANIZAÇÃO|OBRA TIPO="EMPRESA|PRODUTO">Coca Cola</ORGANIZAÇÃO|OBRA>
Se não se puder subtipificar (ou seja, se for fácil identificar a categoria principal mas não o valor do TIPO), pode usar-se "?".
Já não há <PESSOA TIPO="?">Pai Natal</PESSOA>
Isto, conjugado com dúvidas sobre a categoria principal, ficaria
Recebi um <OBRA|COISA|VARIADO TIPO="ARTE|OBJECTO|?">Óscar</OBRA|COISA|VARIADO> ontem.
Várias alternativas de identificação
A interpretação do texto, sobre a qual o anotador não consegue decidir, implica identificação de diferentes EMs. Ou seja, é possível em alguns casos que haja mais de uma alternativa de identificação de EMs, tal como em
<PESSOA TIPO="GRUPO">Carlos e Diana</PESSOA>
<PESSOA TIPO="INDIVIDUAL">Carlos</PESSOA> e <PESSOA TIPO="INDIVIDUAL">Diana</PESSOA>
<ORGANIZAÇÃO TIPO="ADMINISTRACAO">Câmara Municipal de Lisboa</ORGANIZAÇÃO>
<ORGANIZAÇÃO TIPO="ADMINISTRACAO">Câmara Municipal</ORGANIZAÇÃO> de <LOCAL TIPO="GEOGRÁFICO|ADMINISTRATIVO">Lisboa</LOCAL>
<PESSOA TIPO="GRUPO">generais Spínola e Costa Gomes</PESSOA>
generais <PESSOA TIPO="INDIVIDUAL">Spínola</PESSOA> e <PESSOA TIPO="INDIVIDUAL">Costa Gomes/<PESSOA>
no
Pedimos, nesse caso, para as pessoas marcarem ambos recorrendo a uma nova etiqueta ALT, que engloba o máximo de texto envolvido:
<ALT> <PESSOA TIPO="GRUPO">Carlos e Diana</PESSOA> |
<PESSOA TIPO="INDIVIDUAL">Carlos</PESSOA> e <PESSOA TIPO="INDIVIDUAL">Diana</PESSOA></ALT>
É importante, contudo, só usar esta etiqueta quando do contexto não puder ser decidido que interpretação distinta é que está em causa.
<ORGANIZAÇÃO TIPO="ADMINISTRACAO">Câmara Municipal de <LOCAL TIPO="GEOGRÁFICO|ADMINISTRATIVO">Lisboa</LOCAL> </ORGANIZAÇÃO>
Sem classificação morfológica
Quem não tem um sistema que faça automaticamente classificação morfológica, não precisa de pôr em todas as entidades MORF="?,?" ou anotar à mão. Basta que nos diga que não vai concorrer na parte da morfologia.
Directivas de anotação específicas
Pormenores associados ao tratamento da categoria <PESSOA>
Os títulos das pessoas devem estar incluídos na etiqueta, quando fazem parte das formas de tratamento:
O <PESSOA TIPO="INDIVIDUAL">Dr. Sampaio</PESSOA>
O <PESSOA TIPO="CARGO">Presidente da República</PESSOA>
O <PESSOA TIPO="INDIVIDUAL">presidente Jorge Sampaio</PESSOA>
O <PESSOA TIPO="INDIVIDUAL">padre Melícias</PESSOA>
assim como referências a parentescos quando são usados na identificação / tratamento da pessoa
<PESSOA TIPO="INDIVIDUAL">tio Zeca</PESSOA>
<PESSOA TIPO="INDIVIDUAL">mãe Bhaer</PESSOA>
Da mesma forma, formas de tratamento isoladas, que incluam maiúsculas, devem ser anotadas como PESSOA
<PESSOA TIPO="INDIVIDUAL">EM>V. Ex.a</PESSOA>
Quando um cargo e a pessoa que a ocupa são mencionados no mesmo sintagma nominal, estamos em presença de apenas uma EM do tipo PESSOA.
O <PESSOA TIPO="INDIVIDUAL">Presidente da República Jorge Sampaio</PESSOA> chegou hoje.
O <PESSOA TIPO="CARGO">Presidente da República</PESSOA> chegou hoje.
Pormenores associados ao tratamento da categoria <ACONTECIMENTO>
Um bom exemplo da separação entre ORGANIZADO e EVENTO é o Euro2004, que foi um acontecimento organizado, que incluiu vários eventos (jogos, festas, conferências, etc).
Quando se diz que um evento pode ser organizado ou não, dá-se o exemplo de um jogo de futebol (organizado) ou de uma manifestação popular espontânea (não organizada).
Pormenores associados ao tratamento da categoria <OBRA>
A categoria OBRA compreende produtos humanos, em qualquer formato.
Note-se que é muito frequente que um produto contenha na sua designação um nome de marca (ou da empresa que o vende), mas é para ser marcado como PRODUTO. Esta é aliás uma situação análoga ao facto de várias instituições e obras conterem na sua designação nomes de pessoas.
<OBRA TIPO="REPRODUZIDA">"Os Lusíadas"</OBRA> descrevem a odisseia dos portugueses
<OBRA TIPO="PUBLICACAO">Camões (1554)</OBRA> diz que...
Pormenores associados ao tratamento da categoria <TEMPO>
Há que ter atenção que por vezes, uma dada EM da categoria TEMPO pode ter duas interpretações:
No dia 6 de Novembro comemora-se...
No dia 6 de Novembro vai haver uma greve...
No primeiro caso, como acontece todos os anos, é CICLICO.
No segundo caso, e se pelo contexto se souber o ano, é uma DATA.
Em Agosto de 2000 foi publicada a 2ª edição do livro "Como..." - DATA
Em Agosto de 2000 houve 34 tentativas de suicídio... - PERIODO
Ou seja, sempre que implicitamente se tenta definir uma data concreta, o tipo é DATA.
Horas com modificação onde são medidas são ainda horas, uma vez que é parte essencial para percebermos o tempo da ocorrência.
O atentado ocorreu às <TEMPO>13h, hora de Lisboa</TEMPO>, e fez...
Pormenores associados ao tratamento da categoria <VALOR>
Define-se VALOR como a referência a quantidades. Se possuirem uma unidade de grandeza, deve ser incluída.
Os valores de tempo são quantidades, não períodos!
O autocarro demora <TEMPO TIPO="PERIODO">45 minutos</TEMPO> a fazer o percurso - Errado.
O autocarro demora <VALOR TIPO="QUANTIDADE">45 minuto</QUANTIDADE> a fazer o percurso - Certo.
Às <TEMPO TIPO="DATA">3 horas</TEMPO> há um debate... - Certo.
Às <VALOR TIPO="QUANTIDADE">3 horas</VALOR> há um debate... - Errado.
Todos os valores são para ser etiquetados.
Proposta de novas categorias
Ao anotar o texto, os participantes podem sentir a necessidade de introduzir novas categorias.