Parece-nos que uma coisa são as directivas, que indicam qual a abordagem e sentido das várias anotações propostas, com o nível de granularidade que nos é permitido através de estudos iniciais e da consulta à comunidade, e que pretende dar a todos os participantes a mesma base para desenharem e desenvolverem os seus sistemas.
Outra, bem diferente, são os critérios minuciosos seguidos na tarefa hercúlea de aplicar da forma mais honesta possível esse (ou outro) conjunto de directivas a textos que não foram previamente considerados, e de concordar na interpretação dessas mesmas directivas genéricas a casos raros e particulares, e que são quase únicos.
Após esse exercício na criação e validação sistemática da colecção dourada do Segundo HAREM, tentámos cristalizar aqui as opções tomadas e que se referem a decisões que não estavam (nem podiam estar) cobertas, a esse nível de pormenor, pelas directivas, visto que estão intimamente associadas aos próprios textos escolhidos e que apenas podiam ser discutidas com referência aos mesmos.
Aqui deixamos o testemunho de que essa discussão foi acesa, longa, e que nos permitiu as conclusões que fixamos aqui, para que possam servir para a análise futura do significado dos textos em português, quer com referência à colecção dourada específica, quer para análise semântica geral da nossa língua.
Este texto encontra-se ainda em preparação, como o indica o número de versão no início.
Além da lista de palavras que tornámos pública, aceitámos, no caso das OBRAS todas as preposições que ligavam variadas palavras em maiúscula. Nos casos em que algumas dessas palavras não estavam em maiúscula, OMITIMOs, embora fosse fácil detectar que estávamos em presença do nome de uma obra, visto que tal estava omisso nas directivas.
Além do famigerado caso dos títulos e das palavras em início de frase, que não foram considerados EM, muitas das palavras noutras línguas que estão a entrar no português conservam as maiúsculas (por exemplo Internet, CD) sem que nos pareçam em alguns casos serem EM. Além disso casos de nomes comuns que por causa da sua estratégia de baptismo incluem nomes próprios não forma desta feita anotados como EM, como explicado nas directivas (bolas de Berlim).
Quando não era óbvio que se referiam a uma sigla ou a uma EM que seria sempre reescrita com a primeira letra em maiúscula, tal como Lisboa, usámos a mesma estratégia que para os títulos: não foram marcadas como EM.
Mantivemos a estratégia geral do Primeiro HAREM, o que significa que apenas as palavras em maiúsculas eram consideradas/marcadas EM (tirando as que estavam na lista das minúsculas). Ou seja, palavras em minúsculas seguidas de maiúsculas fazendo uma unidade semântica indissociável (serra da Estrela vs. serra do Pedro) foram classificadas pela categoria a que pertencem como unidade global -- no caso acima, serra da Estrela levaria a que Estrela fosse maracad como LOCAL. No caso de serra do Pedro, o local não seria marcado, mas apenas a pessoa Pedro.
Quando a expressão cabe numa categoria coberta pela HAREM tal como OBRA, PESSOA, ABSTRACCAO (NOME) ou ACONTECIMENTO, consideramos que chegam as aspas para a marcar como EM, e portanto as regras das maiúsculas não se aplicam. Naturalmente, todos os casos em que as aspas indicam discurso directo, sugestão terminológica, ou simplesmente casos que não sejam claramente obras, tal como dedicatórias ou palavras de ordem, não foram marcadas como EM.
* <PESSOA> | < PESSOA> de <LOCAL>
<PESSOA INDIVIDUAL> | <PESSOA INDIVIDUAL> de <LOCAL>
<PESSOA CARGO> | <PESSOA CARGO> de <LOCAL>
<PESSOA GRUPOCARGO> | <PESSOA GRUPOCARGO> de <LOCAL>
<PESSOA GRUPOIND> | <PESSOA GRUPOIND> de <LOCAL>
* <PESSOA> |< PESSOA> de <ORGANIZACAO>
<PESSOA CARGO> | <PESSOA CARGO> de <ORGANIZACAO>
<PESSOA GRUPOMEMBRO> | <PESSOA GRUPOMEMBRO> de <ORGANIZACAO>
* <PESSOA> |< PESSOA> de <ORGANIZACAO|LOCAL>
<PESSOA CARGO>| <PESSOA CARGO> de <ORGANIZACAO|LOCAL>
<PESSOA GRUPOCARGO>| <PESSOA GRUPOCARGO> de <ORGANIZACAO|LOCAL>
* <PESSOA> |< PESSOA> de <PESSOA>
<PESSOA GRUPOMEMBRO> | <PESSOA GRUPOMEMBRO> de <PESSOA>
* <ORGANIZACAO>| <ORGANIZACAO> de <ORGANIZACAO> * <ORGANIZACAO>| <ORGANIZACAO> de <LOCAL>
* <LOCAL>| <LOCAL> de <LOCAL>
<LOCAL HUMANO CONSTRUCAO> | <LOCAL HUMANO CONSTRUCAO> de <LOCAL>
<LOCAL HUMANO REGIAO> | <LOCAL HUMANO REGIAO> de <LOCAL>
<LOCAL HUMANO OUTRO>| <LOCAL HUMANO OUTRO> de <LOCAL>
* <LOCAL>| <LOCAL> de <ORGANIZACAO>
<LOCAL HUMANO CONSTRUCAO> | <LOCAL HUMANO CONSTRUCAO> de <ORGANIZACAO>
* <OBRA> | <OBRA> de <PESSOA> * <OBRA ARTE|LOCAL> | <OBRA ARTE|LOCAL> de <LOCAL>
* <ACONTECIMENTO> | <ACONTECIMENTO> de <ORGANIZACAO> * <ACONTECIMENTO> | <ACONTECIMENTO> de <LOCAL> * <ACONTECIMENTO> | <ACONTECIMENTO> de <TEMPO>
<ABSTRACCAO DISCIPLINA> | <ABSTRACCAO DISCIPLINA> de <LOCAL> * <ABSTRACCAO DISCIPLINA> | <ABSTRACCAO DISCIPLINA> de <PESSOA>
* <COISA CLASSE> | <COISA CLASSE> de <ORGANIZACAO>
No caso de perguntas sem contexto: tentamos reduzir o espaço de alternativas usando o contexto linguístico (forma da pergunta, forma da EM, conteúdo da pergunta, conteúdo da EM).
No caso de perguntas com contexto: fazemos o mesmo, mas ajudado pelas outras perguntas associadas ao mesmo tópico.
É importante salientar que nunca usámos o conhecimento (proveniente da nossa cultura geral, ou da nossa tentativa de descobrir a resposta) sobre a própria EM, visto que estamos a tentar modelar a ignorância de quem pergunta (e assumimos que, se pergunta, é porque não sabe o que é). Estamos plenamente conscientes de que mesmo não sabendo, terá visto a denominação em algum contexto para ser levado a formular a pergunta, mas infelizmente não temos acesso ao dito.
Nos casos em que a pergunta não nos dá pista nenhuma, marcamos apenas como EM.
Nos casos em que sabemos/intuímos a categoria mas não podemos saber o TIPO (ou o SUBTIPO), deixamos vazio.
Em alguns casos, apenas um subconjunto (TIPO/SUBTIPO) de uma CATEGoria é possível. Nesse caso marcamo-lo (mas só a esse). Por exemplo, no caso particular das siglas, marcamos como nome possível de doença, de organização e de acontecimento (evento ou organizado), ou seja, o único tipo marcado é ESTADO (dentro de ABSTRACCAO).
Claro está que nos casos onde mais do que uma interpretação pode ser possível usámos a vagueza, entre estas ou entre estas e outras interpretações da EM. Por exemplo, uma lista de discussão que seja visto como um grupo de pessoas (vaga com PESSOA GRUPOIND), ou o tipo de notícias de um jornal visto como uma marca de qualidade ou falta dela (vaga com ABSTRACCAO IDEIA).
Além disso, os muitos casos em que não houve consenso mesmo depois do estabelecimento destas categorias foram OMITIDOs da avaliação.
Por outro lado, iria flagrantemente contra a filosofia do HAREM se estivessem marcados como ACONTECIMENTO se estavam a indicar tempo. Por isso marcámos como OUTRO, em vez do talvez mais correcto CATEG="TEMPO" TIPO="OUTRO".
Contudo, quando a coordenação é semântica no sentido se se referir a uma entidade só, marcamos apenas uma EM, tal como "Eu era fã da Lisette e Caroline".
Nos casos em que o contexto não nos permite decidir, usamos ALT para ambas as interpretações possíveis.
Considerámos que a anotação incluiria sempre prefixos, mesmo que estes não tivessem sido listados na lista de minúsculas. Assim, el-Rei ou ex-Presidente funcionam tal qual como se estivessem grafados como El-Rei ou Ex-Presidente.
Tal como no Primeiro HAREM, marcámos jogos tais como Benfica-Sporting com ALT com ambas as possibilidades, assim como trajectos Paris-Dakar