Segundo HAREM: sintaxe
HAREM,
Linguateca
Uma EM é identificada pela etiqueta <EM> com atributos e terminada por </EM>.
Por exemplo,
<EM ID="xxx" CATEG="A" TIPO="B" SUBTIPO="C" COREL="corel" TIPOREL="tiporel">Qualquer Coisa</EM>
Os atributos possíveis
- têm de aparecer em maiúsculas;
- só podem ser ID, CATEG, TIPO, SUBTIPO, COREL, TIPOREL, TEMPO_REF, SENTIDO, VAL_NORM, VAL_DELTA, COMENT;
- o seu valor tem de ser incluído entre aspas, a seguir ao sinal de igual.
O único atributo obrigatório é o ID, que tem de ser uma combinação de apenas letras não acentuadas (maiúsculas ou minúsculas), algarismos, e os caracteres "-" e "_". A cada EM corresponde um ID único.
Os valores dos atributos COREL e TIPOREL estão descritos nas directivas do ReRelEM.
Os valores dos atributos TEMPO_REF, SENTIDO, VAL_NORM e VAL_DELTA estão descritos nas directivas do TEMPO.
Se várias possibilidades de identificar uma expressão correspondem a segmentações diferentes, usa-se <ALT>, separando as várias alternativas pelo caracter |.
Por exemplo, <ALT> alt1 | alt2 | alt3 </ALT>, em que alt1, alt2, alt3 são texto eventualmente marcado com <EM>. Para cada alternativa alt1, alt2, alt3 deve corresponder um ID diferente.
Para a tarefa de classificação, para todas as EM excepto as do TEMPO, uma EM no máximo terá a forma
<EM ID="xxx" CATEG="A" TIPO="B" SUBTIPO="C">Entidade</EM>.
Os valores possíveis para CATEG, TIPO e SUBTIPO:
- podem ser omitidos
- o TIPO só pode ser especificado se a CATEG também o for, e tem de pertencer a essa categoria
- o SUBTIPO só pode ser especificado se o TIPO também o for, e tem de pertencer a esse tipo
- o SUBTIPO só está definido para os TIPOs FISICO, HUMANO, VIRTUAL da CATEG LOCAL e para os TIPOS TEMPO_CALEND da CATEG TEMPO
- podem ser simples (veja-se a tabela), ou complexos
- valores complexos (correspondendo a vagueza) criam-se através da concatenação de vários valores através do caracter |.
- se um dado valor é omitido, usa-se o vazio
- a ordem dos valores complexos tem de ser idêntica nos três atributos, ou seja a ordem dos tipos tem de ser igual à ordem das categorias a que correspondem
- é necessário repetir a categoria se se quiser especificar alternativas entre tipos dessa mesma categoria
- é necessário repetir o tipo se se quiser especificar alternativas entre subtipos desse mesmo tipo
É possível incluir o que se quiser dentro do atributo COMENT, excepto caracteres especiais do XML como & < > ou aspas.
Última actualização: 19 de Março de 2008.