Mais informação sobre anotação do corpo humano e como se processa a anotação semântica pode ser encontrada em
Começando pelo mais simples:
Palavras que são só elementos do corpo humano ficam automaticamente tratadas ao ser colocadas na lista de palavras corpo.txt. (As listas são listas de lemas, a propósito. Por isso a palavra coxa, embora possa ser um adjetivo, como lema é apenas substantivo e não precisa de qualquer tratamento especial.)
Se isso ocorre só para uma categoria gramatical dessa palavra, enquanto noutras categorias ela significa outra coisa, é preciso colocá-la na lista de palavras respetiva, como é o caso de anal, manual, anelar ou temporal, que só são palavras do corpo quando são adjetivos, e por isso devem incluir-se em corpo_A.txt.
Contudo a maior parte das palavras tem diversos significados, claro, e não é garantido, por exemplo, que listar temporal em corpo_A.txt seja uma boa ideia, visto que a maior parte dos casos de temporal como adjetivo referem-se ao tempo e não ao corpo.
Nesses casos, em vez de listar na lista respetiva, deve-se fazer uma regra positiva que diz (ou é assim interpretada): "embora não esteja na lista, em alguns casos, descritos pela seguinte regra ou regras, deve ser marcado como corpo".
Isto leva-nos à questão de que existem vários ficheiros de regras para complementar e suplementar os léxicos:
Os mais simples são os que removem alguns casos indevidos (e que estão nas listas), as regras negativas (ou seja, no ficheiro regras_negativas_corpo_excl.txt), e os que adicionam alguns casos positivos, as regras positivas (ou seja, no ficheiro regras_positivas_corpo_excl.txt), que não estão nas listas.
Depois existe um outro ficheiro cuja principal razão é separar a anotação semântica em si de possíveis correções ao PALAVRAS, na esperança de que as regras sejam genéricas e bem fundamentadas, e também que diferentes versões do PALAVRS corrijam alguns desses erros. Por isso primeiro corrigimos o que está mal, e depois fazemos regras para texto bem anotado.
O tipo dessas regras de correção do PALAVRAS (ou seja, no ficheiro regras_corr_PALAVRAS_corpo_excl.txt) é normalmente a correção de lema ou de PoS, e é importante indicar que essas regras são executadas antes dos léxicos serem processados.
O quarto tipo principal de regras são as regras de especialização (ou seja, no ficheiro regras_especializacao_corpo_excl.txt), e que têm a ver com a possibilidade de criar diferentes subtipos dentro do corpo, marcados com corpo:xxx, e que são regras aplicadas depois de já essas palavras terem sido anotadas como corpo.
Isso em geral é utilizado para usos metafóricos ou especializados de parte do corpo, e as várias categorias que considerámos pertinente identificar estão documentadas no texto sobre o Esqueleto.
Para podermos descontar alguns casos demasiado abrangentes nas regras de especialização, ainda criámos a possibilidade de ter algumas regras (negativas) a remover essa especialização, as regras de desespecialização (ou seja, no ficheiro regras_desesespecializacao_corpo_excl.txt).
Finalmente, para casos complexos em que uma anotação pode dar a origem a mais, temos regras recursivas (ou seja, no ficheiro regras_recursivas_corpo_excl.txt), que só param quando já não puderem ser utilizadas. Essas regras são/foram relevantes para a cor (que em alguns contextos é muito criativa), mas provavelmente não são necessárias para o corpo.
Este pequeno panorama apresenta em termos gerais a organização da anotação e das regras, outra questão, mais abaixo, tem a ver com o grupo.
Mas além disso, ainda existe a escolha entre dois níveis, regras associadas a todos os corpos (ao português em geral) e regras associadas a um corpo específico. Geralmente começa-se por uma dado corpo, mas pode confirmar-se se a regra tem outros casos em outros corpos. Se tiver, então faz sentido promovê-la para regra geral.
É importante também salientar que os critérios de escolha entre regras ou léxico (no caso das mwe, o ficheiro corpo_mwe.txt) são os mesmos para expressões e para palavras simples. Só o formato (compreensivelmente) é mais complicado, porque para uma mwe é preciso indicar também o lema, a POS e o sema.
sema="0"significa que não tem valor de sema.
Mas, além de serem discutidos pela equipa, os casos mais complicados devem ficar documentados também no texto do Esqueleto, para dar aos utilizadores a ideia da dificuldade e das opções tomadas. É possível que mais tarde os casos que nos pareçam inicialmente arbitrários ou discutíveis sejam "resolvidos" consensualmente com uma generalização ou regra.
Para essa atribuição é apenas usado o ficheiro Grupos_corpo.txt, que indica para cada grupo que palavras (lemas) lhe pertencem, como explicado no texto sobre o Esqueleto.
Por isso, todas as palavras e expressões de corpo (não só as que estão nos léxicos) devem estar listadas neste ficheiro. Senão, o grupo fica marcado como Nãoespecificado.