Ortopedista: como tratar do Esqueleto

Projecto AC/DC, Linguateca


Nesta página encontram-se as indicações de como usar da melhor maneira possível as regras associadas ao corte-e-costura, como exemplos no domínio do corpo humano.

Mais informação sobre anotação do corpo humano e como se processa a anotação semântica pode ser encontrada em

Note que esta página for escrita e pensada para os próprios anotadores, não para o público em geral, visto que descreve o que precisamos de fazer para que o resultado descrito no Esqueleto aconteça.

Vários instrumentos

A primeira fonte de confusão pode ser o facto de existirem vários instrumentos/locais para colocar informação sobre o corpo humano: Existem os léxicos/listas de palavras e listas de expressões, e depois as regras.

Começando pelo mais simples:

Palavras que são só elementos do corpo humano ficam automaticamente tratadas ao ser colocadas na lista de palavras corpo.txt. (As listas são listas de lemas, a propósito. Por isso a palavra coxa, embora possa ser um adjetivo, como lema é apenas substantivo e não precisa de qualquer tratamento especial.)

Se isso ocorre só para uma categoria gramatical dessa palavra, enquanto noutras categorias ela significa outra coisa, é preciso colocá-la na lista de palavras respetiva, como é o caso de anal, manual, anelar ou temporal, que só são palavras do corpo quando são adjetivos, e por isso devem incluir-se em corpo_A.txt.

Contudo a maior parte das palavras tem diversos significados, claro, e não é garantido, por exemplo, que listar temporal em corpo_A.txt seja uma boa ideia, visto que a maior parte dos casos de temporal como adjetivo referem-se ao tempo e não ao corpo.

Nesses casos, em vez de listar na lista respetiva, deve-se fazer uma regra positiva que diz (ou é assim interpretada): "embora não esteja na lista, em alguns casos, descritos pela seguinte regra ou regras, deve ser marcado como corpo".

Isto leva-nos à questão de que existem vários ficheiros de regras para complementar e suplementar os léxicos:

Os mais simples são os que removem alguns casos indevidos (e que estão nas listas), as regras negativas (ou seja, no ficheiro regras_negativas_corpo_excl.txt), e os que adicionam alguns casos positivos, as regras positivas (ou seja, no ficheiro regras_positivas_corpo_excl.txt), que não estão nas listas.

Depois existe um outro ficheiro cuja principal razão é separar a anotação semântica em si de possíveis correções ao PALAVRAS, na esperança de que as regras sejam genéricas e bem fundamentadas, e também que diferentes versões do PALAVRS corrijam alguns desses erros. Por isso primeiro corrigimos o que está mal, e depois fazemos regras para texto bem anotado.

O tipo dessas regras de correção do PALAVRAS (ou seja, no ficheiro regras_corr_PALAVRAS_corpo_excl.txt) é normalmente a correção de lema ou de PoS, e é importante indicar que essas regras são executadas antes dos léxicos serem processados.

O quarto tipo principal de regras são as regras de especialização (ou seja, no ficheiro regras_especializacao_corpo_excl.txt), e que têm a ver com a possibilidade de criar diferentes subtipos dentro do corpo, marcados com corpo:xxx, e que são regras aplicadas depois de já essas palavras terem sido anotadas como corpo.

Isso em geral é utilizado para usos metafóricos ou especializados de parte do corpo, e as várias categorias que considerámos pertinente identificar estão documentadas no texto sobre o Esqueleto.

Para podermos descontar alguns casos demasiado abrangentes nas regras de especialização, ainda criámos a possibilidade de ter algumas regras (negativas) a remover essa especialização, as regras de desespecialização (ou seja, no ficheiro regras_desesespecializacao_corpo_excl.txt).

Finalmente, para casos complexos em que uma anotação pode dar a origem a mais, temos regras recursivas (ou seja, no ficheiro regras_recursivas_corpo_excl.txt), que só param quando já não puderem ser utilizadas. Essas regras são/foram relevantes para a cor (que em alguns contextos é muito criativa), mas provavelmente não são necessárias para o corpo.

Este pequeno panorama apresenta em termos gerais a organização da anotação e das regras, outra questão, mais abaixo, tem a ver com o grupo.

Mas além disso, ainda existe a escolha entre dois níveis, regras associadas a todos os corpos (ao português em geral) e regras associadas a um corpo específico. Geralmente começa-se por uma dado corpo, mas pode confirmar-se se a regra tem outros casos em outros corpos. Se tiver, então faz sentido promovê-la para regra geral.

Como escolher entre regras negativas e positivas?

Há casos em que uma palavra ou expressão é praticamente igualmente frequente como corpo ou como não corpo. Nesses casos, a melhor maneira de escolher é vendo se é mais fácil fazer regras negativas ou positivas. Por exemplo se 50% dos casos a palavra aparece numa dada expressão, a regra que cobre esses 50% dos casos é a que decide o tipo.

Como escolher entre regras gerais ou exclusivas?

Basicamente, há dois critérios: a regra ser compreensível em gera (donde parece uma regra genérica, mesmo que haja poucas instâncias nos corpos, por acaso), e a regra aplicar apenas a um corpo, em que para não gastar tempo na anotação dos outros corpos é chamada apenas para um determinado corpo.

Como escolher entre regras de especialização e mwes?

Este é o caso mais complicado, porque tem a ver com a identificação de expressões. Não existe nenhum critério consensual, por isso vou apenas listar aqui alguns casos que me parecem ser mais fáceis: Note-se que isto não significa que as expressões listadas têm sempre esse sentido, muito pelo contrário, como se pode ver por exemplo em ela ia de pé descalço ou aquele candeeiro sem pé está bom para o lixo.

É importante também salientar que os critérios de escolha entre regras ou léxico (no caso das mwe, o ficheiro corpo_mwe.txt) são os mesmos para expressões e para palavras simples. Só o formato (compreensivelmente) é mais complicado, porque para uma mwe é preciso indicar também o lema, a POS e o sema.

O que fazer quando uma expressão tem mais de um sentido?

Quando uma expressão tem mais de um sentido, como é o caso de de cara (PB) ou de caras (PP), que pode significar frente a frente ou imediatamente, nos exemplos respetivamente Dei de cara(s) com ele no metro ou o que coloca de cara(s) o problema de custeio do curso universitário (que estamos a admitir neste caso que terão classificações diferentes), é preciso fazer sempre a escolhe entre uma e outra nas regras de especialização.

Formato das regras negativas

Uma regra negativa deve remover uma marcação de sema, e isso faz-se atribuindo o valor "0", ou seja
sema="0"
significa que não tem valor de sema.

Em caso de dúvida

Em alguns casos mais do que uma classificação pode ser pertinente, e o AC/DC permite múltiplas categorias ligadas pelo sinal de sublinhado -- por ordem alfabética, para minimizar o número de combinações diferentes.

Mas, além de serem discutidos pela equipa, os casos mais complicados devem ficar documentados também no texto do Esqueleto, para dar aos utilizadores a ideia da dificuldade e das opções tomadas. É possível que mais tarde os casos que nos pareçam inicialmente arbitrários ou discutíveis sejam "resolvidos" consensualmente com uma generalização ou regra.

Marcação do grupo

Existe um outro atributo para agrupar dentro de um dado campo semântico, o grupo, e que é atribuído quando o atributo sema já está completo.

Para essa atribuição é apenas usado o ficheiro Grupos_corpo.txt, que indica para cada grupo que palavras (lemas) lhe pertencem, como explicado no texto sobre o Esqueleto.

Por isso, todas as palavras e expressões de corpo (não só as que estão nos léxicos) devem estar listadas neste ficheiro. Senão, o grupo fica marcado como Nãoespecificado.


Diana Santos
Última acualização: 10 de março de 2014.
Perguntas, comentários e sugestões