Galeria de personagens: Instruções de anotação

Literateca, Linguateca

Última atualização: 1 de dezembro de 2019
A anotação, que terá no máximo quatro passos diferentes, é feita com o programa corte-e-costura, desenvolvido para fazer anotação de campos semânticos não tratados pelo PALAVRAS.

O processo de anotação consiste numa linha de montagem (pipeline) em que diferentes alterações são especificadas em ficheiros diferentes, e são efetuadas em diferentes fases.

Nesta página, apresentamos exemplos e consideraçeõs relativas à análise literária.

Primeira fase: correções pontuais ao PALAVRAS

Para obtermos uma anotação; 100% fiável, poderemos ter de corrigir alguns erros da anotação automática numa primeira fase. Essas regras são aos que são executadas primeiro, e devem ser especificadas num ficheiro cujo nome começa por regras_corr_PALAVRAS.

Tipicamente nesta primeira fase é onde se corrigem questões de atomização (ou segmentação), e as consequências de uma atomização errónea:

Exemplos:

a:[word="Falou=D.=Romero"] b:[word="Falou=D.=Romero"] c:[word="Falou=D.=Romero"] >> a:[lema="falar" & pos="V" & temcagr="PS_IND" & pessnum="3S"] b:[lema="D.=Romero" & pos="PROP" & gen="M" &pessnum="S" & func="<SUBJ"] c:[lema="D.=Romero" & pos="PROP" & gen="M" & pessnum="S" &  func="<SUBJ"]
a:[lema="D."] b:[word="Clara"] >> a:[lema="D.=Clara" & gen="F"] b:[lema="D.=Clara" & gen="F"]
a:[word="Dirse-"] b:[word="ia"] >> a:[lema="dizer+se" & pos="V+PERS" & temcagr="COND_IND+ACC" & pessnum="3S+3S"] b:APAGAR
a:[lema="Nisso=Amélia"] b:[lema="Nisso=Amélia"] >> a:[lema="em+isso" & pos="PRP+SPEC" & pessnum="S"] b:[lema="Amélia" & pos="PROP" & gen="F"]
a:[lema="Coitada" & pos="PROP.*"] >> a:[lema="coitado" & gen="F" & pessnum="S" & pos="ADJ" & sema="0"]
Ao corrigir os erros que dizem respeito à atomização, frequentemente tamb´m ser´e preciso corrigir a categoria gramatical (POS), func, género, provocados por esses mesmos erros.

Segunda fase: anotação de campos válidos para todo o corpo

Nesta fase, as regras de anotação (ou revisão) já partem da segmentação (atomização) correta, e é possível que em muitos casos repitam informações já indicadas no arquivo corr_PALAVRAS da primeira fase. A vantagem desta forma de correção é que garantimos que as informações de sema, gênero etc estarão corretas independentemente de o PALAVRAS ter acertado a segmentação. Em outras palavras, se deixamos as informações de sema, gênero etc no arquivo corr_PALAVRAS, elas só serão aplicadas se o PALAVRAS errar a segmentação do modo como previmos na regra. Outra vantagem é que, dessa forma, dissociamos a nossas correções da anotação original do PALAVRAS.

Esta anotação é usada para descrever a língua, e inicia-se por um conjunto regras positivas ou negativas para adicionar informação.

Numa fase seguinte, essa informação especializa-se, e foi desenhada a pensar nos casos dos campos semânticos, como a cor, que têm uma especificação após o sinal de dois pontos (:), por exemplo cor:politica ou cor:humana. Nessa subfase, usam-se um ficheiro regras_especialização... que já trabalha sobre o campo semântico criado nas regras positivas e negativas.

Para as personagens do texto literário, faz sentido manter essa divisão, e nas regras positivas adiciona-se a informação sobre se o nome próprio em questão é Pessoa, e qual o seu género morfológico. Note-se: a questão do género podia considerar-se uma questão de corrigir o PALAVRAS, e nesse caso estar no arquivo regras_corr_PALAVRAS... mas escolhemos considerar que era algo que nós marcamos de raiz.)

[lema="D.=Romero"] >> [sema="Pessoa" & gen="M"] 
[lema="D.=Clara"] >> [sema="Pessoa" & gen="F"] 
[lema="Andes"] >> [sema="Local" & gen="M"]
a:[word="Tínhamos"] b:[word="o"] c:[word="Miranda"] >> c:[sema="Local"]
a:[word="bandas"] b:[word="de"] c:[word="Miranda"] >> c:[sema="Local"]
Nas regras de especialização, indicamos o tipo de Pessoa no caso de ser histórica, ficcional, ou ser um ente religioso (em que portanto estamos a assumir que é uma especialização ou reatribuição de pessoa). Também corrigimos (especializando) casos em que tenha sido atribuída (pelas nossas próprias regras) uma classificação errada.
[lema="Macbeth"] >> [sema="Pessoa:ficc" & gen="M"]
[lema="Arquimedes"] >> [sema="Pessoa:hist" & gen="M"]
[lema="Mãe=de=Deus"] >> [sema="Relig" & gen="F"]
a:[word="telhas"] b:[word="higiênicas"] c:[lema="Navarro"] >> c:[sema="0"]

Terceira fase: anotação das personagens de uma dada obra

Finalmente, usa-se um conjunto de regras por obra, em que se definem as personagens dessa obra, e as particularidades em relação a locais e nomes de obras que tenha.Essas regras são específicas da Galeria de personagens.

Idealmente, apenas a terceira fase seria necessária na anotação das personagens, mas as fases anteriores garantem a correção de todo o processo.

Exemplos:

a:[lema="Luísa|Luíza|Luiza"] b:[word="B."] >> a:[lema="Luíza=B." & sema="Pessoa:Personagem:Luíza" & gen="F"] b:[lema="Luíza=B." & sema="Pessoa:Personagem:Luíza" & gen="F"]
a:[lema="Chiquinha=do=Lago|Chiquinha=do=Urubus"] >> a:[sema="Pessoa:Personagem:Chiquinha=do=Lago"]
[lema="Basílio|Basílio=de=Brito|Sr.=Brito"] >> [sema="Pessoa:Personagem:Basílio-OpB"]
[lema="Lena|Madalena|Morgadinha|Sra=D.=Madalena|Lenita|Srª=Morgada"] >> [sema="Pessoa:Personagem:Madalena-MdC"]
para poder eventualmente distinguir personagens com o mesmo nome num grupo grande de obras, como a Literateca, é aconselhável indicar o nome da personagem seguido de uma sigla que indica o nome da obra, que é o que OpB e MdC significam.

Acesso às regras de personagens das obras já tratadas

Aqui encontram-se todas as regras de personagens.
Equipa: Cláudia Freitas & Diana Santos & Maria Clara Castro
Redação: Diana Santos & Maria Clara Castro & Cláudia Freitas
Primeira versão: 2 de novembro de 2019

Contate a equipa da gramática baseada em corpos da Linguateca.