Última atualização: 1 de dezembro de 2019 A anotação, que terá no máximo quatro passos diferentes, é feita com o programa corte-e-costura, desenvolvido para fazer anotação de campos semânticos não tratados pelo PALAVRAS.
O processo de anotação consiste numa linha de montagem (pipeline) em que diferentes alterações são especificadas em ficheiros diferentes, e são efetuadas em diferentes fases.
Nesta página, apresentamos exemplos e consideraçeõs relativas à análise literária.
Tipicamente nesta primeira fase é onde se corrigem questões de atomização (ou segmentação), e as consequências de uma atomização errónea:
Exemplos:
a:[word="Falou=D.=Romero"] b:[word="Falou=D.=Romero"] c:[word="Falou=D.=Romero"] >> a:[lema="falar" & pos="V" & temcagr="PS_IND" & pessnum="3S"] b:[lema="D.=Romero" & pos="PROP" & gen="M" &pessnum="S" & func="<SUBJ"] c:[lema="D.=Romero" & pos="PROP" & gen="M" & pessnum="S" & func="<SUBJ"] a:[lema="D."] b:[word="Clara"] >> a:[lema="D.=Clara" & gen="F"] b:[lema="D.=Clara" & gen="F"] a:[word="Dirse-"] b:[word="ia"] >> a:[lema="dizer+se" & pos="V+PERS" & temcagr="COND_IND+ACC" & pessnum="3S+3S"] b:APAGAR a:[lema="Nisso=Amélia"] b:[lema="Nisso=Amélia"] >> a:[lema="em+isso" & pos="PRP+SPEC" & pessnum="S"] b:[lema="Amélia" & pos="PROP" & gen="F"] a:[lema="Coitada" & pos="PROP.*"] >> a:[lema="coitado" & gen="F" & pessnum="S" & pos="ADJ" & sema="0"]Ao corrigir os erros que dizem respeito à atomização, frequentemente tamb´m ser´e preciso corrigir a categoria gramatical (POS), func, género, provocados por esses mesmos erros.
Esta anotação é usada para descrever a língua, e inicia-se por um conjunto regras positivas ou negativas para adicionar informação.
Numa fase seguinte, essa informação especializa-se, e foi desenhada a pensar nos casos dos campos semânticos, como a cor, que têm uma especificação após o sinal de dois pontos (:), por exemplo cor:politica ou cor:humana. Nessa subfase, usam-se um ficheiro regras_especialização... que já trabalha sobre o campo semântico criado nas regras positivas e negativas.
Para as personagens do texto literário, faz sentido manter essa divisão, e nas regras positivas adiciona-se a informação sobre se o nome próprio em questão é Pessoa, e qual o seu género morfológico. Note-se: a questão do género podia considerar-se uma questão de corrigir o PALAVRAS, e nesse caso estar no arquivo regras_corr_PALAVRAS... mas escolhemos considerar que era algo que nós marcamos de raiz.)
[lema="D.=Romero"] >> [sema="Pessoa" & gen="M"] [lema="D.=Clara"] >> [sema="Pessoa" & gen="F"] [lema="Andes"] >> [sema="Local" & gen="M"] a:[word="Tínhamos"] b:[word="o"] c:[word="Miranda"] >> c:[sema="Local"] a:[word="bandas"] b:[word="de"] c:[word="Miranda"] >> c:[sema="Local"]Nas regras de especialização, indicamos o tipo de Pessoa no caso de ser histórica, ficcional, ou ser um ente religioso (em que portanto estamos a assumir que é uma especialização ou reatribuição de pessoa). Também corrigimos (especializando) casos em que tenha sido atribuída (pelas nossas próprias regras) uma classificação errada.
[lema="Macbeth"] >> [sema="Pessoa:ficc" & gen="M"] [lema="Arquimedes"] >> [sema="Pessoa:hist" & gen="M"] [lema="Mãe=de=Deus"] >> [sema="Relig" & gen="F"] a:[word="telhas"] b:[word="higiênicas"] c:[lema="Navarro"] >> c:[sema="0"]
Idealmente, apenas a terceira fase seria necessária na anotação das personagens, mas as fases anteriores garantem a correção de todo o processo.
Exemplos:
a:[lema="Luísa|Luíza|Luiza"] b:[word="B."] >> a:[lema="Luíza=B." & sema="Pessoa:Personagem:Luíza" & gen="F"] b:[lema="Luíza=B." & sema="Pessoa:Personagem:Luíza" & gen="F"] a:[lema="Chiquinha=do=Lago|Chiquinha=do=Urubus"] >> a:[sema="Pessoa:Personagem:Chiquinha=do=Lago"] [lema="Basílio|Basílio=de=Brito|Sr.=Brito"] >> [sema="Pessoa:Personagem:Basílio-OpB"] [lema="Lena|Madalena|Morgadinha|Sra=D.=Madalena|Lenita|Srª=Morgada"] >> [sema="Pessoa:Personagem:Madalena-MdC"]para poder eventualmente distinguir personagens com o mesmo nome num grupo grande de obras, como a Literateca, é aconselhável indicar o nome da personagem seguido de uma sigla que indica o nome da obra, que é o que OpB e MdC significam.
Contate a equipa da gramática baseada em corpos da Linguateca.