Predicação humana

Linguateca

Equipa: Cláudia Freitas e Diana Santos


Este trabalho é uma continuação da dissertação de mestrado de Flávia Martins, intitulada "Diferenciações de gênero na caracterização de personagens: uma proposta metodológica e primeiros resultados" (PPGEL/PUC-Rio, 2021), na qual nos inspirámos para obter as expressões de busca, e algumas das palavras classificadas. A dissertação encontra-se aqui.

Anotamos a predicação feita sobre seres humanos com a marca sema=pred:X, em que X pode ter os seguintes valores: social, aparência, carácter, emocional e outro.

Para obter os casos que mais tarde classificamos como pertencendo a um ou mais destes grupos, fizemos o seguinte trabalho preliminar, com a parte de prosa (classe="Prosa:.*") a partir do século XVIII (data="1[789].*") da versão 4.7 da Literateca (43,6 milhões de unidades, 31,4 milhões de palavras, 824 obras de 230 autores)

  1. Identificamos, através da seguinte expressão de procura
    ([pos="PROP.*" & func=".*SUBJ>.*" & sema=".*hum.*" & classe="Prosa.*" & data="1[789].*"] [lema="ser|estar"] [pos="ADV.*"]* @[temcagr!=".*PASS.*" & pos="(ADJ|N|V).*" &
    func=".*<SC.*"])|
    ([lema="mulher|moça|rapariga|homem|moço|rapaz|senhora?.*|sra?\..*|D\.=.*|Dona\.|Dra?\.=|doutora?.*|dama|donzela|cavalheiro|jovem" & func=".*SUBJ>.*" & classe="Prosa.*" & 
    data="1[789].*"][lema="ser|estar"] [pos="ADV.*"]* @[temcagr!=".*PASS.*" & pos="(ADJ|N|V).*" & func=".*<SC.*"])|
    ([sema="familia:lacos" & func=".*SUBJ>.*" & classe="Prosa.*" & data="1[789].*"][lema="ser|estar"] [pos="ADV.*"]* @[temcagr!=".*PASS.*" & pos="(ADJ|N|V).*" & func=".*<SC.*"])|
    ([lema="el[ae]" & func=".*SUBJ>.*" & classe="Prosa.*" & data="1[789].*"] [lema="ser|estar"] [pos="ADV.*"]* @[temcagr!=".*PASS.*" & pos="(ADJ|N|V).*" & func=".*<SC.*"])|
    ([lema="mulher|moça|rapariga|esposa|homem|moço|rapaz|senhora?|dama|donzela|cavalheiro|jovem"] @[pos="(N|ADJ|V).*" & func=".*(<PRED|<OC|N<).*" & classe="Prosa.*" & data="1[789].*"])|
    ([lema="mulher|moça|rapariga|esposa|homem|moço|rapaz|senhora?|dama|donzela|cavalheiro|jovem"] "," [pos="ADV.*"]* @[func="N<PRED|.*APP.*" & pos="ADJ"])
    
    os casos que nos pareceram provavelmente predicadores de termos humanos, e que podem resumir-se assim
  2. Revimos essa lista retirando casos obviamente errados (visto que provinham de uma análise automática que não era perfeita)
  3. Classificamos os restantes casos segundo as categorias já mencionadas, ao mesmo tempo fixando as diretivas de classificação. O resultado encontra-se aqui.

Diretivas de classificação

social
Profissões, ocupações, incluindo a sua falta (mendigo), etnicidade, nacionalidade, laços familiares, classe social, e casos que resultam de atividade social, tal como bem-educado ou ignorante, e opiniões políticas.
aparência
Aparência física, incluindo roupa ou nudez, e caracterizações associadas à passagem do tempo que se manifestam na aprência, tal como jovem ou velho.
emocional
Sentimentos e características emocionais ou tendências.
caráter
Traços de personalidade, também incluindo inteligência ou falta desta. Também inclui caracterizaçeõs associadas a conduta social, como honesto, malcriado ou pretensioso.
Algumas características receberam sistematicamente uma classificação dupla: hábitos, que podem estar associados à biologia (madrugador) ou à sociedade (bêbado, fumador), são marcados como caráter_social. O mesmo para loucura.

Em casos onde os adjetivos eram sobretudo ou muito positivos, ou muito negativos, mas sem marcar claramente qual a dimensão, como incomparável, maravilhoso, ideal ou terrível marcamos como caráter_social_aparencia ou simplesmente caráter_social. Usamos a classificação outro para posições, doenças e outra caracterizações que não se enquadram na grelha acima. Quando as palavras simplesmente denotavam o resultado de uma ação (punido ), não foram considerados caracterizadores.

Anotação dos corpos

Criamos então um conjunto de regras no formalismo vislcg3 que deveriam marcar os predicadores humanos nos corpos. Essas regras encontram-se em regras_emodizer.utf8.txt, junto com outras anotações semânticas.

A partir de 11 de julho de 2020, passa portanto a haver essa marcação adicional no corpo Literateca e nos corpos literários que o constituem, e será propagada a outros corpos.

É preciso contudo relembrar que é baseada em textos literários em prosa, e por isso deve ser usada com cuidado em outros tipos de texto.


Última atualização: 24 de novembro de 2022.

Contacte a equipa da gramática baseada em corpos da Linguateca.