Predicação humana
Linguateca
Equipa: Cláudia Freitas e Diana Santos
Este trabalho é uma continuação da dissertação de mestrado de Flávia Martins, intitulada "Diferenciações de gênero na caracterização de personagens: uma proposta metodológica e primeiros resultados" (PPGEL/PUC-Rio, 2021), na qual nos inspirámos para obter as expressões de busca, e algumas das palavras classificadas. A dissertação encontra-se aqui.
Anotamos a predicação feita sobre seres humanos com a marca sema=pred:X, em que X pode ter os seguintes valores: social, aparência, carácter, emocional e outro.
Para obter os casos que mais tarde classificamos como pertencendo a um ou mais destes grupos, fizemos o seguinte trabalho preliminar, com a parte de prosa (classe="Prosa:.*") a partir do século XVIII (data="1[789].*") da versão 4.7 da Literateca (43,6 milhões de unidades, 31,4 milhões de palavras, 824 obras de 230 autores)
- Identificamos, através da seguinte expressão de procura
([pos="PROP.*" & func=".*SUBJ>.*" & sema=".*hum.*" & classe="Prosa.*" & data="1[789].*"] [lema="ser|estar"] [pos="ADV.*"]* @[temcagr!=".*PASS.*" & pos="(ADJ|N|V).*" &
func=".*<SC.*"])|
([lema="mulher|moça|rapariga|homem|moço|rapaz|senhora?.*|sra?\..*|D\.=.*|Dona\.|Dra?\.=|doutora?.*|dama|donzela|cavalheiro|jovem" & func=".*SUBJ>.*" & classe="Prosa.*" &
data="1[789].*"][lema="ser|estar"] [pos="ADV.*"]* @[temcagr!=".*PASS.*" & pos="(ADJ|N|V).*" & func=".*<SC.*"])|
([sema="familia:lacos" & func=".*SUBJ>.*" & classe="Prosa.*" & data="1[789].*"][lema="ser|estar"] [pos="ADV.*"]* @[temcagr!=".*PASS.*" & pos="(ADJ|N|V).*" & func=".*<SC.*"])|
([lema="el[ae]" & func=".*SUBJ>.*" & classe="Prosa.*" & data="1[789].*"] [lema="ser|estar"] [pos="ADV.*"]* @[temcagr!=".*PASS.*" & pos="(ADJ|N|V).*" & func=".*<SC.*"])|
([lema="mulher|moça|rapariga|esposa|homem|moço|rapaz|senhora?|dama|donzela|cavalheiro|jovem"] @[pos="(N|ADJ|V).*" & func=".*(<PRED|<OC|N<).*" & classe="Prosa.*" & data="1[789].*"])|
([lema="mulher|moça|rapariga|esposa|homem|moço|rapaz|senhora?|dama|donzela|cavalheiro|jovem"] "," [pos="ADV.*"]* @[func="N<PRED|.*APP.*" & pos="ADJ"])
os casos que nos pareceram provavelmente predicadores de termos humanos, e que podem resumir-se assim
- casos em que o adjetivo, nome ou particípio passado está marcado como <SC (nome predicativo do sujeito), e o sujeito é um nome próprio, humano (estando marcado com hum);
- casos em que o adjetivo, nome ou particípio passado está marcado como <SC, e o sujeito é um dos lemas representando homem ou mulher;
- casos em que o adjetivo, nome ou particípio passado está marcado como <SC, e o sujeito está marcado como sendo um laço de família;
- casos em que o adjetivo, nome ou particípio passado se segue imediatamente a um substantivo representando um homem ou mulher, e tendo como função sintática pós-modificador, predicativo do objeto ou aposto;
- casos em que o adjetivo se segue imediatamente a uma vírgula que segue um substantivo representando um homem ou mulher, e tendo como função sintática N<PRED.
- Revimos essa lista retirando casos obviamente errados (visto que provinham de uma análise automática que não era perfeita)
- Classificamos os restantes casos segundo as categorias já mencionadas, ao mesmo tempo fixando as diretivas de classificação. O resultado encontra-se aqui.
Diretivas de classificação
- social
- Profissões, ocupações, incluindo a sua falta (mendigo), etnicidade, nacionalidade, laços familiares, classe social, e casos que resultam de atividade social, tal como bem-educado ou ignorante, e opiniões políticas.
- aparência
- Aparência física, incluindo roupa ou nudez, e caracterizações associadas à passagem do tempo que se manifestam na aprência, tal como jovem ou velho.
- emocional
- Sentimentos e características emocionais ou tendências.
- caráter
- Traços de personalidade, também incluindo inteligência ou falta desta. Também inclui caracterizaçeõs associadas a conduta social, como honesto, malcriado ou pretensioso.
Algumas características receberam sistematicamente uma classificação dupla: hábitos, que podem estar associados à biologia (madrugador) ou à sociedade (bêbado, fumador), são marcados como caráter_social. O mesmo para loucura.
Em casos onde os adjetivos eram sobretudo ou muito positivos, ou muito negativos, mas sem marcar claramente qual a dimensão, como incomparável, maravilhoso, ideal ou terrível marcamos como caráter_social_aparencia ou simplesmente caráter_social.
Usamos a classificação outro para posições, doenças e outra caracterizações que não se enquadram na grelha acima.
Quando as palavras simplesmente denotavam o resultado de uma ação (punido ), não foram considerados caracterizadores.
Anotação dos corpos
Criamos então um conjunto de regras no formalismo vislcg3 que deveriam marcar os predicadores humanos nos corpos. Essas regras encontram-se em regras_emodizer.utf8.txt, junto com outras anotações semânticas.
A partir de 11 de julho de 2020, passa portanto a haver essa marcação adicional no corpo Literateca e nos corpos literários que o constituem, e será propagada a outros corpos.
É preciso contudo relembrar que é baseada em textos literários em prosa, e por isso deve ser usada com cuidado em outros tipos de texto.
Última atualização: 24 de novembro de 2022.
Contacte a equipa da gramática baseada em corpos da Linguateca.