Esqueleto: anotação semântica do léxico do corpo humano
Cláudia Freitas
Versão 8: 30 de novembro de 2015
Primeira versão: 2 de dezembro de 2013
Equipe: Cláudia Freitas, Diana Santos, Heidi Jansen (2013-2015), Juliana Reis (09/2013 a 12/2013), Raphaela Souza (01/2014 a 09/2014), Bruno Carriço (09/2014 a 8/2015)
AC/DC : Linguateca
1. Introdução
2. Questões técnicas
2.1. Delimitação: até onde vai o corpo humano?
2.1.1. Penteados
2.1.2. Processos "internos"
2.1.3. Todos os corpos ou apenas o corpo humano?
2.1.4. Granularidade: células e embriões
2.2. Grupos do Corpo
2.3. Classes semânticas do corpo
3. Como anotar
3.1. Palavras Simples
3.2. Expressões com várias palavras (EVP)
3.2.1. Consequências da anotação na forma de realizar buscas no AC/DC
3.3. Outros aspectos relacionados à anotação das EVP
3.3.1. EVP e Lemas
4. Combinações que não consideramos EVPs
5. Palavras do corpo consideradas excepcionalmente
6. Grafia e Acordo Ortográfico
1. Introdução
Este documento relata as opções de anotação do campo semântico do corpo
humano nos corpora do projeto AC/DC (/ACDC, Costa et
al., 2009, Santos, 2011).
A anotação do campo semântico do corpo humano é motivada por dois
principais interesses:- como se descreve a aparência física em português?;
- quando usamos palavras do léxico do corpo, de que mais falamos (e que não é o corpo)
Quanto ao esquema e formato de anotação, procuramos nos alinhar ao tipo de
anotação semântica já em uso no AC/DC, com informação de grupos e de
semas, conforme explicado no Arco-íris (documentação do campo semântico
das cores (Silva e Santos, 2012)), e no Guarda-Fatos (anotação do campo
semântico do vestuário (Santos, Silva e Mota, 2011)).
A anotação do corpo começa com a criação de um léxico, onde listamos:
Palavras do corpo (palavras que denotam geralmente corpo humano),
independentemente da classe gramatical:
/acesso/corpos/camposlexicais/corpo.txt
Expressões em que comparecem palavras do corpo, estejam elas se referindo
ao corpo (céu da boca; maçã do rosto) ou não (dar o braço a torcer):
/acesso/corpos/camposlexicais/corpo_mwe.txt
Explicação sobre o formato do arquivo corpo_mwe.txt:
Nas expressões, indicamos quais são as palavras do corpo com um [] depois da
palavra em questão:
dor de cotovelo[]
fazer das tripas[] coração[]
Se a palavra do corpo for a primeira palavra da expressão, não fazemos nada:
barriga de aluguel
A seção 3 trata da anotação das palavras do corpo em expressões.
Palavras que só são palavras do corpo se estas forem substantivos
/acesso/corpos/camposlexicais/corpo_N.txt
Palavras que só são palavras do corpo se estas forem adjetivos
/acesso/corpos/camposlexicais/corpo_A.txt
Palavras que apenas em certos contextos farão referência ao corpo, mas que
são apenas tratadas em regras positivas
/acesso/corpos/camposlexicais/corpo_neg.txt
Este último arquivo é pois apenas para documentação.
Para mais questões técnicas referentes à anotação do corpo humano, veja o
Ortopedista /acesso/Ortopedista.html
Sem nenhuma surpresa, uma das dificuldades está na delimitação do campo
semântico do corpo. Por exemplo, nomes de "penteados" fazem parte do léxico
do corpo? Embora a resposta não seja óbvia, uma vez que é possível
argumentar tanto
(i) que um penteado é uma forma de arrumar o cabelo (e não uma parte do
corpo especificamente),
quanto
(ii) que penteados fazem parte do léxico do corpo, uma vez que são parte de
descrições de atributos físicos humanos.
Considerando que uma das motivações para o Esqueleto é a descrição da
aparência física, optamos por considerar palavras de penteados como parte do
léxico do corpo.
Embora os processos do corpo (digestão, respiração, etc) estejam tão
associados ao corpo quanto os penteados, optamos, por enquanto, por não
anotá-los.
Considerando a motivação para a anotação do campo semântico do corpo,
estão anotadas as palavras do corpo humano, e apenas essas, mesmo que o
termo usado para o corpo humano venha do corpo dos animais:
- par=FSP940218-704: Enquanto a irmã permanecia emburrada em um canto, para
mostrar sua gratidão, Lílian experimentava todos os vestidos decotados do
estoque e depois desfilava rebolando nas fuças [sema="corpo"] do inebriado
velho.
Por outro lado, nas palavras do corpo igualmente usadas para pessoas e
animais, deixamos indicado se as ocorrências estão associadas a animais ou
pessoas:
- par=FSP941006-806: A orelha[sema="corpo:animal"] do porco, o rabo
[sema="corpo:animal"] do porco ou aquelas outras pequenas partes privadas do
porco que aparecem, de repente, escondidas no fundo da gloriosa gororoba de
nossa feijoada equivalem a um segmento da pirâmide da mídia americana que
vive um rápido processo de crescimento.
Notamos que em Portugal "rabo" diz respeito a traseiro, assim como no Brasil.
No entanto, além de não haver dimensão pejorativa no uso, em Portugal "rabo"
é percebido como um termo originalmente humano que também é usado em
animais (assim como orelha ou olhos). Por isso, na frase abaixo, portuguesa,
não temos sema=corpo:animal, apenas sema=corpo:
- PUBLICO-19951009-085: Foi com alguma alegria que a rapariga percebeu que
tinha preferido o rabo[sema="corpo"] do seu companheiro.
Devido ao amplo uso em contextos não corpóreos, incluímos os campos das
células e dos embriões na anotação:
- grupo havia criado uma célula[sema="corpo:outros"] na zona urbana...
- eu chego com uma célula[sema="corpo:outros"] musical (estrofe, refrão) já letrada...
- actividades da célula[sema="corpo:outros"] anti-terrorista...
- Não havia internet ainda naquela época, estava tudo muito embrionário[sema="corpo:outros"]...
- e afinal a Funatura apresentou um projeto que foi
embrião[sema="corpo:outros"] dessa legislação..
- E essa forma do começo embrionário[sema="corpo:outros"] de organização é uma coisa interessante...
Por outro lado, decidimos NÃO considerar celular quando este faz referência a telefone celular. Tais casos, além de facilmente recuperados, inchariam as ocorrências de [sema=corpo:outros] com um único objeto.
2.2. Grupos do Corpo
Logo percebemos que, nas listas do corpo, podíamos criar subgrupos, ou porque
determinadas áreas do corpo continham muitos elementos, ou porque a
existência de tais subgrupos facilitaria certos tipos de busca nos corpora do
AC/DC.
Atualmente, temos os seguintes grupos:
- Cabelos
- palavras associadas a cabelos/pelos, inclusive a falta deles:
https://www.linguateca.pt/acesso/corpos/camposlexicais/Grupo_Cabelo.txt
- Ossos
- palavras relacionadas a ossos:
https://www.linguateca.pt/acesso/corpos/camposlexicais/Grupo_Osso.txt
- Sexual
- palavras do corpo associadas à sexualidade:
https://www.linguateca.pt/acesso/corpos/camposlexicais/Grupo_Sexual.txt
- Cabeça
https://www.linguateca.pt/acesso/corpos/camposlexicais/Grupo_Cabeca.txt
- Tronco
https://www.linguateca.pt/acesso/corpos/camposlexicais/Grupo_Tronco.txt
- Braços
https://www.linguateca.pt/acesso/corpos/camposlexicais/Grupo_Braco.txt
- Pernas
https://www.linguateca.pt/acesso/corpos/camposlexicais/Grupo_Perna.txt
- Percepção
https://www.linguateca.pt/acesso/corpos/camposlexicais/Grupo_Percepcao.txt
- Interno
https://www.linguateca.pt/acesso/corpos/camposlexicais/Grupo_Interno.txt
A criação do grupo Interno interessa, por exemplo, para buscas de partes do
corpo associadas a descrições físicas (neste caso, interessa buscar palavras que
não pertençam ao grupo Interno).
Ainda com relação ao grupo Interno, o interesse também está em perceber
quando uma mesma parte do corpo é usada como parte interna ou externa. Por
exemplo:
ela tinha a boca cheia de comida (interno)
ela tinha a boca cheia de baton (externo)
É possível, portanto, que uma mesma palavra pertença, simultaneamente, a
mais de um grupo:
- mandíbula ? pertence aos grupos Cabeça e a Osso;
- patela ? pertence aos grupos Osso e Perna.
- dedo ? pertence aos grupos Perna e Braço
Algumas partes do corpo estão no limite dos grupos propostos. Nesses casos,
optamos por incluir as palavras em todos os grupos possíveis.
- ombro: grupos Tronco e Braço
- glúteo: grupos Tronco e Perna
Por outro lado, e por uma questão de economia, tudo o que está no grupo
Cabelo não se inclui no grupo Cabeça. Assim, para procurar as duas coisas, a
procura deve ser [grupo="Cabelo|Cabeça"]
2.3. Classes semânticas do corpo
Considerando que uma das motivações para o Esqueleto é investigar a
distribuição do léxico do corpo humano em outros campos semânticos,
indicamos com o atributo sema quando uma palavra é usada para fazer
referência ao corpo humano ou não.
Quando a palavra é usada para fazer referência ao corpo humano, o valor do
sema é corpo:
- Ali, furei, comprei um tubo daquela cola que nem se pode encostar os
dedos[sema="corpo"] senão ficam logo colados
- Levou um tiro na nuca[sema="corpo"], único tiro, morreu na hora.
- Espirra, dói o corpo[sema="corpo"], a febre não vai embora
Quando a palavra do corpo não é usada em referência a uma parte do corpo
humano, podem-se escolher entre, até o momento, dez diferentes valores de
sema.
[sema="corpo:sentimento"]
[sema="corpo:vegetal"]
[sema="corpo:parte"]
[sema="corpo:lugar"]
[sema="corpo:doenca"]
[sema="corpo:opiniao"]
[sema="corpo:posicao"]
[sema="corpo:animal"]
[sema="corpo:movimento"]
[sema="corpo:outros"]
[sema="corpo:faculdade"]
[sema="corpo:grupo"]
[sema="corpo:medida"]
Os valores de sema decorrem da exploração do corpus. Foram considerados ou
(a)por ocorrerem com bastante frequência ; (b) ocorrerem em poucos casos,
mas tais casos serem muitíssimo frequentes na língua (como
[sema="corpo:movimento"], que por enquanto contém apenas a expressão a pé, ou [sema="corpo:grupo"], que por enquanto contém apenas a palavra corpo).
sema=corpo:sentimento
- notícia cai no coração de um esquerdista já com muitas dúvidas
- cantam a paixão pela moça, a dor de cotovelo, mais uma ou outra
homenagem à Gonzagão.
- par=fut39774: Os matches que se assistem de coração apertado e nó na garganta.
Sentimento é usado em um sentido amplo, entendido como uma manifestação de algo não físico: sentimento de medo, generosidade, surpresa, amor, prazer, raiva, calma, nervosismo, emoção etc. Também usado para a ideia geral de "sentimento".
sema=corpo:vegetal
Esta classe semântica indica palavras do corpo que se referem a vegetais:
- Então ela plantou um pé de Jatobá
- A massa fresca total das folhas, dos galhos vivos e mortos, da casca e da
madeira do tronco das nove árvores foi determinada no campo
- Esfregue o pão com o outro dente de alho
sema=corpo:parte
Palavras do corpo usadas para indicar qualquer parte ou porção de um todo, diferenciando-a. Este todo pode ser desde um objeto até uma abstração com contornos menos definidos.
- apoiava o cotovelo no braço da cadeira.
- O carrinho tinha quatro pernas
- O forro e as costas dos casacos, naquela altura eram em riscado
- Arranjou um fogão de duas bocas, com forno
- Tinham aquelas armas de carregar pela boca e os «garrotes» onde se metiam pregos e taxas
- A última grande reforma gráfica do jornal foi feita em 88 (criação de
cadernos, novo desenho de capas e aumento do corpo do texto), e teve
sequências em 89 e 90 .
Em versões anteriores, o sema corpo:parte chamava-se corpo:partedeobjeto. No entanto, as ocorrências de diversos casos de partedeobjeto em contextos em que o todo não se caracterizava como objeto (como membros do partido ou braços da Máfia) nos obrigou a repensar a descrição da classe. Com essa opção, unificamos os casos distintos de parte indiferenciada de algo e parte diferenciada, também em coerência com o princípio de evitar classificações granulares.
sema=corpo:lugar
Palavras do corpo usadas para fazer referência a uma localização espacial, seja ela real ou virtual.
- Bem no coração da floresta amazônica, a cidade é realmente uma bolha.
- Ele nasceu em São Pedro Alfa, ao pé de Coimbra.
- O seu nome de batismo deve-se ao fato de estar localizado na boca do rio Riachuelo.
- A sua localização geográfica fez com que os nativos a batizassem de Te Pito o Te Henua, o umbigo do mundo
Há situações em que pode haver dúvida entre a classificação como
parte ou lugar, como em boca do rio, boca do caixa, boca do gol.
Nesses casos, como boca é entendido como entrada, decidimos considerar
lugar [sema="corpo:lugar"].
sema=corpo:doenca
Palavras associadas a doenças que envolvem alguma palavra do corpo.
- Não vou a piscinas públicas, mas não tenho medo do pé de atleta
- Ele tem pé chato
Não anotamos, portanto, sinusite ou nevralgia.
Também não anotamos formas convencionais como dor de cabeça (que não é qualquer dor que ocorra na região da cabeça) ou dor de dente, que nesses casos terão apenas cabeça e dente anotados como [sema=corpo]. No Esqueleto, não consideramos,
exaustivamente, todas as expressões que possa haver na língua. Para que uma
dada combinação de palavras seja considerada uma expressão no Esqueleto (e,
portanto, uma expressão do tipo [sema="corpo:xxx"]), incluímos apenas aquelas
que nos ajudam a investigar como o léxico do corpo aparece na língua
portuguesa.
sema=corpo:opiniao
Maneiras de indicar uma opinião sobre algo/alguém, com um julgamento explícito de valor, e que não têm relação com o corpo propriamente.
- Ora acontecia que, defronte da tal casa, morava um barbeiro linguarudo,
- como são em geral todos os barbeiros -- e apurado isso...
- Hoje em dia todo mundo é muito cabeçudo e intelectual.
- O filme é um soco no estômago, pois mostra uma realidade de sofrimento e violência que beira o surreal.
- O Orçamento, ou melhor, a sua aprovação, deixou de ser uma dor de cabeça.
- e o Ministro Palocci, que também dançou a noite inteira, revelou-se um grande pé de valsa
- Por outro lado, as privatizações andam mal das pernas
Diversos casos com ter um coração ADJ, e variações, também foram considerados opinião (especificamente, EVPs do tipo opinião):
- Ele é bom, tem um coração enorme
- enquanto o marido tem um coração mole
- Mas as espanholas, além de sapateado tinham um coração sensível
- Tinha um coração de ouro
- têm um coração duro como o ferro e não sabem perdoar
- era preciso ter um coração de pedra para conseguirmos
- O que importa é que fulano tem bom coração
Vale notar que também podemos descrever a aparência física de alguém de
maneira pejorativa, e portanto indicando opinião: ele tem um narigão. Por
enquanto, NÃO estamos tratando esses casos como corpo:opiniao. O que
consideramos [sema="corpo:opiniao"] é o uso de palavras do corpo para indicar
coisas não-corpo. Por isso a palavra bundão abaixo recebe
[sema="corpo:opiniao"]. (No Brasil, bundão (ou bunda mole) é alguém
covarde).
- Chamado de «bundão» pelo mesmo Quércia, na campanha de 90, Covas agora promete
reagir em tom idêntico, o que aumenta o risco de que a disputa deste ano atinja um
nível de rés-do-chão, para dizer o menos.
Já a palavra bundona, abaixo, recebe a marcação de corpo, apenas, uma vez
que faz referência ao tamanho da bunda, uma parte do corpo:
- A idéia de beleza no Brasil tem a ver com cabelão[sema="corpo"] 'de escova', decotão, bundona[sema="corpo"].
Pelos mesmos motivos, a ocorrência abaixo de orelhudo recebe
[sema="corpo:opiniao"]
- Ou seja, além da monitora, tem sempre um orelhudo[sema="corpo:opiniao"] na conversa
Mas a ocorrência abaixo recebe apenas [sema="corpo"]:
- Os fãs do orelhudo[sema="corpo"] vulcano Spock (ausente no filme) têm de se satisfazer com o andróide Data.
A EVP(cf. seção sobre EVP) [com] cara de tacho está anotada como
[sema="corpo:opiniao"]. Uma busca nos diversos corpora mostra que a
combinação com+cara+de+xxxx terá quase sempre um uso de cara associado
a aparência. Não anotamos como EVP essas combinações, que podem ser
bastante criativas, mas apenas indicamos cara como sema="corpo:outros"].
Mas registramos que, nesses casos, quase sempre se trata de algo negativo.
sema=corpo:posicao
Indica a posição espacial de algo, não necessariamente do corpo humano.
[sema="corpo:posicao"] é atribuído sobretudo às expressões de pé e em pé, quando dão a ideia de erguer-se; e a diversos casos de de cabeça no domínio futebol, entre outros:
(a) mergulhar na piscina de cabeça
(b) Coyne toca para a área e Townsend mergulha de cabeça
(c) muitos daqueles casarões ainda estavam em pé
(d) ficar de cabeça para baixo
(e) caiu de costas
(f) ficou de costas para o público
(g) suplicou de joelhos
Não atribuímos [sema=corpo:posicao] a casos como (h)-(m), ainda que
também, de maneira geral, os exemplos indiquem posições do corpo humano:
(h) Ele cruzou os braços[corpo]; sentou-se, cruzou as pernas[corpo] e
esperou
(i) Ergueu os braços[corpo]
(j) Ergueu os olhos[corpo] ao céu
(k) Ergueu a cabeça[corpo]
(l) Pôs a mão na cintura[corpo]
(m) Levantou a cabeça[corpo]
A opção pela distinção se sustenta na ideia de que, nos exemplos h-m, a
posição decorre da associação entre os verbos (cruzar, erguer; colocar; pôr etc)
e as palavras do corpo. Já nos exemplos (a)-(g), a ideia de posição é decorre da
adição da palavra/expressão do corpo, e só.
Esta situação acontece em verbos como suplicar, aplaudir, mergulhar, dormir,
esperar, cair, andar, em geral com a palavra do corpo antecedida de preposição.
Dormir em pé[sema="corpo:posicao"]
Os casos frequentes de combinações como
ir de mãos dadas
dar as mãos
ir de braço dado
apertar a mão
não foram tratados como [sema=corpo:posicao], anotamos simplesmente
[sema=corpo] ao lado de cada palavra do corpo. Ainda que tais combinações
correspondam a expressões não composicionais, as palavras do corpo são
interpretadas como corpo, e por isso não achamos necessário marcar. Como
mencionamos, o interesse está em estudar os sentidos do corpo, e não
necessariamente todas as expressões em que há uma palavra do corpo.
sema=corpo:animal
Palavras do corpo humano usadas para referir ao corpo de animais:
Os moradores daqui estão a ser mandados embora e estão a fazer ali museus
com ossos de galinha que têm 300 anos ou 400 anos.
Especialmente com relação a rabo, notamos a diferença de uso entre as
variantes brasileira e portuguesa. Em Portugal, rabo é parte do corpo humano, e parte do corpo de animais;
no Brasil, rabo é apenas parte do corpo de animais (como pata e focinho), e
pejorativamente associado ao corpo humano, sobretudo o feminino.
Assim, em uma anotação sobre texto da variante BR, teríamos:
o rabo da raposa não anotado porque é do tipo "a pata do cavalo"
Em uma anotação sobre texto da variante PT, teríamos
o rabo[sema="corpo:animal"] da raposa, anotado porque é do tipo "orelha de porco".
Consideramos pé de pato (nadadeiras) uma expressão do tipo corpo:outros (cf. abaixo).
sema=corpo:movimento
O sema=corpo:movimento é usado para indicar palavras ou expressões que se
refiram à ideia ampla de forma de movimento:
- A gente ia a pé e tomava o bonde, o da frente era 200 réis
- Vou trabalhar a pé
- Atravessar Hith Parque, de uma ponta a outra é mais de meia hora a pé
- Acompanhado dos correligionários, Santana saiu batendo pernas pela cidade.
- Cansado de bater pernas procurando emprego?
sema=corpo:outros
Nesses casos encontram-se as demais ocorrências de palavras ou expressões
que não fazem referência ao corpo, e que não estão se enquadram nas
classificações anteriores:
- considerado o pulmão da cidade
- barriga de aluguel
- os teus textos mostram uma veia forte do pop
- Na ocasião, aproveitou para puxar a orelha dos colegas que se querem mais do que simples diretores.
sema=corpo:faculdade
Este sema refere-se sobretudo aos cinco sentidos -- visão, olfato, paladar, tato, audição.
Refere-se também aos processos realizados pelo corpo, nomeados pelas partes que os realizam cabeça/cérebro para indicar pensamento; pulmão para indicar processo/capacidade de respiração; boca ou garganta para indicar a faculdade/capacidade de falar.
- Vou cantando, acostumando o ouvido, criticando o enunciado das palavras.
- e ficou imóvel, de ouvido atento, na expectativa de escutar as horas de algum relógio da vizinhança
- O artista define o filme como "uma provocação plástica para olhos e ouvidos livres;
- Não adianta o cara ser um ótimo crítico se quem lê não lê com olhos críticos
- Exceto um que tem uma cabeça privilegiada e quer estudar teatro
- Mas o Stanley tinha cabeça para dinheiro, o que eu nunca tive
- É, basta ter uma cabeça legal, saber conversar
- Cafu e Mazinho constituem um meio-de-campo bom de pulmão, dinâmico e
criativo
- Posso ser mau de boca mas sou bom de olho
- Ao contrário do marido, que é bom de garganta, a primeira-dama é tímida e modesta.
Sema=corpo:medida
Este sema indica palavras do corpo associadas a unidades de medida:
- Como candidata, Hillary sairia na frente com meio corpo de vantagem.
- De repente, numa última explosão de energia, Larson pôs-se a par e par e
terminou com uma mão de vantagem sobre o adversário.
- O portão de entrada é flanqueado por altivas torres, a dez pés de
distância uma da outra.
Sema=corpo:grupo
Este sema indica palavras do corpo que se referem a um agrupamento -- de
pessoas, coisas ou ideias. Até o momento, é um sema que se aplica apenas a duas
palavras do corpo -- as palavras corpo e coluna.
- Corpo de baile
- Corpo de bombeiros
- Corpo docente
- Corpo de ideias
- Corpo de princípios
- Corpo administrativo
- o chefe da força militar, que traçara a sua atitude retilineamente pela lei. E somente depois disto a coluna do major Febrônio -- até então oscilante entre Monte Santo e Queimadas e objetivando nas contramarchas as vacilações do governo
- expedicionário, como se levasse o pequeno corpo de exército para algum campo esmoitado da Bélgica, dividiu-o em três colunas, parecendo dispô-lo, de antemão, para recontros em que lhe fosse dado entrar repartido em atiradores, reforço
Sema=corpo:centralidade
Refere-se a palavras do corpo que indicam o que é principal, mais importante, nuclear, central.
- Mas há quem clame por mais diálogo no seio da Associação.
- Por esclarecer estão também informações sobre a existência de luta no seio do gabinete de Aznar para o controlo da "secreta", que oporia o vice-primeiro ministro aos titulares da Defesa e do Interior :
- O fato abalou o coração do cortiço, as duas receberam parabéns e felicitações .
- Imagina o tipo mais estranho do mundo na Faria Lima, que era o novo coração econômico de São Paulo.
Todas as palavras do corpo são anotadas conforme a intepretação da frase, em
contexto. O valor do atributo semântico será atribuído da seguinte forma:
[sema="tipo_de_sema"]
Espirra, dói o corpo[sema="corpo"], a febre não vai embora
Para eles, a sociedade não tem ouvidos[sema="corpo:faculdade"] nem
olhos[sema="corpo:faculdade"]; tampouco tem
coração[sema="corpo:sentimento"]
É muito frequente a participação de palavras do corpo em expressões: dar um
passo maior que perna, comer com os olhos, de queixo caído, de cortar o
coração, a olho nu, de corpo e alma, etc.
No Esqueleto, essas combinações são chamadas de EVP (e se distinguem das
demais expressões já anotadas nos corpora do AC/DC pelo parser PALAVRAS,
classificadas como mwe (multiword expression).
No arquivo , as EVPs estão classificadas conforme o sema e a sua classe
gramatical (pos):
- dar um passo maior que perna -- sema corpo:outros pos=V
- comer com os olhos -- sema corpo:outros pos=V
- de queixo caído -- sema corpo:sentimento pos=ADV
- de cortar o coração -- sema corpo:sentimento pos=ADJ
- a olho nu -- sema corpo:outros pos=ADV
- de corpo e alma -- sema corpo:outros pos=ADV
Diferentemente da anotação feita com as cores (Silva & Santos), no Esqueleto
propomos que, nas expressões EVPs, a marcação de sema seja aconteça em
dois níveis: na classificação das expressões e na(s) palavra(s) do corpo.
Assim, em
- A educadora tinha um nó na garganta e vontade de chorar
A EVP nó=na=garganta é uma EVP do tipo corpo:sentimento. Mas a palavra
garganta, nessa mesma EVP, é classificada como parte do corpo. Em
- Se a criança apresenta pé chato, o uso da palmilha não fez bem
pé=chato é uma EVP do tipo corpo:doenca. Mas a palavra pé, nessa mesma
EVP, é classificada como parte do corpo. E em
- Quem está de cabelo em pé é o zagueiro João Carlos
Cabelo=em=pé é uma EVP do tipo corpo:sentimento.
Embora, nessa EVP, tenhamos ainda em=pé que pode ser analisado como uma
EVP do tipo corpo:posicao, apenas marcamos a EVP maior (embora isso ainda
esteja em discussão).
A anotação é feita da seguinte forma:
- nó=na=garganta[sema="corpo"]
- pé[sema="corpo"]=chato
- cabelo[sema="corpo"]=em=pé
É importante lembrar que a anotação levará em conta, sempre, o contexto:
- Os índios caíram de=joelhos[evp sema="corpo:posicao"]e o adoraram,chamando-o de «Caramuru» que parece significar «filho do trovão» .
- O sanduíche («panino») feito na hora, e de acordo com a vontade do freguês,
é para comer de joelhos[evp sema="corpo:opiniao"]
- Sua promessa de «colocar de=pé[evp sema="corpo:outros"] a Rússia que está de joelhos[evp sema="corpo:outros"]», de fazê-la recuperar seu lugar de superpotência e de devolver às Forças Armadas sua posição e prestígio, certamente contribuiu para o seu sucesso eleitoral.
Uma palavra do corpo dentro de uma EVP tem também a informação de qual a
análise da expressão toda, refletindo assim os dois níveis em que essa palavra
do corpo tinha sido classificada: a da expressão a que pertence, e a dela mesmo
dentro da expressão. Com essa forma de marcação, temos a possibilidade de
facilitar a procura, em contexto, de expressões do corpo que envolvem uma
determinada palavra (por exemplo, todas as EVPs que contêm a palavra
cabeça; ou de buscar as palavras do corpo que participam de expressões
(pode-se querer investigar a existência de relação entre palavras do corpo e a
classe semântica das EVPs em que participam, por exemplo).
Para procurar apenas palavras do corpo em EVPs do tipo corpo:outros, a
expressão de busca deve ser
[sema=".*corpo:outrosEVP.*"]
Para procurar apenas palavras que estão em EVPs com um sentido (sema)
diferente do sema da palavra em questão. Por exemplo, uma palavra do corpo
classificada como corpo:outros que faz parte de uma EVP cuja classificação não
é corpo:outros
[sema=".*corpo:outros.*" & sema!=".*corpo:outrosEVP.*"]
Para encontrar palavras ou expressões que só são corpo (dentro ou fora de
EVPs)
([sema="corpo" & sema!="corpo.*EVP"]|[sema=".*corpoEVP.*"])
Para encontrar palavras ou expressões que são só (por exemplo)
corpo:sentimento,
[sema=".*corpo:sentimentoEVP.*"]
Para encontrar palavras de corpo que são por exemplo corpo no nível baixo e
corpo:outros no nível acima
[sema=".*corpo_.*" & sema=".*corpo:outrosEVP.*"]
ou para ver, na concordância a expressão completa
[]* [sema=".*corpo.*" & sema=".*corpo:outrosEVP.*"] []*
E, se esse aspecto for indiferente, a procura deve ser (para interessados em
corpo:outros)
[sema=".*corpo_outros.*"]
As EVP são codificadas também quanto aos seus lemas. O lema de falar pelos
cotovelos é falar=pelos=cotovelos.
Outras vezes, em que, aparentemente temos a mesma EVP com uma variação
apenas na preposição, como em
- Foi pedir o apoio de José Eduardo de Andrade Vieira (PTB) e saiu com as mãos abanando.
- Os humanistas, coitados, estão de mãos abanando, sem assunto
incluímos a preposição no lema, e nesses casos é como tivéssemos dois lemas
distintos:
- de=mãos=abanando
- com=as=mãos=abanando // com=as=mãos=a=abanar
Do mesmo modo, quando temos diferentes verbos usados em uma mesma
expressão, não unificamos, e cada expressão terá um lema. No caso abaixo
temos 4 EVP:
- Botar=a=boca=no=trombone
- Pôr=a=boca=no=trombone
- Meter=a=boca=no=trombone
- Colocar=a=boca=no=trombone
Apesar de poderem corresponder a um único lexema em outras línguas, não consideramos as combinações abaixo EVPs:
- ponta de+o nariz[] :: ponta do nariz
- ponta de+o queixo[] :: ponta do queixo
- ponta de+o cabelo[] :: ponta do cabelo
- ponta de+o dedo[] :: ponta do dedo
As seguintes palavras só contam como palavras do corpo em casos específicos:
articulação; fonte; junta; rótula; saco; sinal; temporal.
Os casos em que as consideramos corpo estão em https://www.linguateca.pt/acesso/corpos/camposlexicais/regras_positivas_corpo.txt
Com relação às grafias e Acordo Ortográfico: os textos que compõem os corpora
do AC/DC foram escritos em períodos distintos. Alguns, como o Vercial, ou o
COLONIA, contêm textos do século XVI. Assim, listamos ortografias de antes do
Acordo também (e de antes do século XX), e por isso pode haver uma
proliferação de formas.
Referências
[Costa et al. 2009]
Luís Costa, Diana Santos & Paulo Alexandre Rocha. "Estudando o português tal
como é usado: o serviço AC/DC", STIL 2009, The 7th Brazilian Symposium in
Information and Human Language Technology (São Carlos, Brasil, 8-11 de
Setembro de 2009)
[Mota 2013]
Cristina Mota. "Anotação de emoções nos corpos do AC/DC". (2013).
https://www.linguateca.pt/documentos/Mota2013.pdf
[Santos 2011]
Diana Santos. "Linguateca"s infrastructure for Portuguese and how it allows the
detailed study of language varieties". OSLa: Oslo Studies in Language 3.2
(2011), pp. 113-128. [Volume edited by J.B.Johannessen, Language variation
infrastructure]
[Silva & Santos em edição permanente]
Rosário Silva & Diana Santos. "Arco-íris: notas sobre a anotação do campo
semântico da cor em português". Primeira edição: 25 de Junho de 2009.
https://www.linguateca.pt/acesso/ArcoIris.pdf
[Santos et al. em edição permanente]
Diana Santos, Augusto Soares da Silva & Cristina Mota. "Guarda-fatos: notas sobre a anotação do campo semântico do vestuário em português". Primeira edição: 26 de Outubro de 2009.
https://www.linguateca.pt/acesso/GuardaFatos.pdf
Última atualização: 30 de novembro de 2015.
Data de criação da presente página: 23 de novembro de 2014.
Perguntas, comentários e sugestões