Esqueleto: anotação semântica do léxico do corpo humano

Versão 8: 30 de novembro de 2015

Primeira versão: 2 de dezembro de 2013

Equipe: Cláudia Freitas, Diana Santos, Heidi Jansen, Juliana Reis (até 12/2013), Raphaela Souza (desde 01/2014), Bruno Carriço (desde 09/2014)

AC/DC : Linguateca


1. Introdução

2. Questões técnicas

    2.1. Delimitação: até onde vai o corpo humano?
      2.1.1. Penteados
      2.1.2. Processos "internos"
      2.1.3. Todos os corpos ou apenas o corpo humano?
      2.1.4. Granularidade: células e embriões
    2.2. Grupos do Corpo
    2.3. Classes semânticas do corpo

3. Como anotar

    3.1. Palavras Simples
    3.2. Expressões com várias palavras (EVP)
      3.2.1. Consequências da anotação na forma de realizar buscas no AC/DC
    3.3. Outros aspectos relacionados à anotação das EVP
      3.3.1. EVP e Lemas

4. Combinações que não consideramos EVPs

5. Palavras do corpo consideradas excepcionalmente

6. Grafia e Acordo Ortográfico

1. Introdução

Este documento relata as opções de anotação do campo semântico do corpo humano nos corpora do projeto AC/DC (http://www.linguateca.pt/ACDC, Costa et al., 2009, Santos, 2011).

A anotação do campo semântico do corpo humano é motivada por dois principais interesses:

Quanto ao esquema e formato de anotação, procuramos nos alinhar ao tipo de anotação semântica já em uso no AC/DC, com informação de grupos e de semas, conforme explicado no Arco-íris (documentação do campo semântico das cores (Silva e Santos, 2012)), e no Guarda-Fatos (anotação do campo semântico do vestuário (Santos, Silva e Mota, 2011)).

2. Questões técnicas

A anotação do corpo começa com a criação de um léxico, onde listamos: Palavras do corpo (palavras que denotam geralmente corpo humano), independentemente da classe gramatical:

http://www.linguateca.pt/acesso/corpos/corpo/corpo.txt

Expressões em que comparecem palavras do corpo, estejam elas se referindo ao corpo (céu da boca; maçã do rosto) ou não (dar o braço a torcer):

http://www.linguateca.pt/acesso/corpos/corpo/corpo_mwe.txt

Explicação sobre o formato do arquivo corpo_mwe.txt:

Nas expressões, indicamos quais são as palavras do corpo com um [] depois da palavra em questão:

    dor de cotovelo[]
    fazer das tripas[] coração[]

Se a palavra do corpo for a primeira palavra da expressão, não fazemos nada:

    barriga de aluguel

A seção 3 trata da anotação das palavras do corpo em expressões.

Palavras que só são palavras do corpo se estas forem substantivos
http://www.linguateca.pt/acesso/corpos/corpo/corpo_N.txt

Palavras que só são palavras do corpo se estas forem adjetivos
http://www.linguateca.pt/acesso/corpos/corpo/corpo_A.txt

Palavras que apenas em certos contextos farão referência ao corpo, mas que são apenas tratadas em regras positivas
http://www.linguateca.pt/acesso/corpos/corpo/corpo_neg.txt


Este último arquivo é pois apenas para documentação.

Para mais questões técnicas referentes à anotação do corpo humano, veja o Ortopedista http://www.linguateca.pt/acesso/Ortopedista.html



2.1. Delimitação: até onde vai o corpo humano?

    2.1.1 Penteados:

Sem nenhuma surpresa, uma das dificuldades está na delimitação do campo semântico do corpo. Por exemplo, nomes de "penteados" fazem parte do léxico do corpo? Embora a resposta não seja óbvia, uma vez que é possível argumentar tanto

(i) que um penteado é uma forma de arrumar o cabelo (e não uma parte do corpo especificamente),

quanto

(ii) que penteados fazem parte do léxico do corpo, uma vez que são parte de descrições de atributos físicos humanos.

Considerando que uma das motivações para o Esqueleto é a descrição da aparência física, optamos por considerar palavras de penteados como parte do léxico do corpo.

    2.1.2. Processos "internos":

Embora os processos do corpo (digestão, respiração, etc) estejam tão associados ao corpo quanto os penteados, optamos, por enquanto, por não anotá-los.

    2.1.3. Todos os corpos ou apenas o corpo humano?

Considerando a motivação para a anotação do campo semântico do corpo, estão anotadas as palavras do corpo humano, e apenas essas, mesmo que o termo usado para o corpo humano venha do corpo dos animais:

  1. par=FSP940218-704: Enquanto a irmã permanecia emburrada em um canto, para mostrar sua gratidão, Lílian experimentava todos os vestidos decotados do estoque e depois desfilava rebolando nas fuças [sema="corpo"] do inebriado velho.
Por outro lado, nas palavras do corpo igualmente usadas para pessoas e animais, deixamos indicado se as ocorrências estão associadas a animais ou pessoas:

  1. par=FSP941006-806: A orelha[sema="corpo:animal"] do porco, o rabo [sema="corpo:animal"] do porco ou aquelas outras pequenas partes privadas do porco que aparecem, de repente, escondidas no fundo da gloriosa gororoba de nossa feijoada equivalem a um segmento da pirâmide da mídia americana que vive um rápido processo de crescimento.
Notamos que em Portugal "rabo" diz respeito a traseiro, assim como no Brasil. No entanto, além de não haver dimensão pejorativa no uso, em Portugal "rabo" é percebido como um termo originalmente humano que também é usado em animais (assim como orelha ou olhos). Por isso, na frase abaixo, portuguesa, não temos sema=corpo:animal, apenas sema=corpo:
  1. PUBLICO-19951009-085: Foi com alguma alegria que a rapariga percebeu que tinha preferido o rabo[sema="corpo"] do seu companheiro.

2.1.4. Granularidade: células e embriões

Devido ao amplo uso em contextos não corpóreos, incluímos os campos das células e dos embriões na anotação:
  1. grupo havia criado uma célula[sema="corpo:outros"] na zona urbana...
  2. eu chego com uma célula[sema="corpo:outros"] musical (estrofe, refrão) já letrada...
  3. actividades da célula[sema="corpo:outros"] anti-terrorista...
  4. Não havia internet ainda naquela época, estava tudo muito embrionário[sema="corpo:outros"]...
  5. e afinal a Funatura apresentou um projeto que foi embrião[sema="corpo:outros"] dessa legislação..
  6. E essa forma do começo embrionário[sema="corpo:outros"] de organização é uma coisa interessante...
Por outro lado, decidimos NÃO considerar celular quando este faz referência a telefone celular. Tais casos, além de facilmente recuperados, inchariam as ocorrências de [sema=corpo:outros] com um único objeto.

2.2. Grupos do Corpo

Logo percebemos que, nas listas do corpo, podíamos criar subgrupos, ou porque determinadas áreas do corpo continham muitos elementos, ou porque a existência de tais subgrupos facilitaria certos tipos de busca nos corpora do AC/DC.

Atualmente, temos os seguintes grupos:
Cabelos
palavras associadas a cabelos/pelos, inclusive a falta deles:
http://www.linguateca.pt/acesso/corpos/corpo/Grupo_Cabelo.txt
Ossos
palavras relacionadas a ossos:
http://www.linguateca.pt/acesso/corpos/corpo/Grupo_Osso.txt
Sexual
palavras do corpo associadas à sexualidade:
http://www.linguateca.pt/acesso/corpos/corpo/Grupo_Sexual.txt
Cabeça

http://www.linguateca.pt/acesso/corpos/corpo/Grupo_Cabeca.txt

Tronco

http://www.linguateca.pt/acesso/corpos/corpo/Grupo_Tronco.txt
Braços

http://www.linguateca.pt/acesso/corpos/corpo/Grupo_Braco.txt
Pernas

http://www.linguateca.pt/acesso/corpos/corpo/Grupo_Perna.txt
Percepção

http://www.linguateca.pt/acesso/corpos/corpo/Grupo_Percepção.txt
Interno

http://www.linguateca.pt/acesso/corpos/corpo/Grupo_Interno.txt
A criação do grupo Interno interessa, por exemplo, para buscas de partes do corpo associadas a descrições físicas (neste caso, interessa buscar palavras que não pertençam ao grupo Interno).

Ainda com relação ao grupo Interno, o interesse também está em perceber quando uma mesma parte do corpo é usada como parte interna ou externa. Por exemplo:

ela tinha a boca cheia de comida (interno)
ela tinha a boca cheia de baton (externo)

É possível, portanto, que uma mesma palavra pertença, simultaneamente, a mais de um grupo: Algumas partes do corpo estão no limite dos grupos propostos. Nesses casos, optamos por incluir as palavras em todos os grupos possíveis. Por outro lado, e por uma questão de economia, tudo o que está no grupo Cabelo não se inclui no grupo Cabeça. Assim, para procurar as duas coisas, a procura deve ser [grupo="Cabelo|Cabeça"]



2.3. Classes semânticas do corpo

Considerando que uma das motivações para o Esqueleto é investigar a distribuição do léxico do corpo humano em outros campos semânticos, indicamos com o atributo sema quando uma palavra é usada para fazer referência ao corpo humano ou não.

Quando a palavra é usada para fazer referência ao corpo humano, o valor do sema é corpo:

  1. Ali, furei, comprei um tubo daquela cola que nem se pode encostar os dedos[sema="corpo"] senão ficam logo colados

  2. Levou um tiro na nuca[sema="corpo"], único tiro, morreu na hora.

  3. Espirra, dói o corpo[sema="corpo"], a febre não vai embora

Quando a palavra do corpo não é usada em referência a uma parte do corpo humano, podem-se escolher entre, até o momento, dez diferentes valores de sema.

[sema="corpo:sentimento"]

[sema="corpo:vegetal"]

[sema="corpo:parte"]

[sema="corpo:lugar"]

[sema="corpo:doenca"]

[sema="corpo:opiniao"]

[sema="corpo:posicao"]

[sema="corpo:animal"]

[sema="corpo:movimento"]

[sema="corpo:outros"]

[sema="corpo:faculdade"]

[sema="corpo:grupo"]

[sema="corpo:medida"]


Os valores de sema decorrem da exploração do corpus. Foram considerados ou (a)por ocorrerem com bastante frequência ; (b) ocorrerem em poucos casos, mas tais casos serem muitíssimo frequentes na língua (como [sema="corpo:movimento"], que por enquanto contém apenas a expressão a pé, ou [sema="corpo:grupo"], que por enquanto contém apenas a palavra corpo).


sema=corpo:sentimento

  1. notícia cai no coração de um esquerdista já com muitas dúvidas

  2. cantam a paixão pela moça, a dor de cotovelo, mais uma ou outra homenagem à Gonzagão.

  3. par=fut39774: Os matches que se assistem de coração apertado e nó na garganta.
Sentimento é usado em um sentido amplo, entendido como uma manifestação de algo não físico: sentimento de medo, generosidade, surpresa, amor, prazer, raiva, calma, nervosismo, emoção etc. Também usado para a ideia geral de "sentimento".


sema=corpo:vegetal

Esta classe semântica indica palavras do corpo que se referem a vegetais:

  1. Então ela plantou um de Jatobá

  2. A massa fresca total das folhas, dos galhos vivos e mortos, da casca e da madeira do tronco das nove árvores foi determinada no campo

  3. Esfregue o pão com o outro dente de alho


sema=corpo:parte

Palavras do corpo usadas para indicar qualquer parte ou porção de um todo, diferenciando-a. Este todo pode ser desde um objeto até uma abstração com contornos menos definidos.

  1. apoiava o cotovelo no braço da cadeira.

  2. O carrinho tinha quatro pernas

  3. O forro e as costas dos casacos, naquela altura eram em riscado

  4. Arranjou um fogão de duas bocas, com forno

  5. Tinham aquelas armas de carregar pela boca e os «garrotes» onde se metiam pregos e taxas

  6. A última grande reforma gráfica do jornal foi feita em 88 (criação de cadernos, novo desenho de capas e aumento do corpo do texto), e teve sequências em 89 e 90 .
Em versões anteriores, o sema corpo:parte chamava-se corpo:partedeobjeto. No entanto, as ocorrências de diversos casos de partedeobjeto em contextos em que o todo não se caracterizava como objeto (como membros do partido ou braços da Máfia) nos obrigou a repensar a descrição da classe. Com essa opção, unificamos os casos distintos de parte indiferenciada de algo e parte diferenciada, também em coerência com o princípio de evitar classificações granulares.

sema=corpo:lugar

Palavras do corpo usadas para fazer referência a uma localização espacial, seja ela real ou virtual.
  1. Bem no coração da floresta amazônica, a cidade é realmente uma bolha.
  2. Ele nasceu em São Pedro Alfa, ao de Coimbra.
  3. O seu nome de batismo deve-se ao fato de estar localizado na boca do rio Riachuelo.
  4. A sua localização geográfica fez com que os nativos a batizassem de Te Pito o Te Henua, o umbigo do mundo
Há situações em que pode haver dúvida entre a classificação como parte ou lugar, como em boca do rio, boca do caixa, boca do gol. Nesses casos, como boca é entendido como entrada, decidimos considerar lugar [sema="corpo:lugar"].


sema=corpo:doenca

Palavras associadas a doenças que envolvem alguma palavra do corpo.
  1. Não vou a piscinas públicas, mas não tenho medo do pé de atleta

  2. Ele tem pé chato
Não anotamos, portanto, sinusite ou nevralgia.

Também não anotamos formas convencionais como dor de cabeça (que não é qualquer dor que ocorra na região da cabeça) ou dor de dente, que nesses casos terão apenas cabeça e dente anotados como [sema=corpo]. No Esqueleto, não consideramos, exaustivamente, todas as expressões que possa haver na língua. Para que uma dada combinação de palavras seja considerada uma expressão no Esqueleto (e, portanto, uma expressão do tipo [sema="corpo:xxx"]), incluímos apenas aquelas que nos ajudam a investigar como o léxico do corpo aparece na língua portuguesa.


sema=corpo:opiniao

Maneiras de indicar uma opinião sobre algo/alguém, com um julgamento explícito de valor, e que não têm relação com o corpo propriamente.
  1. Ora acontecia que, defronte da tal casa, morava um barbeiro linguarudo,
  2. como são em geral todos os barbeiros -- e apurado isso...

  3. Hoje em dia todo mundo é muito cabeçudo e intelectual.

  4. O filme é um soco no estômago, pois mostra uma realidade de sofrimento e violência que beira o surreal.

  5. O Orçamento, ou melhor, a sua aprovação, deixou de ser uma dor de cabeça.
  6. e o Ministro Palocci, que também dançou a noite inteira, revelou-se um grande pé de valsa

  7. Por outro lado, as privatizações andam mal das pernas
Diversos casos com ter um coração ADJ, e variações, também foram considerados opinião (especificamente, EVPs do tipo opinião):
  1. Ele é bom, tem um coração enorme
  2. enquanto o marido tem um coração mole
  3. Mas as espanholas, além de sapateado tinham um coração sensível
  4. Tinha um coração de ouro
  5. têm um coração duro como o ferro e não sabem perdoar
  6. era preciso ter um coração de pedra para conseguirmos
  7. O que importa é que fulano tem bom coração
Vale notar que também podemos descrever a aparência física de alguém de maneira pejorativa, e portanto indicando opinião: ele tem um narigão. Por enquanto, NÃO estamos tratando esses casos como corpo:opiniao. O que consideramos [sema="corpo:opiniao"] é o uso de palavras do corpo para indicar coisas não-corpo. Por isso a palavra bundão abaixo recebe [sema="corpo:opiniao"]. (No Brasil, bundão (ou bunda mole) é alguém covarde).
  1. Chamado de «bundão» pelo mesmo Quércia, na campanha de 90, Covas agora promete reagir em tom idêntico, o que aumenta o risco de que a disputa deste ano atinja um nível de rés-do-chão, para dizer o menos.
Já a palavra bundona, abaixo, recebe a marcação de corpo, apenas, uma vez que faz referência ao tamanho da bunda, uma parte do corpo:
  1. A idéia de beleza no Brasil tem a ver com cabelão[sema="corpo"] 'de escova', decotão, bundona[sema="corpo"].
Pelos mesmos motivos, a ocorrência abaixo de
  • orelhudo
  • recebe [sema="corpo:opiniao"]
    1. Ou seja, além da monitora, tem sempre um orelhudo[sema="corpo:opiniao"] na conversa
    Mas a ocorrência abaixo recebe apenas [sema="corpo"]:
    1. Os fãs do orelhudo[sema="corpo"] vulcano Spock (ausente no filme) têm de se satisfazer com o andróide Data.
    A EVP(cf. seção sobre EVP) [com] cara de tacho está anotada como [sema="corpo:opiniao"]. Uma busca nos diversos corpora mostra que a combinação com+cara+de+xxxx terá quase sempre um uso de cara associado a aparência. Não anotamos como EVP essas combinações, que podem ser bastante criativas, mas apenas indicamos cara como sema="corpo:outros"]. Mas registramos que, nesses casos, quase sempre se trata de algo negativo.


    sema=corpo:posicao

    Indica a posição espacial de algo, não necessariamente do corpo humano. [sema="corpo:posicao"] é atribuído sobretudo às expressões de pé e em pé, quando dão a ideia de erguer-se; e a diversos casos de de cabeça no domínio futebol, entre outros:
      (a) mergulhar na piscina de cabeça
      (b) Coyne toca para a área e Townsend mergulha de cabeça
      (c) muitos daqueles casarões ainda estavam em pé
      (d) ficar de cabeça para baixo
      (e) caiu de costas
      (f) ficou de costas para o público
      (g) suplicou de joelhos
    Não atribuímos [sema=corpo:posicao] a casos como (h)-(m), ainda que também, de maneira geral, os exemplos indiquem posições do corpo humano:
      (h) Ele cruzou os braços[corpo]; sentou-se, cruzou as pernas[corpo] e esperou (i) Ergueu os braços[corpo]
      (j) Ergueu os olhos[corpo] ao céu
      (k) Ergueu a cabeça[corpo]
      (l) Pôs a mão na cintura[corpo]
      (m) Levantou a cabeça[corpo]
    A opção pela distinção se sustenta na ideia de que, nos exemplos h-m, a posição decorre da associação entre os verbos (cruzar, erguer; colocar; pôr etc) e as palavras do corpo. Já nos exemplos (a)-(g), a ideia de posição é decorre da adição da palavra/expressão do corpo, e só.

    Esta situação acontece em verbos como suplicar, aplaudir, mergulhar, dormir, esperar, cair, andar, em geral com a palavra do corpo antecedida de preposição.
      Dormir em pé[sema="corpo:posicao"]
    Os casos frequentes de combinações como
      ir de mãos dadas dar as mãos ir de braço dado apertar a mão
    não foram tratados como [sema=corpo:posicao], anotamos simplesmente [sema=corpo] ao lado de cada palavra do corpo. Ainda que tais combinações correspondam a expressões não composicionais, as palavras do corpo são interpretadas como corpo, e por isso não achamos necessário marcar. Como mencionamos, o interesse está em estudar os sentidos do corpo, e não necessariamente todas as expressões em que há uma palavra do corpo.


    sema=corpo:animal

    Palavras do corpo humano usadas para referir ao corpo de animais:
      Os moradores daqui estão a ser mandados embora e estão a fazer ali museus com ossos de galinha que têm 300 anos ou 400 anos.
    Especialmente com relação a rabo, notamos a diferença de uso entre as variantes brasileira e portuguesa. Em Portugal, rabo é parte do corpo humano, e parte do corpo de animais; no Brasil, rabo é apenas parte do corpo de animais (como pata e focinho), e pejorativamente associado ao corpo humano, sobretudo o feminino.

    Assim, em uma anotação sobre texto da variante BR, teríamos:

    o rabo da raposa não anotado porque é do tipo "a pata do cavalo"

    Em uma anotação sobre texto da variante PT, teríamos

    o rabo[sema="corpo:animal"] da raposa, anotado porque é do tipo "orelha de porco".

    Consideramos pé de pato (nadadeiras) uma expressão do tipo corpo:outros (cf. abaixo).


    sema=corpo:movimento

    O sema=corpo:movimento é usado para indicar palavras ou expressões que se refiram à ideia ampla de forma de movimento:
    1. A gente ia a pé e tomava o bonde, o da frente era 200 réis

    2. Vou trabalhar a pé

    3. Atravessar Hith Parque, de uma ponta a outra é mais de meia hora a pé
    4. Acompanhado dos correligionários, Santana saiu batendo pernas pela cidade.
    5. Cansado de bater pernas procurando emprego?

    sema=corpo:outros

    Nesses casos encontram-se as demais ocorrências de palavras ou expressões que não fazem referência ao corpo, e que não estão se enquadram nas classificações anteriores:
    1. considerado o pulmão da cidade

    2. barriga de aluguel

    3. os teus textos mostram uma veia forte do pop

    4. Na ocasião, aproveitou para puxar a orelha dos colegas que se querem mais do que simples diretores.

    sema=corpo:faculdade

    Este sema refere-se sobretudo aos cinco sentidos -- visão, olfato, paladar, tato, audição. Refere-se também aos processos realizados pelo corpo, nomeados pelas partes que os realizam cabeça/cérebro para indicar pensamento; pulmão para indicar processo/capacidade de respiração; boca ou garganta para indicar a faculdade/capacidade de falar.
    1. Vou cantando, acostumando o ouvido, criticando o enunciado das palavras.
    2. e ficou imóvel, de ouvido atento, na expectativa de escutar as horas de algum relógio da vizinhança

    3. O artista define o filme como "uma provocação plástica para olhos e ouvidos livres;

    4. Não adianta o cara ser um ótimo crítico se quem lê não lê com olhos críticos

    5. Exceto um que tem uma cabeça privilegiada e quer estudar teatro

    6. Mas o Stanley tinha cabeça para dinheiro, o que eu nunca tive

    7. É, basta ter uma cabeça legal, saber conversar

    8. Cafu e Mazinho constituem um meio-de-campo bom de pulmão, dinâmico e criativo

    9. Posso ser mau de boca mas sou bom de olho

    10. Ao contrário do marido, que é bom de garganta, a primeira-dama é tímida e modesta.


    Sema=corpo:medida

    Este sema indica palavras do corpo associadas a unidades de medida:
    1. Como candidata, Hillary sairia na frente com meio corpo de vantagem.

    2. De repente, numa última explosão de energia, Larson pôs-se a par e par e terminou com uma mão de vantagem sobre o adversário.

    3. O portão de entrada é flanqueado por altivas torres, a dez pés de distância uma da outra.

    Sema=corpo:grupo

    Este sema indica palavras do corpo que se referem a um agrupamento -- de pessoas, coisas ou ideias. Até o momento, é um sema que se aplica apenas a duas palavras do corpo -- as palavras corpo e coluna.
    1. Corpo de baile
    2. Corpo de bombeiros
    3. Corpo docente
    4. Corpo de ideias
    5. Corpo de princípios
    6. Corpo administrativo
    7. o chefe da força militar, que traçara a sua atitude retilineamente pela lei. E somente depois disto a coluna do major Febrônio -- até então oscilante entre Monte Santo e Queimadas e objetivando nas contramarchas as vacilações do governo
    8. expedicionário, como se levasse o pequeno corpo de exército para algum campo esmoitado da Bélgica, dividiu-o em três colunas, parecendo dispô-lo, de antemão, para recontros em que lhe fosse dado entrar repartido em atiradores, reforço

    Sema=corpo:centralidade

    Refere-se a palavras do corpo que indicam o que é principal, mais importante, nuclear, central.
    1. Mas há quem clame por mais diálogo no seio da Associação.
    2. Por esclarecer estão também informações sobre a existência de luta no seio do gabinete de Aznar para o controlo da "secreta", que oporia o vice-primeiro ministro aos titulares da Defesa e do Interior :
    3. O fato abalou o coração do cortiço, as duas receberam parabéns e felicitações .
    4. Imagina o tipo mais estranho do mundo na Faria Lima, que era o novo coração econômico de São Paulo.

    3. Como Anotar

    3.1. Palavras Simples

    Todas as palavras do corpo são anotadas conforme a intepretação da frase, em contexto. O valor do atributo semântico será atribuído da seguinte forma: [sema="tipo_de_sema"]
      Espirra, dói o corpo[sema="corpo"], a febre não vai embora

      Para eles, a sociedade não tem ouvidos[sema="corpo:faculdade"] nem olhos[sema="corpo:faculdade"]; tampouco tem coração[sema="corpo:sentimento"]

    3.2. Expressões com várias palavras (EVP)

    É muito frequente a participação de palavras do corpo em expressões: dar um passo maior que perna, comer com os olhos, de queixo caído, de cortar o coração, a olho nu, de corpo e alma, etc.

    No Esqueleto, essas combinações são chamadas de EVP (e se distinguem das demais expressões já anotadas nos corpora do AC/DC pelo parser PALAVRAS, classificadas como mwe (multiword expression).

    No arquivo , as EVPs estão classificadas conforme o sema e a sua classe gramatical (pos): Diferentemente da anotação feita com as cores (Silva & Santos), no Esqueleto propomos que, nas expressões EVPs, a marcação de sema seja aconteça em dois níveis: na classificação das expressões e na(s) palavra(s) do corpo.

    Assim, em
    1. A educadora tinha um nó na garganta e vontade de chorar
    A EVP nó=na=garganta é uma EVP do tipo corpo:sentimento. Mas a palavra garganta, nessa mesma EVP, é classificada como parte do corpo. Em
    1. Se a criança apresenta pé chato, o uso da palmilha não fez bem
    pé=chato é uma EVP do tipo corpo:doenca. Mas a palavra , nessa mesma EVP, é classificada como parte do corpo. E em
    1. Quem está de cabelo em pé é o zagueiro João Carlos
    Cabelo=em=pé é uma EVP do tipo corpo:sentimento.

    Embora, nessa EVP, tenhamos ainda em=pé que pode ser analisado como uma EVP do tipo corpo:posicao, apenas marcamos a EVP maior (embora isso ainda esteja em discussão).

    A anotação é feita da seguinte forma:
    1. nó=na=garganta[sema="corpo"]
    2. pé[sema="corpo"]=chato
    3. cabelo[sema="corpo"]=em=pé
    É importante lembrar que a anotação levará em conta, sempre, o contexto:
    1. Os índios caíram de=joelhos[evp sema="corpo:posicao"]e o adoraram,
    2. chamando-o de «Caramuru» que parece significar «filho do trovão» .

    3. O sanduíche («panino») feito na hora, e de acordo com a vontade do freguês, é para comer de joelhos[evp sema="corpo:opiniao"]

    4. Sua promessa de «colocar de=pé[evp sema="corpo:outros"] a Rússia que está de joelhos[evp sema="corpo:outros"]», de fazê-la recuperar seu lugar de superpotência e de devolver às Forças Armadas sua posição e prestígio, certamente contribuiu para o seu sucesso eleitoral.
    Uma palavra do corpo dentro de uma EVP tem também a informação de qual a análise da expressão toda, refletindo assim os dois níveis em que essa palavra do corpo tinha sido classificada: a da expressão a que pertence, e a dela mesmo dentro da expressão. Com essa forma de marcação, temos a possibilidade de facilitar a procura, em contexto, de expressões do corpo que envolvem uma determinada palavra (por exemplo, todas as EVPs que contêm a palavra cabeça; ou de buscar as palavras do corpo que participam de expressões (pode-se querer investigar a existência de relação entre palavras do corpo e a classe semântica das EVPs em que participam, por exemplo).

    3.2.1 Consequências da anotação na forma de realizar buscas no AC/DC

    Para procurar apenas palavras do corpo em EVPs do tipo corpo:outros, a expressão de busca deve ser
      [sema=".*corpo_outrosEVP.*"]

    Para procurar apenas palavras que estão em EVPs com um sentido (sema) diferente do sema da palavra em questão. Por exemplo, uma palavra do corpo classificada como corpo:outros que faz parte de uma EVP cuja classificação não é corpo:outros
      [sema=".*corpo_outros.*" & sema!=".*corpo_outrosEVP.*"]

    Para encontrar palavras ou expressões que só são corpo (dentro ou fora de EVPs)
      ([sema="corpo" & sema!="corpo.*EVP"]|[sema=".*corpoEVP.*"])

    Para encontrar palavras ou expressões que são só (por exemplo) corpo:sentimento,
      [sema=".*corpo:sentimentoEVP.*"]

    Para encontrar palavras de corpo que são por exemplo corpo no nível baixo e corpo:outros no nível acima
      [sema=".*corpo_.*" & sema=".*corpo:outrosEVP.*"]

    ou para ver, na concordância a expressão completa
      []* [sema=".*corpo_.*" & sema=".*corpo:outrosEVP.*"] []*

    E, se esse aspecto for indiferente, a procura deve ser (para interessados em corpo:outros)
      [sema=".*corpo_outros.*"]

    3.3 Outros aspectos relacionados à anotação das EVP

      3.3.1 EVP e Lemas

    As EVP são codificadas também quanto aos seus lemas. O lema de falar pelos cotovelos é falar=pelos=cotovelos.

    Outras vezes, em que, aparentemente temos a mesma EVP com uma variação apenas na preposição, como em
    1. Foi pedir o apoio de José Eduardo de Andrade Vieira (PTB) e saiu com as mãos abanando.
    2. Os humanistas, coitados, estão de mãos abanando, sem assunto
    incluímos a preposição no lema, e nesses casos é como tivéssemos dois lemas distintos:
    1. de=mãos=abanando
    2. com=as=mãos=abanando // com=as=mãos=a=abanar
    Do mesmo modo, quando temos diferentes verbos usados em uma mesma expressão, não unificamos, e cada expressão terá um lema. No caso abaixo temos 4 EVP:
    1. Botar=a=boca=no=trombone
    2. Pôr=a=boca=no=trombone
    3. Meter=a=boca=no=trombone
    4. Colocar=a=boca=no=trombone

    4. Combinações que não consideramos EVPs

    Apesar de poderem corresponder a um único lexema em outras línguas, não consideramos as combinações abaixo EVPs:
    1. ponta de+o nariz[] :: ponta do nariz
    2. ponta de+o queixo[] :: ponta do queixo
    3. ponta de+o cabelo[] :: ponta do cabelo
    4. ponta de+o dedo[] :: ponta do dedo

    5. Palavras do corpo consideradas excepcionalmente

    As seguintes palavras só contam como palavras do corpo em casos específicos: articulação; fonte; junta; rótula; saco; sinal; temporal.

    Os casos em que as consideramos corpo estão em http://www.linguateca.pt/acesso/corpos/corpo/regras_positivas_corpo.txt

    6. Grafia e Acordo Ortográfico

    Com relação às grafias e Acordo Ortográfico: os textos que compõem os corpora do AC/DC foram escritos em períodos distintos. Alguns, como o Vercial, ou o COLONIA, contêm textos do século XVI. Assim, listamos ortografias de antes do Acordo também (e de antes do século XX), e por isso pode haver uma proliferação de formas.

    Referências

    [Costa et al. 2009]
    Luís Costa, Diana Santos & Paulo Alexandre Rocha. "Estudando o português tal como é usado: o serviço AC/DC", STIL 2009, The 7th Brazilian Symposium in Information and Human Language Technology (São Carlos, Brasil, 8-11 de Setembro de 2009)

    [Mota 2013]
    Cristina Mota. "Anotação de emoções nos corpos do AC/DC". (2013).
    http://www.linguateca.pt/documentos/Mota2013.pdf

    [Santos 2011]
    Diana Santos. "Linguateca"s infrastructure for Portuguese and how it allows the detailed study of language varieties". OSLa: Oslo Studies in Language 3.2 (2011), pp. 113-128. [Volume edited by J.B.Johannessen, Language variation infrastructure]

    [Silva & Santos em edição permanente]
    Rosário Silva & Diana Santos. "Arco-íris: notas sobre a anotação do campo semântico da cor em português". Primeira edição: 25 de Junho de 2009.
    http://www.linguateca.pt/acesso/ArcoIris.pdf

    [Santos et al. em edição permanente]
    Diana Santos, Augusto Soares da Silva & Cristina Mota. "Guarda-fatos: notas sobre a anotação do campo semântico do vestuário em português". Primeira edição: 26 de Outubro de 2009.
    http://www.linguateca.pt/acesso/GuardaFatos.pdf



    Última atualização: 30 de novembro de 2015.
    Data de criação da presente página: 23 de novembro de 2014.
    Perguntas, comentários e sugestões