Gramateca: Viagem
Gramateca, Linguateca
Nesta página documentamos a anotação dos locais, de momento apenas na Literateca.
A anotação é feita a partir da anotação automática do PALAVRAS, ver pdf, que faz as seguintes distinções, entre outras
- civ : localidades de geografia humana com administração (países, cidades, vilas...)
- path: meio de comunicação humano (ruas, estradas...)
- top: locais da geografia física
- water: massas de água (rios, lagos...)
- h: edifícios construídos pelo homem, ou com uma dada função (igrejas, hotéis, etc.)
mas é também inspirada no HAREM (veja-se em particular o texto Santos (2007), e portanto distinguimos entre usos de nomes de locais como organizações ou abstrações ou locais mesmo, assim como mantemos a vagueza se tal for a nossa interpretação.
Ou seja, é possível que uma dada ocorrência num texto seja marcada com mais de uma das categorias listadas em seguida.
Nos casos de categorias encaixadas, vamos por enquanto apenas marcar o local na primeira palavra a que se refere: Biblioteca de Macedo de Cavaleiros terá a marcação sema=Lugar:cidade apenas em Macedo.
Categorias
Atenção: Estas categorias são preliminares, e podem sofrer muitas alterações durante o projeto.
Local:pais
Local:cidade
Local:rua
Inclui ruas, largos, estradas, caminhos.
Local:região
Inclui concelhos, províncias, zonas metropolitanas, continentes, partes de continentes, estados.
Local:rio
Inclui rios, lagos, mares, praias, baías.
Local:igreja
Inclui todo o tipo de edifícios religiosos.
Local:jardim
Local:ludico
Inclui teatros, cafés restaurantes, hotéis.
Local:organizado
Inclui escolas, fábricas, campos cultivados, hospitais, cemitérios.
Local:referencia
Inclui pontos de referência.
Local:ilha
Local:casa
Local:outro
etc.
Processo
Primeiro transformamos a anotação automática nas nossas categorias, para tudo o que for possível fazer lexicalmente, e depois usamos o corte-e-costura para os casos mais complicados.
Seguem-se exemplos de regras do corte-e-costura a todos os níveis
regras de correção da análise
a:[lema="Membro=da=Sociedade=de=Geografia=de=Lisboa"] b:[lema="Membro=da=Sociedade=de=Geografia=de=Lisboa"] c:[lema="Membro=da=Sociedade=de=Geografia=de=Lisboa"] d:[lema="Membro=da=Sociedade=de=Geografia=de=Lisboa"] e:[lema="Membro=da=Sociedade=de=Geografia=de=Lisboa"] f:[lema="Membro=da=Sociedade=de=Geografia=de=Lisboa"] g:[lema="Membro=da=Sociedade=de=Geografia=de=Lisboa"] >> a:[lema="membro" & pos="N" & gen="M" & pessnum="S"] b:[lema="da" & pos="PRP+DET_artd" & gen="F" & pessnum="S"] c:[lema="Sociedade=de=Geografia=de=Lisboa" & pos="PROP"] d:[lema="Sociedade=de=Geografia=de=Lisboa" & pos="PROP"] e:[lema="Sociedade=de=Geografia=de=Lisboa" & pos="PROP"] f:[lema="Sociedade=de=Geografia=de=Lisboa" & pos="PROP"] g:[lema="Sociedade=de=Geografia=de=Lisboa" & pos="PROP"]
regras positivas
[lema="Morro=do=Castelo"] >> [sema="Local"]
[lema="Silves"] >> [sema="Local"]
[lema="Carangola"] >> [sema="Local"]
[lema="[Rr]ua=.*"] >> [sema="Local"]
regras negativas
No caso destas duas sequências terem sido incorretamente analisadas como lugares:
[lema="Água=de=Seltz"] >> [sema="0"]
[lema="Limpeza=Pública"] >> [sema="0"]
regras de especialização
A especialização refere-se a contextos mais específicos que alteram as classificaçeõs dadas pelas regras anteriores (positivas).
a:[lema="tenente|escrivão"] b:[lema="Coimbra"] >> a:[sema="Pessoa" & gen="M"]
a:[lema="morte|coração"] b:[word="de|do"] c:[lema="Coimbra"] >> c:[sema="Pessoa" & gen="M"]
[lema="Santos"] >> [sema="Local" & gen="M/F"]
a:[word="o|esse|do"] b:[lema="Santos"] >> b:[sema="Pessoa" & gen="M"]
[lema="gruta|ilha"] [lema="de"] a:[lema="Calipso"] >> a:[sema="Local"]
a:[word="ruas|catedral"] b:[word="de"] c:[lema="Lima"] >> c:[lema="Lima" & sema="Local"]
a:[word="leito"] b:[word="do"] c:[word="Sena"] >> c:[sema="Local"]
Equipe: Inês Lucas e Diana Santos, através do projeto BILLIG.
Última atualização: 29 de junho de 2020.
Contacte a equipa da gramática baseada em corpos da Linguateca.