[Gramáticas usadas para criar o PAPEL 3.0] [ Hugo Gonçalo Oliveira, Linguateca 2011 ] ========================================== Neste pacote encontram-se as gramáticas utilizadas para criar o PAPEL 3.0, actualmente utilizadas também no projecto Onto.PT. 1. Organização -------------- A directoria das gramáticas encontra-se dividida em quatro subdirectorias, cada uma com o nome de uma categoria gramatical aberta: nome, verbo, adj, adv. As gramáticas que se encontram fora destas directorias, são partilhadas por várias gramáticas. Destacam-se as seguintes: terminais.txt - vários símbolos terminais funcionais, como por exemplo preposições, artigos, numerais ou adjectivos genéricos. verbos.txt - verbos característicos de determinadas relações, separados pela sua conjugação uteis.txt - algumas construções úteis, como "entidades complexas" (e.g. "A de B") ou inícios de definição típicos de adjectivos ou advérbios. De acordo com a directoria em que se encontram, as gramáticas irão processar entradas do dicionário com a categoria a que dizem respeito. 2. Formato ---------- As gramáticas foram escritas num formato reconhecido pelo analisador sintáctico PEN, que pode ser descarregado gratuitamente a partir de: http://code.google.com/p/pen/ Para saber mais sobre este analisador, e como pode ser utilizado para extrair relações entre palavras, consultar o Relatório nº 3 do PAPEL. As primitivas do PEN são os seguintes símbolos: "::=" que indica o inicia do corpo de uma regra "<&>" que permite fazer a conjunção de variáveis e símbolos terminais "" que é uma variável especial que pode ser instanciada com qualquer token (uma sequencia de carateres delimitado por um espaço em branco de cada lado) "<>" que indica uma token vazia É possível atribuir o peso a uma regra, colocando um número inteiro antes da mesma, seguido do símbolo "#" Variáveis são sempre escritas em maiúsculas e símbolos terminais em minúsculas A variável "RAIZ" tem de existir sempre (nas regras de alto nível) e corresponde ao nó raiz da àrvore de derivação gerada utilizando as regras especificadas Os comentários têm de ter a linha iniciada com o símbolo "[". É possível incluir todas as regras de uma gramática noutra gramática utilizando o símbolo ">" seguido do nome do ficheiro onde se encontra a gramática que se pretende incluir, por exemplo: > gramatica2.txt 3. Utilização ------------- Após a análise feita pelo PEN, são geradas derivações de acordo com as gramáticas, onde os nós terão os nomes das regras. É depois possível obter as palavras que se encontram dentro de um nó com o nome de uma relação que se pretenda extrair e estabelecer uma relação entre essa palavra e a palavra definida. Na criação do PAPEL foi utilizado o ficheiro descricao_relacoes.xml para indicar o nome dos nós (ou seja, nomes de relações) que se pretendiam extrair.