PAPEL: Perguntas já respondidas

PAPEL, Linguateca

Em apenas um parágrafo, o que é o PAPEL?

O PAPEL é um recurso lexical que consiste num conjunto de relações entre termos, extraídas de forma semi-automática a partir do Dicionário da Língua Portuguesa (DLP) da Porto Editora, através da análise dos padrões textuais utilizados. Este recurso é gratuito e pode ser visto como uma ontologia lexical.

Onde posso encontrar uma descrição das relações presentes no PAPEL?

O nome de todas as relações presentes, os seus grupos, as categorias gramaticais pretendidas para os seus argumentos e também as suas inversas, encontram-se definidas no ficheiro definicao_relacoes.xml. Desde a versão 3.0 do PAPEL, o ficheiro anterior substitui o antigo descricao_relacoes.dat

As relações estão separadas em grupos, que depois se subdividem em sub-relações, de acordo com a categoria gramatical dos argumentos.
Para cada relação existe também um nome definido para a sua inversa.

As relações actualmente incluídas no PAPEL são:

Uma descrição atualizada de cada uma destas relações pode ser consultada na página Descrição das relações, assim com a sua conceção inicial se encontra no Relatório nº 4 do PAPEL.

Qual a distribuição quantitativa das relações no PAPEL?

A partir da versão 2.0, junto com a distribuição do PAPEL vem um ficheiro com dados quantitativos, chamado quantidades_x.y.txt em que x.y é o identificador da versão.

Como foram calculados os totais de palavras por categoria?

Cada entrada na contagem anterior diz respeito a um par categoria-palavra. Por exemplo, o verbo "colher" e o substantivo "colher" são duas palavras, mais propriamente um verbo e um nome. O mesmo acontece com o adjectivo "jovem" e o substantivo "jovem". Por outro lado, no PAPEL não é feita a distinção entre os vários sentidos que cada palavar pode ter, por isso, mesmo que uma palavra possa ter mais do que um sentido, desde que todos esses sentido sejam da mesma categoria gramatical, apenas são contabilizados como uma palavra, como é o caso dos substantivos "banco" (instutuição) e "banco" (móvel).

Onde posso encontrar descrito o processo de extracção?

O processo de extracção do PAPEL encontra-se resumido nos artigos escritos para o STIL 2009 (em português), para o EPIA 2009 (em inglês) e ainda no Relatório nº 4 do PAPEL.

Muito brevemente, o PEN parser procura derivar cada definição de acordo com as gramáticas que lhe forem fornecidas, neste caso gramáticas construídas especificamente para a extracção das relações presentes no ficheiro descricao_relacoes.dat. De seguida, e depois de seleccionar a melhor derivação, um programa de extracção procura por nós cujo nome se encontra no mesmo ficheiro, definicao_relacoes.xml. Como isto significa que as palavras nesses nós se relacionam com a palavra definida, para cada nó identificado, uma relação com o nome do nó é extraída.

A utilização do analisador PEN para extrair relações a partir do DLP encontra-se descrita no Relatório nº 3 do PAPEL.

Em que consiste a normalização de relações?

As relações são sempre extraídas entre palavras na definição e a palavra definida. Pode no entanto acontecer que a mesma relação seja extraída de duas definições diferentes, sendo que uma será a inversa da outra. Vejamos o exemplo (não real):
ampliação, s.f. alteração das dimensões de uma imagem para um tamanho maior por meio de uma lente --> lente SERVE_PARA ampliação
lente, s.f., ...utilizado na ampliação ou diminuição de imagens --> ampliação FAZ_SE_COM lente

lente SERVE_PARA ampliação = ampliação FAZ_SE_COM lente
A normalização consiste em colocar todas as relações no tipo convencionado como directo. No ficheiro definicao_relacoes.xml, para cada nome de relação existe uma relação directa e uma inversa. No processo de normalização todas as relações A INVERSA B, passam a B DIRECTA A, enquanto que as restantes se mantêm inalteradas.

Qual é a diferença entre o conjunto de relações brutas e o conjunto de relações finais?

Enquanto que as relações brutas se encontram tal e qual foram extraídas do dicionário, as relações finais passaram por fases de pós-processamento, onde foram normalizadas, o seu nome foi ajustado de acordo com a categoria gramatical dos argumentos, o que levou também à remoção de algumas relações e, quando possível, os seus argumentos foram lematizados. Além disso, relações duplicadas e relações equivalentes de sinonímia foram removidas.

Esperam-se novas versões do PAPEL para breve?

Sim, sempre que forem detectados problemas, e nos for possível corrigi-los, serão criadas novas versões do PAPEL. O mesmo acontecerá se detectarmos que o PAPEL pode ser ampliado através da exploração de novos padrões ou tornado mais claro através da redefinição de definições.

Há alguma medida ou tentativa de avaliação das relações no PAPEL?

A primeira coisa que temos e que podemos disponibilizar são listas de coocorrências de ambas as palavras constantes numa relação do PAPEL 2.0, quer para os corpos do AC/DC (que pares de nós co-ocorrem na mesma frase, num conjunto de corpos), quer no Google (que pares de nós co-ocorrem na mesma página da rede, e quantas vezes). As co-ocorrências no AC/DC serão depois usadas no VARRA para avaliar do seu peso em relação à própria relação. As co-ocorrências no Google são uma forma de ter maior abrangência. Para formas de usar estes dados, veja-se a lista de publicações associadas ao PAPEL.

Em versões futuras, está prevista a formação de conceitos e a inclusão das suas definições?

Na construção do PAPEL, por opção da equipa de desenvolvimento, não foi tirado partido da divisão dos sentidos que cada palavra pode ter. Essencialmente, essa divisão nem sempre é consensual e pareceu-nos mais interessante que os utilizadores pudessem tirar as suas próprias conclusões olhando, por exemplo, para a estrutura de rede estabelecida pelo PAPEL.

Existe alguma forma de tirar partido das relações do PAPEL para detectar diferentes sentidos da mesma palavra?

No âmbito do projecto PAPEL, não existe nenhum método estabelecido para obter pistas acerca de diferentes sentidos de uma palavra.

Sobre este assunto, consulte a página do projecto Onto.PT, que usa o PAPEL e outros recursos para fazer exatamente isso.

O que determina a delimitação dos itens lexicais no PAPEL?

Embora na maior parte dos casos as "palavras" sejam simples, quando uma palavra ocorre seguida das preposições de/do/dos/da/das seguida de outra palavra considera-se também como um item lexical. No caso de expressões classificadas como verbos, as "palavras" podem ainda corresponder a verbos com o seu objecto directo, tal como abrir_o_apetite, ou produzir_som.

Mais especificamente:

Que tipo de alterações entre itens lexicais são feitas automaticamente a partir das definições do dicionário?

No ajuste de relações é feita a lematização de alguns itens lexicais.

Este processo começa por verificar se o item está definido no dicionário e se este lhe atribui a categoria gramatical pretendida. Se estiver, ou se começar por letra maiúscula (nome próprio), não lhe é feita qualquer alteração. Se não respeitar nenhum dos caso anteriores, a plataforma OpenNLP é utilizada, com os módulos para português, para fazer as categorias gramaticais das palavras na definição.

Com base na sua categoria gramatical, as palavras dos triplos extraídos são lematizadas. É preciso ter em atenção que esta lematização transforma efectivamente items no plural em items no singular, podendo originar relações que aparentemente não fazem sentido, como por exemplo: cetáceos MEMBRO_DE mamíferos é transformado em cetáceo MEMBRO_DE mamífero.

Até à versão 2.0 do PAPEL, estas alterações eram feitas com auxílio do Jspell.

Existe alguma forma interativa de consultar o PAPEL?

De momento existe apenas um navegador muito simples, a que chamamos o antigo Folheador, desenvolvido por Hugo Gonçalo Oliveira no CISUC, mas acessível da Linguateca, e um novo Folheador, com mais potencialidades e dando acesso a mais recursos, desenvolvido por Hernâni Costa.

Como devo citar o PAPEL?

A forma mais correcta de citar o PAPEL será referindo pelo menos um dos artigos que foi escrito sobre este recurso: Para trabalhos escritos em português o artigo publicado na Linguamática 2 (1) será o mais adequado. Para trabalhos escritos em inglês, o artigo escrito para o PROPOR 2008 faz uma apresentação do recurso, enquanto que o artigo escrito para a EPIA 2009 apresenta os primeiros resultados e a primeira avaliação.

Deverá ainda ser referido o URL do sítio do PAPEL: http://www.linguateca.pt/PAPEL

Onde posso encontrar mais informações sobre o PAPEL?

Toda a documentação produzida que se relaciona com o PAPEL pode ser consultada a partir de uma pesquisa no catálogo de publicações sobre o processamento computacional da língua portuguesa mantido pela Linguateca, procurando por publicações com a marca papel.

Uma comparação inicial entre o PAPEL e outras ontologias lexicais para o português pode ser consultada aqui.

Se tiver alguma sugestão ou questão adicional, quem devo contactar? E se encontrar algum problema?

Por favor use SEMPRE o formulário no rodapé desta e de todas as páginas associadas ao PAPEL, e desde já lhe agradecemos vivamente esse contacto.


Última actualização: 26 de agosto de 2013.
Data de criação da presente página: 5 de Outubro de 2009.
Contactar a equipa responsável pelo PAPEL