PAPEL v.3.0 =========== Índice: 1. Introdução 2. Conteúdo do pacote 3. Representação das relações 4. Visão quantitativa 5. Principais diferenças em relação à versão 2.0 6. Agradecimentos 1. Introdução ------------- Este recurso lexical para o português, o PAPEL (Palavras Associadas Porto Editora - Linguateca) foi construído através da extracção automática de relações semânticas expressas nas definições do Dicionário da Língua Portuguesa da Porto Editora. O trabalho foi realizado por Hugo Gonçalo Oliveira, orientado por Diana Santos e Paulo Gomes. Material adicional para a compreensão do recurso encontra-se disponível a partir do URL http://www.linguateca.pt/PAPEL/ Desde 2010, o PAPEL é mantido pela mesma equipa, numa colaboração entre a Linguateca e o CISUC. No âmbito do projecto do CISUC, Onto.PT (http://ontopt.dei.uc.pt), as gramáticas do PAPEL foram já utilizadas para extrair relações de outros dicionários. 2. Conteúdo do pacote --------------------- Deste pacote fazem parte as relações (entre palavras) extraídas do dicionário com o auxílio do analisador sintáctico PEN e gramáticas desenvolvidas para esse fim. O ficheiro relacoes_brutas.txt contém as relações tal como foram extraídas do dicionário, enquanto que o ficheiro relacoes_final.txt contém as relações depois de passarem pelas seguintes fases adicionais de processamento: (i) normalização para o tipo convencionado como directo (descrito no ficheiro definicao_relacoes.xml); (ii) ajuste de acordo com a classe gramatical dos argumentos, baseando-se na informação no dicionário. Quando o dicionário não encontra a palavra, o ajuste baseia-se em informação obtida através do OpenNLP. Quando possível, os argumentos são lematizados; (iii) remoção de relações repetidas. As relações encontram-se ainda separadas por grupo em ficheiros com o nome "relacoes_final_GRUPO.txt". 3. Representação das relações ----------------------------- Os ficheiros de relações contêm uma relação (triplo) por linha, representada na forma: palavra1 RELACAO palavra2 A partir da versão 2.0 foram também incluídos os campos registo, domínio e variante, quando existentes no dicionário, a seguir a cada relação, da seguinte forma: palavra1 RELACAO palavra2 :: registo;domínio;variante Quando algum campo não existe, fica em branco, por exemplo: fís.;ant.; onde não existe domínio atribuído. O conteúdo dos campos foi retirado integralmente do dicionário, ou seja, não sofreu qualquer modificação. O ficheiro definicao_relacoes.xml inclui as propriedades das relações extraídas, organizadas em grupos, e sub-relações, definidas pela categoria gramatical dos argumentos. 4. Visão quantitativa --------------------- As quantidade de termos por categoria e relações por tipo no PAPEL 3.0 encontram-se no ficheiro quantidades3.0.txt, também incluído neste pacote. 5. Principais diferenças em relação à versão 2.0 ------------------------------------------------ - Alteração da codificação de ISO-8859-1 para UTF-8 - Substituição do ficheiro definicao_relacoes.dat por o definicao_relacoes.xml - Separação de mais dois tipos de relações de meronímia. Além de PARTE e MEMBRO, passa a existir CONTIDO e MATERIAL (ainda que por vezes, a ambiguidade impeça uma clara divisão nestes tipos) nome CONTIDO_EM nome (padrão "que contém") nome CONTIDO_EM_ALGO_COM_PROPRIEDADE adj nome MATERIAL_DE nome (padrões "estrutura/porção de" e "feito de") - Alteração de nome nas relações de finalidade: * FINALIDADE_DE passou a FAZ_SE_COM * ACCAO_FINALIDADE_DE passou a FINALIDADE_DE * FINALIDADE_DE_ALGO_COM_PROPRIEDADE passou a FAZ_SE_COM_ALGO_COM_PROPRIEDADE * ACCAO_FINALIDADE_DE_ALGO_COM_PROPRIEDADE passou a FINALIDADE_DE_ALGO_COM_PROPRIEDADE - Alteração no nome das relações referente/propriedade: * PROPRIEDADE_DE_ALGO_REFERENTE_A passa a DIZ_SE_SOBRE * PROPRIEDADE_DO_QUE passa a DIZ_SE_DO_QUE - Novas relações entre substantivos: nome TEM_QUALIDADE nome (padrão "qualidade de") nome TEM_ESTADO nome (padrão "estado de") - Novas relações entre adjectivos e substantivos: adj DEVIDO_A_QUALIDADE nome (padrão "qualidade de/do quem/que é") adj DEVIDO_A_ESTADO nome (padrão "estado de/do quem/que é") - Novas relações entre adjectivos: adj ANTONIMO_ADJ_DE adj (padrão "que não é") - Separação da relação MANEIRA_COM em: adv MANEIRA_COM nome adv MANEIRA_COM_PROPRIEDADE adj - Alteração do conjunto de palavras que, por não fornecerem informação suficiente, não devem ser consideradas hiperónimos: Deixa de haver relações HIPERONIMO_DE em que 'acto', 'efeito', 'acção', 'estado', 'qualidade', 'divisão' é o hiperónimo - Alteração do separador entre triplos e campos registo, domínio e variante: era uma "tab" e passou a " :: " - Utilização da plataforma OpenNLP (http://incubator.apache.org/opennlp/) e dos modelos para português no ajuste das relações. - Deixou de ser feita a distinção entre maiúsculas e minúsculas. Todos os termos estão em minúscula. 6. Agradecimentos ----------------- O trabalho de que resultaram as primeiras versões do PAPEL foi realizado no âmbito da Linguateca, entre 1 de Setembro de 2007 a 31 de Dezembro de 2008. Alterações relacionadas com a versão 2.0 foram realizadas entre Dezembro de 2009 e Janeiro de 2010. Alterações relacionadas com a versão 3.0 foram realizadas entre Fevereiro e Dezembro de 2011, numa colaboração entre a Linguateca e o CISUC. A Linguateca tem sido financiada ao longo da sua existência pelo governo português, pela Fundação para a Computação Científica Nacional (FCCN), pela Fundação para a Ciência e a Tecnologia (FCT), pela UMIC-Agência para a Sociedade do Conhecimento, e pela União Europeia, através nomeadamente dos projetos POSI/PLP/43931/2001 e POSC 339/1.3/C/NAC. Hugo Gonçalo Oliveira é actualmente financiado pela FCT, bolsa SFRH/BD/44955/2008. O trabalho do PAPEL continuou na senda do trabalho inicial do Nuno Seco por ocasião da sua bolsa no âmbito da Linguateca, e estamos portanto gratos ao Nuno Seco pela informação, bibliografia, ferramentas, e ideias iniciais relativas ao PAPEL, assim como por todas as discussões e opiniões por ele transmitidas no decurso do projecto. Agradecemos ao Núcleo de Investigação e Desenvolvimento da Porto Editora, que nos prestou o apoio necessário do lado da Porto Editora e ainda à Cláudia Freitas que contribuiu com várias sugestões para esta nova versão. Agradecemos ainda à Cláudia Freitas pela sua participação na discussão de algumas decisões para o PAPEL 3.0 ---------- Data da última modificação deste texto: 22 de Dezembro de 2011.