Neurodemo: um exemplo de extracção semi-automática de definições e relações semânticas usando o Corpógrafo

Linguateca    Pólo CLUP   Corpógrafo


 

"Neurodemo" foi o nome que se deu a uma conta no Corpógrafo que contém corpora na área da neurologia e que serve apenas para demonstrar aquilo que o Corpógrafo permite fazer.

Constituição

O Neurodemo é constituído por sete corpora, em várias línguas, na área da neurologia e uma base de dados terminológica com 1885 termos retirados desses corpora, tendo levado cerca de dois meses a preparar os corpora e a preencher a BD terminológica como está actualmente.

A partir de dois corpora sobre neurónios (um em inglês e outro em português), criados pela aluna Liliana Andreia Roma Pereira no âmbito da disciplina de Teoria da Tradução (2002-2003) leccionada pela Professora Belinda Maia, alargaram-se estes corpora e criaram-se novos dentro do mesmo tema, mas em outras línguas, para testar as funcionalidades do Corpógrafo e ajudar ao seu desenvolvimento. Assim, usando algumas palavras-chave que apareciam recorrentemente no corpus em português (ex: "neurónios", "célula da glia", "aparelho de Golgi") fizeram-se várias pesquisas no motor de busca Google para encontrar mais textos em português europeu (uma vez que os textos que constituíam o corpus em português eram quase todos em português brasileiro) e, posteriormente, em italiano, alemão, francês e espanhol. Os textos recolhidos são fundamentalmente de cariz educativo, uma vez que são mais propensos a conterem definições e a extracção semi-automática de definições era uma das funcionalidades do Corpógrafo que se pretendia desenvolver e testar.

Em breve poderá consultar aqui a lista dos textos que foram recolhidos, assim como informação acerca dos mesmos (autor, fonte, URL).

Corpora

Corpus Idioma # Textos # Átomos
Neurónios PT_PT 11 25144
BR_Neurónios PT_BR 25 21602
Neurons EN 37 29191
Neuroni IT 5 27529
Neuron DE 9 21040
Neuronas ES 9 25201
Le Neurone FR 12 22748

 

Base de Dados Terminológica (provisória)

Idioma # Termos
PT_PT 343
PT_BR 154
EN 662
IT 215
DE 109
ES 191
FR 211

Definições

O Corpógrafo permite pesquisar num corpus "definições" (ou contextos definitórios) de um termo armazenado na BD Terminológica. Por "definição" aqui entende-se uma frase em que o significado de determinado termo é, de alguma forma, explicado. Se conseguirmos extrair vários contextos definitórios de um termo, poderemos construir uma definição mais completa desse mesmo termo.

Exemplos de "definições" extraídas dos corpora do Neurodemo:

Termo: acetilcolina

"a acetilcolina é o principal neurotransmissor que medeia a contracção muscular nas placas motoras ."

"Acetilcolina : neurotransmissor excitatório motor em vertebrados e algumas zonas cerebrais degradada pela acetil-colinesterase , pelo que inibidores desta enzima são venenos poderosos ( gás dos nervos , por exemplo ) que matam por espasmos musculares violentos ."

"Um dos neurotransmissores comuns é a acetilcolina ."

Termo: axónio

" Como parte estrutural da célula nervosa , o axónio deriva de uma extensão cónica do corpo celular , o cone de implantação , podendo ocasionalmente ser proveniente de uma dendrite principal ."

"(...) o axónio , que pode ser muito longo e apresentar ramificações na sua parte distal ou , ao longo da sua extensão , formando ramificações colaterais ."

"O axónio é a fibra principal de saída - a sua extensão pode variar entre escassos milímetros e um metro - que se prolonga a partir do corpo celular e que termina em ramificações chamadas terminais axónicas ou telodendrites ."

Termo: canais de sódio

"Novamente , são os canais de sódio os principais responsáveis pela repolarização , pois rapidamente voltam a fechar , permitindo que a bomba sódio-potássio reponha as concentrações e a diferença de potencial de repouso ."

"Os canais de sódio são igualmente responsáveis pelo chamado período refractário do neurónio , ou seja , um breve momento de cerca de 1-2 milisegundos em que não se pode gerar potencial de acção ."

Relações Semânticas

O Corpógrafo também permite pesquisar relações semânticas em corpus entre termos armazenados na BD Terminológica.

Relações Semânticas previstas pelo Corpógrafo:

  1. Holonímia/Meronímia

  2. Hiperonímia/Hiponímia

  3. Classe/Instância

  4. Produtor/Produzido

  5. Processo Objectivo

  6. Causa/Efeito

  7. Alterador/Alterado

Exemplos de relações semânticas extraídas dos corpora do Neurodemo:

Termo: adenil-ciclase

adenil-ciclase produtor de adenosina

Termo: aparelho de golgi

aparelho de golgi merónimo de (parte de) dendrite

aparelho de golgi hipónimo de (especialização de) organelo

Termo: células especializadas

células especializadas produtor de hormona

Termo: célula nervosa

célula nervosa holónimo de (composto por) axónio

Para ter acesso ao conteúdo da BD Terminológica do Neurodemo (termos, definições, relações semânticas, etc.) em formato XML, clique aqui (actualizado semanalmente).

Nota: Por enquanto, não houve a participação de um especialista em nenhum momento dos processos de recolha dos textos, extracção terminológica ou extracção de definições. Há vários projectos de Mestrado que estão a utilizar o Corpógrafo. No entanto, só depois de as dissertações terem sido entregues e avaliadas, poderemos mostrar os resultados que foram obtidos com a utilização do Corpógrafo. Logo que seja possível, disponibilizaremos alguns desses resultados.
 

Última actualização: 1 de Fevereiro de 2006

Comentários, sugestões e adições
Autoria: Ana Sofia Pinto