Floresta Sintá(c)tica

início |  corpus |  acesso |  usos da Floresta |  opções linguísticas e etiquetas |  busca em árvores  |  documentação  |  programas |  equipa | 
English |  Linguateca

Programas da Floresta Sintá(c)tica

Usando o Milhafre

O Milhafre pode ser instalado num computador Linux correndo Apache, PHP, e Perl (disponíveis na grande maioria das instalações do Linux). Para tal tarefa, só aconselhável a utilizadores com razoável conhecimento de sistemas Linux, é preciso:

A localização exacta destes ficheiros pode variar conforme a configuração do sistema. A versão actual assume que ue a página PHP está localizada no directório /var/www/html/Floresta/milhafre/, e os restantes ficheiros no directório /var/www/cgi-bin/Floresta/. Caso tal não seja possível ou desejável, é necessário editar a página PHP para corrigir a ligação ao CGI existente nessa página.
Se for necessário acrescenter ou remover algum corpus da lista, quer a página PHP quer os scripts CGI devem ser editados: os próprios ficheiros indicam os locais onde devem ser editados para tal. Actualmente, o Milhafre corre num servidor com a codificação interna Latin-1, e usando o locale pt_PT. É igualmente possível executar o Milhafre num computador com a codificação interna UTF-8, mas deve-se ter em atenção que a codificação do ficheiro de texto do corpus deve ser coerente com a do servidor.

Como funciona o TGrep2

O Tgrep2 compila um corpus no formato PennTreebank, e permite efectuar buscas nesse corpus. O programa pode ser obtido no respectivo site. Para informações mais detalhadas, consultar o respectivo manual.

Os utilizadores que pretendam utilizar directamente o TGrep2 para interrogar os corpora, sem recurso ao Milhafre, podem descarregar os corpora já compilados, acessíveis a partir desta página.

Como funciona o Milhafre

O utilizador introduz as suas opções na página de busca; a partir dessas opções é gerado um comando no formato compreendido pelo TGrep2, que é passado ao CGI. O CGI por sua vez passa o comando ao TGrep2, lê os resultados e apresenta-os.

Compilando o Bosque

Para compilar o Bosque, executam-se os seguintes passos
  • copiam-se os corpora no formato .ad para FS/bosques
  • cria-se o ficheiro no formato PennTreebank em FS/conv_pennTreebank/
    make cfol cpub
    zcat ../ficheiros/Bosque_CF_8.0.PennTreebank.ptb.gz ../ficheiros/Bosque_CP_8.0.PennTreebank.ptb.gz > bosque.penn
  • compila-se o ficheiro
    ./tgrep2 -p bosque.penn bosque.tg
  • testa-se o corpus compilado
    o comando ./tgrep2 -c bosque.tg "/FRASE/" | wc -l deve dar o número de frases esperado
  • copia-se o corpus compilado para o mesmo directório onde são executados os CGIs.
Os programas usados pelo makefile estão descritos abaixo

Compilar a Selva / Floresta Virgem / Amazônia

O processo de compilação de qualquer corpus no formato .ad, não-revisto manualmente, é semelhante; no entanto, uma vez que não foram revistos manualmente, há um determinado número de frases (cerca de 15%, menos em versões mais recentes do PALAVRAS) que não são compiladas. Por isso, essas frases são removidas antes da compilação do corpus, e não são pesquisáveis.
O corpus é compilado em FS/conv_pennTreebank/ com os comandos

cat corpus.ad | ./cor_selva.pl | ./ad2penn.pl | ./adapta_para_tgrep.pl | ./indentrees.pl | perl verif.pl > corpus.penn
./tgrep2 -p corpus.penn corpus.tg
Em seguida, o corpus compilado corpus.tg é copiado para o directório onde são executados os CGIs.

  • O programa corrige_ad.pl remove os procuráveis não-revistos e modica os casos de género e número não-determinados num formato mais fácil de pesquisar (M/F->MF, S/P->SP)
  • O programa cor_selva.pl efectua alguma limpezas em secções não-revistas da Selva
  • O programa ad2penn.pl transforma o corpus no formato PennTreebank
  • O programa adapta_para_tgrep.pl insere um meta-sintagma FRASE para facilitar as buscas
  • O programa indentrees.pl torna o formato PennTreebank mais legível
  • O programa verif.pl remove as frases que estão num formato não-compilável

Ligações


Última actualização da página: 2010/03/02 por Paulo Rocha
Comentários, sugestões e perguntas sobre o Milhafre