Projecto Floresta Sintá(c)tica (página antiga)
Information in English
Este projecto tem como objectivo criar um "treebank" --
a que chamamos Floresta Sintá(c)tica -- para a língua portuguesa,
ou seja, um conjunto de itens sintacticamente analisados, publicamente
disponível, que permita que todos os interessados na análise
do português possam utilizá-lo tendo em conta diferentes fins/objectivos.
Nota: O nome do projecto tenta reflectir as diferenças entre as variantes brasileira e portuguesa numa forma frequentemente utilizada para codificar árvores (por exemplo no Penn Treebank). A presente página contém também contribuições escritas nas duas normas, devido à nossa preocupação em que este projecto pudesse ser útil a todos os que falam português, sem privilegiar nenhuma variante.
O projecto foi lançado, na presente fase inicial, como uma colaboração
entre o projecto VISL (Eckhard Bick) e o Projecto Processamento computacional
do português (Diana Santos e Renato Haber), ao abrigo da qual foram
contratados três investigadores em linguística (Ana Raquel
Marchi, Miguel Oliveira e Susana Cavadas Afonso). (Num momento posterior, a equipa foi
remodelada pela saída de Miguel Oliveira, a 6 de Fevereiro de 2001. A partir de
1 de Outubro de 2001, altura de término da primeira fase, deixámos de contar com a
colaboração de Renato Haber e Ana Raquel Marchi.)
Como fundamentos para iniciar esta colaboração deve ser
indicada a existência do analisador sintáctico PALAVRAS, o
estabelecimento prévio do projecto AC/DC e a existência de
corpora base com os direitos de autor resolvidos pelo projecto Processamento
computacional do português.
O PALAVRAS é um analisador automático (tagger-parser) para português que
foi desenvolvido por Eckhard Bick no contexto dum projeto de
doutoramento (1994-2000) na Universidade de Århus (Dinamarca). O sistema
apoia-se num léxico de 50.000 lemas e milhares de regras gramaticais
para fornecer uma análise completa, tanto morfológica como sintática, de
qualquer texto. O formalismo aplicado integra-se na tradição da
Constraint Grammar (CG), introduzido por Fred Karlsson (Universidade de
Helsínquia, Finlândia) em 1992. Embora usando um conjunto de etiquetas
gramaticais bastante diversificado, o parser alcança um nível de
correção de 99% em termos de morfologia (classe de palavras e flexão),
e 97-98% em termos de sintaxe. Para trabalhar com o PALAVRAS na rede,
visite o sítio do projeto VISL (http://visl.sdu.dk).
Para mais informação, consulte-se
- Bick, Eckhard. The Parsing System
Palavras, Automatic Grammatical Analysis of Portuguese in a Constraint
Grammar Framework, Aarhus University Press, 2000.
O VISL (Visual Interactive Language Learning, http://visl.sdu.dk) foi
lançado como um projeto de pesquisa e ensino na Universidade do Sul da
Dinamarca em 1996, e está atraindo apoio financeiro de várias fontes
externas. Partindo do sistema português PALAVRAS como modelo para outras
línguas, a equipe VISL construiu um núcleo de ferramentas e bancos de
dados linguísticos para usar através da internete. Trabalha-se hoje
com a gramática, e especificamente a sintaxe, de 14 línguas, entre elas
6 com análise automática CG. Áreas mais recentes de atividade são
semântica e tradução automática, como também a coleção e etiquetagem de
corpora.
Ao lado do sistema aberto, foi estabelecida uma base de orações
controladas para todas as línguas VISL, cobrindo vários fenômenos
sintáticos de uma maneira mais sistemática. Na interface de ensino,
usuários podem escolher entre diversos filtros notacionais, apoiando
diferentes paradigmas descritivos da língua. Exemplos são exercícios nos
quais as palavras são coloridas para marcar sua classe, e árvores de sintaxe
gráficas construídas pelo estudante e controladas pelo computador, com
etiquetas de forma e função em cada nó.
O projecto AC/DC (Acesso a Corpora/Disponibilização de Corpora
é uma das actividades a que o projecto
Processamento computacional do português se dedica. O seu objectivo principal
é facilitar o acesso aos corpora já existentes, criando uma interface única
e adicionando informação (estrutural e sintáctica) a esses corpora.
O PALAVRAS foi usado para a primeira (e, até agora, única)
anotação
sintáctica dos corpora. De momento, o serviço AC/DC inclui 50
milhões de palavras anotadas, correspondendo a uma dezena de corpora diferentes,
mais os 180 milhões do CETEMPúblico,
um corpus de linguagem jornalística com material do jornal diário português PÚBLICO,
corpus esse compilado de raiz pelo projecto Processamento computacional do português.
O projecto Processamento computacional do português foi um projecto criado pelo Ministério da Ciência e da Tecnologia de Portugal para melhorar o estado desta área,
considerada prioritária. Um dos seus principais métodos de
actuação é a criação de recursos públicos
para a investigação e desenvolvimento na área do processamento
computacional da nossa língua, tendo depois dado origem à Linguateca (http://www.linguateca.pt/).
O projecto AC/DC e a própria Floresta
são projectos realizados no âmbito deste projecto maior.
Responsável pela parte linguística: Eckhard Bick. Outros membros da equipa linguística: Susana Afonso, Ana Raquel Marchi, Anabela Barreiro Colasuonno.
Responsável pela parte computacional: Diana Santos. Outros membros da equipa computacional: Renato Haber, Alexsandro Santos Soares, Luís Sarmento.
Pretendemos com esta iniciativa congregar todos os membros da comunidade
interessados na análise computacional do português, de forma
a que a Floresta Sintá(c)tica possa reflectir um consenso, ou uma
escolha informada, entre todas as possibilidades e equipas que trabalham
na análise do português.
Uma das esperanças acalentadas pelo presente projecto foi que, além da
criação dos próprios objectos (árvores) e da
obtenção de documentação que reflicta
progresso em sintaxe computacional do português, permitisse também o lançamento da discussão e da cooperação entre os vários actores.
Para esse efeito foi criada uma lista electrónica, a lista floresta,
visando reunir todos os interessados na problemática
da criação de um treebank para o português, permitindo a sua
participação nas tomadas de decisão do projecto, assim como fomentando a discussão
de assuntos relacionados.
Mantivemos o
arquivo de todas as mensagens enviadas para essa lista.
Apelo! Pedimos a todos os potenciais utilizadores e/ou colaboradores nesta
tarefa enorme que comentem e sugiram formatos alternativos, de forma a
que o resultado da floresta cubra o melhor possível os desejos
da comunidade. Todas as propostas alternativas que
forem enviadas para a lista floresta serão alvo de uma resposta nossa
sobre a viabilidade (e facilidade) de uma conversão para o formato em questão.
Este projecto extremamente ambicioso teve uma primeira fase de aproximadamente um ano:
O projecto foi "oficialmente" iniciado no período de 6 a 10 de Dezembro de 2000, através
de um encontro em Oslo que reuniu todos os participantes e cujas conclusões
principais foram uma definição inicial do processo a seguir e do resultado
desejado.
Em Maio de 2001 teve lugar novo encontro, desta vez em Odense, em que várias novas
opções foram discutidas e acordadas.
A primeira fase do projecto terminou oficialmente a 4 de Novembro de 2001, num encontro
em Oslo para o efeito, mas algum trabalho, sobretudo de documentação e de revisão, foi
ainda atribuído para ser efectuado até ao fim de 2001.
Não excluímos que o projecto reabra em novos moldes, dependendo sobretudo do uso do
resultado pela comunidade a que era dedicado.
Continuamos a manter, de qualquer forma, um modo de "manutenção" em que vamos corrigindo e melhorando as árvores, assim como os programas que lhe dão acesso.
O projecto Floresta Sintáctica até este momento já produziu
A Floresta Virgem
- pode ser interrogada através do Águia, o sistema de procura em árvores da Floresta
Sintá(c)tica
- pode ser interrogada através do projecto AC/DC (note-se, embora, a diferente atomização
dos dois projectos), seleccionando Primeiro milhão do CETEMPúblico anotado
- pode ser cedida em formato texto, para isso contacte-nos.
Documentation of the choices in the treebank project
Este texto, em constante evolução durante o andamento do projecto, constitui a documentação das várias opções tomadas pela equipa da floresta na construção desta, sendo portanto necessária a sua consulta para uma compreensão cabal das árvores. De facto, ao mesmo tempo que o trabalho de análise individual do material do CETEMPúblico
permitiu criar comentários pedagógicos para o módulo de ensino de português do
projeto VISL, uma série de opções metodológicas sobre a análise sintáctica do português foi tomando corpo e constituindo-se no esqueleto de uma documentação
aprofundada sobre o processo de constituição da floresta.
Definição formal do treebank (BNF)
Artigos de apresentação do projecto
- Afonso, Susana, Eckhard Bick, Renato Haber & Diana Santos. "Floresta sintá(c)tica: um treebank para o português", Actas do XVII Encontro da Associação Portuguesa de Linguística (Lisboa, Outubro de 2001), APL. rtf ps
- Afonso, Susana, Eckhard Bick, Renato Haber & Diana Santos. "Floresta sintá(c)tica: primeiro ano". rtf
ps
doc (Word)
- Afonso, Susana, Eckhard Bick, Renato Haber & Diana Santos. ""Floresta sintá(c)tica": a treebank for Portuguese", in Manuel González Rodríguez & Carmen Paz Suárez Araujo (eds.), Proceedings of LREC 2002, the Third International Conference on Language Resources and Evaluation (Las Palmas de Gran Canaria, Spain, 29-31 May 2002), ELRA, 2002, pp.1698-1703. rtf ps Poster associado: gif ps
Artigos ou apresentações sobre a Floresta ou usando a Floresta
- Santos, Diana e Susana Afonso. "Descrição da Floresta Sintá(c)tica como um recurso para avaliação de analisadores sintá(c)ticos", apresentação no Encontro Preparatório de Avaliação Conjunta do Processamento Computacional do Português (Faro, 27 de Junho 2002), ppt
- Santos, Diana. "The Floresta experience",
apresentação no Swedish Treebank Symposium (Växjö University,
28-29 November 2002). PowerPoint slides in Postscript format
- Santos, Diana. "Timber! Issues in treebank building and use", in Nuno J. Mamede, Jorge Baptista, Isabel Trancoso & Maria das Graças Volpe Nunes (eds.), Computational Processing of the Portuguese Language, 6th International Workshop, PROPOR 2003, Faro, 26-27 June 2003, Proceedings, Springer Verlag, 2003, pp.151-8. (c) Springer-Verlag.
- Bick, Eckhard. "Treebank Troubles", apresentação no Avalon'2003 (Faro, 28 de Junho 2003), PowerPoint slides in Postscript format
Outra documentação produzida no âmbito do projecto
- Afonso, Susana e Ana Raquel Marchi. Critérios de separação de sentenças/frases
- Afonso, Susana e Ana Raquel Marchi. A etiqueta <sic> </sic>
- Santos, Diana. Resultado da revisão da separação em frases do primeiro milhão de palavras do
CETEMPúblico 20 de Abril de 2001.
- Haber, Renato Ribeiro. Pica-pau: Um protótipo de ferramenta para visualização e
edição de árvores sintáticas. 6 de Novembro de 2001
- Afonso, Susana Cavadas. "Na trilha de um Teste Inter-Anotadores". 8 de Novembro de 2001.
rtf
doc
ps
- Alguns exemplos, com explicação em inglês, utilizados na demonstração e
apresentação da Floresta na conferência LREC'2002 a 31 de Maio de 2002, preparados em conjunto por Susana Afonso e Diana Santos.
- Ilustração de alguns casos não triviais, preparado pela Susana Afonso, em Junho de 2002.
- Afonso, Susana. "Avaliação do grau de concordância entre anotadores: análise e discussão dos resultados do processo de re-revisão", Relatório Floresta Sintá(c)tica, 25 de Março de 2004.
pdf
doc
-->
Pensamos que o projecto ganha em ser desenvolvido
para todas as variantes do português. Começámos,
numa primeira fase, por tratar a variante do português de Portugal, preparando ao mesmo tempo uma possível continuação tratando o português brasileiro.
Por razões práticas foi decidido empregar o primeiro milhão de palavras do corpus CETEMPúblico
para o português de Portugal, contendo texto jornalístico do jornal diário Público.
Mais tarde iniciámos os nossos trabalhos sobre o CETENFolha, que é um corpus de português brasileiro, contendo texto jornalístico do jornal diário Folha de São Paulo.
Processo seguido na construção da floresta:
- Análise automática pelo PALAVRAS;
- Revisão intelectual do formato CG;
- Aplicação dos programas de reescrita do projecto VISL, que transformam o formato CG em árvores;
- Revisão das árvores, eventualmente adicionando distinções mais subtis que não estão ainda implementadas na análise automática.
Na figura seguinte, apresenta-se uma tentativa de visualização do processo:
Exemplo do processo (simples).
Exemplo do processo levando à implementação de novas distinções.
Antes da revisão da análise sintáctica propriamente dita, foi
efectuada uma revisão da separação em frases presente no (primeiro
milhão do) CETEMPúblico, de acordo com os seguintes critérios:
O resultado dessa descrição encontra-se em
Além disso, foi feita uma revisão lexicográfica de forma a evitar
erros de análise automática devido a falhas no dicionário do PALAVRAS.
Para facilitar o processo de revisão da análise
sintáctica, foi desenvolvida uma ferramenta,
descrita em
Uma versão preliminar, para o editor EMACS, pode ser obtida no endereço
floresta.el.
Visto que o formato texto é difícil de manusear, considerámos como próximo
passo deste projecto permitir uma procura mais fácil em todas as árvores. O resultado é o sistema de procura em árvores Águia: interface portuguesa; interface inglesa.
As especificações iniciais desta nova ferramenta encontram-se descritas em
Procura nas árvores da Floresta Sintá(c)tica.
Cem frases correspondendo aos extractos 44-65 do CETEMPúblico foram revistas pelos três anotadores em paralelo.
Fez-se uma comparação entre os resultados nos níveis morfológico, sintáctico e estrutural, a partir de critérios definidos nesse processo.
O processo do teste, mais do que os resultados em si, levou a uma reflexão sobre avaliação do projecto e desenho de futuros testes, que consideramos o resultado mais importante desta actividade, cf. o relatório mencionado acima "Na trilha de um Teste Inter-Anotadores".
Dois anos depois outro teste foi realizado e as suas consequências estudadas:e relatadas em "Avaliação do grau de concordância entre anotadores: análise e discussão dos resultados do processo de re-revisão".
Última actualização: 8 de Setembro de 2006.
Comentários, sugestões e perguntas sobre a Floresta Sintá(c)tica