Projecto Floresta Sintá(c)tica

English

logo temporário da FS

Chamamos de "Floresta Sintáctica" um conjunto de frases (corpus) analisadas (morfo)sintaticamente. Como, além da indicação das funções sintácticas, a análise também explicita hierarquicamente informação relativa à estrutura de constituintes, dizemos que uma frase sintaticamente analisada se parece com uma árvore, donde um conjunto de árvores constitui uma floresta sintáctica (em inglês, treebank).

O projecto Floresta Sintá(c)tica é uma colaboração entre a Linguateca e o projecto VISL. Contém textos em português (do Brasil e de Portugal) anotados (analisados) automaticamente pelo analisador sintáctico PALAVRAS (Bick 2000) e revistos por linguistas.

Atualmente, a Floresta Sintá(c)tica tem quatro partes, que diferem quanto ao gênero textual, quanto ao modo (escrito vs falado) e quanto ao grau de revisão linguística: o Bosque, totalmente revisto por linguistas; a Selva, parcialmente revista, a Floresta Virgem e a Amazônia, não revistos. Junto, todo esse material soma cerca de 261 mil frases (6,7 milhões de palavras) sintaticamente analisadas (mais...)

Toda a Floresta Sintá(c)tica está publicamente disponível, sendo possível levantá-la na íntegra, em diferentes formatos, ou interrogá-la por meio de várias interfaces de busca, nomeadamente o Milhafre, o Águia e o CorpusEye (mais...).

Uma floresta sintáctica serve para o treino e avaliação de analisadores morfossintácticos, para estudos baseados em corpos e para investigação da língua, não apenas da sintaxe, mas também de aspectos semânticos e discursivos. Pode, ainda, ser um auxiliar no ensino (mais...)

Subjacente a uma floresta sintáctica há sempre um modelo de gramática, com suas regras e categorias. Na Floresta Sintá(c)tica, procuramos minimizar o impacto de um modelo (mais...)

Veja aqui perguntas já respondidas sobre o projecto, como citar a Floresta Sintá(c)tica, (mais...)

Conheça a equipe da Floresta.


Última actualização: 2 de Agosto de 2010.
Comentários, sugestões e perguntas sobre a Floresta Sintá(c)tica