Próxima página |
A Floresta Sintá(c)tica é um projecto de construção de um “treebank”: um conjunto de árvores sintacticamente anotadas e revistas manualmente/intelectualmente.
O “treebank” (a que se chama Bosque) cobre duas variantes do português: português europeu e português do Brasil. Dois corpora de texto jornalístico são utilizados: o CETEMPúblico (mais concretamente, o primeiro milhão de palavras) (Rocha e Santos, 2000) do jornal Público em português europeu, e o (CETENFolha) do jornal Folha de S. Paulo, em português do Brasil. Os corpora foram anotados pelo analisador automático PALAVRAS (Bick 2000) e estão a ser manualmente revistos em formato de árvores. A presente documentação é o resultado das discussões conjuntas com os restantes membros do projecto durante a construção da Floresta Sintá(c)tica.
Apenas o formato de árvores presente no Bosque (a parte revista da Floresta) está aqui documentado: não só as etiquetas utilizadas e o formato, mas também as escolhas que foram sendo feitas ao longo do projecto. A sua descrição será acompanhada de exemplos.
Uma vez que o processo de construção do treebank continua, este documento é aberto, isto é, em constante modificação em face das novas decisões que possam surgir no decurso do trabalho de revisão.
Nota 1: O projecto Floresta Sintá(c)tica foi/é (parcialmente) desenvolvido no âmbito da Linguateca, financiada através dos projectos POSI/PLP/43931/2001 e POSC 339/1.3/C/NAC, e co-financiada pelo POSI.
Nota 2: O projecto Floresta Sintá(c)tica existe desde 2000, e a sua documentação foi produzida majoritariamente entre 2000 e 2005. Ligeiramente "adormecido" desde então, o projecto foi retomado em 2007, com alguns novos integrantes, e com isso houve também a revisão de alguns pontos da anotação, que deu origem ao presente documento - que é, portanto, uma revisão de Susana Afonso. "Árvores deitadas: Descrição do formato e descrição das opções de análise na Floresta Sintá(c)tica". Última versão: 12 de Fevereiro de 2006. Primeira versão: 2004. Esse documento pode ser encontrado em http://www.linguateca.pt/documentos/Afonso2006ArvoresDeitadas.pdf
Em http://www.linguateca.pt/Diana/download/SantosBickAfonsoFlorestaSet2007.pdf pode encontrar mais informações sobre a história do projecto Floresta Sintá(c)tica.
Em http://www.linguateca.pt/Floresta/documentacao.html pode encontrar toda a documentação relativa à Floresta Sintá(c)tica.
Próxima página |