Floresta Sintá(c)tica | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Material que compõe a Floresta Sintá(c)ticaTodo o material do projecto (Bosque, Selva, Amazônia e Floresta Virgem) foi analisado automaticamente pelo analisador sintáctico PALAVRAS (Bick, 2000). O Bosque e a Selva foram — ou estão sendo — revistos por linguistas. Na página de documentação do projecto encontram-se informações relativas às etiquetas usadas na anotação e as opcões linguísticas subjacentes à anotação, dentre outras informações relevantes. Toda a Floresta Sintá(c)tica pode ser interrogada por meio da ferramenta / interface de busca em árvores sintácticas Milhafre. Pode, igualmente, ser descarregada em diferentes formatos. O quadro abaixo descreve o material usado no projecto.
Bosqueuma floresta integralmente revista por linguistasO Bosque é composto por 9.368 frases, retiradas os primeiros 1000 extractos (aprox.) dos corpora CETENFolha e CETEMPúblico. Desde 2007, o Bosque vem passando por um novo processo de revisão, em que foram corrigidas algumas pequenas inconsistências e acrescentadas novas etiquetas. A versão final, disponível para consulta e download, é o Bosque 8.0. Este é o corpus mais correcto da Floresta, e por isso o mais aconselhado para pesquisas em que não se prioriza tanto a quantidade, mas sim a precisão dos resultados. Uma quantificação das etiquetas usadas no Bosque pode ser encontrada no anexo 4 da Bíblia Florestal, uma extensa documentação das opções linguísticas tomadas durante o projecto. Selvauma floresta parcialmente revistaA Selva contém cerca de 300 mil palavras divididas entre diferentes gêneros textuais e as variantes portuguesa e brasileira do português. A Selva foi criada para ser um corpus parcialmente revisto. Esta parcialidade refere-se não à quantidade de revisão feita, mas sim à qualidade. A idéia é que algumas características sejam lingüisticamente revistas, e que portanto a revisão não seja feita árvore a árvore, mas caso a caso (diferentemente do Bosque, onde todas as frases foram revistas por lingüistas). Estruturas envolvendo sintagmas nominais, pela freqüência na língua, e pela quantidade de funções em que estão envolvidas, foram as escolhidas para iniciar a revisão, cujo andamento está descrito na página de documentação do projeto. A Selva se subdivide em 3 corpora: Selva Falada, Selva Científica e Selva Literária.Selva FaladaO corpus Selva Falada é composto pela transcrição de dois tipos de fala: entrevistas e debates parlamentares. As entrevistas, por sua vez, também são de dois tipos: entrevistas do Museu da Pessoa (16 do Museu da Pessoa de Portugal e 6 do Museu da Pessoa do Brasil), e 4 entrevistas com falantes brasileiros utilizadas em uma tese de doutoramento (3 entrevistas psiquiátricas e 1 entrevista pesquisadora-psiquiatra). As sessões parlamentares referem-se aos debates da Assembleia da República (Portugal) do dia 31/05/2007 e da Assembleia Legislativa da Bahia (Brasil) do dia 10/10/2007. Uma peculiaridade da Selva Falada é a presença do que chamamos de metacomentários: estruras linguisticas analisadas sintaticamente, mas que não correspondem a transcrições de fala. Assim, embora façam parte do corpus falado, os metacomentários possuem uma marcação especial (selva=0) no cabeçalho da frase, que indica que a frase será ignorada pela ferramenta de busca em árvores sintácticas Milhafre — e portanto não influenciará os resultados das pesquisas sobre as transcrições de fala. Os metacomentários são de dois tipos:
Nesses casos, a identificação do falante, por não ser "transcrição de fala", também é ignorada pela ferramenta de busca, mas está presente (maracada com selva=0) nas versões integrais do corpus, disponíveis para download. Para cada frase analisada, além da indicação de FAL (Selva Falada) e do número da frase, nos ficheiros para download, estão visíveis os seguintes dados: origem do corpus, falante e tomada de turno:
Os três trechos a seguir exemplificam a anotação do cabeçalho: Exemplo 1: Codificado da seguinte maneira:
Exemplo 2: Codificado da seguinte maneira:
Exemplo 3: Codificado da seguinte maneira:
Obtenção das transcriçõesAs entrevistas do Museu da Pessoa português foram extraídas dos corpora do projecto AC/DC, num total de aprox. 25.000 palavras; as entrevistas do Museu da Pessoa brasileiro foram extraídas do respectivo site. Agradecemos a José João Almeida, Jorge Rocha, Karen Worcman e aos restantes elementos do Museu da Pessoa as respectivas autorizações. As entrevistas psquiátricas foram realizadas no Rio de Janeiro e nos foram gentilmente cedidas por Tânia Conceição Pereira, como parte da sua tese de Doutorado. A versão integral da tese, que inclui as convenções de transcrição utilizadas pela autora, está disponível na biblioteca virtual da Puc-Rio. Os debates parlamentares foram retirados dos sites do Parlamento português e da Assembleia Legislativa da Bahia Selva LiteráriaO corpus Selva Literária contém textos textos literários do final do século XIX e do início do século XX, recolhidos na Wikisource e também textos contemporâneos. Contém cerca de 110 mil palavras, divididas igualmente dividas entre cada autor.
Os textos modernos são dois contos da autoria de Luísa Coheur, a quem estamos gratos pela sua cedência. Os cabeçalhos são do formato LIT-PT-AA-NNNN e LIT-BR-AA-NNNN, onde AA são as iniciais do autor e NNNN o número de frase. Selva CientíficaEste subcorpus da Selva contém uma minuta do Banco Central do Brasil, quatro relatórios do Banco Central Europeu, capítulos de teses e artigos da Wikipédia sobre assuntos relacionados às ciências: Os artigos da Wikipedia, devido ao seu caráter colaborativo, são difíceis de serem classificados quanto às variantes de português do Brasil e de Portugal, e frequentemente apresentam construções "híbridas". Os artigos foram recolhidos em 20 de setembro de 2008, totalizam 80.000 palavras e tratam de:
A parte acadêmica da Selva é formada por cerca de 18.000 palavras, distribuídas por capítulos de duas teses brasileiras (uma na áraea de psicolinguistica, e outra de educação) e dois capítulos de uma tese portuguesa (na área de ciência da computação). Para cada frase analisada, além da indicação de CIE (Selva Científica) e do número da frase, estão visíveis os seguintes dados relativos à origem do corpus:
AmazôniaA Amazônia contém 4.6 milhões de palavras (cerca de 275 mil frases) retiradas do sítio colaborativo Overmundo, um coletivo virtual que tem como objetivo expressar a produção cultural brasileira. Por ser colaborativo, o sítio conta com um grande número de autores, de diversos pontos do Brasil, o que se reflete também em diferentes estilos de escrita. Para a Amazônia, foram coletados todos os textos da seção "Overblog" e todos os textos de não-ficção da seção "Banco de Cultura" disponíveis em 30 de Setembro de 2008, perfazendo um total de 4070 textos (e 1303 autores). Diferentemente dos outros corpora da Floresta, a Amazônia não é um corpus balanceado entre o português do Brasil e de Portugal: todos os textos são brasileiros. Actualmente, por motivos técnicos, apenas cerca de 90% da Amazônia pode ser pesquisada pelo Milhafre. A versão integral está no entanto disponível para ser descarregada. Floresta Virgemuma floresta (treebank) em estado naturalA Floresta Virgem é composta de cerca de 95.000 frases (cerca de 1.600.000 palavras) retiradas do início dos corpora CETENFolha (parte do corpus NILC/São Carlos, retirado de textos do jornal brasileiro Folha de São Paulo, textos de 1994) e CETEMPúblico (retirados do diário português PÚBLICO, textos de 1991 a 1998). FormatosO versão 8.0 do Bosque está acessível nos seguintes formatos:
Até a versão 7.4, os formatos assinalados com asterisco eram disponibilizados pelo pólo de Braga; mais informação sobre os diferentes formatos pode ser encontrada nesta página. A versão 7.3 do Bosque foi usada na avaliação conjunta CoNLL-X em 2006 de análise sintática dependencial multilingue (ConLL-X shared task on multilingual dependency parsing), veja-se o Bosque-CoNLL que foi usado para essa avaliação (os nossos agradecimentos a Sabine Buchholz por ter preparado os dados). A versão 1.0 da Selva está disponível, comprimida, no formato .ad
A versão 3.0 da Floresta Virgem, é composta pelo primeiro milhão de palavras do CETEMPúblico e do CETENFolha, está disponível nos seguintes formatos:
Versão actual do Bosque: versão 8.0, de 13 de Outubro de 2008, 9.437 árvores revistas, correspondendo a 1962 extractos, 215.420 unidades, aprox. 183.619 palavras Última actualização: 10 de Julho de 2009. Comentários, sugestões e perguntas sobre a Floresta Sintá(c)tica |