Todo o material do projecto (Bosque, Selva, Amazônia e Floresta Virgem) foi analisado automaticamente pelo analisador sintáctico PALAVRAS (Bick, 2000). O Bosque e a Selva foram — ou estão sendo — revistos por linguistas.
Na página de documentação do projecto encontram-se informações relativas às etiquetas usadas na anotação e as opcões linguísticas subjacentes à anotação, dentre outras informações relevantes.
Toda a Floresta Sintá(c)tica pode ser interrogada por meio da ferramenta / interface de busca em árvores sintácticas Milhafre. Pode, igualmente, ser levantada em diferentes formatos.
Bosque
O Bosque é composto por 9.368 frases, retiradas dos primeiros extractos (aprox.) do CETENFolha e do CETEMPúblico.
Esta é a parte mais correta da Floresta, e por isso o mais aconselhado para pesquisas em que não se dá tanta prioridade à quantidade, mas sim à precisão dos resultados.
Uma quantificação das etiquetas usadas no Bosque pode ser encontrada no anexo 4 da Bíblia Florestal, uma extensa documentação das opções linguísticas tomadas durante o projecto.
A Floresta Virgem corresponde ao resto do primeiro milhão de palavras respectivamente do CETENFolha e do CETEMPúblico.
A Floresta Virgem não contém as frases pertencentes ao Bosque, visto que é complementar a este, e a nossa intenção é irmos aumentando os Bosques e consequentemente diminuirmos as Florestas Virgens.
Em conjunto, os Bosques e as Florestas Virgens somarão portanto sempre cerca de dois milhões de palavras.
A Selva contém cerca de 300 mil palavras divididas entre diferentes gêneros textuais e as variantes portuguesa e brasileira do português.
A Selva se subdivide em 3 partes: Selva Falada, Selva Científica e Selva Literária.
O corpus Selva Falada é composto pela transcrição de dois tipos de fala: entrevistas e debates parlamentares.
As entrevistas, por sua vez, também são de dois tipos: entrevistas do Museu da Pessoa (16 do Museu da Pessoa de Portugal e 6 do Museu da Pessoa do Brasil), e 4 entrevistas com falantes brasileiros utilizadas em uma tese de doutoramento (3 entrevistas psiquiátricas e 1 entrevista pesquisadora-psiquiatra). As sessões parlamentares referem-se aos debates da Assembleia da República (Portugal) do dia 31/05/2007 e da Assembleia Legislativa da Bahia (Brasil) do dia 10/10/2007.
Uma peculiaridade da Selva Falada é a presença do que chamamos de metacomentários: estruturas linguisticas analisadas sintaticamente, mas que não correspondem a transcrições de fala.
Assim, embora façam parte do corpus falado, os metacomentários possuem uma marcação especial (selva=0) no cabeçalho da frase, que indica que a frase será ignorada pela ferramenta de busca em árvores sintácticas Milhafre — e portanto não influenciará os resultados das pesquisas sobre as transcrições de fala.
Os metacomentários são de dois tipos:
Nesses casos, a identificação do falante, por não ser "transcrição de fala", também é ignorada pela ferramenta de busca, mas está presente (maracada com selva=0) nas versões integrais do corpus, disponíveis para download.
Para cada frase analisada, além da indicação de FAL (Selva Falada) e do número da frase, nos ficheiros para download, estão visíveis os seguintes dados: origem do corpus, falante e tomada de turno:
Tipo de informação | sigla | significado |
---|---|---|
Origem do corpus | PT-M BR-M BR-E BR-D PT-D |
Museu (da Pessoa) de Portugal Museu (da Pessoa) do Brasil Entrevista (psiquiátrica) do Brasil Debates (parlamentares) do Brasil Debates (parlamentares) de Portugal |
Caracterização dos falantes | 0 1,2,...n | Entrevistador (quando presente) Demais falantes |
Tomadas de turno | i c |
Início de turno Continuação de turno |
Os três trechos a seguir exemplificam a anotação do cabeçalho:
Exemplo 1:
Codificado da seguinte maneira:
Exemplo 2:
Codificado da seguinte maneira:
Exemplo 3:
Codificado da seguinte maneira:
As entrevistas do Museu da Pessoa português foram extraídas dos corpora do projecto AC/DC, num total de aprox. 25.000 palavras; as entrevistas do Museu da Pessoa brasileiro foram extraídas do respectivo site. Agradecemos a José João Almeida, Jorge Rocha, Karen Worcman e aos restantes elementos do Museu da Pessoa as respectivas autorizações.
As entrevistas psquiátricas foram realizadas no Rio de Janeiro e nos foram gentilmente cedidas por Tânia Conceição Pereira, como parte da sua tese de Doutorado. A versão integral da tese, que inclui as convenções de transcrição utilizadas pela autora, está disponível na biblioteca virtual da Puc-Rio.
Os debates parlamentares foram retirados dos sites do Parlamento português e da Assembleia Legislativa da Bahia
O corpus Selva Literária contém textos textos literários do final do século XIX e do início do século XX, recolhidos na Wikisource e também textos contemporâneos. Contém cerca de 110 mil palavras, divididas igualmente dividas entre cada autor.
Os textos modernos são dois contos da autoria de Luísa Coheur, a quem estamos gratos pela sua cedência.
Os cabeçalhos são do formato LIT-PT-AA-NNNN e LIT-BR-AA-NNNN, onde AA são as iniciais do autor e NNNN o número de frase.
Este subcorpus da Selva contém uma minuta do Banco Central do Brasil, quatro relatórios do Banco Central Europeu, capítulos de teses e artigos da Wikipédia sobre assuntos relacionados às ciências:
Os artigos da Wikipedia, devido ao seu caráter colaborativo, são difíceis de serem classificados quanto às variantes de português do Brasil e de Portugal, e frequentemente apresentam construções "híbridas". Os artigos foram recolhidos em 20 de setembro de 2008, totalizam 80.000 palavras e tratam de:A parte acadêmica da Selva é formada por cerca de 18.000 palavras, distribuídas por capítulos de duas teses brasileiras (uma na área de psicolinguística, e outra de educação) e dois capítulos de uma tese portuguesa (na área de ciência da computação).
Para cada frase analisada, além da indicação de CIE (Selva Científica) e do número da frase, estão visíveis os seguintes dados relativos à origem do corpus:
sigla | significado |
---|---|
XX-W | Wikipedia |
PT-E | Banco Central Europeu |
BR-E | Banco Central do Brasil |
BR-T | Teses do Brasil |
PT-T | Tese de Portugal |
Note-se que a Selva está a ser criada como uma floresta parcialmente revista. Esta parcialidade refere-se não à quantidade de revisão feita, mas sim à qualidade. A idéia é que algumas características sejam revistas, e que portanto a revisão não seja feita árvore a árvore, mas caso a caso (diferentemente do Bosque, em que as frases foram todas revistas).
Estruturas envolvendo sintagmas nominais, pela freqüência na língua, e pela quantidade de funções em que estão envolvidas, foram as escolhidas para iniciar a revisão, cujo andamento está descrito na página de documentação do projeto.A Amazônia contém 4.6 milhões de palavras (cerca de 275 mil frases) retiradas do sítio colaborativo Overmundo, um coletivo virtual que tem como objetivo expressar a produção cultural brasileira.
Por ser colaborativo, o sítio conta com um grande número de autores, de diversos pontos do Brasil, o que se reflete também em diferentes estilos de escrita. Para a Amazônia, foram inicialmente coletados todos os textos da seção "Overblog" e todos os textos de não-ficção da seção "Banco de Cultura" disponíveis em 30 de Setembro de 2008, tendo sido posteriormente a seleção refinada removendo poesia, anúncios e textos removidos do Overmundo até 2010.
Diferentemente dos outros componentes da Floresta, a Amazônia não é um corpus balanceado entre o português do Brasil e de Portugal: todos os textos são brasileiros.