Material que compõe a Floresta Sintá(c)tica

Todo o material do projecto (Bosque, Selva, Amazônia e Floresta Virgem) foi analisado automaticamente pelo analisador sintáctico PALAVRAS (Bick, 2000). O Bosque e a Selva foram — ou estão sendo — revistos por linguistas.

Na página de documentação do projecto encontram-se informações relativas às etiquetas usadas na anotação e as opcões linguísticas subjacentes à anotação, dentre outras informações relevantes.

Toda a Floresta Sintá(c)tica pode ser interrogada por meio da ferramenta / interface de busca em árvores sintácticas Milhafre. Pode, igualmente, ser levantada em diferentes formatos.

Bosque

uma floresta integralmente revista por linguistas

O Bosque é composto por 9.368 frases, retiradas dos primeiros extractos (aprox.) do CETENFolha e do CETEMPúblico.

Esta é a parte mais correta da Floresta, e por isso o mais aconselhado para pesquisas em que não se dá tanta prioridade à quantidade, mas sim à precisão dos resultados.

Uma quantificação das etiquetas usadas no Bosque pode ser encontrada no anexo 4 da Bíblia Florestal, uma extensa documentação das opções linguísticas tomadas durante o projecto.

Floresta Virgem

uma floresta (treebank) em estado natural

A Floresta Virgem corresponde ao resto do primeiro milhão de palavras respectivamente do CETENFolha e do CETEMPúblico.

A Floresta Virgem não contém as frases pertencentes ao Bosque, visto que é complementar a este, e a nossa intenção é irmos aumentando os Bosques e consequentemente diminuirmos as Florestas Virgens.

Em conjunto, os Bosques e as Florestas Virgens somarão portanto sempre cerca de dois milhões de palavras.

Selva

uma floresta parcialmente revista

A Selva contém cerca de 300 mil palavras divididas entre diferentes gêneros textuais e as variantes portuguesa e brasileira do português.

A Selva se subdivide em 3 partes: Selva Falada, Selva Científica e Selva Literária.

Selva Falada

O corpus Selva Falada é composto pela transcrição de dois tipos de fala: entrevistas e debates parlamentares.

As entrevistas, por sua vez, também são de dois tipos: entrevistas do Museu da Pessoa (16 do Museu da Pessoa de Portugal e 6 do Museu da Pessoa do Brasil), e 4 entrevistas com falantes brasileiros utilizadas em uma tese de doutoramento (3 entrevistas psiquiátricas e 1 entrevista pesquisadora-psiquiatra). As sessões parlamentares referem-se aos debates da Assembleia da República (Portugal) do dia 31/05/2007 e da Assembleia Legislativa da Bahia (Brasil) do dia 10/10/2007.

Uma peculiaridade da Selva Falada é a presença do que chamamos de metacomentários: estruturas linguisticas analisadas sintaticamente, mas que não correspondem a transcrições de fala.

Assim, embora façam parte do corpus falado, os metacomentários possuem uma marcação especial (selva=0) no cabeçalho da frase, que indica que a frase será ignorada pela ferramenta de busca em árvores sintácticas Milhafre — e portanto não influenciará os resultados das pesquisas sobre as transcrições de fala.

Os metacomentários são de dois tipos:

Informações relativas ao ambiente, como vozes do PS, aplausos do PSD, protestos do PCP, etc
Indicação dos falantes: em alguns dos corpora da Selva Falada, as falas não são introduzidas diretamente, sendo antecedidas pela identificação dos falantes.
José: - Quem disse isso?

Sr. Deputado: Discordo.

Nesses casos, a identificação do falante, por não ser "transcrição de fala", também é ignorada pela ferramenta de busca, mas está presente (maracada com selva=0) nas versões integrais do corpus, disponíveis para download.

Para cada frase analisada, além da indicação de FAL (Selva Falada) e do número da frase, nos ficheiros para download, estão visíveis os seguintes dados: origem do corpus, falante e tomada de turno:

Tipo de informação	sigla	significado
Origem do corpus	PT-M BR-M BR-E BR-D PT-D	Museu (da Pessoa) de Portugal Museu (da Pessoa) do Brasil Entrevista (psiquiátrica) do Brasil Debates (parlamentares) do Brasil Debates (parlamentares) de Portugal
Caracterização dos falantes	0 1,2,...n	Entrevistador (quando presente) Demais falantes
Tomadas de turno	i c	Início de turno Continuação de turno

Os três trechos a seguir exemplificam a anotação do cabeçalho:

Exemplo 1:

-- Como é que tomou conhecimento da existência dos balneários?

-- Claro, a gente somos daqui da zona e tudo se vai sabendo. Eu primeiro ia tomar banho na Ribeirinha, mesmo na Ribeira que agora é casas, mas antes aquilo eram balneários.

Codificado da seguinte maneira:

FAL-PT-M-2208, 0i: Como é que tomou conhecimento da existência dos balneários?

FAL-PT-M-2209, 1i: Claro, a gente somos daqui da zona e tudo se vai sabendo.

FAL-PT-M-2210, 1c: Eu primeiro ia tomar banho na Ribeirinha, mesmo na Ribeira que agora é casas, mas antes aquilo eram balneários.

Exemplo 2:

-- onde é que você mora?

-- Santa Teresa.

Codificado da seguinte maneira:

FAL-BR-E-10006, i0: onde é que você mora?

FAL-BR-E-10007, i1: Santa Teresa.

FAL-BR-E-10008, i0: Santa Teresa.

Exemplo 3:

-- Onde é que vocês estão a viver?

-- David Lloyd:- Estamos a viver em Miramar, que é aqui perto, há 11 anos .

-- Marina Lloyd:- Não nos conhecíamos . Conhecemo-nos aqui, em Portugal, entretanto casamos-nos e tivemos um filho.

Codificado da seguinte maneira:

FAL-PT-M-1111, 0i: Onde é que vocês estão a viver?

FAL-PT-M-1113, 1i: Estamos a viver em Miramar, que é aqui perto, há 11 anos.

FAL-PT-M-1115, 2i: Não nos conhecíamos.

FAL-PT-M-1116, 2c: Conhecemo-nos aqui, em Portugal, entretanto casamos-nos e tivemos um filho.

Obtenção das transcrições

As entrevistas do Museu da Pessoa português foram extraídas dos corpora do projecto AC/DC, num total de aprox. 25.000 palavras; as entrevistas do Museu da Pessoa brasileiro foram extraídas do respectivo site. Agradecemos a José João Almeida, Jorge Rocha, Karen Worcman e aos restantes elementos do Museu da Pessoa as respectivas autorizações.

As entrevistas psquiátricas foram realizadas no Rio de Janeiro e nos foram gentilmente cedidas por Tânia Conceição Pereira, como parte da sua tese de Doutorado. A versão integral da tese, que inclui as convenções de transcrição utilizadas pela autora, está disponível na biblioteca virtual da Puc-Rio.

Os debates parlamentares foram retirados dos sites do Parlamento português e da Assembleia Legislativa da Bahia

Selva Literária

O corpus Selva Literária contém textos textos literários do final do século XIX e do início do século XX, recolhidos na Wikisource e também textos contemporâneos. Contém cerca de 110 mil palavras, divididas igualmente dividas entre cada autor.

José de Alencar, O Guarani, parte 4, cap XII
Machado de Assis, Memórias Póstumas de Brás Cubas, cap. I a XV
Lima Barreto, Clara dos Anjos, cap. I e II
Euclides da Cunha, Sertões, parte 2, cap I e II
Bernardo Guimarães, A Escrava Isaura, caps. X a XII
Raúl Brandão, Os Pobres, caps. IV a X
Camilo Castelo Branco, Amor de Perdição, caps. XIV a XIX
Júlio Dinis, As Pupilas do Senhor Reitor, caps. I a VI
Alexandre Herculano, Arras por Foros de Espanha, caps. I e II
Eça de Queiróz, Primo Basílio, caps. IX e X

Os textos modernos são dois contos da autoria de Luísa Coheur, a quem estamos gratos pela sua cedência.

Os cabeçalhos são do formato LIT-PT-AA-NNNN e LIT-BR-AA-NNNN, onde AA são as iniciais do autor e NNNN o número de frase.

Selva Científica

Este subcorpus da Selva contém uma minuta do Banco Central do Brasil, quatro relatórios do Banco Central Europeu, capítulos de teses e artigos da Wikipédia sobre assuntos relacionados às ciências:

Os artigos da Wikipedia, devido ao seu caráter colaborativo, são difíceis de serem classificados quanto às variantes de português do Brasil e de Portugal, e frequentemente apresentam construções "híbridas". Os artigos foram recolhidos em 20 de setembro de 2008, totalizam 80.000 palavras e tratam de:

Astronomia: Big Bang, Buraco Negro, Estrela, Júpiter, Mercúrio
Biologia: Célula, Cromosossoma, Evolução, Fígado, Genética, Mitose, Sistema Respiratório
Física: Astrofísica, Física Nuclear, Força de Coriolis, Gravidade, Mecânica Clássica, Plasma
Geografia: Deserto do Sara, Geografia, GPS, Hidrologia, Latitude, Linha do Equador, Selva, SIG
Geologia: Deriva Continental, Granito, Lava, Tectónica de Placas, Vulcão
História: Afrodite, Arqueologia, Falange, Feudalismo, Hieróglifo, Mercúrio, Odin, Papiro, Revolução Industrial
Linguística: Fonética, Fonologia, Língua norueguesa, Linguística aplicada, Linguística de corpus, Linguística gerativa, Neurolinguística
Química: Ametais, Átomo, Gás Nobre, Isótopo, Lítio, Mercúrio, Molécula, Reacção química
Teoria da Computação: Complexidade, Lógica, Máquina de Turing, PLN, P vs NP, Teoria da Computação
Zoologia: Aves, Cetáceos, Condor, Dinossauro, Réptil

A parte acadêmica da Selva é formada por cerca de 18.000 palavras, distribuídas por capítulos de duas teses brasileiras (uma na área de psicolinguística, e outra de educação) e dois capítulos de uma tese portuguesa (na área de ciência da computação).

Cláudia de Freitas. "Uma avaliação das habilidades lingüísticas de portadores da Síndrome de Williams". Tese de Mestrado, PUC-Rio, Departamento de Letras. Abril de 2000. Incluídos:
1. Capítulo 1: Introdução
2. Capítulo 6: Discussão Geral
Miriam Soares Leite. "Contribuições de Basil Bernstein e Yves Chevallard para a discussão do conhecimento escolar." Tese de Mestrado, Departamento de Educação, Fevereiro de 2004. Incluídos:
1. Capítulo 2. Basil Bernstein e o conceito de recontextualização discursiva
2. Capítulo 3. Yves Chevallard e o conceito de transposição didática
Luís Miguel Cabral. "SUPeRB - Sistema Uniformizado de Pesquisa de Referências Bibliográficas". Tese de Mestrado. Faculdade de Engenharia da Universidade do Porto. Março de 2007. Incluídos:

Para cada frase analisada, além da indicação de CIE (Selva Científica) e do número da frase, estão visíveis os seguintes dados relativos à origem do corpus:

sigla	significado
XX-W	Wikipedia
PT-E	Banco Central Europeu
BR-E	Banco Central do Brasil
BR-T	Teses do Brasil
PT-T	Tese de Portugal

Note-se que a Selva está a ser criada como uma floresta parcialmente revista. Esta parcialidade refere-se não à quantidade de revisão feita, mas sim à qualidade. A idéia é que algumas características sejam revistas, e que portanto a revisão não seja feita árvore a árvore, mas caso a caso (diferentemente do Bosque, em que as frases foram todas revistas).

Estruturas envolvendo sintagmas nominais, pela freqüência na língua, e pela quantidade de funções em que estão envolvidas, foram as escolhidas para iniciar a revisão, cujo andamento está descrito na página de documentação do projeto.

Amazônia

A Amazônia contém 4.6 milhões de palavras (cerca de 275 mil frases) retiradas do sítio colaborativo Overmundo, um coletivo virtual que tem como objetivo expressar a produção cultural brasileira.

Por ser colaborativo, o sítio conta com um grande número de autores, de diversos pontos do Brasil, o que se reflete também em diferentes estilos de escrita. Para a Amazônia, foram inicialmente coletados todos os textos da seção "Overblog" e todos os textos de não-ficção da seção "Banco de Cultura" disponíveis em 30 de Setembro de 2008, tendo sido posteriormente a seleção refinada removendo poesia, anúncios e textos removidos do Overmundo até 2010.

Diferentemente dos outros componentes da Floresta, a Amazônia não é um corpus balanceado entre o português do Brasil e de Portugal: todos os textos são brasileiros.

Última actualização: 14 de Junho de 2010.

Comentários, sugestões e perguntas sobre a Floresta Sintá(c)tica