Material que compõe a Floresta Sintá(c)tica

logo temporário da FS
Projecto Floresta sintá(c)tica

Todo o material do projecto (Bosque, Selva, Amazônia e Floresta Virgem) foi analisado automaticamente pelo analisador sintáctico PALAVRAS (Bick, 2000). O Bosque e a Selva foram — ou estão sendo — revistos por linguistas.

Na página de documentação do projecto encontram-se informações relativas às etiquetas usadas na anotação e as opcões linguísticas subjacentes à anotação, dentre outras informações relevantes.

Toda a Floresta Sintá(c)tica pode ser interrogada por meio da ferramenta / interface de busca em árvores sintácticas Milhafre. Pode, igualmente, ser levantada em diferentes formatos.

Bosque

uma floresta integralmente revista por linguistas

O Bosque é composto por 9.368 frases, retiradas dos primeiros extractos (aprox.) do CETENFolha e do CETEMPúblico.

Esta é a parte mais correta da Floresta, e por isso o mais aconselhado para pesquisas em que não se dá tanta prioridade à quantidade, mas sim à precisão dos resultados.

Uma quantificação das etiquetas usadas no Bosque pode ser encontrada no anexo 4 da Bíblia Florestal, uma extensa documentação das opções linguísticas tomadas durante o projecto.

Floresta Virgem

uma floresta (treebank) em estado natural

A Floresta Virgem corresponde ao resto do primeiro milhão de palavras respectivamente do CETENFolha e do CETEMPúblico.

A Floresta Virgem não contém as frases pertencentes ao Bosque, visto que é complementar a este, e a nossa intenção é irmos aumentando os Bosques e consequentemente diminuirmos as Florestas Virgens.

Em conjunto, os Bosques e as Florestas Virgens somarão portanto sempre cerca de dois milhões de palavras.

Selva

uma floresta parcialmente revista

A Selva contém cerca de 300 mil palavras divididas entre diferentes gêneros textuais e as variantes portuguesa e brasileira do português.

A Selva se subdivide em 3 partes: Selva Falada, Selva Científica e Selva Literária.

Selva Falada

O corpus Selva Falada é composto pela transcrição de dois tipos de fala: entrevistas e debates parlamentares.

As entrevistas, por sua vez, também são de dois tipos: entrevistas do Museu da Pessoa (16 do Museu da Pessoa de Portugal e 6 do Museu da Pessoa do Brasil), e 4 entrevistas com falantes brasileiros utilizadas em uma tese de doutoramento (3 entrevistas psiquiátricas e 1 entrevista pesquisadora-psiquiatra). As sessões parlamentares referem-se aos debates da Assembleia da República (Portugal) do dia 31/05/2007 e da Assembleia Legislativa da Bahia (Brasil) do dia 10/10/2007.

Uma peculiaridade da Selva Falada é a presença do que chamamos de metacomentários: estruturas linguisticas analisadas sintaticamente, mas que não correspondem a transcrições de fala.

Assim, embora façam parte do corpus falado, os metacomentários possuem uma marcação especial (selva=0) no cabeçalho da frase, que indica que a frase será ignorada pela ferramenta de busca em árvores sintácticas Milhafre — e portanto não influenciará os resultados das pesquisas sobre as transcrições de fala.

Os metacomentários são de dois tipos:

  1. Informações relativas ao ambiente, como vozes do PS, aplausos do PSD, protestos do PCP, etc
  2. Indicação dos falantes: em alguns dos corpora da Selva Falada, as falas não são introduzidas diretamente, sendo antecedidas pela identificação dos falantes.
    José: - Quem disse isso?
    Sr. Deputado: Discordo.

Nesses casos, a identificação do falante, por não ser "transcrição de fala", também é ignorada pela ferramenta de busca, mas está presente (maracada com selva=0) nas versões integrais do corpus, disponíveis para download.

Para cada frase analisada, além da indicação de FAL (Selva Falada) e do número da frase, nos ficheiros para download, estão visíveis os seguintes dados: origem do corpus, falante e tomada de turno:

Tipo de informação sigla significado
Origem do corpus PT-M
BR-M
BR-E
BR-D
PT-D
Museu (da Pessoa) de Portugal
Museu (da Pessoa) do Brasil
Entrevista (psiquiátrica) do Brasil
Debates (parlamentares) do Brasil
Debates (parlamentares) de Portugal
Caracterização dos falantes 0
1,2,...n
Entrevistador (quando presente)
Demais falantes
Tomadas de turno i
c
Início de turno
Continuação de turno

Os três trechos a seguir exemplificam a anotação do cabeçalho:

Exemplo 1:

-- Como é que tomou conhecimento da existência dos balneários?
-- Claro, a gente somos daqui da zona e tudo se vai sabendo. Eu primeiro ia tomar banho na Ribeirinha, mesmo na Ribeira que agora é casas, mas antes aquilo eram balneários.

Codificado da seguinte maneira:

FAL-PT-M-2208, 0i: Como é que tomou conhecimento da existência dos balneários?
FAL-PT-M-2209, 1i: Claro, a gente somos daqui da zona e tudo se vai sabendo.
FAL-PT-M-2210, 1c: Eu primeiro ia tomar banho na Ribeirinha, mesmo na Ribeira que agora é casas, mas antes aquilo eram balneários.

Exemplo 2:

-- onde é que você mora?
-- Santa Teresa.
-- Santa Teresa.

Codificado da seguinte maneira:

FAL-BR-E-10006, i0: onde é que você mora?
FAL-BR-E-10007, i1: Santa Teresa.
FAL-BR-E-10008, i0: Santa Teresa.

Exemplo 3:

-- Onde é que vocês estão a viver?
-- David Lloyd:- Estamos a viver em Miramar, que é aqui perto, há 11 anos .
-- Marina Lloyd:- Não nos conhecíamos . Conhecemo-nos aqui, em Portugal, entretanto casamos-nos e tivemos um filho.

Codificado da seguinte maneira:

FAL-PT-M-1111, 0i: Onde é que vocês estão a viver?
FAL-PT-M-1113, 1i: Estamos a viver em Miramar, que é aqui perto, há 11 anos.
FAL-PT-M-1115, 2i: Não nos conhecíamos.
FAL-PT-M-1116, 2c: Conhecemo-nos aqui, em Portugal, entretanto casamos-nos e tivemos um filho.

Obtenção das transcrições

As entrevistas do Museu da Pessoa português foram extraídas dos corpora do projecto AC/DC, num total de aprox. 25.000 palavras; as entrevistas do Museu da Pessoa brasileiro foram extraídas do respectivo site. Agradecemos a José João Almeida, Jorge Rocha, Karen Worcman e aos restantes elementos do Museu da Pessoa as respectivas autorizações.

As entrevistas psquiátricas foram realizadas no Rio de Janeiro e nos foram gentilmente cedidas por Tânia Conceição Pereira, como parte da sua tese de Doutorado. A versão integral da tese, que inclui as convenções de transcrição utilizadas pela autora, está disponível na biblioteca virtual da Puc-Rio.

Os debates parlamentares foram retirados dos sites do Parlamento português e da Assembleia Legislativa da Bahia

Selva Literária

O corpus Selva Literária contém textos textos literários do final do século XIX e do início do século XX, recolhidos na Wikisource e também textos contemporâneos. Contém cerca de 110 mil palavras, divididas igualmente dividas entre cada autor.

Os textos modernos são dois contos da autoria de Luísa Coheur, a quem estamos gratos pela sua cedência.

Os cabeçalhos são do formato LIT-PT-AA-NNNN e LIT-BR-AA-NNNN, onde AA são as iniciais do autor e NNNN o número de frase.

Selva Científica

Este subcorpus da Selva contém uma minuta do Banco Central do Brasil, quatro relatórios do Banco Central Europeu, capítulos de teses e artigos da Wikipédia sobre assuntos relacionados às ciências:

Os artigos da Wikipedia, devido ao seu caráter colaborativo, são difíceis de serem classificados quanto às variantes de português do Brasil e de Portugal, e frequentemente apresentam construções "híbridas". Os artigos foram recolhidos em 20 de setembro de 2008, totalizam 80.000 palavras e tratam de:

A parte acadêmica da Selva é formada por cerca de 18.000 palavras, distribuídas por capítulos de duas teses brasileiras (uma na área de psicolinguística, e outra de educação) e dois capítulos de uma tese portuguesa (na área de ciência da computação).

Para cada frase analisada, além da indicação de CIE (Selva Científica) e do número da frase, estão visíveis os seguintes dados relativos à origem do corpus:

sigla significado
XX-W Wikipedia
PT-E Banco Central Europeu
BR-E Banco Central do Brasil
BR-T Teses do Brasil
PT-T Tese de Portugal

Note-se que a Selva está a ser criada como uma floresta parcialmente revista. Esta parcialidade refere-se não à quantidade de revisão feita, mas sim à qualidade. A idéia é que algumas características sejam revistas, e que portanto a revisão não seja feita árvore a árvore, mas caso a caso (diferentemente do Bosque, em que as frases foram todas revistas).

Estruturas envolvendo sintagmas nominais, pela freqüência na língua, e pela quantidade de funções em que estão envolvidas, foram as escolhidas para iniciar a revisão, cujo andamento está descrito na página de documentação do projeto.

Amazônia

A Amazônia contém 4.6 milhões de palavras (cerca de 275 mil frases) retiradas do sítio colaborativo Overmundo, um coletivo virtual que tem como objetivo expressar a produção cultural brasileira.

Por ser colaborativo, o sítio conta com um grande número de autores, de diversos pontos do Brasil, o que se reflete também em diferentes estilos de escrita. Para a Amazônia, foram inicialmente coletados todos os textos da seção "Overblog" e todos os textos de não-ficção da seção "Banco de Cultura" disponíveis em 30 de Setembro de 2008, tendo sido posteriormente a seleção refinada removendo poesia, anúncios e textos removidos do Overmundo até 2010.

Diferentemente dos outros componentes da Floresta, a Amazônia não é um corpus balanceado entre o português do Brasil e de Portugal: todos os textos são brasileiros.


Última actualização: 14 de Junho de 2010.
Comentários, sugestões e perguntas sobre a Floresta Sintá(c)tica