Floresta Sintá(c)tica

início |  corpus |  acesso |  usos da Floresta |  opções linguísticas e etiquetas |  busca em árvores  |  documentação |  programas |  equipa
English |  Linguateca

Material que compõe a Floresta Sintá(c)tica

Todo o material do projecto (Bosque, Selva, Amazônia e Floresta Virgem) foi analisado automaticamente pelo analisador sintáctico PALAVRAS (Bick, 2000). O Bosque e a Selva foram — ou estão sendo — revistos por linguistas.

Na página de documentação do projecto encontram-se informações relativas às etiquetas usadas na anotação e as opcões linguísticas subjacentes à anotação, dentre outras informações relevantes.

Toda a Floresta Sintá(c)tica pode ser interrogada por meio da ferramenta / interface de busca em árvores sintácticas Milhafre. Pode, igualmente, ser descarregada em diferentes formatos.

O quadro abaixo descreve o material usado no projecto.

corpus Floresta Virgem Amazônia Bosque Selva Lit. Selva Fal. Selva Cie.
palavras c. 1.640.000 c. 4.580.000 c. 186.000 c. 105.000 c. 170.000 c. 125.000
frases c. 96.000 c. 275.000 9.368 c. 7.900 c. 14.000 c. 6.200
revisão não não integral parcial parcial parcial
variantes PT BR BR PT BR PT BR PT BR PT BR
gênero jornalístico opinião jornalístico literário entrevistas / debates académico / informativo
domínio genérico cultura brasileira genérico genérico biografia / política educação / psicolinguística / computação / economia /ciências *
registro formal formal e informal formal formal formal e informal formal
modo escrito escrito escrito escrito falado escrito
origem jornais Folha de São Paulo e Público blog Overmundo jornais Folha de São Paulo e Público livros * Museu da Pessoa (PT, BR)
debates parlamentares
bibliotecas universitárias
banco centrais
Wikipedia

Bosque

uma floresta integralmente revista por linguistas

O Bosque é composto por 9.368 frases, retiradas os primeiros 1000 extractos (aprox.) dos corpora CETENFolha e CETEMPúblico. Desde 2007, o Bosque vem passando por um novo processo de revisão, em que foram corrigidas algumas pequenas inconsistências e acrescentadas novas etiquetas. A versão final, disponível para consulta e download, é o Bosque 8.0.

Este é o corpus mais correcto da Floresta, e por isso o mais aconselhado para pesquisas em que não se prioriza tanto a quantidade, mas sim a precisão dos resultados.

Uma quantificação das etiquetas usadas no Bosque pode ser encontrada no anexo 4 da Bíblia Florestal, uma extensa documentação das opções linguísticas tomadas durante o projecto.

Selva

uma floresta parcialmente revista

A Selva contém cerca de 300 mil palavras divididas entre diferentes gêneros textuais e as variantes portuguesa e brasileira do português. A Selva foi criada para ser um corpus parcialmente revisto. Esta parcialidade refere-se não à quantidade de revisão feita, mas sim à qualidade. A idéia é que algumas características sejam lingüisticamente revistas, e que portanto a revisão não seja feita árvore a árvore, mas caso a caso (diferentemente do Bosque, onde todas as frases foram revistas por lingüistas).

Estruturas envolvendo sintagmas nominais, pela freqüência na língua, e pela quantidade de funções em que estão envolvidas, foram as escolhidas para iniciar a revisão, cujo andamento está descrito na página de documentação do projeto. A Selva se subdivide em 3 corpora: Selva Falada, Selva Científica e Selva Literária.

Selva Falada

O corpus Selva Falada é composto pela transcrição de dois tipos de fala: entrevistas e debates parlamentares.

As entrevistas, por sua vez, também são de dois tipos: entrevistas do Museu da Pessoa (16 do Museu da Pessoa de Portugal e 6 do Museu da Pessoa do Brasil), e 4 entrevistas com falantes brasileiros utilizadas em uma tese de doutoramento (3 entrevistas psiquiátricas e 1 entrevista pesquisadora-psiquiatra). As sessões parlamentares referem-se aos debates da Assembleia da República (Portugal) do dia 31/05/2007 e da Assembleia Legislativa da Bahia (Brasil) do dia 10/10/2007.

Uma peculiaridade da Selva Falada é a presença do que chamamos de metacomentários: estruras linguisticas analisadas sintaticamente, mas que não correspondem a transcrições de fala.

Assim, embora façam parte do corpus falado, os metacomentários possuem uma marcação especial (selva=0) no cabeçalho da frase, que indica que a frase será ignorada pela ferramenta de busca em árvores sintácticas Milhafre — e portanto não influenciará os resultados das pesquisas sobre as transcrições de fala.

Os metacomentários são de dois tipos:

  1. Informações relativas ao ambiente, como vozes do PS, aplausos do PSD, protestos do PCP, etc
  2. Indicação dos falantes: em alguns dos corpora da Selva Falada, as falas não são introduzidas diretamente, sendo antecedidas pela identificação dos falantes.
    José: - Quem disse isso?
    Sr. Deputado: Discordo.

Nesses casos, a identificação do falante, por não ser "transcrição de fala", também é ignorada pela ferramenta de busca, mas está presente (maracada com selva=0) nas versões integrais do corpus, disponíveis para download.

Para cada frase analisada, além da indicação de FAL (Selva Falada) e do número da frase, nos ficheiros para download, estão visíveis os seguintes dados: origem do corpus, falante e tomada de turno:

Tipo de informação sigla significado
Origem do corpus PT-M
BR-M
BR-E
BR-D
PT-D
Museu (da Pessoa) de Portugal
Museu (da Pessoa) do Brasil
Entrevista (psiquiátrica) do Brasil
Debates (parlamentares) do Brasil
Debates (parlamentares) de Portugal
Caracterização dos falantes 0
1,2,...n
Entrevistador (quando presente)
Demais falantes
Tomadas de turno i
c
Início de turno
Continuação de turno

Os três trechos a seguir exemplificam a anotação do cabeçalho:

Exemplo 1:

-- Como é que tomou conhecimento da existência dos balneários?
-- Claro, a gente somos daqui da zona e tudo se vai sabendo. Eu primeiro ia tomar banho na Ribeirinha, mesmo na Ribeira que agora é casas, mas antes aquilo eram balneários.

Codificado da seguinte maneira:

FAL-PT-M-2208, 0i: Como é que tomou conhecimento da existência dos balneários?
FAL-PT-M-2209, 1i: Claro, a gente somos daqui da zona e tudo se vai sabendo.
FAL-PT-M-2210, 1c: Eu primeiro ia tomar banho na Ribeirinha, mesmo na Ribeira que agora é casas, mas antes aquilo eram balneários.

Exemplo 2:

-- onde é que você mora?
-- Santa Teresa.
-- Santa Teresa.

Codificado da seguinte maneira:

FAL-BR-E-10006, i0: onde é que você mora?
FAL-BR-E-10007, i1: Santa Teresa.
FAL-BR-E-10008, i0: Santa Teresa.

Exemplo 3:

-- Onde é que vocês estão a viver?
-- David Lloyd:- Estamos a viver em Miramar, que é aqui perto, há 11 anos .
-- Marina Lloyd:- Não nos conhecíamos . Conhecemo-nos aqui, em Portugal, entretanto casamos-nos e tivemos um filho.

Codificado da seguinte maneira:

FAL-PT-M-1111, 0i: Onde é que vocês estão a viver?
FAL-PT-M-1113, 1i: Estamos a viver em Miramar, que é aqui perto, há 11 anos.
FAL-PT-M-1115, 2i: Não nos conhecíamos.
FAL-PT-M-1116, 2c: Conhecemo-nos aqui, em Portugal, entretanto casamos-nos e tivemos um filho.

Obtenção das transcrições

As entrevistas do Museu da Pessoa português foram extraídas dos corpora do projecto AC/DC, num total de aprox. 25.000 palavras; as entrevistas do Museu da Pessoa brasileiro foram extraídas do respectivo site. Agradecemos a José João Almeida, Jorge Rocha, Karen Worcman e aos restantes elementos do Museu da Pessoa as respectivas autorizações.

As entrevistas psquiátricas foram realizadas no Rio de Janeiro e nos foram gentilmente cedidas por Tânia Conceição Pereira, como parte da sua tese de Doutorado. A versão integral da tese, que inclui as convenções de transcrição utilizadas pela autora, está disponível na biblioteca virtual da Puc-Rio.

Os debates parlamentares foram retirados dos sites do Parlamento português e da Assembleia Legislativa da Bahia

Selva Literária

O corpus Selva Literária contém textos textos literários do final do século XIX e do início do século XX, recolhidos na Wikisource e também textos contemporâneos. Contém cerca de 110 mil palavras, divididas igualmente dividas entre cada autor.

  • José de Alencar, O Guarani, parte 4, cap XII
  • Machado de Assis, Memórias Póstumas de Brás Cubas, cap. I a XV
  • Lima Barreto, Clara dos Anjos, cap. I e II
  • Euclides da Cunha, Sertões, parte 2, cap I e II
  • Bernardo Guimarães, A Escrava Isaura, caps. X a XII
  • Raúl Brandão, Os Pobres, caps. IV a X
  • Camilo Castelo Branco, Amor de Perdição, caps. XIV a XIX
  • Júlio Dinis, As Pupilas do Senhor Reitor, caps. I a VI
  • Alexandre Herculano, Arras por Foros de Espanha, caps. I e II
  • Eça de Queiróz, Primo Basílio, caps. IX e X

Os textos modernos são dois contos da autoria de Luísa Coheur, a quem estamos gratos pela sua cedência.

Os cabeçalhos são do formato LIT-PT-AA-NNNN e LIT-BR-AA-NNNN, onde AA são as iniciais do autor e NNNN o número de frase.

Selva Científica

Este subcorpus da Selva contém uma minuta do Banco Central do Brasil, quatro relatórios do Banco Central Europeu, capítulos de teses e artigos da Wikipédia sobre assuntos relacionados às ciências:

Os artigos da Wikipedia, devido ao seu caráter colaborativo, são difíceis de serem classificados quanto às variantes de português do Brasil e de Portugal, e frequentemente apresentam construções "híbridas". Os artigos foram recolhidos em 20 de setembro de 2008, totalizam 80.000 palavras e tratam de:
  • Astronomia: Big Bang, Buraco Negro, Estrela, Júpiter, Mercúrio
  • Biologia: Célula, Cromosossoma, Evolução, Fígado, Genética, Mitose, Sistema Respiratório
  • Física: Astrofísica, Física Nuclear, Força de Coriolis, Gravidade, Mecânica Clássica, Plasma
  • Geografia: Deserto do Sara, Geografia, GPS, Hidrologia, Latitude, Linha do Equador, Selva, SIG
  • Geologia: Deriva Continental, Granito, Lava, Tectónica de Placas, Vulcão
  • História: Afrodite, Arqueologia, Falange, Feudalismo, Hieróglifo, Mercúrio, Odin, Papiro, Revolução Industrial
  • Linguística: Fonética, Fonologia, Língua norueguesa, Linguística aplicada, Linguística de corpus, Linguística gerativa, Neurolinguística
  • Química: Ametais, Átomo, Gás Nobre, Isótopo, Lítio, Mercúrio, Molécula, Reacção química
  • Teoria da Computação: Complexidade, Lógica, Máquina de Turing, PLN, P vs NP, Teoria da Computação
  • Zoologia: Aves, Cetáceos, Condor, Dinossauro, Réptil

A parte acadêmica da Selva é formada por cerca de 18.000 palavras, distribuídas por capítulos de duas teses brasileiras (uma na áraea de psicolinguistica, e outra de educação) e dois capítulos de uma tese portuguesa (na área de ciência da computação).

Para cada frase analisada, além da indicação de CIE (Selva Científica) e do número da frase, estão visíveis os seguintes dados relativos à origem do corpus:

sigla significado
XX-W Wikipedia
PT-E Banco Central Europeu
BR-E Banco Central do Brasil
BR-T Teses do Brasil
PT-T Tese de Portugal

Amazônia

A Amazônia contém 4.6 milhões de palavras (cerca de 275 mil frases) retiradas do sítio colaborativo Overmundo, um coletivo virtual que tem como objetivo expressar a produção cultural brasileira. Por ser colaborativo, o sítio conta com um grande número de autores, de diversos pontos do Brasil, o que se reflete também em diferentes estilos de escrita. Para a Amazônia, foram coletados todos os textos da seção "Overblog" e todos os textos de não-ficção da seção "Banco de Cultura" disponíveis em 30 de Setembro de 2008, perfazendo um total de 4070 textos (e 1303 autores). Diferentemente dos outros corpora da Floresta, a Amazônia não é um corpus balanceado entre o português do Brasil e de Portugal: todos os textos são brasileiros. Actualmente, por motivos técnicos, apenas cerca de 90% da Amazônia pode ser pesquisada pelo Milhafre. A versão integral está no entanto disponível para ser descarregada.

Floresta Virgem

uma floresta (treebank) em estado natural

A Floresta Virgem é composta de cerca de 95.000 frases (cerca de 1.600.000 palavras) retiradas do início dos corpora CETENFolha (parte do corpus NILC/São Carlos, retirado de textos do jornal brasileiro Folha de São Paulo, textos de 1994) e CETEMPúblico (retirados do diário português PÚBLICO, textos de 1991 a 1998).

A Floresta Virgem não contém as frases pertences ao Bosque. Actualmente, por motivos técnicos, apenas cerca de 88% da Floresta Virgem pode ser pesquisada pelo Milhafre, a ferramenta de buscas em árvores sintáticas.

Formatos

O versão 8.0 do Bosque está acessível nos seguintes formatos:

formato Parte do
CETEMPúblico
Parte do
CETENFolha
árvores deitadas: não comprimido, comprimido não comprimido, comprimido
árvores deitadas em formato VISL: não comprimido, comprimido não comprimido, comprimido
formato CG (automático) comprimido comprimido
formato CG (v7.4, revista manualmente) comprimido comprimido
formato PennTreebank [*] comprimido comprimido
formato Tiger-XML [*] comprimido comprimido
formato SQL [*] comprimido comprimido
formato SimTreeML [*] comprimido comprimido
formato Perl [*] comprimido comprimido

Até a versão 7.4, os formatos assinalados com asterisco eram disponibilizados pelo pólo de Braga; mais informação sobre os diferentes formatos pode ser encontrada nesta página.

A versão 7.3 do Bosque foi usada na avaliação conjunta CoNLL-X em 2006 de análise sintática dependencial multilingue (ConLL-X shared task on multilingual dependency parsing), veja-se o Bosque-CoNLL que foi usado para essa avaliação (os nossos agradecimentos a Sabine Buchholz por ter preparado os dados).

A versão 1.0 da Selva está disponível, comprimida, no formato .ad

A versão 3.0 da Floresta Virgem, é composta pelo primeiro milhão de palavras do CETEMPúblico e do CETENFolha, está disponível nos seguintes formatos:

A versão 1.0 da Amazônia está disponível num único ficheiro no formato .ad: Todos os corpora estão igualmente disponíveis compilados pelos TGrep2, para utilizadores que pretendam utilizar o Tgrep2 para consultar directamente os corpora sem necesssidade de utilizar o Milhafre.

Versão actual do Bosque: versão 8.0, de 13 de Outubro de 2008, 9.437 árvores revistas, correspondendo a 1962 extractos, 215.420 unidades, aprox. 183.619 palavras
Última actualização: 10 de Julho de 2009.
Comentários, sugestões e perguntas sobre a Floresta Sintá(c)tica