CETENFolha

Linguateca
O CETENFolha (Corpus de Extractos de Textos Electrónicos NILC/Folha de S. Paulo) é um corpus de cerca de 24 milhões de palavras em português brasileiro, criado pelo projecto Processamento computacional do português (projecto que deu origem à Linguateca) com base nos textos do jornal Folha de S. Paulo que fazem parte do corpus NILC/São Carlos, compilado pelo Núcleo Interinstitucional de Lingüística Computacional (NILC).

Neste momento, a versão 1.0 do CETENFolha está disponível em duas versões (com e sem anotação gramatical), das seguintes formas

Nota: Chamamos a atenção para que, exceto por razões históricas ou por um desejo de comparar com o CETEMPúblico, não há razão para usar o CETENFolha em vez da coleção CHAVE, que tem o dobro do material e possui os textos completos e não em excertos.

Informação útil sobre o CETENFolha

A quem se destina o CETENFolha?

Este corpus destina-se primariamente a todos quantos desenvolvem programas que processam a língua portuguesa, e que consequentemente precisam de matéria prima para o seu trabalho.

O que é a Folha de S. Paulo?

A Folha de S. Paulo é um jornal diário brasileiro de grande circulação, fundado em 1960. Além das habituais secções diárias, o jornal contém igualmente diversos cadernos não-diários, a maior parte dos quais foram incluídos no corpus. Existe igualmente desde 1996 uma edição electrónica (Folha online).

Porque não é possível o acesso ao texto completo das notícias?

Este corpus não pretende substituir os arquivos do jornal. Por outro lado, pretende-se também manter um certo paralelismo com o corpus CETEMPúblico, que foi, por motivos legais, dividido em extractos.

Qual o conteúdo do CETENFolha?

O corpus inclui o texto da Folha de S. Paulo do ano de 1994 (as 365 edições), incluindo cadernos não-diários, num total ligeiramente inferior a 24 milhões de palavras (versão 1.0). Não podemos, contudo, garantir que corresponde à totalidade do texto do jornal publicado nesse ano.

O CETENFolha está dividido em 340.947 extractos, classificados por semestre e caderno do jornal do qual provêm. Cada extracto está dividido em parágrafos e frases, e os títulos e os autores dos artigos estão assinalados, tão correctamente quanto nos foi possível.

Foram usadas as seguintes etiquetas:

<ext>
corresponde a um extracto (normalmente dois parágrafos)
<s>
corresponde a um frase (<s frag> é um fragmento)
<t>
título
<a>
autor de um texto
<caixa>
caixa, i.e., subtítulo
<li>
elemento de uma lista
<situacao>
informação adicional que não faz parte do texto da notícia
As últimas cinco etiquetas estão contidas no interior de uma etiqueta <s>.

Veja aqui alguns exemplos de extractos.

Que informação está associada a cada extracto?

Um exemplo de cabeçalho de extracto é o seguinte:

<ext id=165572 cad="Ilustrada" sec="nd" sem="94b">
Os atributos significam
id
o número de ordem do extracto no corpus
cad
o caderno da Folha de São Paulo do qual o texto provêm (por ordem alfabética: Agrofolha, Brasil, Caderno Especial, Cotidiano, Dinheiro, Empregos, Esporte, Folha Ciência, Folhateen, Folhinha, Fovest, Ilustrada, Imóveis, Informática, Mais!, Mundo, Opinião, Revista Folha, TV Folha, Tudo, Turismo, Veículos)
sec
a classificação do texto, inspirada nas classificações do CETEMPúblico; os valores possíveis são: pol (política brasileira e internacional), des (desporto), eco (economia), clt (cultura), opi (opinião), agr (agricultura), vei (veículos), com (informática) e nd (não determinado). Alguns artigos pertencem a mais de uma categoria (marcados por exemplo como clt-soc).
sem
o semestre (os valores possíveis são 94a e 94b, respectivamente o primeiro e segundo semestre de 1994).

Como foram contadas as palavras?

Considerámos palavras todas as unidades ("tokens") existentes no corpus que contenham pelo menos uma letra ou dígito, separadas por espaços ou pontuação. Os sinais de pontuação não foram incluídos.

Dados quantitativos aproximados referentes à versão 1.0 encontram-se aqui:

Tokens Tipos
Unidades 33.247.929 357.759
Palavras 25.475.272 343.620
Pontuação 1.914.411 14.139

"Pontuação" inclui os tokens com sinais de pontuação, tal como (1993), a) ou 17:53.

Estrutura Número
Extractos <ext> 34 094
Parágrafos <p> 688 400
Frases <s> 1 597 807
Títulos <t> 147 238
Autores <a> 80 133
Caixas <caixa> 20 407
Situações <situacao> 4 470
Elementos de lista <li> 49 721

As listas de unidades, e de lemas, constantes do CETENFolha encontram-se disponíveis de lista de palavras, lista de lemas.

Os caracteres utilizados reflectem exactamente o uso do jornal?

Em alguns casos utilizámos caracteres diferentes dos usados pelo jornal, de forma a fornecer mais informação:

O CETENFolha encontra-se anotado sintacticamente?

Sim, existe uma versão anotada acessível por HTTP; além da possibilidade de interrogar o corpus através do projecto ACDC, descrita acima.

O corpus foi anotado pelo analisador sintáctico PALAVRAS desenvolvido por Eckhard Bick.

Em janeiro de 2014 foi providenciada uma nova versão anotada pela nova versão do PALAVRAS, marcada com a data jan2014, para poder refletir os progressos deset analisador. Para compatibilidade com o trabalho anterior mantivemos a anterior versão.

Qual a relação entre o CETENFolha e o CETEMPúblico?

Tentámos, com o CETENFolha, criar um corpus tão paralelo quanto possível ao CETEMPúblico, cada qual na sua variante da língua portuguesa. O CETENFolha, sendo posterior, beneficiou da experiência obtida previamente, sendo assim evitados alguns dos erros ocorridos aquando da criação do CETEMPúblico.

Qual a relação entre o CETENFolha e a colecção CHAVE?

O material do CETENFolha encontra-se integralmente incluído na colecção CHAVE. Além disso, esta é composta também pela fracção referente aos anos de 1994 e 1995 do material do CETEMPúblico,e pelos textos da Folha de São Paulo correspondentes a 1995.

A única diferença entre o CETENFolha e o respectivo quarto da colecção CHAVE é a estruturação desta última em artigos completos ao invés de extractos, e diferenças na versão do PALAVRAS usada para a anotação dos dois corpora.

Por razões de compatibilidade, a Linguateca continua assim a distribuir o CETENFolha, embora aconselhe a novos utilizadores que peçam antes a colecção CHAVE.

Onde posso obter mais informação sobre o CETENFolha?

Pode enviar uma mensagem para a equipa da Linguateca.


Problemas conhecidos

Todo o material incluído no CETENFolha tem um formato válido?

Tanto quanto nos foi possível descobrir, todo o material incluído no corpus é válido, embora nem sempre seja possível garanti-lo num corpus destas dimensões. Nomeadamente, todos os caracteres de controlo foram removidos. A formatação do corpus foi validada com o auxílio deste ficheiro DTD.

Que outros problemas existem com o CETENFolha?

Existem alguns problemas devidos a deficiências no texto original a partir do qual criámos o corpus.

Que material foi removido?

Não foram incluídos no corpus

Acesso ao CETENFolha pela rede

Consultas ao CETENFolha podem ser efectuadas através do nosso serviço AC/DC, http://www.linguateca.pt/ACDC/, seleccionando o corpus NILC/São Carlos, do qual é uma parte. Desde 29 de Agosto de 2003 que se pode seleccionar exclusivamente o conteúdo do CETENFolha, usando a restrição [classe="JOCF"] associada às procuras.


Historial das versões

Versão texto 1.0, anotada a 3 de Janeiro de 2014 com o PALAVRAS 3.0

Versão disponibilizada através da rede, contendo anotação pelo PALAVRAS: CETENFolha-1.0_jan2014.cg.gz

Versão 1.0 anotada (31 de Julho de 2003)

Versão disponibilizada através da rede, contendo anotação pelo PALAVRAS: CETENFolha-1.0.cg.gz

Versão 1.0 (4 de Setembro de 2002)

Versão texto disponibilizada através da rede: CETENFolha-1.0.gz


Agradecimentos


Registo de pedido do CETENFolha

O CETENFolha é apenas distribuído por HTTP.
Para obter o texto do corpus (na sua versão anotada ou não anotada), basta preencher o seguinte formulário.

Nome: *
E-mail: *
Morada (opcional):

Ser-lhe-á fornecida uma senha para aceder ao corpus via HTTP.


Última actualização: 25 de fevereiro de 2018.
Perguntas, comentários e sugestões