CETENFolha

Linguateca

O CETENFolha (Corpus de Extractos de Textos Electrónicos NILC/Folha de S. Paulo) é um corpus de cerca de 24 milhões de palavras em português brasileiro, criado pelo projecto Processamento computacional do português (projecto que deu origem à Linguateca) com base nos textos do jornal Folha de S. Paulo que fazem parte do corpus NILC/São Carlos, compilado pelo Núcleo Interinstitucional de Lingüística Computacional (NILC).

Neste momento, a versão 1.0 do CETENFolha está disponível em duas versões (com e sem anotação gramatical), das seguintes formas

O texto completo pode ser obtido por FTP ou HTTP seguindo as nossas indicações. Para receber estas indicações preencha este formulário
O corpus pode ser consultado através do Projecto AC/DC, como parte do corpus NILC/São Carlos (mais informação)

Nota: Chamamos a atenção para que, exceto por razões históricas ou por um desejo de comparar com o CETEMPúblico, não há razão para usar o CETENFolha em vez da coleção CHAVE, que tem o dobro do material e possui os textos completos e não em excertos.

Informação útil sobre o CETENFolha

A quem se destina o CETENFolha?

Este corpus destina-se primariamente a todos quantos desenvolvem programas que processam a língua portuguesa, e que consequentemente precisam de matéria prima para o seu trabalho.

O que é a Folha de S. Paulo?

A Folha de S. Paulo é um jornal diário brasileiro de grande circulação, fundado em 1960. Além das habituais secções diárias, o jornal contém igualmente diversos cadernos não-diários, a maior parte dos quais foram incluídos no corpus. Existe igualmente desde 1996 uma edição electrónica (Folha online).

Porque não é possível o acesso ao texto completo das notícias?

Este corpus não pretende substituir os arquivos do jornal. Por outro lado, pretende-se também manter um certo paralelismo com o corpus CETEMPúblico, que foi, por motivos legais, dividido em extractos.

Qual o conteúdo do CETENFolha?

O corpus inclui o texto da Folha de S. Paulo do ano de 1994 (as 365 edições), incluindo cadernos não-diários, num total ligeiramente inferior a 24 milhões de palavras (versão 1.0). Não podemos, contudo, garantir que corresponde à totalidade do texto do jornal publicado nesse ano.

O CETENFolha está dividido em 340.947 extractos, classificados por semestre e caderno do jornal do qual provêm. Cada extracto está dividido em parágrafos e frases, e os títulos e os autores dos artigos estão assinalados, tão correctamente quanto nos foi possível.

Foram usadas as seguintes etiquetas:

<ext>: corresponde a um extracto (normalmente dois parágrafos)
<s>: corresponde a um frase (<s frag> é um fragmento)
<t>: título
<a>: autor de um texto
<caixa>: caixa, i.e., subtítulo
<li>: elemento de uma lista
<situacao>: informação adicional que não faz parte do texto da notícia

As últimas cinco etiquetas estão contidas no interior de uma etiqueta <s>.

Veja aqui alguns exemplos de extractos.

Que informação está associada a cada extracto?

Um exemplo de cabeçalho de extracto é o seguinte:

<ext id=165572 cad="Ilustrada" sec="nd" sem="94b">

Os atributos significam

id: o número de ordem do extracto no corpus
cad: o caderno da Folha de São Paulo do qual o texto provêm (por ordem alfabética: Agrofolha, Brasil, Caderno Especial, Cotidiano, Dinheiro, Empregos, Esporte, Folha Ciência, Folhateen, Folhinha, Fovest, Ilustrada, Imóveis, Informática, Mais!, Mundo, Opinião, Revista Folha, TV Folha, Tudo, Turismo, Veículos)
sec: a classificação do texto, inspirada nas classificações do CETEMPúblico; os valores possíveis são: pol (política brasileira e internacional), des (desporto), eco (economia), clt (cultura), opi (opinião), agr (agricultura), vei (veículos), com (informática) e nd (não determinado). Alguns artigos pertencem a mais de uma categoria (marcados por exemplo como clt-soc).
sem: o semestre (os valores possíveis são 94a e 94b, respectivamente o primeiro e segundo semestre de 1994).

Como foram contadas as palavras?

Considerámos palavras todas as unidades ("tokens") existentes no corpus que contenham pelo menos uma letra ou dígito, separadas por espaços ou pontuação. Os sinais de pontuação não foram incluídos.

Dados quantitativos aproximados referentes à versão 1.0 encontram-se aqui:

Tokens Tipos

Unidades 33.247.929 357.759

Palavras 25.475.272 343.620

Pontuação 1.914.411 14.139

"Pontuação" inclui os tokens com sinais de pontuação, tal como (1993), a) ou 17:53.

Estrutura Número

Extractos <ext> 34 094

Parágrafos <p> 688 400

Frases <s> 1 597 807

Títulos <t> 147 238

Autores <a> 80 133

Caixas <caixa> 20 407

Situações <situacao> 4 470

Elementos de lista <li> 49 721

As listas de unidades, e de lemas, constantes do CETENFolha encontram-se disponíveis de lista de palavras, lista de lemas.

Os caracteres utilizados reflectem exactamente o uso do jornal?

Em alguns casos utilizámos caracteres diferentes dos usados pelo jornal, de forma a fornecer mais informação:

Os travessões foram sempre codificados como "--", ainda que na maior parte das vezes estivesse apenas como "-" no texto original.
Todas as aspas se encontram codificadas como « ou », embora no texto original apareçam como "aspas" ou ``aspas''.

O CETENFolha encontra-se anotado sintacticamente?

Sim, existe uma versão anotada acessível por HTTP; além da possibilidade de interrogar o corpus através do projecto ACDC, descrita acima.

O corpus foi anotado pelo analisador sintáctico PALAVRAS desenvolvido por Eckhard Bick.

Em janeiro de 2014 foi providenciada uma nova versão anotada pela nova versão do PALAVRAS, marcada com a data jan2014, para poder refletir os progressos deset analisador. Para compatibilidade com o trabalho anterior mantivemos a anterior versão.

Qual a relação entre o CETENFolha e o CETEMPúblico?

Tentámos, com o CETENFolha, criar um corpus tão paralelo quanto possível ao CETEMPúblico, cada qual na sua variante da língua portuguesa. O CETENFolha, sendo posterior, beneficiou da experiência obtida previamente, sendo assim evitados alguns dos erros ocorridos aquando da criação do CETEMPúblico.

Qual a relação entre o CETENFolha e a colecção CHAVE?

O material do CETENFolha encontra-se integralmente incluído na colecção CHAVE. Além disso, esta é composta também pela fracção referente aos anos de 1994 e 1995 do material do CETEMPúblico,e pelos textos da Folha de São Paulo correspondentes a 1995.

A única diferença entre o CETENFolha e o respectivo quarto da colecção CHAVE é a estruturação desta última em artigos completos ao invés de extractos, e diferenças na versão do PALAVRAS usada para a anotação dos dois corpora.

Por razões de compatibilidade, a Linguateca continua assim a distribuir o CETENFolha, embora aconselhe a novos utilizadores que peçam antes a colecção CHAVE.

Onde posso obter mais informação sobre o CETENFolha?

Pode enviar uma mensagem para a equipa da Linguateca.

Problemas conhecidos

Todo o material incluído no CETENFolha tem um formato válido?

Tanto quanto nos foi possível descobrir, todo o material incluído no corpus é válido, embora nem sempre seja possível garanti-lo num corpus destas dimensões. Nomeadamente, todos os caracteres de controlo foram removidos. A formatação do corpus foi validada com o auxílio deste ficheiro DTD.

Que outros problemas existem com o CETENFolha?

Existem alguns problemas devidos a deficiências no texto original a partir do qual criámos o corpus.

Há alguns erros ortográficos no texto
Nalguns casos não há um espaço entre duas palavras (criançasDez)
Alguns caracteres acentuados desapareceram (tr fico)
Nalguns casos, existe um sinal de maior (>) em vez do parêntesis direito

Que material foi removido?

Não foram incluídos no corpus

os artigos de primeira página que apenas chamam o artigo principal nas páginas interiores

NORDESTE Chuvas voltam ao sertão da Paraíba e trazem esperança aos agricultores PÁG. 3
os artigos com menos de 250 caracteres
algumas chamadas para outras páginas dentro de um artigo
(leia mais na página 3)
anotações internas que se considerou não fazer parte de notícias ou outro texto do jornal, e que não tinham relevância para o corpus

Edição: São Paulo
artigos duplicados (i.e., quando existiam duas cópias do mesmo artigo, só uma foi incluída)

Acesso ao CETENFolha pela rede

Consultas ao CETENFolha podem ser efectuadas através do nosso serviço AC/DC, http://www.linguateca.pt/ACDC/, seleccionando o corpus NILC/São Carlos, do qual é uma parte. Desde 29 de Agosto de 2003 que se pode seleccionar exclusivamente o conteúdo do CETENFolha, usando a restrição [classe="JOCF"] associada às procuras.

Historial das versões

Versão texto 1.0, anotada a 3 de Janeiro de 2014 com o PALAVRAS 3.0

Versão disponibilizada através da rede, contendo anotação pelo PALAVRAS: CETENFolha-1.0_jan2014.cg.gz

Versão 1.0 anotada (31 de Julho de 2003)

Versão disponibilizada através da rede, contendo anotação pelo PALAVRAS: CETENFolha-1.0.cg.gz

Versão 1.0 (4 de Setembro de 2002)

Versão texto disponibilizada através da rede: CETENFolha-1.0.gz

Agradecimentos

Estamos gratos à Folha de São Paulo pela autorização gentilmente concedida
Estamos gratos ao Núcleo Interinstitucional de Lingüística Computacional, em especial a Graça Nunes, por nos ter disponibilizado o texto do corpus em formato electrónico, autorizado a sua disponibilização através do projecto AC/DC e negociado com a Folha de São Paulo a autorização anteriormente mencionada
Estamos igualmente gratos a Stefan Evert, do Institut für Maschinelle Sprachverarbeitung da Universidade de Estugarda, pela ajuda com o IMS-CWB

Registo de pedido do CETENFolha

O CETENFolha é apenas distribuído por HTTP.
Para obter o texto do corpus (na sua versão anotada ou não anotada), basta preencher o seguinte formulário.

Última actualização: 25 de fevereiro de 2018.

Perguntas, comentários e sugestões

	Tokens	Tipos
Unidades	33.247.929	357.759
Palavras	25.475.272	343.620
Pontuação	1.914.411	14.139

Estrutura	Número
Extractos <ext>	34 094
Parágrafos <p>	688 400
Frases <s>	1 597 807
Títulos <t>	147 238
Autores <a>	80 133
Caixas <caixa>	20 407
Situações <situacao>	4 470
Elementos de lista <li>	49 721

Nome:	*
E-mail:	*
Morada (opcional):