CETENFolha
Linguateca
O CETENFolha (Corpus de Extractos de Textos
Electrónicos NILC/Folha de S. Paulo) é um corpus de cerca de 24 milhões de palavras em português brasileiro, criado pelo projecto Processamento computacional do português (projecto que deu origem à Linguateca) com base nos textos do jornal Folha de S. Paulo que fazem parte do corpus NILC/São Carlos, compilado pelo Núcleo Interinstitucional de Lingüística Computacional (NILC).
Neste momento, a versão 1.0 do CETENFolha está disponível em duas versões (com e sem anotação gramatical), das seguintes formas
- O texto completo pode ser obtido por FTP ou HTTP seguindo as nossas indicações. Para receber estas indicações preencha este formulário
- O corpus pode ser consultado através do Projecto AC/DC, como parte do corpus NILC/São Carlos (mais informação)
Nota: Chamamos a atenção para que, exceto por razões históricas ou por um desejo de comparar com o CETEMPúblico, não há razão para usar o CETENFolha em vez da coleção CHAVE, que tem o dobro do material e possui os textos completos e não em excertos.
Informação útil sobre o CETENFolha
A quem se destina o CETENFolha?
Este corpus destina-se primariamente a
todos quantos desenvolvem programas que processam a língua portuguesa, e que
consequentemente precisam de matéria prima para o seu trabalho.
O que é a Folha de S. Paulo?
A Folha de S. Paulo é um jornal diário
brasileiro de grande circulação, fundado em 1960. Além das habituais secções diárias, o jornal contém
igualmente diversos cadernos não-diários, a maior parte dos quais foram
incluídos no corpus. Existe igualmente desde 1996 uma edição electrónica (Folha online).
Porque não é possível o acesso ao texto completo das notícias?
Este corpus não pretende substituir os arquivos do jornal.
Por outro lado, pretende-se também manter um certo paralelismo com o corpus CETEMPúblico, que foi, por motivos legais, dividido em extractos.
Qual o conteúdo do CETENFolha?
O corpus inclui o texto da Folha
de S. Paulo do ano de 1994 (as 365 edições),
incluindo cadernos não-diários, num total ligeiramente inferior a 24 milhões de palavras (versão 1.0). Não podemos, contudo, garantir que corresponde à totalidade do texto do jornal publicado nesse ano.
O CETENFolha está dividido em 340.947 extractos, classificados por
semestre e caderno do jornal do qual provêm. Cada extracto está dividido em
parágrafos e frases, e os títulos e os autores dos artigos estão assinalados, tão correctamente quanto nos foi possível.
Foram usadas as seguintes etiquetas:
- <ext>
- corresponde a um extracto (normalmente
dois
parágrafos)
- <s>
- corresponde a um frase (<s frag>
é um fragmento)
- <t>
- título
- <a>
- autor de um texto
- <caixa>
- caixa, i.e., subtítulo
- <li>
- elemento de uma lista
- <situacao>
- informação adicional que
não faz
parte do texto da notícia
As últimas cinco etiquetas estão contidas no interior de uma
etiqueta <s>.
Veja aqui alguns exemplos de extractos.
Que informação está associada a cada extracto?
Um exemplo de cabeçalho de extracto é o seguinte:
- <ext id=165572 cad="Ilustrada" sec="nd" sem="94b">
Os atributos significam
- id
- o número de ordem do extracto no corpus
- cad
- o caderno da Folha de São Paulo do qual o
texto
provêm (por ordem alfabética:
Agrofolha, Brasil, Caderno Especial, Cotidiano, Dinheiro, Empregos,
Esporte, Folha Ciência, Folhateen, Folhinha, Fovest, Ilustrada,
Imóveis,
Informática, Mais!, Mundo, Opinião, Revista Folha, TV Folha,
Tudo,
Turismo, Veículos)
- sec
- a classificação do texto, inspirada nas
classificações do CETEMPúblico; os valores
possíveis são: pol (política brasileira e
internacional), des (desporto), eco (economia),
clt (cultura), opi (opinião), agr
(agricultura), vei (veículos), com
(informática) e
nd (não determinado). Alguns artigos pertencem a mais de
uma
categoria (marcados por exemplo como clt-soc).
- sem
- o semestre (os valores possíveis
são
94a e 94b, respectivamente o primeiro e segundo
semestre de 1994).
Como foram contadas as palavras?
Considerámos palavras todas as unidades ("tokens") existentes no corpus que contenham pelo menos uma letra ou dígito, separadas por espaços ou pontuação. Os sinais de
pontuação não foram incluídos.
Dados quantitativos aproximados referentes à versão 1.0 encontram-se aqui:
|
Tokens |
Tipos |
Unidades |
33.247.929 |
357.759 |
Palavras |
25.475.272 |
343.620 |
Pontuação |
1.914.411 |
14.139 |
"Pontuação" inclui os tokens com sinais de pontuação, tal como
(1993), a) ou 17:53.
Estrutura |
Número |
Extractos <ext> |
34 094 |
Parágrafos <p> |
688 400 |
Frases <s> |
1 597 807 |
Títulos <t> |
147 238 |
Autores <a> |
80 133 |
Caixas <caixa> |
20 407 |
Situações <situacao> |
4 470 |
Elementos de lista <li> |
49 721 |
As listas de unidades, e de lemas, constantes do CETENFolha encontram-se disponíveis de lista de palavras, lista de lemas.
Os caracteres utilizados reflectem exactamente o uso do jornal?
Em
alguns casos utilizámos caracteres diferentes dos usados pelo jornal, de forma a fornecer mais informação:
- Os travessões foram sempre codificados como "--", ainda que na maior parte das vezes estivesse apenas como "-" no texto original.
- Todas as aspas se encontram
codificadas como « ou », embora no texto original apareçam como "aspas" ou ``aspas''.
O CETENFolha encontra-se anotado sintacticamente?
Sim, existe uma versão anotada acessível por HTTP; além da possibilidade de interrogar o corpus através do projecto ACDC, descrita acima.
O corpus foi anotado pelo analisador sintáctico PALAVRAS desenvolvido por Eckhard Bick.
Em janeiro de 2014 foi providenciada uma nova versão anotada pela nova versão do PALAVRAS, marcada com a data jan2014, para poder refletir os progressos deset analisador. Para compatibilidade com o trabalho anterior mantivemos a anterior versão.
Qual a relação entre o CETENFolha e o CETEMPúblico?
Tentámos, com o CETENFolha, criar um corpus tão paralelo
quanto possível ao CETEMPúblico, cada qual na sua variante da língua portuguesa. O
CETENFolha, sendo posterior, beneficiou da experiência obtida previamente, sendo
assim evitados alguns dos erros ocorridos aquando da criação
do CETEMPúblico.
Qual a relação entre o CETENFolha e a colecção CHAVE?
O material do CETENFolha encontra-se integralmente incluído na colecção CHAVE. Além disso, esta é composta também pela fracção referente aos anos de 1994 e 1995 do material do CETEMPúblico,e pelos textos da Folha de São Paulo correspondentes a 1995.
A única diferença entre o CETENFolha e o respectivo quarto da colecção CHAVE é a estruturação desta última em artigos completos ao invés de extractos, e diferenças na versão do PALAVRAS usada para a anotação dos dois corpora.
Por razões de compatibilidade, a Linguateca continua assim a distribuir o CETENFolha, embora aconselhe a novos utilizadores que peçam antes a colecção CHAVE.
Onde posso obter mais informação sobre o CETENFolha?
Pode enviar uma mensagem para a equipa da Linguateca.
Problemas conhecidos
Todo o material incluído no CETENFolha tem um formato válido?
Tanto quanto nos foi possível descobrir, todo o material
incluído
no corpus é válido, embora nem sempre seja possível garanti-lo num corpus destas dimensões. Nomeadamente, todos os caracteres de controlo foram removidos.
A formatação do corpus foi validada com o auxílio
deste ficheiro DTD.
Que outros problemas existem com o CETENFolha?
Existem alguns problemas devidos a deficiências no texto original a partir do qual criámos o corpus.
- Há alguns erros ortográficos no texto
- Nalguns casos não há um espaço entre duas palavras (criançasDez)
- Alguns caracteres acentuados desapareceram (tr fico)
- Nalguns casos, existe um sinal de maior (>) em vez do parêntesis direito
Que material foi removido?
Não foram incluídos no corpus
- os artigos de primeira página que apenas chamam o artigo principal nas páginas interiores
- NORDESTE
Chuvas voltam ao sertão da Paraíba e trazem esperança aos agricultores
PÁG. 3
- os artigos com menos de 250 caracteres
- algumas chamadas para outras páginas dentro de um artigo
- (leia mais na página 3)
- anotações internas que se considerou não fazer parte de notícias ou outro texto do jornal, e que não tinham relevância para o corpus
- Edição: São Paulo
- artigos duplicados (i.e., quando existiam duas cópias do mesmo artigo, só uma foi incluída)
Consultas ao CETENFolha podem ser efectuadas através do nosso serviço AC/DC, http://www.linguateca.pt/ACDC/, seleccionando o corpus NILC/São Carlos, do qual é uma parte. Desde 29 de Agosto de 2003 que se pode seleccionar exclusivamente o conteúdo do CETENFolha, usando a restrição [classe="JOCF"] associada às procuras.
Historial das versões
Versão texto 1.0, anotada a 3 de Janeiro de 2014 com o PALAVRAS 3.0
Versão disponibilizada através da rede, contendo anotação pelo PALAVRAS: CETENFolha-1.0_jan2014.cg.gz
Versão 1.0 anotada (31 de Julho de 2003)
Versão disponibilizada através da rede, contendo anotação pelo PALAVRAS: CETENFolha-1.0.cg.gz
Versão 1.0 (4 de Setembro de 2002)
Versão texto disponibilizada através da rede: CETENFolha-1.0.gz
Agradecimentos
Registo de pedido do CETENFolha
O CETENFolha é apenas distribuído por HTTP.
Para obter o texto do corpus (na sua versão anotada ou não anotada), basta preencher o seguinte formulário.
Última actualização: 25 de fevereiro de 2018.
Perguntas, comentários e sugestões