CETEMPúblico: Informações

O CETEMPúblico (Corpus de Extractos de Textos Electrónicos MCT/Público) é um corpus de aproximadamente 180 milhões de palavras em português europeu, criado pelo projecto Processamento computacional do português (projecto que deu origem à Linguateca) após a assinatura de um protocolo entre o Ministério da Ciência e da Tecnologia (MCT) português e o jornal PÚBLICO em Abril de 2000.

O CETEMPúblico está disponível das seguinte formas:

consulta via rede (versão 1.7), acessível de Projecto AC/DC: corpus CETEMPúblico
download via http (versão 1.7), preenchendo o formulário abaixo.
através do Linguistic Data Consortium (versão 1.7, CETEMPúblico Version 1.7)

O CETEMPúblico foi anotado pelo analisador sintáctico PALAVRAS, de Eckhard Bick, segundo a rotina estabelecida pelo projecto AC/DC (veja-se a página de anotação para mais pormenores).

Sobre o CETEMPúblico em geral

A quem se destina o CETEMPúblico?

Este corpus destina-se primariamente a todos quantos desenvolvem programas que processam a língua portuguesa, e que consequentemente precisam de matéria prima para o seu trabalho. A versão em formato texto distribuída em CD destina-se principalmente a este tipo de investigadores.

Por outro lado, espera-se que o corpus seja útil a todos os estudiosos da língua que queiram confirmar as suas hipóteses em material textual, previamente organizado. As versões CQP e acesso através da rede foram pensadas para este público alvo que, no entanto e se assim o desejar, também pode obter o CD para o ter localmente, e eventualmente codificar o corpus no sistema de processamento de corpora da sua preferência.

O que é o PÚBLICO?

O PÚBLICO é um jornal diário português de grande circulação, fundado em 1991, e o primeiro jornal português a disponibilizar uma edição electrónica na rede (Publico.pt).

Quais são as restrições ao uso do CETEMPúblico?

Conforme também explicitado nos ficheiros Leia-me que seguem com os CDs que distribuímos, o CETEMPúblico pode ser utilizado para fins de investigação e desenvolvimento tecnológico, apenas sendo vedada a sua comercialização.

Quais são as minhas obrigações como utilizador do CETEMPúblico?

O Público deverá ser sempre referido como fonte do material utilizado em todas as apresentações públicas de trabalhos que tenham recorrido a esta ferramenta incluindo, designadamente, artigos, teses, comunicações e conferências.

Deverá ser cedido gratuitamente ao Público qualquer produto que venha a ser comercializado na sequência da execução de projecto de investigação e desenvolvimento em que o CETEMPúblico seja utilizado.

Posso reconstituir as notícias?

A resposta breve é não. O protocolo assinado entre o MCT e o PÚBLICO obrigou-nos a retalhar os artigos em extractos de modo a ser impossível reconstituir os artigos originais. O corpus não pretende substituir os arquivos do jornal.

Qual o conteúdo do CETEMPúblico?

O corpus inclui o texto de cerca de 2.600 edições do PÚBLICO, entre os anos de 1991 e 1998, num total de aproximadamente 180 milhões de palavras (versão 1.0). Isto não corresponde ao texto completo do jornal; faltam nomeadamente algumas edições e suplementos; e por outro lado, existem artigos que não publicados na edição escrita do jornal por razões editoriais.

O CETEMPúblico 1.0 está dividido em 1.567.625 extractos, classificados por semestre e secção do jornal da qual provêm. Cada extracto está dividido em parágrafos e frases, e os títulos e os autores dos artigos estão assinalados. Veja aqui alguns exemplos de extractos.

Quais os dados quantitativos do CETEMPúblico?

Considerámos palavras todos os átomos existentes no corpus que contenham pelo menos uma letra ou dígito. Os sinais de pontuação não foram incluídos.

Dados quantitativos aproximados (2000) referentes à versão 1.7 encontram-se aqui:

Tokens Tipos

Unidades 229.038.019 1.033.041

Palavras 191.687.833 999.059

Pontuação 13.065.151 33.982

"Pontuação" inclui os tokens com sinais de pontuação, tal como (1993), a) ou 17:53.

Estrutura Número

Extractos <ext> 1.504.258

Parágrafos  2.571.735

Frases <s> 7.082.094

Títulos <t> 655.059

Autores <a> 247.392

Elementos de lista <li> 80.060

As listas de unidades, e de lemas constantes do CETEMPúblico encontram-se disponíveis de lista de palavras, lista de lemas.

Mais informação quantitativa sobre o sobre CETEMPúblico encontra-se na página respectiva do AC/DC, Corpus CETEMPúblico, que é actualizada sempre que há novas versões do corpus ou dos programas de processamento dos corpora.

O CETEMPúblico contém exclusivamente texto em português europeu?

A esmagadora maioria do texto do CETEMPúblico está em português europeu, embora haja alguns textos de autores brasileiros e africanos.

O CETEMPúblico inclui a totalidade do texto do PÚBLICO?

Não. Por um lado, faltam várias edições, e várias secções do jornal foram excluídas, por terem sido consideradas de pouco interesse para os objectivos do corpus. Essas secções incluem as citações de outros jornais ("Diz-se"), a secção "O PÚBLICO errou", e tabelas desportivos (classificações, rankings, e resultados).

Por outro lado, o CETEMPúblico inclui inúmeros artigos que não foram publicados no jornal por falta de espaço ou oportunidade.

Nomeadamente devido à falta de um certo número de edições, existe uma distribuição desigual dos textos por ano e por semestre.

Os caracteres utilizados reflectem exactamente o uso do jornal?

Em alguns casos, e por questões associadas a diferentes codificações de caracteres, utilizámos formas alternativas:

O travessão encontra-se no corpus como "--"
Não distinguimos entre tipos de aspas, todas as aspas se encontram codificadas como « ou »
O caracter "oe ligature" (œ) é rendido pelas duas letras O e E em sequência
Os caracteres &, < e > foram mantidos, excepto na versão a distribuir pelo LDC em que foram traduzidos para a entidade SGML correspondente: &, < e >.

Qual a relação entre o CETEMPúblico e o CETENFolha?

Tentámos, com o CETENFolha, criar um corpus tão paralelo quanto possível ao CETEMPúblico, cada qual na sua variante da língua portuguesa. O CETENFolha, sendo posterior, beneficiou da experiência obtida previamente, sendo assim evitados alguns dos erros ocorridos aquando da criação do CETEMPúblico.

Qual a relação entre o CETEMPúblico e a colecção CHAVE?

Cerca de metade da colecção CHAVE é composta essencialmente pelos mesmos textos que foram usados para a criação do CETEMPúblico, mas limitados aos anos de 1994 e 1995 (a outra metade é composta de textos do jornal brasileiro Folha de São Paulo).

Onde posso obter mais informação sobre o CETEMPúblico?

Consulte os artigos, aqui disponíveis em formato electrónico:

Rocha & Santos (2000): Paulo Rocha & Diana Santos. "CETEMPúblico: Um corpus de grandes dimensões de linguagem jornalística portuguesa", in Maria das Graças Volpe Nunes (ed.), Actas do V Encontro para o processamento computacional da língua portuguesa escrita e falada (PROPOR'2000) (Atibaia, São Paulo, Brasil, 19 a 22 de Novembro de 2000), pp. 131-140, pdf
Santos & Rocha (2001): Diana Santos & Paulo Rocha. "Evaluating CETEMPúblico, a free resource for Portuguese", in Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics (Toulouse, 9-11 July 2001), pp.442-449, pdf

Como devo citar o CETEMPúblico?

Se usar o CETEMPúblico agradecemos que indique, pelo menos, uma das seguintes referências mencionadas acima, além do URL http:www.linguateca.pt/CETEMPublico/.

Informação e estrutura do CETEMPúblico

Qual a estrutura do corpus?

O corpus está dividido em extractos Foram usadas as seguintes etiquetas:

<ext>: extracto (normalmente dois parágrafos)
: parágrafo
<s>: frase (<s frag> é um fragmento)
<t>: título
<a>: autor de um texto
<li>: elemento de uma lista

Uma etiqueta  inclui uma ou várias etiquetas <s>.

Que informação está associada a cada extracto?

Um exemplo de cabeçalho de extracto é o seguinte:

<ext n=1150929 sec=soc sem=95a>

Os atributos significam

n: o número de ordem do extracto no corpus
sec: a classificação do texto, inspirada nas classificações do CETEMPúblico; os valores possíveis são: pol (política portuguesa e internacional), des (desporto), eco (economia), clt (cultura), opi (opinião), com (informática) e nd (não determinado). Alguns artigos pertencem a mais de uma categoria (clt-soc).
As versões anteriores à 1.3 usam também o valor pol-soc (política e sociedade), que foi alterado nas versões posteriores para pol.
sem: o semestre, representado por dois dígitos indicando o ano, e uma letra (a ou b indicando se se trata do primeiro ou segundo semestre desse ano (os valores possíveis vão de 91a a 98b, respectivamente o primeiro semestre de 1991 e o segundo semestre de 1998).

Exemplos de uso do corpora utilizando estes atributos podem ser encontrados na nossa página de exemplos.

Há alguma especificação sistemática da estrutura do corpus?

Fornecemos aqui uma pequena especificação em BNF, com terminais em carregado (negrito):

corpus = extracto+ extracto = id_extracto conteúdo_extracto </ext> contéudo_extracto = parágrafo+ parágrafo = título | identif_autor | frase+ | elemento_lista título = <t> token+ </t> identif_autor = <a> token+ </a> elemento_lista = <li> token+ </li> frase = ( <s> | <s frag> ) token+ </s> token = <marca num= X > | palavra | sinal_pontuação | identificador X = ( *+ ) | *+ id_extracto = <ext n=número sec=id_sec sem=semestre > número = [0-9]+ id_sec= soc | pol | clt | des | opi | eco | com | clt-soc | pol-soc | nd semestre = 91a | 91b | 92a | 92b | 93a | 93b | 94a | 94b | 95a | 95b | 96a | 96b |97a | 97b | 98a | 98b

Notas:

Na definição de X, tanto os parênteses como o asterisco são símbolos terminais.
número é único e varia entre 1 e 1567625.
palavra, sinal_pontuação e identificador assumem-se identificáveis por um analisador lexical do português.

Uma alternativa de definição da estrutura do corpus é dada pela seguinte DTD de SGML.

O CETEMPúblico encontra-se anotado?

Sim, além da informação descrita na secção anterior, a cada palavra ou átomo (unidade) do corpus encontra-se associada informação gramatical, anotada automaticamente pelo analisador sintáctico PALAVRAS, desenvolvido por Eckhard Bick.

Que informação está associada ao CETEMPúblico anotado?

Mais informação sobre os corpora anotados e os métodos de pesquisa nesses corpora usando informação gramatical pode ser encontrada nas páginas do projecto AC/DC.

Infelizmente, este serviço sofre de falta de eficiência devido ao tamanho do corpus, o que conduz frequentemente a um resultado nulo por excesso de tempo de processamento ("timeout"). Enquanto não resolvemos este problema, sugerimos que os utilizadores usem o comando cut para diminuir o número de resultados: Por exemplo, [word="como" & pos="V.*"] cut 100; ) apresenta apenas os 100 primeiros casos.

Que versão do PALAVRAS foi utilizada para anotar o CETEMPúblico anotado?

A última vez que o CETEMPúblico foi anotado pelo PALAVRAS foi em 2006.

Que mais informação existe sobre o CETEMPúblico anotado?

A anotação do CETEMPúblico não difere da dos outros corpora, cuja informação se encontra reunida a partir da página principal do serviço AC/DC.

Veja também Usos de corpora para algumas dicas de utilização do corpus não anotado.

Problemas conhecidos

Todo o material incluído no CETEMPúblico tem um formato válido?

Não. Infelizmente, devido ao grande volume do corpus (que torna impraticável a sua revisão manual), e ao facto de os ficheiros oriundos do jornal incluírem material em vários formatos diferentes, tais como imagens e outras categorias não legíveis, não nos foi possível, apesar de termos implementado vários filtros, assegurar que todo o conteúdo do corpus é texto limpo.

Podemos no entanto garantir que a partir da versão 1.7 o corpus tem um formato SGML válido. Embora esperemos que extractos com material não textual representem uma parte diminuta do corpus (especialmente nas suas versões corrigidas), prevenimos desde já os utilizadores da sua existência.

Conhecem-se outros problemas com o CETEMPúblico?

Existem alguns artigos (e consequentemente extractos) repetidos. Embora se tenha tentado, na versão 1.2, eliminar extractos duplicados (mantendo apenas o primeiro extracto), há casos de artigos ligeiramente diferentes, que presumimos sejam diferentes versões do mesmo artigo; aconselhamos a visualização do exemplo de extractos semelhantes.
Parágrafos identificados como títulos ou autores são sempre anexados ao parágafo anterior. Como os artigos originais foram divididos em grupos de dois parágafos, e alguns artigos incluem várias notícias (as 'Breves'), isto significa que alguns (sub)títulos foram separados da notícia a que se referem. Aconselhamos a visualização de um caso de separação incorrecta de título.
Um total de 212 extractos contêm o caracter correspondente ao final de ficheiro em MS-DOS (^Z, caracter decimal 26, hexadecimal 1A), pelo que os patches anteriores ao patch 1.0.3 não funcionam correctamente em Windows. Lista desses extractos
Segundo opinião redactorial do PÚBLICO, todos os extractos marcados com pol-soc deveriam estar marcadas com apenas com pol, ou seja, referem-se simplesmente a política (este problema foi corrigido na versão 1.2).

Conhecem-se problemas na anotação?

Estamos conscientes de que há problemas com os clíticos na versão actual.

Melhorias introduzidas ao longo do tempo

Como podemos manter-nos actualizados em relação às modificações do CETEMPúblico?

À medida que formos tendo conhecimento de problemas com o corpus, tentaremos disponibilizar a partir desta página pequenos programas para os corrigir, assim como actualizar a versão acessível através da rede.

De qualquer maneira, todos os utilizadores que tenham obtido o corpus através do nosso projecto são automaticamente adicionados à lista do cetempublico. No caso de o ter obtido por outros meios (por exemplo através do LDC), basta enviar-nos uma mensagem pedindo para pertencer à lista.

Os utilizadores da versão 1.0 do corpus em formato texto podem obter o patch 1.0.7 (483kB) em Perl (veja o historial das versões). As ultimas versões de Perl (quer para Linux quer para Windows) estão disponíveis em http://www.perl.com. Agradecemos que os utilizadores que desenvolvam correcções semelhantes noutras linguagens de programação nos enviem uma cópia para redistribuição.

Como executar o patch?

É indespensável ter Perl instalado no seu computador. Execute

	perl patch_cetempublico_1.0.7.pl ficheiro_original > ficheiro_corrigido

para cada um dos ficheiros distribuídos no CD. Este comando é válido quer para Linux quer para Windows (neste caso, deve ser executado numa janela de MS-DOS).

Historial das versões

Versão 1.7 (18 de Setembro de 2001)

A versão 1.7 pretende que todo o corpus tenha um formato SGML válido. Assim, esta versão

elimina 3 extractos com conteúdo inválido (lista)
elimina vários caracteres inválidos
substitui & por &, > por > e < por <
substitui o caracter decimal 127 (hexadecimal 7F) por hífen
modifica a anotação <s frag> por <s tipo=frag>
marca com a etiqueta <s> um pequeno número de frases que não tinham nenhuma etiqueta nas versões anterior do corpus
corrige quatro cabeçalhos de extracto cujo atributo sec correspondia a uma secção inexistente
substitui as combinações >> por "»" e << por "«"

Um patch (patch_cetempublico_1.0.7.pl) que transforma a versão 1.0 (ou 1.1, 1.2, 1.4, 1.6) do CETEMPúblico na versão 1.7 foi disponibilizado a 18 de Setembro de 2001.

Versão 1.6 (23 de Julho de 2001)

A versão 1.6 elimina cerca de 7000 extractos muito pequenos, com menos de 100 caracteres (lista).

Um patch (patch_cetempublico1.0.6.pl) que transforma a versão 1.0 (ou 1.1, 1.2, 1.4) do CETEMPúblico na versão 1.6 foi disponibilizado a 23 de Julho de 2001.

Versão 1.5 (25 de Maio de 2001)

Esta versão resolve apenas problemas referentes ao acesso através da rede, envoolvendo a determinação das unidades básicas para procura (tokenização) e a identificação de extractos.

Versão 1.4 (21 de Março de 2001)

A versão 1.4 elimina 96 extractos com conteúdo inválido (lista), e corrige algumas atributos incorrectos (<s> em vez de <a>).

Um patch (patch_cetempublico_1.0.4.pl) que transforma as versões anteriores do CETEMPúblico na versão 1.4 foi disponibilizado a 21 de Março de 2001.

Nota: Como a aplicação deste patch à versão 1.3 não corrige um problema ligeiro introduzido nessa versão, sugerimos a aplicação deste patch apenas à versão 1.2 ou anteriores do corpus.

Versão 1.3 (2 de Fevereiro de 2001)

A versão 1.3 apresenta as seguintes melhorias

Foi corrigido o problema que impedia o funcionamento correcto dos remendos anteriores em Windows (mais informação)
Foram corrigidas algumas codificações incorrectas ("Ï" foi transformado em "oe"; "Ð" foi tranformado em hífen; e nalguns casos "É" foi transformado em "...")
Foram eliminados 19 extractos com conteúdo inválido (lista)

Um patch (patch_cetempublico1.0.3.pl) que transforma a versão 1.0 (ou 1.1, 1.2) do CETEMPúblico na versão 1.3 foi disponibilizado a 2 de Fevereiro de 2001.

Versão 1.2 (9 de Janeiro de 2001)

A versão 1.2 apresenta as seguintes melhorias:

foram eliminados 50.655 extractos iguais a outros extractos existentes no corpus (lista)
foram retirados 474 extractos relativos a resultados desportivos mal-formatados (lista)
foram eliminados 26 extractos com conteúdo inválido (lista)
foi substituida a classificação dos artigos marcados com a secção pol-soc, sendo a nova classificação pol, seguindo os critérios editoriais do Público. Estes artigos representam cerca de 8% do corpus.

Um patch (patch_cetempublico1.0.2b.pl) que transforma a versão 1.0 (ou 1.1) do CETEMPúblico na versão 1.2 foi disponibilizado a 9 de Janeiro de 2001.

Versão 1.1 (28 de Setembro de 2000)

A versão 1.1 apresenta as seguintes melhorias:

foram corrigidos os cabeçalhos de 1.089 extractos (lista); estes extractos não foram retirados do corpus
foram retirados 636 extractos com caracteres inválidos (lista)
foram retirados 4.796 extractos que foram considerados como diversos tipos de tabelas (classificações desportivas, médias de acesso ao ensino superior, etc.) (lista)
foram corrigidas 1.725 paragens de tabulação ('tabs') que inadvertidamente não tinham sido removidas.

A versão CQP permite pedir a distribuição por classificação e por semestre.

Um patch (patch_cetempublico1.0.0.pl) que transforma a versão 1.0 do CETEMPúblico na versão 1.1 foi criado a 11 de Outubro de 2000. Novo patch -- compatível com versões mais antigas de Perl -- foi instalado a 31 de Outubro de 2000, patch_cetempublico1.0.1.pl.

Versão 1.0 (25 de Julho de 2000)

Versão distribuída em formato texto em CD.

Agradecimentos

Da parte do PúBLICO, agradecemos a José Vítor Malheiros, responsável pela edição online, sem cuja inestimável ajuda o corpus não existiria, e a Paulo Almeida, pelo apoio técnico.
Estamos também gratos a Stefan Evert e a Arne Fitschen, da Universidade de Estugarda, pela ajuda com o IMS-CWB.
Agradecemos a Pedro Veiga o pontapé de saída deste projecto, assim como a reprodução e distribuição por parte da FCCN dos CDs, e a Miguel Andrade o apoio jurídico prestado.
Agradecemos vivamente também o apoio prestado pelo José João Dias de Almeida na remoção dos duplicados presente no patch 1.0.2 e posteriores.
Agradecemos a Andrew Cole, do LDC, o apoio à validação SGML da versão 1.7.
E agradecemos a Eckhard Bick as várias versões anotadas do corpus que ele nos foi criando ao longo dos tempos.

Registo de encomenda do CETEMPúblico

Para receber o corpus em formato texto, basta registar-se através do seguinte formulário.

Última actualização: 25 de fevereiro de 2018.

Perguntas, comentários e sugestões

	Tokens	Tipos
Unidades	229.038.019	1.033.041
Palavras	191.687.833	999.059
Pontuação	13.065.151	33.982

Estrutura	Número
Extractos `<ext>`	1.504.258
Parágrafos `<p>`	2.571.735
Frases `<s>`	7.082.094
Títulos `<t>`	655.059
Autores `<a>`	247.392
Elementos de lista `<li>`	80.060

Nome:	*
E-mail:	*
Endereço: (opcional)