CETEMPúblico: Informações
Information in English
Linguateca
O CETEMPúblico (Corpus de Extractos de
Textos Electrónicos
MCT/Público) é um corpus de
aproximadamente 180 milhões de palavras em português
europeu, criado pelo projecto
Processamento computacional do português (projecto que deu origem à Linguateca) após a assinatura de um
protocolo entre o Ministério da Ciência e da
Tecnologia (MCT) português e o jornal PÚBLICO em Abril de 2000.
O CETEMPúblico está disponível das seguinte formas:
- consulta via rede (versão 1.7), acessível de Projecto AC/DC: corpus CETEMPúblico
- download via http (versão 1.7), preenchendo o formulário abaixo.
- através do Linguistic Data Consortium (versão 1.7, CETEMPúblico Version 1.7)
O CETEMPúblico foi anotado pelo analisador sintáctico PALAVRAS, de Eckhard Bick, segundo a rotina estabelecida pelo projecto AC/DC (veja-se a página de anotação para mais pormenores).
Sobre o CETEMPúblico em geral
A quem se destina o CETEMPúblico?
Este corpus destina-se primariamente a todos quantos desenvolvem programas que processam a língua portuguesa, e que consequentemente precisam de matéria prima para o seu trabalho. A versão em formato texto distribuída em CD destina-se principalmente a este tipo de investigadores.
Por outro lado, espera-se que o corpus seja útil a todos os estudiosos da língua que queiram confirmar as suas hipóteses em material textual, previamente organizado. As versões CQP e acesso através da rede foram pensadas para este público alvo que, no entanto e se assim o desejar, também pode obter o CD para o ter localmente, e eventualmente codificar o corpus no sistema de processamento de corpora da sua preferência.
O que é o PÚBLICO?
O PÚBLICO é um jornal diário português de grande circulação, fundado em 1991, e o primeiro jornal português a disponibilizar uma
edição electrónica na rede (Publico.pt).
Quais são as restrições ao uso do CETEMPúblico?
Conforme também explicitado nos
ficheiros Leia-me que seguem com os CDs que distribuímos, o CETEMPúblico pode ser utilizado para fins de investigação e desenvolvimento tecnológico,
apenas sendo vedada a sua comercialização.
Quais são as minhas obrigações como utilizador do CETEMPúblico?
O
Público deverá ser sempre referido como fonte do material utilizado em todas as
apresentações públicas de trabalhos que tenham recorrido a esta ferramenta
incluindo, designadamente, artigos, teses, comunicações e
conferências.Deverá ser cedido gratuitamente ao Público qualquer produto que
venha a ser comercializado na sequência da execução de projecto de investigação
e desenvolvimento em que o CETEMPúblico seja utilizado.
Posso reconstituir as notícias?
A resposta breve é não. O
protocolo assinado entre o MCT e o PÚBLICO obrigou-nos a retalhar os artigos em
extractos de modo a ser impossível reconstituir os artigos originais. O corpus
não pretende substituir os arquivos do jornal.
Qual o conteúdo do CETEMPúblico?
O corpus inclui o texto de cerca de 2.600 edições do PÚBLICO, entre os anos de 1991 e 1998, num total de aproximadamente 180 milhões de palavras (versão 1.0).
Isto não corresponde ao texto completo do jornal; faltam nomeadamente algumas
edições e suplementos; e por outro lado, existem artigos que não publicados na edição
escrita do jornal por razões editoriais.
O CETEMPúblico 1.0 está dividido em 1.567.625 extractos, classificados por semestre e secção do jornal da qual provêm. Cada
extracto está dividido em parágrafos e frases, e os títulos e os autores dos artigos estão assinalados. Veja aqui alguns exemplos de extractos.
Quais os dados quantitativos do CETEMPúblico?
Considerámos palavras todos os átomos
existentes no corpus que contenham pelo menos uma letra ou dígito. Os sinais de pontuação não foram incluídos.
Dados quantitativos aproximados (2000) referentes à versão 1.7 encontram-se aqui:
| Tokens | Tipos |
Unidades | 229.038.019 | 1.033.041 |
Palavras | 191.687.833 | 999.059 |
Pontuação | 13.065.151 | 33.982 |
"Pontuação" inclui os tokens com sinais de pontuação, tal como (1993), a) ou 17:53.
Estrutura | Número |
Extractos <ext> | 1.504.258 |
Parágrafos <p> | 2.571.735 |
Frases <s> | 7.082.094 |
Títulos <t> | 655.059 |
Autores <a> | 247.392 |
Elementos de lista <li> | 80.060 |
As listas de unidades, e de lemas constantes do CETEMPúblico encontram-se disponíveis de lista de palavras, lista de lemas.
Mais informação quantitativa sobre o sobre CETEMPúblico encontra-se na página respectiva do AC/DC, Corpus CETEMPúblico, que é actualizada sempre que há novas versões do corpus ou dos
programas de processamento dos corpora.
O CETEMPúblico contém exclusivamente texto em português europeu?
A esmagadora maioria do texto do CETEMPúblico está em português europeu, embora
haja alguns textos de autores brasileiros e africanos.
O CETEMPúblico inclui a totalidade do texto do PÚBLICO?
Não. Por um lado, faltam várias edições, e várias secções do jornal foram excluídas, por terem sido consideradas de pouco
interesse para os objectivos do corpus. Essas secções incluem as citações de
outros jornais ("Diz-se"), a secção "O PÚBLICO errou", e tabelas desportivos
(classificações, rankings, e resultados).Por outro lado, o CETEMPúblico
inclui inúmeros artigos que não foram publicados no jornal por falta de espaço
ou oportunidade.
Nomeadamente devido à falta de um certo número de edições, existe
uma distribuição desigual dos textos por ano e por semestre.
Os caracteres utilizados reflectem exactamente o uso do jornal?
Em alguns casos, e por questões associadas a diferentes codificações de caracteres, utilizámos formas alternativas:
- O travessão encontra-se no corpus como "--"
- Não distinguimos entre tipos de aspas, todas as aspas se encontram codificadas como « ou »
- O caracter "oe ligature" (œ) é rendido pelas duas letras O e E em
sequência
- Os caracteres &, < e > foram mantidos, excepto na versão a distribuir pelo LDC em que foram traduzidos para a entidade SGML correspondente: &, < e >.
Qual a relação entre o CETEMPúblico e o CETENFolha?
Tentámos, com o CETENFolha, criar um corpus tão paralelo quanto possível ao CETEMPúblico, cada qual na sua variante da língua portuguesa. O
CETENFolha, sendo posterior, beneficiou da experiência obtida previamente, sendo assim evitados alguns dos erros ocorridos aquando da criação do CETEMPúblico.
Qual a relação entre o CETEMPúblico e a colecção CHAVE?
Cerca de metade da colecção CHAVE é composta essencialmente pelos mesmos textos que foram usados para a criação do CETEMPúblico, mas limitados aos anos de 1994 e 1995 (a
outra metade é composta de textos do jornal brasileiro Folha de São Paulo).
Onde posso obter mais informação sobre o CETEMPúblico?
Consulte os artigos, aqui disponíveis em formato electrónico:
- Rocha & Santos (2000): Paulo Rocha & Diana Santos. "CETEMPúblico: Um corpus de grandes dimensões de linguagem jornalística portuguesa", in Maria das Graças Volpe Nunes (ed.), Actas do V Encontro para o processamento computacional da língua portuguesa escrita e falada (PROPOR'2000) (Atibaia, São Paulo, Brasil, 19 a 22 de Novembro de 2000), pp. 131-140, pdf
- Santos & Rocha (2001): Diana Santos & Paulo Rocha. "Evaluating CETEMPúblico, a free resource for Portuguese", in Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics (Toulouse, 9-11 July 2001), pp.442-449, pdf
Como devo citar o CETEMPúblico?
Se usar o CETEMPúblico agradecemos que indique, pelo menos, uma das seguintes referências mencionadas acima, além do URL http:www.linguateca.pt/CETEMPublico/.
Informação e estrutura do CETEMPúblico
Qual a estrutura do corpus?
O corpus está dividido em extractos
Foram usadas as seguintes etiquetas:
- <ext>
- extracto (normalmente
dois parágrafos)
- <p>
- parágrafo
- <s>
- frase (<s frag>
é um fragmento)
- <t>
- título
- <a>
- autor de um texto
- <li>
- elemento de uma lista
Uma etiqueta <p> inclui uma ou várias etiquetas <s>.
Que informação está associada a cada extracto?
Um exemplo de cabeçalho de extracto é o seguinte:
- <ext n=1150929 sec=soc sem=95a>
Os atributos significam
- n
- o número de ordem do extracto no corpus
- sec
- a classificação do texto,
inspirada nas
classificações do CETEMPúblico; os valores
possíveis são: pol (política portuguesa e
internacional), des (desporto), eco (economia),
clt (cultura), opi (opinião), com
(informática) e
nd (não determinado). Alguns artigos pertencem a mais de
uma categoria (clt-soc).
As versões anteriores à 1.3 usam também o valor pol-soc (política e sociedade), que foi alterado nas versões posteriores para pol.
- sem
- o semestre, representado por dois dígitos indicando o ano, e uma letra (a ou b indicando se se trata do primeiro ou segundo semestre desse ano (os valores possíveis
vão de
91a a 98b, respectivamente o primeiro semestre de 1991 e o segundo semestre de 1998).
Exemplos de uso do corpora utilizando estes atributos podem ser encontrados na nossa página de exemplos.
Há alguma especificação sistemática da estrutura do corpus?
Fornecemos aqui uma pequena especificação em BNF, com terminais em carregado (negrito):
corpus = extracto+
extracto = id_extracto conteúdo_extracto </ext>
contéudo_extracto = parágrafo+
parágrafo = título | identif_autor | <p> frase+ </p> | elemento_lista
título = <t> token+ </t>
identif_autor = <a> token+ </a>
elemento_lista = <li> token+ </li>
frase = ( <s> | <s frag> ) token+ </s>
token = <marca num= X > | palavra | sinal_pontuação | identificador
X = ( *+ ) | *+
id_extracto = <ext n=número sec=id_sec sem=semestre >
número = [0-9]+
id_sec= soc | pol | clt | des | opi | eco | com | clt-soc | pol-soc | nd
semestre = 91a | 91b | 92a | 92b | 93a | 93b | 94a | 94b | 95a | 95b | 96a | 96b |97a | 97b | 98a | 98b
Notas:
- Na definição de X, tanto os parênteses como o asterisco são símbolos terminais.
- número é único e varia entre 1 e 1567625.
- palavra, sinal_pontuação e identificador assumem-se identificáveis por um analisador lexical do português.
Uma alternativa de definição da estrutura do corpus é dada pela seguinte DTD de SGML.
O CETEMPúblico encontra-se anotado?
Sim, além da informação descrita na secção anterior, a cada palavra ou átomo (unidade) do corpus encontra-se associada informação gramatical, anotada automaticamente pelo analisador sintáctico PALAVRAS, desenvolvido por Eckhard Bick.
Que informação está associada ao CETEMPúblico anotado?
Mais informação sobre os corpora
anotados e os métodos de pesquisa nesses corpora usando informação
gramatical pode ser encontrada nas páginas do projecto AC/DC.
Infelizmente, este serviço sofre de falta de eficiência devido ao tamanho do corpus, o que conduz frequentemente a um resultado nulo por excesso de tempo de processamento ("timeout"). Enquanto não resolvemos este problema, sugerimos que os utilizadores usem o comando cut para diminuir o número de resultados: Por exemplo, [word="como" & pos="V.*"] cut 100; ) apresenta apenas os 100 primeiros casos.
Que versão do PALAVRAS foi utilizada para anotar o CETEMPúblico anotado?
A última vez que o CETEMPúblico foi anotado pelo PALAVRAS foi em 2006.
Que mais informação existe sobre o CETEMPúblico anotado?
A anotação do CETEMPúblico não difere da dos outros corpora, cuja informação se encontra reunida a partir da página principal do serviço AC/DC.
Veja também Usos de corpora para algumas dicas de utilização do corpus não anotado.
Problemas conhecidos
Todo o material incluído no CETEMPúblico tem um formato válido?
Não.
Infelizmente, devido ao grande volume do corpus (que torna impraticável a sua
revisão manual), e ao facto de os ficheiros oriundos do jornal incluírem
material em vários formatos diferentes, tais como imagens e outras categorias
não legíveis, não nos foi possível, apesar de termos implementado vários
filtros, assegurar que todo o conteúdo do corpus é texto limpo.
Podemos no entanto garantir que a partir da versão 1.7 o corpus tem um formato SGML válido.
Embora esperemos que extractos com material não textual
representem uma parte diminuta do corpus (especialmente nas suas
versões corrigidas), prevenimos desde já os utilizadores
da sua existência.
Conhecem-se outros problemas com o CETEMPúblico?
- Existem alguns artigos (e consequentemente extractos) repetidos. Embora se tenha tentado, na versão 1.2, eliminar extractos duplicados (mantendo apenas o primeiro extracto), há casos de artigos ligeiramente diferentes, que presumimos sejam diferentes versões do mesmo artigo; aconselhamos a visualização do exemplo de extractos semelhantes.
- Parágrafos identificados como títulos ou autores são sempre anexados ao parágafo anterior. Como os artigos originais foram divididos em grupos de dois parágafos, e alguns artigos incluem várias notícias (as 'Breves'), isto significa que alguns (sub)títulos foram separados da notícia a que se referem. Aconselhamos a visualização de um caso de separação incorrecta de título.
- Um total de 212 extractos contêm o caracter correspondente ao final de ficheiro em MS-DOS (^Z, caracter decimal 26, hexadecimal 1A), pelo que os patches anteriores ao patch 1.0.3 não funcionam correctamente em Windows. Lista desses extractos
- Segundo opinião redactorial do PÚBLICO, todos os extractos marcados com pol-soc deveriam estar marcadas com apenas com pol, ou seja, referem-se simplesmente a política (este problema foi corrigido na versão 1.2).
Conhecem-se problemas na anotação?
Estamos conscientes de que há problemas com os clíticos na versão actual.
Melhorias introduzidas ao longo do tempo
Como podemos manter-nos actualizados em relação às modificações do CETEMPúblico?
À medida que formos tendo conhecimento de problemas com o corpus, tentaremos disponibilizar a partir desta página pequenos programas para os corrigir, assim como actualizar a versão acessível através da rede.
De qualquer maneira, todos os utilizadores que tenham obtido o corpus através do nosso projecto são automaticamente adicionados à lista do cetempublico. No caso de o ter obtido por outros meios (por exemplo através do LDC), basta enviar-nos uma mensagem pedindo para pertencer à lista.
Os utilizadores da versão 1.0 do corpus em formato texto podem obter o patch 1.0.7 (483kB) em Perl (veja o historial das versões). As ultimas versões de Perl (quer para Linux quer para Windows) estão disponíveis em http://www.perl.com.
Agradecemos que os utilizadores que desenvolvam correcções semelhantes noutras linguagens de programação nos enviem uma cópia para redistribuição.
Como executar o patch?
É indespensável ter Perl instalado no seu computador. Execute
perl patch_cetempublico_1.0.7.pl ficheiro_original > ficheiro_corrigido
para cada um dos ficheiros distribuídos no CD.
Este comando é válido quer para Linux quer para Windows (neste caso, deve ser executado numa janela de MS-DOS).
Historial das versões
Versão 1.7 (18 de Setembro de 2001)
A versão 1.7 pretende que todo o corpus tenha um formato SGML válido. Assim, esta versão
- elimina 3 extractos com conteúdo inválido (lista)
- elimina vários caracteres inválidos
- substitui & por &, > por > e < por <
- substitui o caracter decimal 127 (hexadecimal 7F) por hífen
- modifica a anotação <s frag> por <s tipo=frag>
- marca com a etiqueta <s> um pequeno número de frases que não tinham nenhuma etiqueta nas versões anterior do corpus
- corrige quatro cabeçalhos de extracto cujo atributo sec correspondia a uma secção inexistente
- substitui as combinações >> por "»" e << por "«"
Um patch (patch_cetempublico_1.0.7.pl) que transforma a versão 1.0 (ou 1.1, 1.2, 1.4, 1.6) do CETEMPúblico na versão 1.7 foi disponibilizado a 18 de Setembro de 2001.
Versão 1.6 (23 de Julho de 2001)
A versão 1.6 elimina cerca de 7000 extractos muito pequenos, com menos de 100 caracteres (lista).
Um patch (patch_cetempublico1.0.6.pl) que transforma a versão 1.0 (ou 1.1, 1.2, 1.4) do CETEMPúblico na versão 1.6 foi disponibilizado a 23 de Julho de 2001.
Versão 1.5 (25 de Maio de 2001)
Esta versão resolve apenas problemas referentes ao acesso através da rede, envoolvendo a determinação das unidades básicas para procura (tokenização) e a identificação de extractos.
Versão 1.4 (21 de Março de 2001)
A versão 1.4 elimina 96 extractos com conteúdo inválido (lista), e corrige algumas atributos incorrectos (<s> em vez de <a>).
Um patch (patch_cetempublico_1.0.4.pl) que transforma as versões anteriores do CETEMPúblico na versão 1.4 foi disponibilizado a 21 de Março de 2001.
Nota: Como a aplicação deste patch à versão 1.3 não corrige um problema ligeiro introduzido nessa versão, sugerimos a aplicação deste patch apenas à versão 1.2 ou anteriores do corpus.
Versão 1.3 (2 de Fevereiro de 2001)
A versão 1.3 apresenta as seguintes melhorias
- Foi corrigido o problema que impedia o funcionamento correcto dos remendos anteriores em Windows (mais informação)
- Foram corrigidas algumas codificações incorrectas ("Ï" foi transformado em "oe"; "Ð" foi tranformado em hífen; e nalguns casos "É" foi transformado em "...")
- Foram eliminados 19 extractos com conteúdo inválido (lista)
Um patch (patch_cetempublico1.0.3.pl) que transforma a versão 1.0 (ou 1.1, 1.2) do CETEMPúblico na versão 1.3 foi disponibilizado a 2 de Fevereiro de 2001.
Versão 1.2 (9 de Janeiro de 2001)
A versão 1.2 apresenta as seguintes melhorias:
- foram eliminados 50.655 extractos iguais a outros extractos existentes no corpus (lista)
- foram retirados 474 extractos relativos a resultados desportivos mal-formatados (lista)
- foram eliminados 26 extractos com conteúdo inválido (lista)
- foi substituida a classificação dos artigos marcados com a secção pol-soc, sendo a nova classificação pol, seguindo os critérios editoriais do Público. Estes artigos representam cerca de 8% do corpus.
Um patch (patch_cetempublico1.0.2b.pl) que transforma a versão 1.0 (ou 1.1) do CETEMPúblico na versão 1.2 foi disponibilizado a 9 de Janeiro de 2001.
Versão 1.1 (28 de Setembro
de 2000)
A versão 1.1 apresenta as seguintes melhorias:
- foram corrigidos os cabeçalhos de 1.089 extractos (lista); estes extractos não foram retirados do corpus
- foram retirados 636 extractos com caracteres inválidos
(lista)
- foram retirados 4.796 extractos que foram considerados como diversos tipos de tabelas (classificações desportivas, médias de acesso ao ensino superior, etc.) (lista)
- foram corrigidas 1.725 paragens de tabulação ('tabs') que
inadvertidamente não tinham sido removidas.
A versão CQP permite pedir a distribuição por classificação e por semestre.
Um patch (patch_cetempublico1.0.0.pl) que transforma a versão 1.0 do CETEMPúblico na versão 1.1 foi criado a 11 de Outubro de 2000. Novo patch -- compatível com versões mais antigas de Perl -- foi instalado a 31 de Outubro de 2000, patch_cetempublico1.0.1.pl.
Versão 1.0 (25 de Julho de 2000)
Versão distribuída em formato texto em CD.
Agradecimentos
- Da parte do PúBLICO, agradecemos a José Vítor Malheiros, responsável pela edição online, sem cuja inestimável ajuda o corpus não existiria, e a Paulo Almeida, pelo apoio técnico.
- Estamos também gratos a Stefan Evert e a Arne Fitschen, da Universidade de Estugarda, pela ajuda com o IMS-CWB.
- Agradecemos a Pedro Veiga o pontapé de saída deste projecto, assim como a reprodução e distribuição por parte da FCCN dos CDs, e a Miguel Andrade o apoio jurídico prestado.
- Agradecemos vivamente também o apoio prestado pelo José João Dias de Almeida na remoção dos duplicados presente no patch 1.0.2 e posteriores.
- Agradecemos a Andrew Cole, do LDC, o apoio à validação SGML da versão 1.7.
- E agradecemos a Eckhard Bick as várias versões anotadas do corpus que ele nos foi criando ao longo dos tempos.
Registo de encomenda do CETEMPúblico
Para receber o corpus em formato texto, basta registar-se através do seguinte formulário.
Última actualização: 25 de fevereiro de 2018.
Perguntas, comentários e sugestões