Acesso a corpos de português: Projecto AC/DC: corpo CETEMPúblico

CETEMPúblico : AC/DC : Linguateca
O CETEMPúblico contém cerca de 190 milhões de palavras extraídas do diário PÚBLICO. Veja-se a página oficial do CETEMPúblico para mais informação.

Estrutura do corpo

Marcadores estruturais: ext [identificador do extracto, com informação sobre secção e semestre], s [frase], t [título ou subtítulo], a [identificação do autor], li [elemento de lista], marca.

Além da palavra, o corpus tem mais dois atributos posicionais, sem [semestre em que o texto foi escrito ou enviado para o jornal]: e sec [classificação da secção a que o texto pertencia]. Veja-se a discussão em Rocha & Santos (2000) sobre a forma da atribuição deste último.

semestretamanhocltclt-soccomdesecondopipolsoc
91a71492176353591820770843279500641278573609766261225499
91b137453091218925207192013670429132015530051020986912410207
92a1481480324256655195550145944014692962019147038065353115165
92b111290152144899426980012637681254558485878026324472920485
93a147656973077753877517014382351629571573268033065183862835
93b1177026321948695645760122028212245051040088024936183032325
94a1489447829332768466700146865715267451427250032025693489311
94b1441232326910858449080155647215226881676620028405393280011
95a16142029268329110549220175500615579651877697029995784213570
95b1521792421559729106940156288813695982006580031801024032090
96a1158312915898820130401384668930279116951661082520772213807698
96b112798011551042001497139766872120460160285918492113808077
97a96165461324919016258127442965349589089660975416011413245654
97b965087513211480236995119935463219290770555501717608633037601
98a12537354141639303781141470310769244170822562848919250584241521
98b870072010150070269169101690654806783289842108316045572993033
Todos 30379485643509191357621777875172689172613615634280273835527452715082

Versão do corpo

Corpus CETEMPúblico anotado: versão 1.7 do texto, criada em 18 de Setembro de 2001, anotada em 2009, versão na rede criada a 14 de Agosto de 2009, v. 5.0

Excerto do corpo


<ext n=1 sec=clt sem=92b>
<t> Um revivalismo refrescante </t>
<p> <s> O 7 e Meio é um ex-libris da noite algarvia .</s> <s> É uma das mais antigas discotecas do Algarve , situada em Albufeira , que continua a manter os traços decorativos e as clientelas de sempre .</s> <s>É um pouco a versão de uma espécie de « outro lado » da noite , a meio caminho entre os devaneios de uma fauna periférica , seja de Lisboa , Londres , Dublin ou Faro e Portimão , e a postura circunspecta dos fiéis da casa , que dela esperam a música « geracionista » dos 60 ou dos 70 .</s> <s>Não deixa de ser , nos tempos que correm , um certo « very typical » algarvio , cabeça de cartaz para os que querem fugir a algumas movimentações nocturnas já a caminho da ritualização de massas , do género « vamos todos ao Calypso e encontramo-nos na Locomia » .</s> </p>
</ext>

Dados quantitativos

Corpo CETEMPUBLICO Número de formasNúmero de tipos
Unidades 232543379912439
Total de palavras 189575095885616
Palavras em minúscula 141541314262087
Palavras com inicial maiúscula22379729296913
Palavras todas em maiúsculas 109638121178
Números 49522110220
Palavras com números8919815487
Palavras mistas17103428068
Pontuação783491826759

Número de unidades estruturais

Atributo Número
p 3052961
s 7210202
ext 1315624
t 454817
a 228259
mwe 3418979
marca 3456

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 9559400 16966464
Locuções 3418979 7199589
Palavras gráficas 175372032 175372032
Palavras simples 151205979 151205979
Palavras 164184358 175372032

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 35978560 23,79%
Verbos V.* 22569371 14,93%
Adjectivos ADJ.* 10726757 7,09%
Pronomes pessoais .*PERS.* 2675830 1,77%
Preposições PRP.* 30880990 20,42%
Conjunções K.* 7429273 4,91%
Advérbios ADV.* 9155395 6,05%
Determinantes .*DET.* 32119618 21,24%
Especificadores .*SPEC.* 2773034 1,83%
Numerais NUM.* 3812872 2,52%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última actualização: 16 de Agosto de 2009
Perguntas, comentários e sugestões