Acesso a corpos de português: Projecto AC/DC: corpo CETEMPúblico

CETEMPúblico : AC/DC : Linguateca
O CETEMPúblico contém cerca de 190 milhões de palavras extraídas do diário PÚBLICO. Veja-se a página oficial do CETEMPúblico para mais informação.

Estrutura do corpo

Marcadores estruturais: ext [identificador do extracto, com informação sobre secção e semestre], s [frase], t [título ou subtítulo], a [identificação do autor], li [elemento de lista], marca.

Além da palavra, o corpus tem mais dois atributos posicionais, sem [semestre em que o texto foi escrito ou enviado para o jornal]: e sec [classificação da secção a que o texto pertencia]. Veja-se a discussão em Rocha & Santos (2000) sobre a forma da atribuição deste último.

semestretamanhocltclt-soccomdesecondopipolsoc
91a788660369359319690209389945544793085214010717801345641
91b1519275313408242318360152898310114696131340023010462647255
92a1634826826732425719600162930116304442235740041844563423125
92b122612852361819467620013988601393465545759028950243198738
93a162480243376560956726015946431797613639411036436344239437
93b1295494324024696233770135209113515591151885027350063338556
94a1641955532270229326280162206016955461573158035282603840881
94b1586300429563939288380172326116877191853105031111013602587
95a17771895295508211605310195142917308702051920032991354622928
95b16710434236765110026600172270615210402200797034776584417922
96a12726373173569901392315285701032941128886266585522745104186013
96b124284521713465001651662846772132735266612020327494190332
97a105654821450540018463141491972135898661966612517452663562192
97b10614785144753702636681321656701988100274360735919358693333965
98a13778651155318604135441631575850610187297769004321108064655910
98b955407611129540290884111616560739591616246237117553293292816
Todos 333680367073078100048224126875191352682886304437578734210162957898298

Versão do corpo

Corpus CETEMPúblico anotado: versão 2.0 do texto, criada a 12 de dezembro de 2023, anotada a 7 de julho de 2024, v. 12.4

Excerto do corpo


<ext n=1 sec=clt sem=92b>
<t> Um revivalismo refrescante </t>
<p> <s> O 7 e Meio é um ex-libris da noite algarvia .</s> <s> É uma das mais antigas discotecas do Algarve , situada em Albufeira , que continua a manter os traços decorativos e as clientelas de sempre .</s> <s>É um pouco a versão de uma espécie de « outro lado » da noite , a meio caminho entre os devaneios de uma fauna periférica , seja de Lisboa , Londres , Dublin ou Faro e Portimão , e a postura circunspecta dos fiéis da casa , que dela esperam a música « geracionista » dos 60 ou dos 70 .</s> <s>Não deixa de ser , nos tempos que correm , um certo « very typical » algarvio , cabeça de cartaz para os que querem fugir a algumas movimentações nocturnas já a caminho da ritualização de massas , do género « vamos todos ao Calypso e encontramo-nos na Locomia » .</s> </p>
</ext>

Dados quantitativos

Corpo CETEMPUBLICO Número de formasNúmero de tipos
Unidades 239113359982037
Total de palavras 195231421950002
Palavras em minúscula 143657392272522
Palavras com inicial maiúscula23531016308922
Palavras todas em maiúsculas 143395232496
Números 182232410514
Palavras com números23758914374
Palavras mistas13154340307
Pontuação1285863130928

Número de unidades estruturais

Atributo Número
p 2567974
s 7017219
ext 1500650
t 630946
a 228845
mwe 3379657
marca 3808

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 10406525 18410429
Locuções 3379657 7198445
Palavras gráficas 195231421 195231421
Palavras simples 169622547 169622547
Palavras 183408729 195231421

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 39233114 23,13%
Verbos V.* 24571823 14,49%
Adjectivos ADJ.* 11530430 6,80%
Pronomes pessoais .*PERS.* 2870079 1,69%
Preposições PRP.* 34255424 20,20%
Conjunções K.* 7658103 4,51%
Advérbios ADV.* 9205190 5,43%
Determinantes .*DET.* 34632744 20,42%
Especificadores .*SPEC.* 3644771 2,15%
Numerais NUM.* 4169230 2,46%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 12 de Julho de 2024
Perguntas, comentários e sugestões