Acesso a corpos de português: Projecto AC/DC: corpo CETEMPúblico

CETEMPúblico : AC/DC : Linguateca
O CETEMPúblico contém cerca de 190 milhões de palavras extraídas do diário PÚBLICO. Veja-se a página oficial do CETEMPúblico para mais informação.

Estrutura do corpo

Marcadores estruturais: ext [identificador do extracto, com informação sobre secção e semestre], s [frase], t [título ou subtítulo], a [identificação do autor], li [elemento de lista], marca.

Além da palavra, o corpus tem mais dois atributos posicionais, sem [semestre em que o texto foi escrito ou enviado para o jornal]: e sec [classificação da secção a que o texto pertencia]. Veja-se a discussão em Rocha & Santos (2000) sobre a forma da atribuição deste último.

semestretamanhocltclt-soccomdesecondopipolsoc
91a740016165111118737308791225217772888802010071841264792
91b142130331250551214970014290229473675734808021552292481086
92a1529749325024205335960151904415266742093867039195543202338
92b114949142214687438924013176261301900508232027050843008461
93a152155583161052900788014905951686760598533034056663972164
93b1213839622546305830890127027312696161076943025662033117642
94a1534635130174298700080151761615826141469611032946663594407
94b1483646027662328715060160771515805521726811029124893371155
95a16612990275606510851600181590316183801927961030784354331086
95b1565463022142819358060161619614260662061149032601284141004
96a1192213016314020132711428357968680120586462529221334303915834
96b116160131596136001547010796462124149461806819008293916014
97a98948921361007016990132038867545892120862149916410063337336
97b993295113549720243436123903765706593978856652118074543124678
98a12895951145342403877221522971797058176128364371419740994355680
98b894576910436830277366105024456958285684742937216437183074957
Todos 31229082662122093878522571119179260112701320135044663940517454208634

Versão do corpo

Corpus CETEMPúblico anotado: versão 1.7 do texto, criada a 18 de setembro de 2001, anotada em abril de 2018, v. 9.1

Excerto do corpo


<ext n=1 sec=clt sem=92b>
<t> Um revivalismo refrescante </t>
<p> <s> O 7 e Meio é um ex-libris da noite algarvia .</s> <s> É uma das mais antigas discotecas do Algarve , situada em Albufeira , que continua a manter os traços decorativos e as clientelas de sempre .</s> <s>É um pouco a versão de uma espécie de « outro lado » da noite , a meio caminho entre os devaneios de uma fauna periférica , seja de Lisboa , Londres , Dublin ou Faro e Portimão , e a postura circunspecta dos fiéis da casa , que dela esperam a música « geracionista » dos 60 ou dos 70 .</s> <s>Não deixa de ser , nos tempos que correm , um certo « very typical » algarvio , cabeça de cartaz para os que querem fugir a algumas movimentações nocturnas já a caminho da ritualização de massas , do género « vamos todos ao Calypso e encontramo-nos na Locomia » .</s> </p>
</ext>

Dados quantitativos

Corpo CETEMPUBLICO Número de formasNúmero de tipos
Unidades 235220800965919
Total de palavras 190683676933721
Palavras em minúscula 143850299269573
Palavras com inicial maiúscula23953816309168
Palavras todas em maiúsculas 111982322095
Números 182819710643
Palavras com números25472616179
Palavras mistas11735529371
Pontuação1273401630142

Número de unidades estruturais

Atributo Número
p 2571709
s 7078619
ext 1503496
t 653104
a 247330
mwe 3724567
marca 3829

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 11724282 19566849
Locuções 3724567 7907034
Palavras gráficas 190683676 190683676
Palavras simples 163209793 163209793
Palavras 178658642 190683676

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 38078042 23,33%
Verbos V.* 24499651 15,01%
Adjectivos ADJ.* 11560915 7,08%
Pronomes pessoais .*PERS.* 2875328 1,76%
Preposições PRP.* 33848751 20,74%
Conjunções K.* 7765576 4,76%
Advérbios ADV.* 9571968 5,86%
Determinantes .*DET.* 34792229 21,32%
Especificadores .*SPEC.* 3357951 2,06%
Numerais NUM.* 4510134 2,76%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 04 de Abril de 2018
Perguntas, comentários e sugestões