Acesso a corpos de português: Projecto AC/DC: corpo CETEMPúblico

CETEMPúblico : AC/DC : Linguateca
O CETEMPúblico contém cerca de 190 milhões de palavras extraídas do diário PÚBLICO. Veja-se a página oficial do CETEMPúblico para mais informação.

Estrutura do corpo

Marcadores estruturais: ext [identificador do extracto, com informação sobre secção e semestre], s [frase], t [título ou subtítulo], a [identificação do autor], li [elemento de lista], marca.

Além da palavra, o corpus tem mais dois atributos posicionais, sem [semestre em que o texto foi escrito ou enviado para o jornal]: e sec [classificação da secção a que o texto pertencia]. Veja-se a discussão em Rocha & Santos (2000) sobre a forma da atribuição deste último.

semestretamanhocltclt-soccomdesecondopipolsoc
91a740016165111118737308791225217772888802010071841264792
91b142130331250551214970014290229473675734808021552292481086
92a1529749325024205335960151904415266742093867039195543202338
92b114949142214687438924013176261301900508232027050843008461
93a152155583161052900788014905951686760598533034056663972164
93b1213839622546305830890127027312696161076943025662033117642
94a1534635130174298700080151761615826141469611032946663594407
94b1483646027662328715060160771515805521726811029124893371155
95a16612990275606510851600181590316183801927961030784354331086
95b1565463022142819358060161619614260662061149032601284141004
96a1192213016314020132711428357968680120586462529221334303915834
96b116160131596136001547010796462124149461806819008293916014
97a98948921361007016990132038867545892120862149916410063337336
97b993295113549720243436123903765706593978856652118074543124678
98a12895951145342403877221522971797058176128364371419740994355680
98b894576910436830277366105024456958285684742937216437183074957
Todos 31229082662122093878522571119179260112701320135044663940517454208634

Versão do corpo

Corpus CETEMPúblico anotado: versão 1.7 do texto, criada a 18 de setembro de 2001, anotada em janeiro de 2019, v. 10.1

Excerto do corpo


<ext n=1 sec=clt sem=92b>
<t> Um revivalismo refrescante </t>
<p> <s> O 7 e Meio é um ex-libris da noite algarvia .</s> <s> É uma das mais antigas discotecas do Algarve , situada em Albufeira , que continua a manter os traços decorativos e as clientelas de sempre .</s> <s>É um pouco a versão de uma espécie de « outro lado » da noite , a meio caminho entre os devaneios de uma fauna periférica , seja de Lisboa , Londres , Dublin ou Faro e Portimão , e a postura circunspecta dos fiéis da casa , que dela esperam a música « geracionista » dos 60 ou dos 70 .</s> <s>Não deixa de ser , nos tempos que correm , um certo « very typical » algarvio , cabeça de cartaz para os que querem fugir a algumas movimentações nocturnas já a caminho da ritualização de massas , do género « vamos todos ao Calypso e encontramo-nos na Locomia » .</s> </p>
</ext>

Dados quantitativos

Corpo CETEMPUBLICO Número de formasNúmero de tipos
Unidades 255994700974632
Total de palavras 208082833941070
Palavras em minúscula 157242482271761
Palavras com inicial maiúscula25425075306586
Palavras todas em maiúsculas 145453030096
Números 199817310432
Palavras com números25778814172
Palavras mistas14824837037
Pontuação1392275231114

Número de unidades estruturais

Atributo Número
p 2805785
s 7669475
ext 1640920
t 714692
a 270026
mwe 3708980
marca 3963

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 11933850 10026
Locuções 3708980 7909516
Palavras gráficas 208082833 208082833
Palavras simples 200163291 200163291
Palavras 215806121 208082833

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 42265402 21,12%
Verbos V.* 26808650 13,39%
Adjectivos ADJ.* 12680828 6,34%
Pronomes pessoais .*PERS.* 3133666 1,57%
Preposições PRP.* 37210144 18,59%
Conjunções K.* 8429927 4,21%
Advérbios ADV.* 10373680 5,18%
Determinantes .*DET.* 37851462 18,91%
Especificadores .*SPEC.* 3967973 1,98%
Numerais NUM.* 4753252 2,37%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 13 de Janeiro de 2019
Perguntas, comentários e sugestões