Estrutura do corpo
Marcadores estruturais:
ext [identificador do extracto, com informação sobre secção e semestre],
s [frase],
t [título ou subtítulo],
a [identificação do autor],
li [elemento de lista],
marca.
Além da palavra, o corpus tem mais dois atributos posicionais, sem [semestre em que o texto foi escrito ou enviado para o jornal]:
e sec [classificação da secção a que o texto pertencia]. Veja-se a discussão em
Rocha &
Santos (2000) sobre a forma da atribuição deste último.
| semestre | tamanho | clt | clt-soc | com | des | eco | nd | opi | pol | soc
| | 91a | 7149217 | 635359 | 182077 | 0 | 843279 | 500641 | 2785736 | 0 | 976626 | 1225499
| | 91b | 13745309 | 1218925 | 207192 | 0 | 1367042 | 913201 | 5530051 | 0 | 2098691 | 2410207
| | 92a | 14814803 | 2425665 | 519555 | 0 | 1459440 | 1469296 | 2019147 | 0 | 3806535 | 3115165
| | 92b | 11129015 | 2144899 | 426980 | 0 | 1263768 | 1254558 | 485878 | 0 | 2632447 | 2920485
| | 93a | 14765697 | 3077753 | 877517 | 0 | 1438235 | 1629571 | 573268 | 0 | 3306518 | 3862835
| | 93b | 11770263 | 2194869 | 564576 | 0 | 1220282 | 1224505 | 1040088 | 0 | 2493618 | 3032325
| | 94a | 14894478 | 2933276 | 846670 | 0 | 1468657 | 1526745 | 1427250 | 0 | 3202569 | 3489311
| | 94b | 14412323 | 2691085 | 844908 | 0 | 1556472 | 1522688 | 1676620 | 0 | 2840539 | 3280011
| | 95a | 16142029 | 2683291 | 1054922 | 0 | 1755006 | 1557965 | 1877697 | 0 | 2999578 | 4213570
| | 95b | 15217924 | 2155972 | 910694 | 0 | 1562888 | 1369598 | 2006580 | 0 | 3180102 | 4032090
| | 96a | 11583129 | 1589882 | 0 | 13040 | 1384668 | 930279 | 1169516 | 610825 | 2077221 | 3807698
| | 96b | 11279801 | 1551042 | 0 | 0 | 1497139 | 766872 | 1204601 | 602859 | 1849211 | 3808077
| | 97a | 9616546 | 1324919 | 0 | 16258 | 1274429 | 653495 | 890896 | 609754 | 1601141 | 3245654
| | 97b | 9650875 | 1321148 | 0 | 236995 | 1199354 | 632192 | 907705 | 555017 | 1760863 | 3037601
| | 98a | 12537354 | 1416393 | 0 | 378114 | 1470310 | 769244 | 1708225 | 628489 | 1925058 | 4241521
| | 98b | 8700720 | 1015007 | 0 | 269169 | 1016906 | 548067 | 832898 | 421083 | 1604557 | 2993033
| | Todos |
| 30379485 | 6435091 | 913576 | 21777875 | 17268917 | 26136156 | 3428027 | 38355274 | 52715082
|
Versão do corpo
Corpus CETEMPúblico anotado: versão 1.7 do texto, criada em 18 de Setembro de 2001, anotada em 2009, versão na rede criada a 14 de Agosto de 2009, v. 5.0
Excerto do corpo
<ext n=1 sec=clt sem=92b> <t> Um revivalismo refrescante </t> <p> <s> O 7 e Meio é um ex-libris da noite algarvia .</s> <s> É uma das mais antigas discotecas do Algarve , situada em Albufeira , que continua a manter os traços decorativos e as clientelas de sempre .</s> <s>É um pouco a versão de uma espécie de « outro lado » da noite , a meio caminho entre os devaneios de uma fauna periférica , seja de Lisboa , Londres , Dublin ou Faro e Portimão , e a postura circunspecta dos fiéis da casa , que dela esperam a música « geracionista » dos 60 ou dos 70 .</s> <s>Não deixa de ser , nos tempos que correm , um certo « very typical » algarvio , cabeça de cartaz para os que querem fugir a algumas movimentações nocturnas já a caminho da ritualização de massas , do género « vamos todos ao Calypso e encontramo-nos na Locomia » .</s> </p> </ext>
Dados quantitativos
| Corpo CETEMPUBLICO
| Número de formas | Número de tipos |
| Unidades | 232543379 | 912439 |
| Total de palavras | 189575095 | 885616 |
| Palavras em minúscula | 141541314 | 262087 |
| Palavras com inicial maiúscula | 22379729 | 296913 |
| Palavras todas em maiúsculas | 1096381 | 21178 |
| Números | 495221 | 10220 |
| Palavras com números | 89198 | 15487 |
| Palavras mistas | 171034 | 28068 |
| Pontuação | 7834918 | 26759 |
Número de unidades estruturais
| Atributo | Número |
| p | 3052961 |
| s | 7210202 |
| ext | 1315624 |
| t | 454817 |
| a | 228259 |
| mwe | 3418979 |
| marca | 3456 |
Contabilização de multipalavras
| Número de entidades | Número de unidades |
| Nomes próprios | 9559400 | 16966464 |
| Locuções | 3418979 | 7199589 |
| Palavras gráficas | 175372032 | 175372032 |
| Palavras simples | 151205979 | 151205979 |
| Palavras | 164184358 | 175372032 |
Distribuição por categoria gramatical
| Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
| Substantivos | N|N[^U].* | 35978560 | 23,79% |
| Verbos | V.* | 22569371 | 14,93% |
| Adjectivos | ADJ.* | 10726757 | 7,09% |
| Pronomes pessoais | .*PERS.* | 2675830 | 1,77% |
| Preposições | PRP.* | 30880990 | 20,42% |
| Conjunções | K.* | 7429273 | 4,91% |
| Advérbios | ADV.* | 9155395 | 6,05% |
| Determinantes | .*DET.* | 32119618 | 21,24% |
| Especificadores | .*SPEC.* | 2773034 | 1,83% |
| Numerais | NUM.* | 3812872 | 2,52% |
Para informação sobre como foram obtidos este valores, consulte esta página
|