Acesso a corpos de português: Projecto AC/DC: corpo DiaCLAV

DiaCLAV : AC/DC : Linguateca
O corpus DiaCLAV é composto dum total de aproximadamente 6,7 milhões de palavras, retiradas de 12.801 artigos da edições online de diversos jornais diários regionais do centro de Portugal, nomeadamente o Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário. Os artigos correspondem ao período de 13 de Junho de 1999 a 18 de Setembro de 2000, e não representam a totalidade do texto dos jornais nesse período, mas apenas o texto disponibilizado na edição on-line. Os jornais em questão pertencem ao mesmo grupo editorial, o Grupo Editorial Adriano Lucas, pelo que alguns artigos neste corpus contêm textos semelhantes, embora não haja casos de artigos exactamente iguais.

Estrutura do corpo

O corpus contém as etiquetas art (artigo), a (autor), t (titulo), p (parágrafo) e s (frase). Cada parágrafo tem a identificação do jornal e da notícia além do número do parágrafo dentro da notícia. Por exemplo: DA-N0623-1 representa o primeiro parágrafo da notícia N0623 do Diário de Aveiro. O número de identificação da notícia é o o da edição electrónica do jornal.

O atributo posicional fonte, que pode assumir os valores DA, DC, DL ou VD, indica de qual dos jornais do grupo é originário um determinado texto.

Versão do corpo

Corpus DIACLAV, versão texto criada em Abril de 2002, anotado a 7 de julho de 2024, v. 8.1

Excerto do corpo


<art j=DA e=N0106>
<t> PSD propõe mais apoio para cultura popular </t>
<p par=DA-N0106-1>
<s frag> Os deputados aveirenses do PSD querem ver mais apoiadas as colectividades que se dedicam à recolha e promoção da cultura popular portuguesa </s>
</p>
<p par=DA-N0106-2>
<s> As bandas filarmónicas, escolas de música, tunas, fanfarras, ranchos folclóricos e outras agremiações populares que se dediquem à actividade
musical sõ o tema central de uma proposta de projecto de lei que deu, ontem, entrada na Assembleia da República . </s>
<s frag> O documento tem a particularidade de ter sido elaborado e entregue pelos deputados do PSD eleitos pelo círculo de Aveiro, Roque da Cunha,
Manuel de Oliveira e Hermínio Loureiro e Castro de Almeida, inspirados com certeza na profusõ deste tipo de agremiações no seu distrito de origem </s>
</p>

Dados quantitativos

Corpo DIACLAV Número de formasNúmero de tipos
Unidades 7854974111593
Total de palavras 6701348109308
Palavras em minúscula 490950858810
Palavras com inicial maiúscula83691128736
Palavras todas em maiúsculas 463183465
Números 579141292
Palavras com números68951112
Palavras mistas2127845
Pontuação3884082271

Número de unidades estruturais

Atributo Número
p 24439
s 210373
art 12802
t 12391
a 4492
mwe 116093

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 350860 692534
Locuções 116093 246174
Palavras gráficas 6701348 6701348
Palavras simples 5762640 5762640
Palavras 6229593 6701348

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 1346750 23,37%
Verbos V.* 864728 15,01%
Adjectivos ADJ.* 351121 6,09%
Pronomes pessoais .*PERS.* 82727 1,44%
Preposições PRP.* 1169054 20,29%
Conjunções K.* 269998 4,69%
Advérbios ADV.* 308638 5,36%
Determinantes .*DET.* 1173640 20,37%
Especificadores .*SPEC.* 126226 2,19%
Numerais NUM.* 128532 2,23%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 13 de Julho de 2024
Perguntas, comentários e sugestões