Acesso a corpos de português: Projecto AC/DC: corpo DiaCLAV

DiaCLAV : AC/DC : Linguateca
O corpus DiaCLAV é composto dum total de aproximadamente 6,7 milhões de palavras, retiradas de 12.801 artigos da edições online de diversos jornais diários regionais do centro de Portugal, nomeadamente o Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário. Os artigos correspondem ao período de 13 de Junho de 1999 a 18 de Setembro de 2000, e não representam a totalidade do texto dos jornais nesse período, mas apenas o texto disponibilizado na edição on-line. Os jornais em questão pertencem ao mesmo grupo editorial, o Grupo Editorial Adriano Lucas, pelo que alguns artigos neste corpus contêm textos semelhantes, embora não haja casos de artigos exactamente iguais.

Estrutura do corpo

O corpus contém as etiquetas art (artigo), a (autor), t (titulo), p (parágrafo) e s (frase). Cada parágrafo tem a identificação do jornal e da notícia além do número do parágrafo dentro da notícia. Por exemplo: DA-N0623-1 representa o primeiro parágrafo da notícia N0623 do Diário de Aveiro. O número de identificação da notícia é o o da edição electrónica do jornal.

O atributo posicional fonte, que pode assumir os valores DA, DC, DL ou VD, indica de qual dos jornais do grupo é originário um determinado texto.

Versão do corpo

Corpus DIACLAV, versão texto criada em Abril de 2002, anotado a 4 de outubro de 2025, v. 8.3

Excerto do corpo


<art j=DA e=N0106>
<t> PSD propõe mais apoio para cultura popular </t>
<p par=DA-N0106-1>
<s frag> Os deputados aveirenses do PSD querem ver mais apoiadas as colectividades que se dedicam à recolha e promoção da cultura popular portuguesa </s>
</p>
<p par=DA-N0106-2>
<s> As bandas filarmónicas, escolas de música, tunas, fanfarras, ranchos folclóricos e outras agremiações populares que se dediquem à actividade
musical sõ o tema central de uma proposta de projecto de lei que deu, ontem, entrada na Assembleia da República . </s>
<s frag> O documento tem a particularidade de ter sido elaborado e entregue pelos deputados do PSD eleitos pelo círculo de Aveiro, Roque da Cunha,
Manuel de Oliveira e Hermínio Loureiro e Castro de Almeida, inspirados com certeza na profusõ deste tipo de agremiações no seu distrito de origem </s>
</p>

Dados quantitativos

Corpo DIACLAV Número de formasNúmero de tipos
Unidades 7849857111619
Total de palavras 6710948111597
Palavras em minúscula 491013558832
Palavras com inicial maiúscula83699528739
Palavras todas em maiúsculas 463193466
Números 602822176
Palavras com números68951112
Palavras mistas2128846
Pontuação3664538

Número de unidades estruturais

Atributo Número
p 24439
s 210373
art 12802
t 12393
a 4492
mwe 119712

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 350873 692540
Locuções 119712 253418
Palavras gráficas 6710948 6710948
Palavras simples 5764990 5764990
Palavras 6235575 6710948

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 1347083 23,37%
Verbos V.* 864913 15,00%
Adjectivos ADJ.* 351121 6,09%
Pronomes pessoais .*PERS.* 82728 1,44%
Preposições PRP.* 1166875 20,24%
Conjunções K.* 269998 4,68%
Advérbios ADV.* 308638 5,35%
Determinantes .*DET.* 1180965 20,49%
Especificadores .*SPEC.* 119021 2,06%
Numerais NUM.* 128532 2,23%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 04 de Outubro de 2025
Perguntas, comentários e sugestões