Acesso a corpos de português: Projecto AC/DC: corpo DiaCLAV

DiaCLAV : AC/DC : Linguateca
O corpus DiaCLAV é composto dum total de aproximadamente 6,7 milhões de palavras, retiradas de 12.801 artigos da edições online de diversos jornais diários regionais do centro de Portugal, nomeadamente o Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário. Os artigos correspondem ao período de 13 de Junho de 1999 a 18 de Setembro de 2000, e não representam a totalidade do texto dos jornais nesse período, mas apenas o texto disponibilizado na edição on-line. Os jornais em questão pertencem ao mesmo grupo editorial, o Grupo Editorial Adriano Lucas, pelo que alguns artigos neste corpus contêm textos semelhantes, embora não haja casos de artigos exactamente iguais.

Estrutura do corpo

O corpus contém as etiquetas art (artigo), a (autor), t (titulo), p (parágrafo) e s (frase). Cada parágrafo tem a identificação do jornal e da notícia além do número do parágrafo dentro da notícia. Por exemplo: DA-N0623-1 representa o primeiro parágrafo da notícia N0623 do Diário de Aveiro. O número de identificação da notícia é o o da edição electrónica do jornal.

O atributo posicional fonte, que pode assumir os valores DA, DC, DL ou VD, indica de qual dos jornais do grupo é originário um determinado texto.

Versão do corpo

Corpus DIACLAV, versão texto criada em Abril de 2002, anotado a 1 de agosto de 2022, v. 6.5

Excerto do corpo


<art j=DA e=N0106>
<t> PSD propõe mais apoio para cultura popular </t>
<p par=DA-N0106-1>
<s frag> Os deputados aveirenses do PSD querem ver mais apoiadas as colectividades que se dedicam à recolha e promoção da cultura popular portuguesa </s>
</p>
<p par=DA-N0106-2>
<s> As bandas filarmónicas, escolas de música, tunas, fanfarras, ranchos folclóricos e outras agremiações populares que se dediquem à actividade
musical sõ o tema central de uma proposta de projecto de lei que deu, ontem, entrada na Assembleia da República . </s>
<s frag> O documento tem a particularidade de ter sido elaborado e entregue pelos deputados do PSD eleitos pelo círculo de Aveiro, Roque da Cunha,
Manuel de Oliveira e Hermínio Loureiro e Castro de Almeida, inspirados com certeza na profusõ deste tipo de agremiações no seu distrito de origem </s>
</p>

Dados quantitativos

Corpo DIACLAV Número de formasNúmero de tipos
Unidades 7709828111502
Total de palavras 6568833109199
Palavras em minúscula 492384658741
Palavras com inicial maiúscula84120728630
Palavras todas em maiúsculas 474003561
Números 580391287
Palavras com números69241122
Palavras mistas2150848
Pontuação3892372275

Número de unidades estruturais

Atributo Número
p 24489
s 210958
art 9165
t 9165
a 5695
mwe 116383

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 358742 703150
Locuções 116383 246973
Palavras gráficas 6568833 6568833
Palavras simples 5618710 5618710
Palavras 6093835 6568833

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 1340566 23,86%
Verbos V.* 866352 15,42%
Adjectivos ADJ.* 354444 6,31%
Pronomes pessoais .*PERS.* 82852 1,47%
Preposições PRP.* 1168109 20,79%
Conjunções K.* 270941 4,82%
Advérbios ADV.* 317548 5,65%
Determinantes .*DET.* 1176094 20,93%
Especificadores .*SPEC.* 127224 2,26%
Numerais NUM.* 130740 2,33%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 10 de Agosto de 2022
Perguntas, comentários e sugestões