Acesso a corpos de português: Projecto AC/DC: corpo DiaCLAV

DiaCLAV : AC/DC : Linguateca
O corpus DiaCLAV é composto dum total de aproximadamente 6,7 milhões de palavras, retiradas de 12.801 artigos da edições online de diversos jornais diários regionais do centro de Portugal, nomeadamente o Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário. Os artigos correspondem ao período de 13 de Junho de 1999 a 18 de Setembro de 2000, e não representam a totalidade do texto dos jornais nesse período, mas apenas o texto disponibilizado na edição on-line. Os jornais em questão pertencem ao mesmo grupo editorial, o Grupo Editorial Adriano Lucas, pelo que alguns artigos neste corpus contêm textos semelhantes, embora não haja casos de artigos exactamente iguais.

Estrutura do corpo

O corpus contém as etiquetas art (artigo), a (autor), t (titulo), p (parágrafo) e s (frase). Cada parágrafo tem a identificação do jornal e da notícia além do número do parágrafo dentro da notícia. Por exemplo: DA-N0623-1 representa o primeiro parágrafo da notícia N0623 do Diário de Aveiro. O número de identificação da notícia é o o da edição electrónica do jornal.

O atributo posicional fonte, que pode assumir os valores DA, DC, DL ou VD, indica de qual dos jornais do grupo é originário um determinado texto.

Versão do corpo

Corpus DIACLAV, versão texto criada em Abril de 2002, anotado em Abril de 2011, v. 5.4

Excerto do corpo


<art j=DA e=N0106>
<t> PSD propõe mais apoio para cultura popular </t>
<p par=DA-N0106-1>
<s frag> Os deputados aveirenses do PSD querem ver mais apoiadas as colectividades que se dedicam à recolha e promoção da cultura popular portuguesa </s>
</p>
<p par=DA-N0106-2>
<s> As bandas filarmónicas, escolas de música, tunas, fanfarras, ranchos folclóricos e outras agremiações populares que se dediquem à actividade
musical sõ o tema central de uma proposta de projecto de lei que deu, ontem, entrada na Assembleia da República . </s>
<s frag> O documento tem a particularidade de ter sido elaborado e entregue pelos deputados do PSD eleitos pelo círculo de Aveiro, Roque da Cunha,
Manuel de Oliveira e Hermínio Loureiro e Castro de Almeida, inspirados com certeza na profusõ deste tipo de agremiações no seu distrito de origem </s>
</p>

Dados quantitativos

Corpo DIACLAV Número de formasNúmero de tipos
Unidades 7723448110094
Total de palavras 6551019107961
Palavras em minúscula 491059458847
Palavras com inicial maiúscula84704628964
Palavras todas em maiúsculas 395122141
Números 587001330
Palavras com números64521047
Palavras mistas2331805
Pontuação3809882132

Número de unidades estruturais

Atributo Número
p 24439
s 210363
art 12802
t 12802
a 5726
mwe 129533

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 352227 689552
Locuções 129533 271993
Palavras gráficas 6551019 6551019
Palavras simples 5589474 5589474
Palavras 6071234 6551019

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 1346249 24,09%
Verbos V.* 865062 15,48%
Adjectivos ADJ.* 353060 6,32%
Pronomes pessoais .*PERS.* 85864 1,54%
Preposições PRP.* 1144561 20,48%
Conjunções K.* 284326 5,09%
Advérbios ADV.* 337300 6,03%
Determinantes .*DET.* 1179105 21,10%
Especificadores .*SPEC.* 105583 1,89%
Numerais NUM.* 127033 2,27%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 19 de Abril de 2015
Perguntas, comentários e sugestões