Acesso a corpos de português: Projecto AC/DC: corpo CHAVE

CHAVE : AC/DC : Linguateca
O corpus CHAVE contém textos jornalísticos dos jornais Público e Folha de São Paulo dos anos de 1994 e 1995. Este corpus foi criado no âmbito da participação da língua portuguesa no CLEF. Para citar a colecção CHAVE, use Santos & Rocha (2005) ou uma descrição geral do CLEF em Rocha & Santos (2007). Pode obter o corpus completo em formato texto requerendo-o nesta página.

Estrutura do corpo

Marcadores estruturais: DOC [documento], s [frase], CATEGORY (secção do jornal), AUTHOR (autor do texto), NE (lista de nomes próprios contidos no documento, usando a anotação do PALAVRAS).

Versão do corpo

Corpus CHAVE, anotado em março de 2018, v. 7.0

Excerto do corpo


<DOC>
<DOCNO valor=FSP941101-001>
<DOCID valor=FSP941101-001>
<DATE valor=941101>
<TEXT>
<s> O país que o presidente eleito Fernando Henrique Cardoso encontrou na volta de sua viagem à Europa Oriental apresenta algumas diferenças
substanciais com relação àquele que havia deixado cerca de duas semanas antes . </s>
<s> E não são diferenças muito animadoras . </s>
<s> A inflação subiu <96>passou de 1,99% na segunda quadrissemana de outubro para 2,68% na terceira e está em ascensão, segundo a Fipe . </s>
<s> O compulsório sobre empréstimos causou espanto e decepção ao dificultar um aumento da produção, em vez de estimulá-lo . </s>
...

Dados quantitativos

Corpo CHAVE Número de formasNúmero de tipos
Unidades 126191857730279
Total de palavras 98301578702806
Palavras em minúscula 71907873226503
Palavras com inicial maiúscula12881530232209
Palavras todas em maiúsculas 62173116865
Números 10990097609
Palavras com números1072989917
Palavras mistas14812815194
Pontuação675505324964

Número de unidades estruturais

Atributo Número
s 4707027
t 572510
p 2244579
mwe 1785420
data 207976
DOC 208401
CATEGORY 208202
EM 0

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 6107151 10147064
Locuções 1785420 3796846
Palavras gráficas 98301578 98301578
Palavras simples 84357668 84357668
Palavras 92250239 98301578

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 20182692 23,93%
Verbos V.* 12768668 15,14%
Adjectivos ADJ.* 5884594 6,98%
Pronomes pessoais .*PERS.* 1475117 1,75%
Preposições PRP.* 17009477 20,16%
Conjunções K.* 3976277 4,71%
Advérbios ADV.* 4683931 5,55%
Determinantes .*DET.* 17479559 20,72%
Especificadores .*SPEC.* 1625612 1,93%
Numerais NUM.* 2448248 2,90%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 28 de Março de 2018
Perguntas, comentários e sugestões