Acesso a corpos de português: Projecto AC/DC: corpo CoNE

CoNE : AC/DC : Linguateca
O corpus CoNE (Correio Não Endereçado) é um corpus de mensagens não-endereçadas em português.

O corpus foi criado usando mensagens em português não endereçadas, recebidas por elementos da equipa da Linguateca entre 10 de Agosto de 2001 e 24 de Janeiro de 2006.

Estrutura do corpo

O corpus está dividido em mensagens, marcadas pelo atributo mens, com informação da data . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].

Versão do corpo

Versão do corpus de 15 de janeiro de 2006, anotado em 9 de janeiro de 2020, v. 6.4

Excerto do corpo


<mens dt=2001-08-10 sexta-feira 16:56>
<assunto> FENET - FEIRAS NA INTERNET. </assunto>
<autor> Aline [aline@fenet.com.br] </autor>
<titulo> Caro Senhores, </titulo>
<p>
<s> Conforme poderão visualizar em nosso site: http://www.fenet.com.br , a FENET é um site de FEIRAS VIRTUAIS Comerciais e de Serviços . </s>
<s> Dentre as FEIRAS DE SERVIÇOS ( entretenimento puro e simples ), já contamos com as: BADALAÇÃO, CARTÕES VIRTUAIS, CHAT, CINEMA, GIFS, HUMOR, JOGOS, SHOWS e TEATROS . </s>
...

Dados quantitativos

Corpo CONE Número de formasNúmero de tipos
Unidades 91835046477
Total de palavras 67345643299
Palavras em minúscula 39452918370
Palavras com inicial maiúscula13118012013
Palavras todas em maiúsculas 339034847
Números 14590780
Palavras com números2925655
Palavras mistas5070568
Pontuação597912791

Número de unidades estruturais

Atributo Número
p 19365
s 31559
mwe 7161
autor 1949
mens 1949
assunto 1900
div 0
li 26839
t 0
cita 0

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 63225 105677
Locuções 7161 15296
Palavras gráficas 673456 673456
Palavras simples 552483 552483
Palavras 622869 673456

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 158757 28,74%
Verbos V.* 68117 12,33%
Adjectivos ADJ.* 41377 7,49%
Pronomes pessoais .*PERS.* 8854 1,60%
Preposições PRP.* 98441 17,82%
Conjunções K.* 30573 5,53%
Advérbios ADV.* 23336 4,22%
Determinantes .*DET.* 85169 15,42%
Especificadores .*SPEC.* 6031 1,09%
Numerais NUM.* 27673 5,01%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 10 de Janeiro de 2020
Perguntas, comentários e sugestões