Acesso a corpos de português: Projecto AC/DC: corpo CoNE

CoNE : AC/DC : Linguateca
O corpus CoNE (Correio Não Endereçado) é um corpus de mensagens não-endereçadas em português.

O corpus foi criado usando mensagens em português não endereçadas, recebidas por elementos da equipa da Linguateca entre 10 de Agosto de 2001 e 24 de Janeiro de 2006.

Estrutura do corpo

O corpus está dividido em mensagens, marcadas pelo atributo mens, com informação da data . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].

Versão do corpo

Versão do corpus de 15 de janeiro de 2006, anotado a 6 de julho de 2024, v. 8.1

Excerto do corpo


<mens dt=2001-08-10 sexta-feira 16:56>
<assunto> FENET - FEIRAS NA INTERNET. </assunto>
<autor> Aline [aline@fenet.com.br] </autor>
<titulo> Caro Senhores, </titulo>
<p>
<s> Conforme poderão visualizar em nosso site: http://www.fenet.com.br , a FENET é um site de FEIRAS VIRTUAIS Comerciais e de Serviços . </s>
<s> Dentre as FEIRAS DE SERVIÇOS ( entretenimento puro e simples ), já contamos com as: BADALAÇÃO, CARTÕES VIRTUAIS, CHAT, CINEMA, GIFS, HUMOR, JOGOS, SHOWS e TEATROS . </s>
...

Dados quantitativos

Corpo CONE Número de formasNúmero de tipos
Unidades 92136646688
Total de palavras 68137743118
Palavras em minúscula 39804218508
Palavras com inicial maiúscula13259412165
Palavras todas em maiúsculas 397965623
Números 14676787
Palavras com números2742590
Palavras mistas3726841
Pontuação596023147

Número de unidades estruturais

Atributo Número
p 19366
s 31559
mwe 7085
autor 1709
mens 1904
assunto 1858
div 0
li 24119
t 0
cita 0

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 54658 102907
Locuções 7085 15084
Palavras gráficas 681377 681377
Palavras simples 563386 563386
Palavras 625129 681377

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 161584 28,68%
Verbos V.* 70435 12,50%
Adjectivos ADJ.* 42372 7,52%
Pronomes pessoais .*PERS.* 8881 1,58%
Preposições PRP.* 100940 17,92%
Conjunções K.* 29713 5,27%
Advérbios ADV.* 23286 4,13%
Determinantes .*DET.* 86013 15,27%
Especificadores .*SPEC.* 6061 1,08%
Numerais NUM.* 25060 4,45%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 13 de Julho de 2024
Perguntas, comentários e sugestões