Acesso a corpos de português: Projecto AC/DC: corpo CoNE

CoNE : AC/DC : Linguateca
O corpus CoNE (Correio Não Endereçado) é um corpus de mensagens não-endereçadas em português.

O corpus foi criado usando mensagens em português não endereçadas, recebidas por elementos da equipa da Linguateca entre 10 de Agosto de 2001 e 24 de Janeiro de 2006.

Estrutura do corpo

O corpus está dividido em mensagens, marcadas pelo atributo mens, com informação da data . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].

Versão do corpo

Versão do corpus de 15 de Janeiro de 2006, anotado a 19 de Março de 2011, e criado a 22 de Junho de 2013, v. 4.6

Excerto do corpo


<mens dt=2001-08-10 sexta-feira 16:56>
<assunto> FENET - FEIRAS NA INTERNET. </assunto>
<autor> Aline [aline@fenet.com.br] </autor>
<titulo> Caro Senhores, </titulo>
<p>
<s> Conforme poderão visualizar em nosso site: http://www.fenet.com.br , a FENET é um site de FEIRAS VIRTUAIS Comerciais e de Serviços . </s>
<s> Dentre as FEIRAS DE SERVIÇOS ( entretenimento puro e simples ), já contamos com as: BADALAÇÃO, CARTÕES VIRTUAIS, CHAT, CINEMA, GIFS, HUMOR, JOGOS, SHOWS e TEATROS . </s>
...

Dados quantitativos

Corpo CONE Número de formasNúmero de tipos
Unidades 92298043833
Total de palavras 67546241030
Palavras em minúscula 39422918492
Palavras com inicial maiúscula15891813518
Palavras todas em maiúsculas 119631998
Números 14960867
Palavras com números2871678
Palavras mistas3408404
Pontuação640392797

Número de unidades estruturais

Atributo Número
p 19145
s 31097
mwe 8232
autor 1939
mens 1939
assunto 1894
div 0
li 26523
t 1285
cita 0

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 58040 119833
Locuções 8232 17419
Palavras gráficas 675462 675462
Palavras simples 538210 538210
Palavras 604482 675462

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 158814 29,51%
Verbos V.* 67774 12,59%
Adjectivos ADJ.* 36669 6,81%
Pronomes pessoais .*PERS.* 8971 1,67%
Preposições PRP.* 93431 17,36%
Conjunções K.* 31871 5,92%
Advérbios ADV.* 23734 4,41%
Determinantes .*DET.* 82091 15,25%
Especificadores .*SPEC.* 5208 0,97%
Numerais NUM.* 25828 4,80%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 08 de Junho de 2014
Perguntas, comentários e sugestões