Esta lista é gerida por Aldo Barreto, que gentilmente nos concedeu autorização para a criação deste corpus), que tem material entre Julho de 1998 e Junho de 2008, num total de 624 mensagens em formato Eudora, sendo o resto em formato Outlook, totalizando 2814 mensagens cuja língua foi identificada como portuguesa.
Estrutura do corpoA parte inicial do corpus foi criado a partir do formato mbx do programa de correio Eudora; a seguinte a partir do formato Outlook.Embora tenham sido excluídas as mensagens totalmente (ou quase) noutros idiomas, foram mantidas mensagens parcialmente noutras línguas, pelo que o corpus contém uma quantidade reduzida de texto em inglês e castelhano. Foram removidas, na medida do possível, as assinaturas automáticas das mensagens. Foram transformados alguns caracteres ['A==>À, e'==>é, etc]. O corpus está dividido em mensagens separadas, marcadas pelo atributo mens, com informação da data <mens dt=...> . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem para a lista). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos]. O corpus tem também o atributo cita que indica referência a uma mensagem anterior, citada no corpo da mensagem e indicada pelo sinal ">" no início de linha. Versão do corpoCorpus ANCIB, versão texto de Junho de 2009, anotado a 6 de julho de 2024, v. 10.1Excerto do corpo<mens dt=1998-08-04> <assunto> Perspectivas da Arquivologia </assunto> <autor> jmjardim@cruiser.com.br </autor> <titulo> PERSPECTIVAS DA ARQUIVOLOGIA: A EXPERIÊNCIA ESPANHOLA </titulo> <p> <s> O NÚCLEO INTERDISCIPLINAR DE ESTUDOS DA INFORMAÇÃO (NEINFO) da Universidade Federal Fluminense estará recebendo nos dias 12 e 13 de agosto a visita da Profa. Maria Luisa Conde, Diretora do Arquivo Geral da Administração (Sub-Direção de Arquivos Estatais da Espanha) e Professora do Departamento de Ciências da Computação da Universidade de Alcala de Henares . </s> <s> Arquivista com extensa produção intelectual e experiência internacional, a Professora Maria Luisa Conde realizará duas conferências: </s> </p> <p> <s> Dia 12 de agosto, quarta-feira, às 18:30 . </s> ... Dados quantitativos
Número de unidades estruturais
Contabilização de multipalavras
Distribuição por categoria gramatical
Para informação sobre como foram obtidos este valores, consulte esta página |
[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]