Acesso a corpos de português: Projecto AC/DC: corpo ANCIB

ANCIB : AC/DC : Linguateca
O corpus ANCIB foi criado a partir de uma série de ficheiros contendo as mensagens em português enviadas para a lista homónima da Associação Nacional de Pesquisa e Pós-Graduação em Ciência da Informação (até Novembro de 2003) e para a lista abarreto-l, após essa data.

Esta lista é gerida por Aldo Barreto, que gentilmente nos concedeu autorização para a criação deste corpus), que tem material entre Julho de 1998 e Junho de 2008, num total de 624 mensagens em formato Eudora, sendo o resto em formato Outlook, totalizando 2814 mensagens cuja língua foi identificada como portuguesa.

Estrutura do corpo

A parte inicial do corpus foi criado a partir do formato mbx do programa de correio Eudora; a seguinte a partir do formato Outlook.

Embora tenham sido excluídas as mensagens totalmente (ou quase) noutros idiomas, foram mantidas mensagens parcialmente noutras línguas, pelo que o corpus contém uma quantidade reduzida de texto em inglês e castelhano.

Foram removidas, na medida do possível, as assinaturas automáticas das mensagens.

Foram transformados alguns caracteres ['A==>À, e'==>é, etc].

O corpus está dividido em mensagens separadas, marcadas pelo atributo mens, com informação da data <mens dt=...> . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem para a lista). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].

O corpus tem também o atributo cita que indica referência a uma mensagem anterior, citada no corpo da mensagem e indicada pelo sinal ">" no início de linha.

Versão do corpo

Corpus ANCIB, versão texto de Junho de 2009, anotado em novembro de 2018, v. 8.0

Excerto do corpo


<mens dt=1998-08-04>
<assunto> Perspectivas da Arquivologia </assunto>
<autor> jmjardim@cruiser.com.br </autor>
<titulo> PERSPECTIVAS DA ARQUIVOLOGIA: A EXPERIÊNCIA ESPANHOLA </titulo>
<p>
<s> O NÚCLEO INTERDISCIPLINAR DE ESTUDOS DA INFORMAÇÃO (NEINFO) da Universidade Federal Fluminense estará recebendo nos dias 12 e 13 de agosto a
visita da Profa. Maria Luisa Conde, Diretora do Arquivo Geral da Administração (Sub-Direção de Arquivos Estatais da Espanha) e Professora do
Departamento de Ciências da
Computação da Universidade de Alcala de Henares . </s>
<s> Arquivista com extensa produção intelectual e experiência internacional, a Professora Maria Luisa Conde realizará duas conferências: </s>
</p>
<p>
<s> Dia 12 de agosto, quarta-feira, às 18:30 . </s>
...

Dados quantitativos

Corpo ANCIB Número de formasNúmero de tipos
Unidades 167250575783
Total de palavras 124306871161
Palavras em minúscula 83240135006
Palavras com inicial maiúscula22617722391
Palavras todas em maiúsculas 182252064
Números 195681213
Palavras com números2631752
Palavras mistas2378639
Pontuação1090593157

Número de unidades estruturais

Atributo Número
p 57453
s 80732
mwe 11817
autor 2996
mens 3001
assunto 2968
li 0
titulo 0
cita 80

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 99938 123
Locuções 11817 24817
Palavras gráficas 1243068 1243068
Palavras simples 1218128 1218128
Palavras 1329883 1243068

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 288889 23,72%
Verbos V.* 125243 10,28%
Adjectivos ADJ.* 76230 6,26%
Pronomes pessoais .*PERS.* 13273 1,09%
Preposições PRP.* 202953 16,66%
Conjunções K.* 57477 4,72%
Advérbios ADV.* 36596 3,00%
Determinantes .*DET.* 192031 15,76%
Especificadores .*SPEC.* 14924 1,23%
Numerais NUM.* 33045 2,71%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 25 de Novembro de 2018
Perguntas, comentários e sugestões