Acesso a corpos de português: Projecto AC/DC: corpo ANCIB

ANCIB : AC/DC : Linguateca
O corpus ANCIB foi criado a partir de uma série de ficheiros contendo as mensagens em português enviadas para a lista homónima da Associação Nacional de Pesquisa e Pós-Graduação em Ciência da Informação (até Novembro de 2003) e para a lista abarreto-l, após essa data.

Esta lista é gerida por Aldo Barreto, que gentilmente nos concedeu autorização para a criação deste corpus), que tem material entre Julho de 1998 e Junho de 2008, num total de 624 mensagens em formato Eudora, sendo o resto em formato Outlook, totalizando 2814 mensagens cuja língua foi identificada como portuguesa.

Estrutura do corpo

A parte inicial do corpus foi criado a partir do formato mbx do programa de correio Eudora; a seguinte a partir do formato Outlook.

Embora tenham sido excluídas as mensagens totalmente (ou quase) noutros idiomas, foram mantidas mensagens parcialmente noutras línguas, pelo que o corpus contém uma quantidade reduzida de texto em inglês e castelhano.

Foram removidas, na medida do possível, as assinaturas automáticas das mensagens.

Foram transformados alguns caracteres ['A==>À, e'==>é, etc].

O corpus está dividido em mensagens separadas, marcadas pelo atributo mens, com informação da data <mens dt=...> . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem para a lista). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].

O corpus tem também o atributo cita que indica referência a uma mensagem anterior, citada no corpo da mensagem e indicada pelo sinal ">" no início de linha.

Versão do corpo

Corpus ANCIB, versão texto de Junho de 2009, anotado a 6 de julho de 2024, v. 10.1

Excerto do corpo


<mens dt=1998-08-04>
<assunto> Perspectivas da Arquivologia </assunto>
<autor> jmjardim@cruiser.com.br </autor>
<titulo> PERSPECTIVAS DA ARQUIVOLOGIA: A EXPERIÊNCIA ESPANHOLA </titulo>
<p>
<s> O NÚCLEO INTERDISCIPLINAR DE ESTUDOS DA INFORMAÇÃO (NEINFO) da Universidade Federal Fluminense estará recebendo nos dias 12 e 13 de agosto a
visita da Profa. Maria Luisa Conde, Diretora do Arquivo Geral da Administração (Sub-Direção de Arquivos Estatais da Espanha) e Professora do
Departamento de Ciências da
Computação da Universidade de Alcala de Henares . </s>
<s> Arquivista com extensa produção intelectual e experiência internacional, a Professora Maria Luisa Conde realizará duas conferências: </s>
</p>
<p>
<s> Dia 12 de agosto, quarta-feira, às 18:30 . </s>
...

Dados quantitativos

Corpo ANCIB Número de formasNúmero de tipos
Unidades 169814876471
Total de palavras 125778574286
Palavras em minúscula 84044334833
Palavras com inicial maiúscula20372020698
Palavras todas em maiúsculas 419387004
Números 195301183
Palavras com números2489674
Palavras mistas28411397
Pontuação1098682054

Número de unidades estruturais

Atributo Número
p 60090
s 83469
mwe 12271
autor 2925
mens 3012
assunto 3000
li 0
titulo 0
cita 81

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 91894 184955
Locuções 12271 26527
Palavras gráficas 1257785 1257785
Palavras simples 1046303 1046303
Palavras 1150468 1257785

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 290332 27,75%
Verbos V.* 128137 12,25%
Adjectivos ADJ.* 80089 7,65%
Pronomes pessoais .*PERS.* 12913 1,23%
Preposições PRP.* 204102 19,51%
Conjunções K.* 55718 5,33%
Advérbios ADV.* 37336 3,57%
Determinantes .*DET.* 192781 18,42%
Especificadores .*SPEC.* 15293 1,46%
Numerais NUM.* 30909 2,95%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 13 de Julho de 2024
Perguntas, comentários e sugestões