Acesso a corpos de português: Projecto AC/DC: corpo AmostRA-NILC

AmostRA-NILC : AC/DC : Linguateca
O corpus AmostRA-NILC (Corpus Amostra Rachel Aires - NILC) foi criado no âmbito da tese de mestrado de Rachel Aires, orientada por Sandra Aluísio, no NILC, para avaliar e comparar o desempenho de etiquetadores para o português brasileiro (Aires 2000).

Citando Aires 2000 (secção 4.1.1)

" Para compor nosso corpus de treinamento e teste selecionamos textos do corpora do Nilc pertencentes a três gêneros: didático, jornalístico e literário. Um dos objetivos deste trabalho é avaliar os etiquetadores por gêneros. A escolha destes três gêneros foi feita para se abranger em particular:

  1. textos simples, isto é, aqueles que seguem uma estrutura formal fixa, por exemplo a escrita técnica (didáticos);
  2. textos mais próximos da linguagem viva (jornalístico);
  3. textos com estrutura livre, isto é, com formas menos comuns como ordem inversa por exemplo, (literários).

(...) Além dos gêneros de texto que farão parte do corpus, temos também que decidir se serão ou não mantidos títulos, frases entre parênteses e resumos nos textos. No nosso caso não mantivemos os títulos, mas mantivemos os textos entre parênteses e não precisamos nos preocupar com resumos, que não apareciam nos textos escolhidos.

(...) em 20 de julho de 2000, obtivemos a última versão do nosso corpus de treinamento e teste contendo 104.962 palavras, que foi utilizada em todos os experimentos descritos neste trabalho. (...)

Tabela 1 - Corpus de treinamento e teste
Tipo de CorpusTamanho do corpus
D Didático 16.255 palavras
J Jornalístico 56.653 palavras
L Literário 32.054 palavras

(fim de citação)

Estrutura do corpo

Os atributos estruturais usados são p (parágrafo) e s (frase). É também usado o atributo posicional pos2 (anotação gramatical original do corpus).

Versão do corpo

Corpus AmostRA-NILC duplamente anotado, versão texto de 7 de Agosto de 2003 com primeira anotação do NILC (Rachel Aires), anotado em 8 de Março de 2011 pelo PALAVRAS, criado a 22 de Junho de 2013, v. 4.7

Excerto do corpo


<p par=1>
<s> Antes/LPREP de/LPREP iniciarmos/VTD o/ART estudo/N da/PREP+ART origem/N da/PREP+ART vida/N , é/VLIG necessário/ADJ conhecer/VTD alguns/ADJ caracteres/N que/PR distinguem/VBI os/ART seres/N vivos/ADJ dos/PREP+ART seres/N brutos/ADJ . </s>
</p>
<p par=2>
<s> Dentre/PREP+PREP esses/PD caracteres/N , os/ART mais/ADV importantes/ADJ são/VLIG : presença/N de/PREP ácido/N nucléico/ADJ , reprodução/N , evolução/N , metabolismo/N , organização/N celular/ADJ , movimento/N e/CONJCOORD crescimento/N . </s>
</p>
<p par=3>
<s> Todos/ADJ os/ART seres/N vivos/ADJ - e/CONJCOORD somente/ADV eles/PPR - possuem/VTD Ácidos/NP Nucléicos/NP . </s>
</p>

Dados quantitativos

Corpo AMOSTRA Número de formasNúmero de tipos
Unidades 12820317193
Total de palavras 9863317158
Palavras em minúscula 7839913532
Palavras com inicial maiúscula86352409
Palavras todas em maiúsculas 3717
Números 914190
Palavras com números7146
Palavras mistas3019
Pontuação627835

Número de unidades estruturais

Atributo Número
s 4928
p 4902
mwe 1812

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 2985 4494
Locuções 1812 3830
Palavras gráficas 98633 98633
Palavras simples 90309 90309
Palavras 95106 98633

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 23273 25,77%
Verbos V.* 14145 15,66%
Adjectivos ADJ.* 6422 7,11%
Pronomes pessoais .*PERS.* 2286 2,53%
Preposições PRP.* 16633 18,42%
Conjunções K.* 4112 4,55%
Advérbios ADV.* 5052 5,59%
Determinantes .*DET.* 17931 19,86%
Especificadores .*SPEC.* 1389 1,54%
Numerais NUM.* 1810 2,00%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 26 de Junho de 2014
Perguntas, comentários e sugestões