Acesso a corpos de português: Projecto AC/DC: corpo AmostRA-NILC

AmostRA-NILC : AC/DC : Linguateca
O corpus AmostRA-NILC (Corpus Amostra Rachel Aires - NILC) foi criado no âmbito da tese de mestrado de Rachel Aires, orientada por Sandra Aluísio, no NILC, para avaliar e comparar o desempenho de etiquetadores para o português brasileiro (Aires 2000).

Citando Aires 2000 (secção 4.1.1)

" Para compor nosso corpus de treinamento e teste selecionamos textos do corpora do Nilc pertencentes a três gêneros: didático, jornalístico e literário. Um dos objetivos deste trabalho é avaliar os etiquetadores por gêneros. A escolha destes três gêneros foi feita para se abranger em particular:

  1. textos simples, isto é, aqueles que seguem uma estrutura formal fixa, por exemplo a escrita técnica (didáticos);
  2. textos mais próximos da linguagem viva (jornalístico);
  3. textos com estrutura livre, isto é, com formas menos comuns como ordem inversa por exemplo, (literários).

(...) Além dos gêneros de texto que farão parte do corpus, temos também que decidir se serão ou não mantidos títulos, frases entre parênteses e resumos nos textos. No nosso caso não mantivemos os títulos, mas mantivemos os textos entre parênteses e não precisamos nos preocupar com resumos, que não apareciam nos textos escolhidos.

(...) em 20 de julho de 2000, obtivemos a última versão do nosso corpus de treinamento e teste contendo 104.962 palavras, que foi utilizada em todos os experimentos descritos neste trabalho. (...)

Tabela 1 - Corpus de treinamento e teste
Tipo de CorpusTamanho do corpus
D Didático 16.255 palavras
J Jornalístico 56.653 palavras
L Literário 32.054 palavras

(fim de citação)

Estrutura do corpo

Os atributos estruturais usados são p (parágrafo) e s (frase). É também usado o atributo posicional pos2 (anotação gramatical original do corpus).

Versão do corpo

Corpus AmostRA-NILC duplamente anotado, versão texto de 7 de Agosto de 2003 com primeira anotação do NILC (Rachel Aires), anotado a 13 de julho de 2024, v. 8.2

Excerto do corpo


<p par=1>
<s> Antes/LPREP de/LPREP iniciarmos/VTD o/ART estudo/N da/PREP+ART origem/N da/PREP+ART vida/N , é/VLIG necessário/ADJ conhecer/VTD alguns/ADJ caracteres/N que/PR distinguem/VBI os/ART seres/N vivos/ADJ dos/PREP+ART seres/N brutos/ADJ . </s>
</p>
<p par=2>
<s> Dentre/PREP+PREP esses/PD caracteres/N , os/ART mais/ADV importantes/ADJ são/VLIG : presença/N de/PREP ácido/N nucléico/ADJ , reprodução/N , evolução/N , metabolismo/N , organização/N celular/ADJ , movimento/N e/CONJCOORD crescimento/N . </s>
</p>
<p par=3>
<s> Todos/ADJ os/ART seres/N vivos/ADJ - e/CONJCOORD somente/ADV eles/PPR - possuem/VTD Ácidos/NP Nucléicos/NP . </s>
</p>

Dados quantitativos

Corpo AMOSTRA Número de formasNúmero de tipos
Unidades 12851717202
Total de palavras 9926717155
Palavras em minúscula 7833813522
Palavras com inicial maiúscula82532401
Palavras todas em maiúsculas 46419
Números 909186
Palavras com números7348
Palavras mistas4124
Pontuação625447

Número de unidades estruturais

Atributo Número
s 4965
p 4904
mwe 1629

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 3494 5044
Locuções 1629 3454
Palavras gráficas 99267 99267
Palavras simples 90769 90769
Palavras 95892 99267

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 23041 25,38%
Verbos V.* 14189 15,63%
Adjectivos ADJ.* 6430 7,08%
Pronomes pessoais .*PERS.* 2262 2,49%
Preposições PRP.* 17074 18,81%
Conjunções K.* 4038 4,45%
Advérbios ADV.* 4669 5,14%
Determinantes .*DET.* 17435 19,21%
Especificadores .*SPEC.* 1621 1,79%
Numerais NUM.* 1789 1,97%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 13 de Julho de 2024
Perguntas, comentários e sugestões