Citando Aires 2000 (secção 4.1.1)
" Para compor nosso corpus de treinamento e teste selecionamos textos do corpora do Nilc pertencentes a três gêneros: didático, jornalístico e literário. Um dos objetivos deste trabalho é avaliar os etiquetadores por gêneros. A escolha destes três gêneros foi feita para se abranger em particular:
(...) Além dos gêneros de texto que farão parte do corpus, temos também que decidir se serão ou não mantidos títulos, frases entre parênteses e resumos nos textos. No nosso caso não mantivemos os títulos, mas mantivemos os textos entre parênteses e não precisamos nos preocupar com resumos, que não apareciam nos textos escolhidos.
(...) em 20 de julho de 2000, obtivemos a última versão do nosso corpus de treinamento e teste contendo 104.962 palavras, que foi utilizada em todos os experimentos descritos neste trabalho. (...)
| Tabela 1 - Corpus de treinamento e teste | ||
|---|---|---|
| Tipo de Corpus | Tamanho do corpus | |
| D | Didático | 16.255 palavras |
| J | Jornalístico | 56.653 palavras |
| L | Literário | 32.054 palavras |
(fim de citação)
Estrutura do corpoOs atributos estruturais usados são p (parágrafo) e s (frase). É também usado o atributo posicional pos2 (anotação gramatical original do corpus).Versão do corpoCorpus AmostRA-NILC duplamente anotado, versão texto de 7 de Agosto de 2003 com primeira anotação do NILC (Rachel Aires), anotado a 13 de julho de 2024, v. 8.2Excerto do corpo<p par=1> <s> Antes/LPREP de/LPREP iniciarmos/VTD o/ART estudo/N da/PREP+ART origem/N da/PREP+ART vida/N , é/VLIG necessário/ADJ conhecer/VTD alguns/ADJ caracteres/N que/PR distinguem/VBI os/ART seres/N vivos/ADJ dos/PREP+ART seres/N brutos/ADJ . </s> </p> <p par=2> <s> Dentre/PREP+PREP esses/PD caracteres/N , os/ART mais/ADV importantes/ADJ são/VLIG : presença/N de/PREP ácido/N nucléico/ADJ , reprodução/N , evolução/N , metabolismo/N , organização/N celular/ADJ , movimento/N e/CONJCOORD crescimento/N . </s> </p> <p par=3> <s> Todos/ADJ os/ART seres/N vivos/ADJ - e/CONJCOORD somente/ADV eles/PPR - possuem/VTD Ácidos/NP Nucléicos/NP . </s> </p> Dados quantitativos
Número de unidades estruturais
Contabilização de multipalavras
Distribuição por categoria gramatical
Para informação sobre como foram obtidos este valores, consulte esta página |
[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]