Encontrava-se em vários ficheiros em formato de texto, numa estrutura de directorias indicando a fonte.
Estrutura do corpoMarcadores estruturais: s, p,
texto,
t (anteriormente à versão 4.0, estava marcado como titulo),
subtitulo,
assinatura, As primeiras linhas de cada ficheiro foram classificadas como títulos (t). Como subtítulos foram identificadas linhas sem pontuação final todas em maiúsculas. No caso das cartas comerciais, também a assinatura da carta foi marcada separadamente. Cada texto tem como identificação o nome do ficheiro de que provém, o que dá alguma indicação sobre o tipo de texto. Prevê-se para breve uma reorganização desses identificadores segundo os novos critérios em desenvolvimento pelos compiladores do corpus. A nova versão foi criada após a detecção de alguns textos repetidos. Possíveis alterações em relação ao conteúdo dos textos que constituem o corpus são previsíveis. O atributo classe, correspondendo ao tipo de texto, foi adicionado na versão 3.0. A sua distribuição, correspondendo à versão 15.5, é a seguinte:
O tamanho, na tabela anterior, é medido pelo número de unidades do corpus com a classificação indicada. A partir da versão 5.0, a parte do Folha de São Paulo (correspondente ao CETENFolha, de texto de 1994, e a algumas edições de 1996) está dividida em extractos identificados pela secção, semestre, número de extracto, e número de parágrafo no CETENFolha, por exemplo: Cotidiano-94a-61755-2 . A partir da versão 7.1, é possível seleccionar apenas o CETENFolha, no corpus SAOCARLOS, usando para isso a restrição [classe="JOCF"]. Dois exemplos (usando a restrição de forma diferente):
Versão do corpoVersão 2.0 do corpus sem Folha, incluindo o CETENFolha 1.0 (antes de baralhar) de 4 de Setembro de 2002 e o Folhazinha-2.1 de 27 de Abril de 2002; criado a 8 de outubro de 2025, v. 15.5Excerto do corpo<t> AYRTON ; Nicolau ; Toledo . Ciências- ECOLOGIA E Educação Ambiental . ( Corpo Humano E Biosfera ) . São Paulo . SCIPIONE . 1992 . 7a Série .</t> <p par=1> <s> Células , Hereditariedade E Funções Vitais .</s> </p> <p par=2> <s> O homem é o mamífero mais evoluído da escala zoológica .</s> <s> Apresenta postura ereta e cérebro bastante evoluído , capaz de aprender , memorizar , desenvolver e transmitir aquilo que aprende .</s> </p> <p par=3> <s> O corpo humano é constituído por vários órgãos que , em conjunto , formam o que denominamos organismo .</s> <s> O organismo humano apresenta uma integração entre a forma e a função de seus órgãos , ambas interligadas com a parte emocional .</s> <s> Essa integração e interligação diferem de indivíduo para indivíduo , mesmo que pertençam a uma mesma família .</s> <s> Por exemplo , uma criança cresce ou engorda mais que sua irmã , tem gostos diferentes , reações alérgicas a determinadas substâncias etc .</s> <s> No entanto , características como a cor dos cabelos e dos olhos , o formato do nariz e da boca são próprias de cada indivíduo , que as herda de seus pais e transmite-as a seus filhos .</s></p> ... Dados quantitativos
Número de unidades estruturais
Contabilização de multipalavras
Distribuição por categoria gramatical
Para informação sobre como foram obtidos este valores, consulte esta página |
[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]