Acesso a corpos de português: Projecto AC/DC: corpo NILC/São Carlos

NILC/São Carlos : AC/DC : Linguateca
O corpus NILC/São Carlos do Núcleo Interinstitucional de Lingüística Computacional, sediado no Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo em São Carlos, contém textos brasileiros do registo jornalístico, didáctico, epistolar e redacções de alunos (Nunes et al., 1996a, 1996b). Para um descrição mais abrangente, veja-se a página de descrição do corpus NILC e sua descendência.

Encontrava-se em vários ficheiros em formato de texto, numa estrutura de directorias indicando a fonte.

Estrutura do corpo

Marcadores estruturais: s, p, texto, t (anteriormente à versão 4.0, estava marcado como titulo), subtitulo, assinatura,
Para os textos da folha de São Paulo, a (autor), artigo, caixa, situacao, li (elemento de lista).

As primeiras linhas de cada ficheiro foram classificadas como títulos (t). Como subtítulos foram identificadas linhas sem pontuação final todas em maiúsculas. No caso das cartas comerciais, também a assinatura da carta foi marcada separadamente.

Cada texto tem como identificação o nome do ficheiro de que provém, o que dá alguma indicação sobre o tipo de texto. Prevê-se para breve uma reorganização desses identificadores segundo os novos critérios em desenvolvimento pelos compiladores do corpus.

A nova versão foi criada após a detecção de alguns textos repetidos. Possíveis alterações em relação ao conteúdo dos textos que constituem o corpus são previsíveis.

O atributo classe, correspondendo ao tipo de texto, foi adicionado na versão 3.0. A sua distribuição, correspondendo à versão 14.1, é a seguinte:

TipoDescriçãoTamanho
DI texto didáctico 424.925
ENC enciclopédia 286.489
ENS ensaio 2.189.642
EP texto epistolar 3.324
JO.* jornalístico 31.480.148
JOCF jornalístico só CETENFolha 29.401.509
JO jornalístico sem CETENFolha 2.078.639
LE texto legal 1.060.464
LI literário 482.537
RE revista

O tamanho, na tabela anterior, é medido pelo número de unidades do corpus com a classificação indicada.

A partir da versão 5.0, a parte do Folha de São Paulo (correspondente ao CETENFolha, de texto de 1994, e a algumas edições de 1996) está dividida em extractos identificados pela secção, semestre, número de extracto, e número de parágrafo no CETENFolha, por exemplo: Cotidiano-94a-61755-2 .

A partir da versão 7.1, é possível seleccionar apenas o CETENFolha, no corpus SAOCARLOS, usando para isso a restrição [classe="JOCF"]. Dois exemplos (usando a restrição de forma diferente):

  • Procurar a palavra punhal no CETENFolha: [word="punhal" & classe="JOCF"]
  • Procurar palavras acabadas em ornada no CETENFolha: ".*ornada" [classe="JOCF"]

Versão do corpo

Versão 2.0 do corpus sem Folha, incluindo o CETENFolha 1.0 (antes de baralhar) de 4 de Setembro de 2002 e o Folhazinha-2.1 de 27 de Abril de 2002; criado em 20 de outubro de 2023, v. 14.2

Excerto do corpo


<t> AYRTON ; Nicolau ; Toledo . Ciências- ECOLOGIA E Educação Ambiental . ( Corpo Humano E Biosfera ) . São Paulo . SCIPIONE . 1992 . 7a Série .</t>
<p par=1> <s> Células , Hereditariedade E Funções Vitais .</s> </p>
<p par=2> <s> O homem é o mamífero mais evoluído da escala zoológica .</s> <s> Apresenta postura ereta e cérebro bastante evoluído , capaz de aprender , memorizar , desenvolver e transmitir aquilo que aprende .</s> </p>
<p par=3> <s> O corpo humano é constituído por vários órgãos que , em conjunto , formam o que denominamos organismo .</s> <s> O organismo humano apresenta uma integração entre a forma e a função de seus órgãos , ambas interligadas com a parte emocional .</s> <s> Essa integração e interligação diferem de indivíduo para indivíduo , mesmo que pertençam a uma mesma família .</s> <s> Por exemplo , uma criança cresce ou engorda mais que sua irmã , tem gostos diferentes , reações alérgicas a determinadas substâncias etc .</s> <s> No entanto , características como a cor dos cabelos e dos olhos , o formato do nariz e da boca são próprias de cada indivíduo , que as herda de seus pais e transmite-as a seus filhos .</s></p>
...

Dados quantitativos

Corpo SAOCARLOS Número de formasNúmero de tipos
Unidades 44719481431567
Total de palavras 34024930409485
Palavras em minúscula 24495990155248
Palavras com inicial maiúscula4883961128108
Palavras todas em maiúsculas 45240321185
Números 5317003251
Palavras com números485075385
Palavras mistas965088033
Pontuação250670121941

Número de unidades estruturais

Atributo Número
mwe 477175
p 873526
s 2053815
texto 364477
subtitulo 3706
assinatura 11
artigo 0
caixa 21588
situacao 5189
t 157965
a 75076
li 50319

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 2035534 3323701
Locuções 477175 1016845
Palavras gráficas 34024930 34024930
Palavras simples 29684384 29684384
Palavras 32197093 34024930

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 7531507 25,37%
Verbos V.* 4535040 15,28%
Adjectivos ADJ.* 1914858 6,45%
Pronomes pessoais .*PERS.* 478343 1,61%
Preposições PRP.* 5843073 19,68%
Conjunções K.* 1280110 4,31%
Advérbios ADV.* 1375812 4,63%
Determinantes .*DET.* 5846067 19,69%
Especificadores .*SPEC.* 499710 1,68%
Numerais NUM.* 969805 3,27%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 20 de Outubro de 2023
Perguntas, comentários e sugestões