Acesso a corpos de português: Projecto AC/DC: corpo NILC/São Carlos

NILC/São Carlos : AC/DC : Linguateca
O corpus NILC/São Carlos do Núcleo Interinstitucional de Lingüística Computacional, sediado no Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo em São Carlos, contém textos brasileiros do registo jornalístico, didáctico, epistolar e redacções de alunos (Nunes et al., 1996a, 1996b). Para um descrição mais abrangente, veja-se a página de descrição do corpus NILC e sua descendência.

Encontrava-se em vários ficheiros em formato de texto, numa estrutura de directorias indicando a fonte.

Estrutura do corpo

Marcadores estruturais: s, p, texto, t (anteriormente à versão 4.0, estava marcado como titulo), subtitulo, assinatura,
Para os textos da folha de São Paulo, a (autor), artigo, caixa, situacao, li (elemento de lista).

As primeiras linhas de cada ficheiro foram classificadas como títulos (t). Como subtítulos foram identificadas linhas sem pontuação final todas em maiúsculas. No caso das cartas comerciais, também a assinatura da carta foi marcada separadamente.

Cada texto tem como identificação o nome do ficheiro de que provém, o que dá alguma indicação sobre o tipo de texto. Prevê-se para breve uma reorganização desses identificadores segundo os novos critérios em desenvolvimento pelos compiladores do corpus.

A nova versão foi criada após a detecção de alguns textos repetidos. Possíveis alterações em relação ao conteúdo dos textos que constituem o corpus são previsíveis.

O atributo classe, correspondendo ao tipo de texto, foi adicionado na versão 3.0. A sua distribuição, correspondendo à versão 15.5, é a seguinte:

TipoDescriçãoTamanho
DI texto didáctico 426.387
ENC enciclopédia 286.797
ENS ensaio 2.214.803
EP texto epistolar 3.826
JO.* jornalístico 29.938.947
JOCF jornalístico só CETENFolha 27.837.462
JO jornalístico sem CETENFolha 2.101.485
LE texto legal 1.084.112
LI literário 925.385
RE revista 155.395

O tamanho, na tabela anterior, é medido pelo número de unidades do corpus com a classificação indicada.

A partir da versão 5.0, a parte do Folha de São Paulo (correspondente ao CETENFolha, de texto de 1994, e a algumas edições de 1996) está dividida em extractos identificados pela secção, semestre, número de extracto, e número de parágrafo no CETENFolha, por exemplo: Cotidiano-94a-61755-2 .

A partir da versão 7.1, é possível seleccionar apenas o CETENFolha, no corpus SAOCARLOS, usando para isso a restrição [classe="JOCF"]. Dois exemplos (usando a restrição de forma diferente):

  • Procurar a palavra punhal no CETENFolha: [word="punhal" & classe="JOCF"]
  • Procurar palavras acabadas em ornada no CETENFolha: ".*ornada" [classe="JOCF"]

Versão do corpo

Versão 2.0 do corpus sem Folha, incluindo o CETENFolha 1.0 (antes de baralhar) de 4 de Setembro de 2002 e o Folhazinha-2.1 de 27 de Abril de 2002; criado a 8 de outubro de 2025, v. 15.5

Excerto do corpo


<t> AYRTON ; Nicolau ; Toledo . Ciências- ECOLOGIA E Educação Ambiental . ( Corpo Humano E Biosfera ) . São Paulo . SCIPIONE . 1992 . 7a Série .</t>
<p par=1> <s> Células , Hereditariedade E Funções Vitais .</s> </p>
<p par=2> <s> O homem é o mamífero mais evoluído da escala zoológica .</s> <s> Apresenta postura ereta e cérebro bastante evoluído , capaz de aprender , memorizar , desenvolver e transmitir aquilo que aprende .</s> </p>
<p par=3> <s> O corpo humano é constituído por vários órgãos que , em conjunto , formam o que denominamos organismo .</s> <s> O organismo humano apresenta uma integração entre a forma e a função de seus órgãos , ambas interligadas com a parte emocional .</s> <s> Essa integração e interligação diferem de indivíduo para indivíduo , mesmo que pertençam a uma mesma família .</s> <s> Por exemplo , uma criança cresce ou engorda mais que sua irmã , tem gostos diferentes , reações alérgicas a determinadas substâncias etc .</s> <s> No entanto , características como a cor dos cabelos e dos olhos , o formato do nariz e da boca são próprias de cada indivíduo , que as herda de seus pais e transmite-as a seus filhos .</s></p>
...

Dados quantitativos

Corpo SAOCARLOS Número de formasNúmero de tipos
Unidades 43249538436492
Total de palavras 32886779436350
Palavras em minúscula 23235381158501
Palavras com inicial maiúscula4585260127858
Palavras todas em maiúsculas 44740522852
Números 57806215764
Palavras com números470545336
Palavras mistas917518513
Pontuação21488878

Número de unidades estruturais

Atributo Número
mwe 466173
p 827382
s 1954773
texto 341940
subtitulo 3749
assinatura 13
artigo 0
caixa 20695
situacao 5031
t 148902
a 80180
li 49673

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 1992521 3343309
Locuções 466173 990115
Palavras gráficas 32886779 32886779
Palavras simples 28553355 28553355
Palavras 31012049 32886779

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 7143814 25,02%
Verbos V.* 4302614 15,07%
Adjectivos ADJ.* 1830287 6,41%
Pronomes pessoais .*PERS.* 460068 1,61%
Preposições PRP.* 5487896 19,22%
Conjunções K.* 1211912 4,24%
Advérbios ADV.* 1311543 4,59%
Determinantes .*DET.* 5561633 19,48%
Especificadores .*SPEC.* 455053 1,59%
Numerais NUM.* 918336 3,22%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 08 de Outubro de 2025
Perguntas, comentários e sugestões