Descrição do corpus NILC e sua descendência

Página criada pela Linguateca para documentar os vários usos de um corpo originalmente criado pelo NILC, o Núcleo Interinstitucional de Lingüística Computacional.

Nota terminológica: Embora na Linguateca tenhamos passado a usar corpo e corpos, usamos naturalmente as denominações enviadas pelos autores ou compiladores dos mesmos, assim como relatamos usos de anteriores designações também da nossa parte.


Muito do material usado subsequentemente em projectos de processamento de linguagem natural em português provém do esforço pioneiro do NILC ao criar o corpus NILC, ao qual com o nome NILC/São Carlos vem sido dado acesso desde 1999 pela Linguateca através do projecto AC/DC.

Existe um excelente relatório do NILC, Pinheiro & Aluísio (2003), apresentando a história, o conteúdo, a vastidão e alguns problemas deste corpo, que mencionamos aqui como fonte fundamental: PINHEIRO, Gisele Montilha e Sandra Maria ALUÍSIO. "Córpus Nilc: descrição e análise crítica com vistas ao projeto Lacio-Web." NILC-TR-03-03, fevereiro 2003, 60 p., zip, pdf

Na presente página (em progresso!) tentamos proporcionar uma árvore genealógica dos filhos deste corpo e de outro material relacionado, incluindo uma cronologia e um diagrama explicativo, além de tentar apontar para os vários pontos relacionados.

Figura com a árvore genealógica do corpus NILC

1994
Início da criação, no NILC, de um corpo chamado de "Corpus NILC", por ocasião do desenvolvimento do ReGra. Este corpo foi um dos primeiros corpora equilibrados (contendo vários géneros de texto) para a língua portuguesa.
1999
Corpus baptizado de "NILC/São Carlos" pela Linguateca (na altura projecto "Processamento Computacional do Português"), a que foi adicionada marcação estrutural, e incluído no projecto AC/DC para disponibilização de corpora através da rede. Sucessivas versões da anotação deste corpus por meio do PALAVRAS de Eckhard Bick e pós processadas pela Linguateca têm desde 2000 sido disponibilizadas a partir do projecto AC/DC, usando por vezes a denominação compacta (apenas para efeitos práticos) de "SCANOT", ou seja, "Corpus NILC/São Carlos ANOTado". Este processo (e a referência à primeira versão do SCANOT) encontra-se em Santos & Bick (2000)
1999?
Corpus anotado no NILC através de contacto directo com Eckhard Bick, dono e criador do PALAVRAS, e enviado ao NILC (possivelmente também tornado acessível através do projeto VISL)
2001?
Envio de um subcorpus (anotado?) do Corpus NILC contendo artigos do Folha de São Paulo à PUC-RS (Vera Strube de Lima, para uso entre outros, da Caroline Gasperin), que veio a ser desnecessariamente chamado FolhANOT no artigo Santos & Gasperin (2002)
2002
Criação do CETENFolha com base no Corpus NILC/São Carlos, usando apenas o material do jornal Folha de São Paulo referente a 1994. Os artigos foram esfaqueados e divididos em extractos, subsequentemente baralhados. O CETENFolha passou também a ser distribuído anotado a partir de 2003.
2002
Uso de um subconjunto do corpus NILC, parte jornalística, Jornal do Brasil e Folha de São Paulo, para criar o TeMário, no âmbito do projecto EXPLOSA, projecto do NILC liderado por Lucia Rino. O TeMário também é disponibilizado pela Linguateca desde Outubro de 2003.
2002?
Uso do FolhANOT para criar o Folha-RiCOL na PUC_RS, uma colecção para avaliação e treino de sistemas de RI, também disponibilizada pela Linguateca desde Agosto de 2003.
2004
Uso do primeiro milhão de palavras do CETENFolha para o projecto da Floresta Sintá(c)tica. As frases são analisadas pelo PALAVRAS, convertidas para um formato sintagmático e revistas manualmente. Além disso o primeiro milhão é disponibilizado como Floresta Virgem.

Outras colecções com sobreposição parcial com o material do corpus NILC

Corpus do projeto Lácio-Web
O Lácio-Web é formado por quatro corpora: Lácio-Ref, Mac-Morpho, Par-C, Comp-C. Eles estão disponibilizados em http://www.nilc.icmc.usp.br/lacioweb/. Veja-se também ALUÍSIO, S. M. ; MONTILHA, Gisele ; FINGER, Marcelo ; NUNES, Maria das Graças Volpe ; TAGNIN, Stella O . The Lacio-Web Project: overview and issues in Brazilian Portuguese corpora creation. In Dawn Archer, Paul Rayson, Andrew Wilson & Tony McEnery (eds.), {\em CORPUS LINGUISTICS 2003, 2003, Lancaster. Proceedings of the Corpus Linguistics 2003}, UCREL Technical Papers, Vol 16, Part 1, Special Issue (2003), 2003, v. 16. p. 14-21. pdf
  1. Para a composição do Lácio-Ref, o aproveitamento do Corpus NILC foi o seguinte:
    • gênero jurídico: considerada somente a pasta "Constituição" do Corpus NILC
    • super gênero literário: considerada apenas a pasta "Resumos" do Corpus NILC
    • gênero informativo, subgênero jornalístico: considerada apenas a pasta "Folha de São Paulo" do Corpus NILC
      A "Folha de São Paulo" - o material mais significativamente aproveitado do Corpus NILC - foi meticulosamente formatado e organizado de forma que, no Lácio-Ref, não se pode dizer que constitua o mesmo corpus que era no Corpus NILC.
  2. Para a composição do Mac-Morpho foram usados textos de 10 cadernos da Folha de São Paulo do Corpus NILC (veja abaixo), especificados com os nomes iguais do Corpus NILC etiquetado pelo parser Palavras de E. Bick. Esses textos foram filtrados para deixarem somente o par: palavra - etiqueta morfossintática que foi revisada manualmente. (Nomes dos arquivos no Corpus NILC.)
CHAVE-2005
Uso do material completo da Folha de São Paulo dos anos 1994-1995 para criar a colecção brasileira do CLEF'2005
Atenção, esta página ainda está incompleta! Estamos ainda em contacto com os autores dos variados corpos para confirmar e adicionar pormenores.


Última actualização: 4 de abril de 2016.
Perguntas, comentários e sugestões