Folha-RIcol - versão out/2002

Recurso disponibilizado pela Linguateca


Conteúdo:


1. Definição e Origem

O Folha-RIcol é uma coleção de documentos derivada do corpus NILC através de um esforço de marcação desenvolvido no
Programa de Pós- Graduação em Ciência da Computação da Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS), Brasil.

Mais informações sobre o corpus do NILC, que contém artigos provenientes do Jornal Folha de São Paulo do ano de 1994, pode ser encontrada na página sobre a história do Corpus NILC e seus descendentes.

Derivação a partir do corpus do NILC

A derivação do corpus original ocorreu em duas etapas:

Contato

Para mais informações sobre a elaboração do corpus Folha-RIcol entre em contato com:

Luiz Augusto Sangoi Pizzato:

Marco Antonio Insaurriaga Gonzalez:


2. Características do Folha-RIcol


3. Assuntos pesquisados e marcas

Foram pesquisados os seguintes assuntos e utilizadas as seguintes marcas:

AssuntoMarcaArquivo
Colecção toda2.8M
Acidente de Automóvel.ACID_AUTO132K
Tráfico de drogas.TRAF_DROGAS28K
Musica Brasileira.MUSICA_BRASILEIRA53K
Ensino.ENSINO49K
Jogo de Futebol.JOGO_FUTEBOL45K
Comércio de telefone.COMERC_TEL6.8K
Aposentadoria.APOSENTADORIA26K
Campanha eleitoral.CAMP_ELEITORAL48K
Fenômenos da Natureza.FEN_NATUREZA48K
Frutas tropicais.FRUTA_TROPICAL15K
Viagem de avião.VIAGEM_AERO24K
Doença grave.DOENÇA_GRAVE65K
Animal doméstico.ANIMAL_DOMESTICO40K
Aumento de salário.AUMENTO_SALARIO16K
Aluguel de imóvel.ALUGUEL_IMOVEL30K
Viagem internacional.VIAGEM_INTERNA42K
Uso de computador.USO_COMPUTADOR27K
Professor universitário.PROFUNIV131K
Outros assuntos>2.1M

Marcação dos assuntos

As marcas foram inseridas da seguinte forma:

4. Agradecimentos

Estamos gratos a Vera Lúcia Strube de Lima (PUCRS) pela criação e a Graça Nunes (NILC) pela autorização de disponibilização deste recurso.


Última actualização: 19 de Abril de 2005.
Perguntas, comentários e sugestões