Corpus TeMário

Recurso disponibilizado pela Linguateca


Conteúdo:


1. Definição e Origem

Este corpus foi criado no âmbito do
projecto EXPLOSA do NILC coordenado por Lucia H. Machado Rino. Consiste em 100 textos jornalisticos, acompanhados dos respectivos sumários manuais e extractos ideais (gerados automaticamente). O gerador de extratos ideais utilizado pode ser obtido em http://www.nilc.icmc.usp.br/~thiago/Summarization.html.

Os sumários manuais foram produzidos pelo professor e consultor de editoração de textos em português Deusdedit Ferreira de Menezes , com o apoio do FAPESP (Proc. Nro. 01/08849-8).

Além de servir a diversos fins de sumarização automática, como, por exemplo, à análise lingüística de textos e sumários, à construção e treinamento de sumarizadores automáticos e à avaliação desses sistemas, ele também servirá a outras tarefas relacionadas, cujas áreas atuais de interesse envolvem a Recuperação de Informação e a Detecção de Tópicos.

Na página do projecto EXPLOSA pode consultar documentação mais detalhada sobre o corpus, assim como endereços alternativos onde o pode obter.

Aconselha-se no entanto a leitura do relatório Rino e Pardo (2003), NILC-TR-0309.pdf.


2. Características do TeMário

Características gerais

Para construir o TeMário, foram coletados 100 textos jornalísticos, totalizando 61.412 palavras.

60 textos constam do jornal on-line Folha de São Paulo (doravante, identificada pela sigla FSP) e estão distribuídos igualmente nas seções Especial, Mundo e Opinião; os 40 textos restantes foram publicados no Jornal do Brasil (doravante, identificado pela sigla JB), também on-line, e estão também uniformemente distribuídos nas seções Internacional e Política.

A Tabela 1 sintetiza esses dados, mostrando também o número de palavras por seção e o número médio de palavras por texto de cada seção. Tabela 1 - Características do corpus de textos-fonte

JornaisSeçõesNúmero de textosNúmero de palavrasMédia de palavras/texto
Folha de São PauloEspecial2012.340617
Mundo2013.739686
Opinião2010.438521
Jornal do BrasilInternacional2012.098604
Política2012.797639
Total10061.412
Média12.282613

Construção dos sumários

Os textos coletados foram enviados ao professor e consultor de editoração de textos em português para a execução de duas tarefas: a construção dos sumários correspondentes (Tarefa 1, principal) e a indicação, para cada texto-fonte, de sua idéia principal (Tarefa 2).

Desse modo, na Tarefa 1 esse professor assumiu a posição de sumarizador profissional, devendo produzir sumários informativos.

Na Tarefa 2, ele assumiu a posição de mero leitor dos textos, apreendendo o que eles apresentam de mais importante. Neste caso, foi solicitado que ele simplesmente grifasse as sentenças (nos sumários) que lhe indicassem a idéia principal.

Complementação do corpus

Complementou-se o TeMário com extratos ideais produzidos com base nos sumários manuais, por um gerador de extratos ideais.

O gerador de extratos ideais identifica e justapõe as sentenças dos textos-fonte que apresentam o mesmo conteúdo das sentenças dos sumários manuais correspondentes. Para isso, utiliza a medida do co-seno de Salton (1989), segundo a metodologia descrita por Rino e Pardo (2003). É importante dizer que os extratos ideais podem não ser, de fato, ideais no sentido de espelharem de forma completa e totalmente satisfatória o conteúdo relevante do texto-fonte a ser sumarizado, como o faria um escritor humano: a medida do co-seno, por se basear puramente na coocorrência de palavras entre o sumário manual e o texto-fonte, pode produzir extratos com sentenças inapropriadas. Porém, esses extratos serão considerados ideais por serem os melhores possíveis, do ponto de vista de custo/benefício da produção automática.

A Tabela 2 correlaciona os tamanhos dos sumários manuais e extratos ideais. Pode-se notar que o número médio de palavras dos sumários manuais é significantemente menor do que o número médio de palavras dos extratos ideais. Essa diferença pode se dever ao fato de o sumarizador humano ser capaz de condensar o conteúdo que deseja da melhor forma possível, para satisfazer restrições de condensação, usando o processo de reescrita. No caso de extratos ideais, satisfazer essas restrições nem sempre é trivial, pois fixa-se previamente a unidade mínima a extrair dos textos-fonte -- em geral, as sentenças são extraídas integralmente para compor os sumários. Por essa razão, é mais comum terem-se extratos maiores do que os sumários manuais.

Tabela 2 - Características dos sumários manuais e extratos ideais

Sumários ManuaisExtratos ideais
JornaisSeçõesNúmero de palavrasMédia de palavras/seçãoNúmero de palavrasMédia de palavras/seção
Folha de São PauloEspecial4.3132154.450222
Mundo4.2342114.706235
Opinião3.3731683.980199
Jornal do BrasilInternacional3.7341865.676283
Política3.7911894.451222
Total19.44523.263
Médias gerais3.8891934.652232


3. Organização do TeMário

O TeMário está organizado em uma única pasta, com duas subpastas que agregam, respectivamente, os textos-fonte e os sumários.

Na pasta de textos-fonte, há três pastas assim organizadas :

Os arquivos textuais estão todos em formato txt, já adequado para o processamento automático. Com exceção de seus prefixos, todos os nomes de arquivo incluem o ano (NN), mês (AA) e dia de publicação (de 1 a 31).

Os prefixos indicam as seções dos jornais correspondentes, como seguem:

Adicionalmente, os textos-fonte sem título têm seus arquivos denotados por St- antes dos prefixos acima descritos.

Na pasta de sumários, há também três subpastas: uma com os sumários manuais, outra com os sumários manuais marcados e, finalmente, outra com os extratos ideais produzidos pelo gerador de extratos ideais, conforme descrito anteriormente. Na pasta de sumários manuais estão os arquivos em formato txt que contêm os sumários construídos pelo profissional. Seus nomes contêm exatamente os nomes dos arquivos dos textos-fonte correspondentes, acrescidos do prefixo Sum-, para indicar o fato de se tratarem de sumários e não de textos inteiros. Na pasta de sumários profissionais marcados estão os mesmos sumários, porém, agora com indicação, em vermelho, das sentenças que indicaram ao sumarizador profissional as idéias principais dos textos-fonte correspondentes (conforme Tarefa 2 solicitada ao sumarizador profissional -- Apêndice A de Pardo e Rino, 2003). Esses arquivos também são nomeados como os textos fonte, porém com prefixo Summ- (para Sumários Manualmente Marcados). Sua extensão .doc é justamente para que a formatação seja preservada e, assim, as sentenças marcadas não sejam alteradas. Portanto, recomenda-se que esses dados sejam sempre preservados.

Para diferenciar os sumários manuais (prefixo Sum) e os sumários manualmente marcados (prefixo Summ) dos extratos ideais, os arquivos da pasta 'Extratos ideais automáticos’ possuem o prefixo Ext- (estes são também arquivos sem qualquer formatação, isto é, arquivos com extensão txt).

DescriçãoArquivo
Textos-fonte com seus títulos, organizados por suas origens153K
Textos-fonte com seus títulos, sem discriminação de origem152K
Textos-fonte sem quaisquer informações de origem ou título148K
Sumários manuais em versão TXT53K
Sumários manuais marcados 145K
Extratos ideais produzidos pelo gerador de extratos ideais61K
Toda a colecção (formato tgz)1000K
Toda a colecção (formato zip)1.4M


4. Agradecimentos

Estamos gratos a Lucia H. Machado Rino (
NILC) pela autorização de disponibilização deste recurso.


Última actualização: 27 de Outubro de 2004.
Perguntas, comentários e sugestões