Os sumários manuais foram produzidos pelo professor e consultor de editoração de textos em português Deusdedit Ferreira de Menezes , com o apoio do FAPESP (Proc. Nro. 01/08849-8).
Além de servir a diversos fins de sumarização automática, como, por exemplo, à análise lingüística de textos e sumários, à construção e treinamento de sumarizadores automáticos e à avaliação desses sistemas, ele também servirá a outras tarefas relacionadas, cujas áreas atuais de interesse envolvem a Recuperação de Informação e a Detecção de Tópicos.
Na página do projecto EXPLOSA pode consultar documentação mais detalhada sobre o corpus, assim como endereços alternativos onde o pode obter.
Aconselha-se no entanto a leitura do relatório Rino e Pardo (2003), NILC-TR-0309.pdf.
60 textos constam do jornal on-line Folha de São Paulo (doravante, identificada pela sigla FSP) e estão distribuídos igualmente nas seções Especial, Mundo e Opinião; os 40 textos restantes foram publicados no Jornal do Brasil (doravante, identificado pela sigla JB), também on-line, e estão também uniformemente distribuídos nas seções Internacional e Política.
A Tabela 1 sintetiza esses dados, mostrando também o número de palavras por seção e o número médio de palavras por texto de cada seção. Tabela 1 - Características do corpus de textos-fonte
Jornais | Seções | Número de textos | Número de palavras | Média de palavras/texto |
Folha de São Paulo | Especial | 20 | 12.340 | 617 |
Mundo | 20 | 13.739 | 686 | |
Opinião | 20 | 10.438 | 521 | |
Jornal do Brasil | Internacional | 20 | 12.098 | 604 |
Política | 20 | 12.797 | 639 | |
Total | 100 | 61.412 | ||
Média | 12.282 | 613 |
Desse modo, na Tarefa 1 esse professor assumiu a posição de sumarizador profissional, devendo produzir sumários informativos.
Na Tarefa 2, ele assumiu a posição de mero leitor dos textos, apreendendo o que eles apresentam de mais importante. Neste caso, foi solicitado que ele simplesmente grifasse as sentenças (nos sumários) que lhe indicassem a idéia principal.
O gerador de extratos ideais identifica e justapõe as sentenças dos textos-fonte que apresentam o mesmo conteúdo das sentenças dos sumários manuais correspondentes. Para isso, utiliza a medida do co-seno de Salton (1989), segundo a metodologia descrita por Rino e Pardo (2003). É importante dizer que os extratos ideais podem não ser, de fato, ideais no sentido de espelharem de forma completa e totalmente satisfatória o conteúdo relevante do texto-fonte a ser sumarizado, como o faria um escritor humano: a medida do co-seno, por se basear puramente na coocorrência de palavras entre o sumário manual e o texto-fonte, pode produzir extratos com sentenças inapropriadas. Porém, esses extratos serão considerados ideais por serem os melhores possíveis, do ponto de vista de custo/benefício da produção automática.
A Tabela 2 correlaciona os tamanhos dos sumários manuais e extratos ideais. Pode-se notar que o número médio de palavras dos sumários manuais é significantemente menor do que o número médio de palavras dos extratos ideais. Essa diferença pode se dever ao fato de o sumarizador humano ser capaz de condensar o conteúdo que deseja da melhor forma possível, para satisfazer restrições de condensação, usando o processo de reescrita. No caso de extratos ideais, satisfazer essas restrições nem sempre é trivial, pois fixa-se previamente a unidade mínima a extrair dos textos-fonte -- em geral, as sentenças são extraídas integralmente para compor os sumários. Por essa razão, é mais comum terem-se extratos maiores do que os sumários manuais.
Tabela 2 - Características dos sumários manuais e extratos ideais
Sumários Manuais | Extratos ideais | ||||
Jornais | Seções | Número de palavras | Média de palavras/seção | Número de palavras | Média de palavras/seção |
Folha de São Paulo | Especial | 4.313 | 215 | 4.450 | 222 |
Mundo | 4.234 | 211 | 4.706 | 235 | |
Opinião | 3.373 | 168 | 3.980 | 199 | |
Jornal do Brasil | Internacional | 3.734 | 186 | 5.676 | 283 |
Política | 3.791 | 189 | 4.451 | 222 | |
Total | 19.445 | 23.263 | |||
Médias gerais | 3.889 | 193 | 4.652 | 232 |
Na pasta de textos-fonte, há três pastas assim organizadas :
b) A segunda contém todos os textos-fonte com seus títulos, sem discriminação de origem;
c) A terceira contém os textos-fonte sem quaisquer informações de origem ou título.
Os arquivos textuais estão todos em formato txt, já adequado para o processamento automático. Com exceção de seus prefixos, todos os nomes de arquivo incluem o ano (NN), mês (AA) e dia de publicação (de 1 a 31).
Os prefixos indicam as seções dos jornais correspondentes, como seguem:
Na pasta de sumários, há também três subpastas: uma com os sumários manuais, outra com os sumários manuais marcados e, finalmente, outra com os extratos ideais produzidos pelo gerador de extratos ideais, conforme descrito anteriormente. Na pasta de sumários manuais estão os arquivos em formato txt que contêm os sumários construídos pelo profissional. Seus nomes contêm exatamente os nomes dos arquivos dos textos-fonte correspondentes, acrescidos do prefixo Sum-, para indicar o fato de se tratarem de sumários e não de textos inteiros. Na pasta de sumários profissionais marcados estão os mesmos sumários, porém, agora com indicação, em vermelho, das sentenças que indicaram ao sumarizador profissional as idéias principais dos textos-fonte correspondentes (conforme Tarefa 2 solicitada ao sumarizador profissional -- Apêndice A de Pardo e Rino, 2003). Esses arquivos também são nomeados como os textos fonte, porém com prefixo Summ- (para Sumários Manualmente Marcados). Sua extensão .doc é justamente para que a formatação seja preservada e, assim, as sentenças marcadas não sejam alteradas. Portanto, recomenda-se que esses dados sejam sempre preservados.
Para diferenciar os sumários manuais (prefixo Sum) e os sumários manualmente marcados (prefixo Summ) dos extratos ideais, os arquivos da pasta 'Extratos ideais automáticos’ possuem o prefixo Ext- (estes são também arquivos sem qualquer formatação, isto é, arquivos com extensão txt).
Descrição | Arquivo |
Textos-fonte com seus títulos, organizados por suas origens | 153K |
Textos-fonte com seus títulos, sem discriminação de origem | 152K |
Textos-fonte sem quaisquer informações de origem ou título | 148K |
Sumários manuais em versão TXT | 53K |
Sumários manuais marcados | 145K |
Extratos ideais produzidos pelo gerador de extratos ideais | 61K |
Toda a colecção (formato tgz) | 1000K |
Toda a colecção (formato zip) | 1.4M |