PCSC - Priberam Compressive Summarization Corpus

Apresentação

O PCSC - Priberam Compressive Summarization Corpus contém 801 documentos em 80 tópicos (dez documentos por tópico, exceto no caso do tópico 58 (empréstimo do FMI a Portugal), que tem 11).

Esses documentos são notícias publicadas por rádios, televisões ou jornais portugueses de grande circulação.

Cada tópico tem dois resumos humanos, de tamanho inferior a 100 palavras, que foram obtidos por compressão, ou seja, os sumarizadores humanos apenas apagaram frases ou palavras.

Obtenção

Levante aqui o Priberam Compressive Summarization Corpus em formato zip.

Para mais informação, leia também o ficheiro README.txt.

A página original de disponibilização, no sítio da Priberam, é http://labs.priberam.com/Resources/PCSC.aspx.

Licença

O PCSC é disponibilizado aravés da licença Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.Veja aqui a mesma em inglês (LICENSE.txt), que é a correta para efeitos legais, assim como uma explicação, também em inglês, para leigos aqui, de (http://creativecommons.org/licenses/by-nc-sa/4.0/, obtida a 16 de abril de 2014).

Citação

Se usar o PCSC na sua investigação, por favor cite

Agradecimentos

A Priberam agradece à Cofina, à Controlinveste e à RTP pela sua colaboração, ao terem fornecido as notícias usadas na elaboração do corpo. O PCSC foi parcialmente financiado pelas seguintes instuições ou programas: FEDER/UE, QREN/POR Lisboa (Portugal), projeto Discooperio (contrato 2011/18501), e pela bolsa da FCT PTDC/EEI-SII/2312/2012.


Última atualização: 16 de abril de 2014.
Perguntas, comentários e sugestões