PCSC - Priberam Compressive Summarization Corpus
Apresentação
O PCSC - Priberam Compressive Summarization Corpus contém 801 documentos em 80 tópicos (dez documentos por tópico, exceto no caso do tópico 58 (empréstimo do FMI a Portugal), que tem 11).
Esses documentos são notícias publicadas por rádios, televisões ou jornais portugueses de grande circulação.
Cada tópico tem dois resumos humanos, de tamanho inferior a 100 palavras, que foram obtidos por compressão, ou seja, os sumarizadores humanos apenas apagaram frases ou palavras.
Obtenção
Levante aqui o Priberam Compressive Summarization Corpus em formato zip.
Para mais informação, leia também o ficheiro README.txt.
A página original de disponibilização, no sítio da Priberam, é http://labs.priberam.com/Resources/PCSC.aspx.
Licença
O PCSC é disponibilizado aravés da licença
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.Veja aqui a mesma em inglês (LICENSE.txt), que é a correta para efeitos legais, assim como uma explicação, também em inglês, para leigos aqui, de (http://creativecommons.org/licenses/by-nc-sa/4.0/, obtida a 16 de abril de 2014).
Citação
Se usar o PCSC na sua investigação, por favor cite
- Miguel B. Almeida, Mariana S. C. Almeida, André F. T. Martins, Helena Figueira, Pedro Mendes and Cláudia Pinto, A New Multi-Document Summarization Corpus for European Portuguese, Language Resources and Evaluation Conference (LREC'14), Reykjavik, Iceland, May 2014.
A Priberam agradece à Cofina, à Controlinveste e à RTP pela sua colaboração, ao terem fornecido as notícias usadas na elaboração do corpo. O PCSC foi parcialmente financiado pelas seguintes instuições ou programas: FEDER/UE, QREN/POR Lisboa (Portugal), projeto Discooperio (contrato 2011/18501), e pela bolsa da FCT PTDC/EEI-SII/2312/2012.
Última atualização: 16 de abril de 2014.
Perguntas, comentários e sugestões