The CNN-Corpus: A Large Textual Corpus for Single-Document Extractive Summarization

Rafael Dueire Lins,Hilário Oliveira,Luciano de Souza Cabral,Jamilson Batista,Bruno Tenorio,Rafael Ferreira,Rinaldo Lima,Gabriel de França Pereira e Silva,Steven J. Simske

The CNN-Corpus: A Large Textual Corpus for Single-Document Extractive Summarization

2019

Rafael Dueire Lins
Hilário Oliveira
Luciano de Souza Cabral
Jamilson Batista
Bruno Tenorio
Rafael Ferreira
Rinaldo Lima
Gabriel de França Pereira e Silva
Steven J. Simske

This paper details the features and the methodology adopted in the construction of the CNN-corpus, a test corpus for single document extractive text summarization of news articles. The current version of the CNN-corpus encompasses 3,000 texts in English, and each of them has an abstractive and an extractive summary. The corpus allows quantitative and qualitative assessments of extractive summarization strategies.

Keywords:

Computer science
Automatic summarization
Information retrieval

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations