Large-Scale, Diverse, Paraphrastic Bitexts via Sampling and Clustering

J. Edward Hu,Abhinav Singh,Nils Holzenberger,Matt Post,Benjamin Van Durme

Large-Scale, Diverse, Paraphrastic Bitexts via Sampling and Clustering

2019

J. Edward Hu
Abhinav Singh
Nils Holzenberger
Matt Post
Benjamin Van Durme

Producing diverse paraphrases of a sentence is a challenging task. Natural paraphrase corpora are scarce and limited, while existing large-scale resources are automatically generated via back-translation and rely on beam search, which tends to lack diversity. We describe ParaBank 2, a new resource that contains multiple diverse sentential paraphrases, produced from a bilingual corpus using negative constraints, inference sampling, and clustering.We show that ParaBank 2 significantly surpasses prior work in both lexical and syntactic diversity while being meaning-preserving, as measured by human judgments and standardized metrics. Further, we illustrate how such paraphrastic resources may be used to refine contextualized encoders, leading to improvements in downstream tasks.

Keywords:

Machine learning
Sampling (statistics)
Cluster analysis
Artificial intelligence
Natural language processing
Computer science

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations