筛选文本 来训练领域LM
==Moore, Robert C., and William Lewis. “Intelligent selection of language model training data.” Proceedings of the ACL 2010 conference short papers. 2010.==citations:588
背景
输出质量总是可以通过使用更多的语言模型训练数据来提高,这似乎是一个普遍的真理,但前提是训练数据与期望的输出相当匹配。
结合领域数据和其他数据构建LM的常规方法:
1)领域数据和其他数据结合训练LM;
2)基于领域数据和其他数据的ngram count来结合(加权这个count);
2)领域LM和其他LM做权重的combine,(线性或log线性的)插值LM概率;
机器翻译的模型的训练数据的常规做法是用尽可能多的数据,并依赖于特征权重优化来降低与翻译应用程序匹配较差的数据的影响。
本文从数据入手,挑出领域的数据。
思路
主要方法是利用交叉熵原理,已有一个语料的文本分布,我们通过交叉熵去找跟这个语料的文本分布相近的文本,从而找到匹配的文本语料。
前提假设:有足够多的领域数据来训练领域语言模型,用该模型来帮助对来自其他数据源的文本片段进行打分,并基于对域内数据进行优化的打分临界值score cutoff来选择文本片段,based on a score cutoff optimized on held-out in-domain data.
基于困惑度阈值的文本选择等价于基于交叉熵阈值的文本选择(困惑度和交叉熵是单调相关的);LM记为M,文本片段记为s,困惑度为 $\large b^{H_M(s)}$,其中 $H_M(s)$ 是交叉熵,b是bits或nats的单位,比如10、e;
- 打分原则:$H_I(s) - H_N(s)$
其中 :$H_I(s)$:领域数据集I训练的模型I,对文本片段s的交叉熵 ;$H_N(s)$:领域外文本集N训练的模型N,对文本片段s的交叉熵 (s是领域外文本集N的一个片段)
差值作为分数,把分数小于阈值的挑出来,作为领域数据;
其中,$H_I(s)=-\frac{logP_I(s)}{S}$ ,S是文本s长度
$\large log_{10}ppl=交叉熵=H(s)$