首页 > 玄幻奇幻 > 穿越：2014 > 第126章飘洋过海的邮件

第126章飘洋过海的邮件（3/3）

好书推荐：离婚后莫总天天想上位盘龙族海神新娘四合院：傻柱他二叔，何家守护神都市逍遥医仙爱你情深入髓花都盖世神医重生军旅不爱红妆爱武装重生团宠：偏执大佬叫我小祖宗超级智能修仙系统

的“运用语言模型来评估算法生成语言的流畅度”

尹芙·卡莉比较困惑林灰是怎么搞定语言模型训练的语料库的？

这个问题往后几年的话还真不是问题。

因为现成的语料库就一大堆。

仅仅是简体方面的语料库就有国家语委现代汉语语料库、京大语料库、语料库语言学在线等若干资源。

不过换到现在这个时空节点林灰显然不能跟别人研究人员说他用的是现成的预料库。

毕竟一些现成的语料库基本都是16年左右才问世的。

尽管如此，如何解释语料库来源的问题难不倒林灰。

事实上即便没有现成的语料库，想要构建一个可堪一用的能调/教出早期生成式摘要算法的语料库也不是太复杂。

最简单的方式——借助互联网可以自动构建文本语料库。

当利用这种方法构建语料库的时候，用户只需要提供所需的文本类别体系。

而后从互联网中采集大量网站，提取并分析网站的内容层次结构和每个主题词对应的网页内容信息。

从每个网站中筛选出用户所需要的文本作为候选语料。

这个过程其实不复杂，有点类似于爬虫抓取网页的过程。

比较困难的是这种方法形成的语料库如何去噪。

但这对于林灰也不是问题。

只需要将从多个网站中匹配上的同一文本类别的候选语料合并成每个类别的候选语料库。

而后再对候选语料库中每个类别下的文本进行去噪处理就可以提高语料库的质量。

在完成去噪之后就可以输出语料库。

虽然这个过程实现起来仍旧不容易。

但学术领域上除了个别被孤立的杠精喜欢钻牛角尖之外。

大多数情况下只要逻辑自洽就没人死磕。

除了好奇林灰是如何构建语料库之外。

涉及到“使用相似度模型评估文本和摘要之间的语义相关性”

尹芙·卡莉比较好奇林灰究竟是使用何种相似度模型来评估文本摘要和摘要之间的语义相关的。

额，这个问题就比较涉及到林灰搞定的文本摘要准确度模型最核心的东西了。

关于这个问题的答桉就不是三言两语能说得清的了。

新书推荐：回村后，从绑定峨眉开始赶山骑士与魔杖十里芳菲星武纪元剑逆苍穹道古真神武逆九千界我儿快拼爹瞎子武圣，从说书开始杀青后，我觉醒了超能力

第126章 飘洋过海的邮件（3/3）