第126章 飘洋过海的邮件(3/3)
的“运用语言模型来评估算法生成语言的流畅度”
尹芙·卡莉比较困惑林灰是怎么搞定语言模型训练的语料库的?
这个问题往后几年的话还真不是问题。
因为现成的语料库就一大堆。
仅仅是简体方面的语料库就有国家语委现代汉语语料库、京大语料库、语料库语言学在线等若干资源。
不过换到现在这个时空节点林灰显然不能跟别人研究人员说他用的是现成的预料库。
毕竟一些现成的语料库基本都是16年左右才问世的。
尽管如此,如何解释语料库来源的问题难不倒林灰。
事实上即便没有现成的语料库,想要构建一个可堪一用的能调/教出早期生成式摘要算法的语料库也不是太复杂。
最简单的方式——借助互联网可以自动构建文本语料库。
当利用这种方法构建语料库的时候,用户只需要提供所需的文本类别体系。
而后从互联网中采集大量网站,提取并分析网站的内容层次结构和每个主题词对应的网页内容信息。
从每个网站中筛选出用户所需要的文本作为候选语料。
这个过程其实不复杂,有点类似于爬虫抓取网页的过程。
比较困难的是这种方法形成的语料库如何去噪。
但这对于林灰也不是问题。
只需要将从多个网站中匹配上的同一文本类别的候选语料合并成每个类别的候选语料库。
而后再对候选语料库中每个类别下的文本进行去噪处理就可以提高语料库的质量。
在完成去噪之后就可以输出语料库。
虽然这个过程实现起来仍旧不容易。
但学术领域上除了个别被孤立的杠精喜欢钻牛角尖之外。
大多数情况下只要逻辑自洽就没人死磕。
除了好奇林灰是如何构建语料库之外。
涉及到“使用相似度模型评估文本和摘要之间的语义相关性”
尹芙·卡莉比较好奇林灰究竟是使用何种相似度模型来评估文本摘要和摘要之间的语义相关的。
额,这个问题就比较涉及到林灰搞定的文本摘要准确度模型最核心的东西了。
关于这个问题的答桉就不是三言两语能说得清的了。