首页 > 玄幻奇幻 > 穿越：2014 > 第129章步步紧逼的追赶者（中）

第129章步步紧逼的追赶者（中）（1/3）

好书推荐：离婚后莫总天天想上位盘龙族海神新娘四合院：傻柱他二叔，何家守护神都市逍遥医仙爱你情深入髓花都盖世神医重生军旅不爱红妆爱武装重生团宠：偏执大佬叫我小祖宗超级智能修仙系统

哈雷·普来斯接着道：“总之，我觉得那个l文本摘要准确度衡量模型对于我们来说非常不利。

或许我们可以参照l的思路搞一个自己的衡量标准……”

埃克来尔·基尔卡加：“你说的这个问题我倒是也设想过。

可是参照l的构建标准的过程进行模型构建并不容易。

按照l的思路构建类似的标准的话。

首先我们需要运用语言模型来评估算法生成语言的流畅度，然后…

如果我们按照同样的步骤进行模型构建的话。

很可能会直接卡死在语言模型的构建上。

毕竟我们的语料库实在是太逊了……

我们以前合作的麻省理工学院nlp那边给出的报告

也证实了按l的思路构建语言模型不可行。”

哈雷·普来斯：“麻省理工学院那帮人认为不可行，未必就真的不可行。

他们很有可能是他们在逃避责任而已。

反正我觉得完全可以试着借鉴l的思路搞一个新的衡量标准。”

埃克来尔·基尔卡加：“你确定我们能够按照l的思路弄出一个新模型么？

你怎么保证我们弄出的模型不会跟他搞得那个一模一样？”

哈雷·普来斯：“不管怎么说，我们也需要走这条路。

如果我们连他衡量准确度的模型都不能复现出来。

我们怎么知道他在这套模型究竟有没有猫腻？”

哈雷·普来斯接着道：“以前我们的语料库或许很lw。

但现在我们采用的语料库没什么问题。

现在是加州大学伯克利分校的自然语言中心在和我们合作。

我们测试1验证算法时可是由10万个文本–摘要序列所组成的语料库作训练集的……”

埃克来尔·基尔卡加反驳道：“不不不，这远远不够！

想要达到l算法处理文本那种水平，我们起码需要百万级别文本摘要序列组成的语料库做训练集。

而这还只是冰山一角。

我们还需要构建一个104级别带人工打分标签的文本–摘要序列作为验证集。

以及一个103级别的个人工交叉打分一致的文本–摘要序列作为测试集。

否则我们的衡量模型很可能达不到l搞得那个模型那种置信度。”

哈雷·普来斯：“你的话确实有道理！

为了缩小边际误差最实际的方法就是增加样本数量。

本章未完，点击下一页继续阅读。

第129章 步步紧逼的追赶者（中）（1/3）