第129章 步步紧逼的追赶者(中)(2/3)
百万级别文本摘要序列组成的语料库倒是好说。
这个相比于十万级别的语料库。
构建难度只是线性增加而已。
但是你确定我们要构建你说的那般庞大的带人工标记的验证集和测试集吗?
仅仅是带人工打分标签的文本–摘要序列验证集保守估计就需要我们花费近一个月的时间去搭建。
这还得是我们还其他语言学专业通力合作不产生嫌隙的情况下。
而涉及到103级别人工交叉打分一致的文本–摘要序列测试集更是难上加难。
推荐下,追书真的好用,这里下载大家去快可以试试吧。】
以前我们只构建过102级别的。
测试集的搭建每上涨一个数量级相应的构建难度可是指数级的往上增长。
先前我们为测试提取式摘要算法构建的那个150条文本交叉打分一致的测试集就用了将近两个月的时间。”
而且为什么我们还要引入人工因素?
这样的话不是相当于又回到以前开发那种带有主观色彩的准确度评判标准的老路上了吗?”
埃克来尔·基尔卡加:“这也正是我想表达的意思。
本来我也觉得不可能参照l的思路搞出新的衡量标准。
即便我们能按着l的技术路线走。
也会面临着过于庞大的工作量。”
听了埃克来尔·基尔卡加的话。
哈雷·普来斯很绝望:“也就是说仅仅是建立准确度衡量标准时的起步工作就会耗费我们大量的时间?
可是负责决策的那些高层根本不可能坐视我们在这个算法上浪费太多时间。
他们很可能会去直接谋求l的算法授权。
对于那些商业精英来说,技术什么的本来就是资本游戏的添头。
当他们获得l的新技术后我们估计会很惨……
我们究竟该怎么办呢?”
埃克来尔·基尔卡加:“谁知道呢?兴许我们该收拾收拾准备去y度了。”
哈雷·普来斯:“能去y度还不错呢,听说最近在筹建谷歌非洲研究中心了。
运气不好的话,估计我们要去非洲了。”
埃克来尔·基尔卡加:。
。
当然了这些话只是调侃而已。
好歹也是顶尖研究机构的科研人员。
埃克来尔·基尔卡加还不是那么容易就丧失斗志。
过了一会儿,埃克来尔·基尔卡
本章未完,点击下一页继续阅读。