第220章 巨大的漩涡?(1/4)
跟林灰的交流,贺天昌询问了一些关于生成式文本摘要算法的问题。
当然贺天昌好奇的不是具体技术本身。
他好奇的是林灰的科研过程。
像林灰这样一个未经过学术方面系统学习的人是怎样一个人搞定全球领先算法的呢?
贺天昌问了林灰一些常规的问题。
比如说林灰是怎么搞定语言模型训练的语料库的?
事实上这并不是林灰第一次听到这个问题了。
先前尹芙·卡莉就在信中提问过林灰这个问题。
不过就算林灰以前没听人提过这个问题也不用担心被问住。
涉及到生成式文本摘要算法专利,最容易让这个时空外界不解的就是语料库的问题了。
讲真,最近一直用看书追更,换源切换,朗读音色多,安卓苹果均可。】
不提前想好牵扯到训练语言模型所用到的语料库问题该怎么解释就贸然拿出文本摘要方面的新成果很容易遭受这样那样的质疑。
这样的问题林灰早就注意到了。
凡事预则立,不预则废。
对于这个问题,林灰准备了至少三个备选的答桉。
林灰将他先前准备好的说辞说给了贺天昌教授。
贺天昌有种茅塞顿开的感觉。
贺不由得感慨果然长江后浪推前浪啊。
不过,在林灰提到的几种方法中。
贺天昌比较奇怪的还是借助互联网自动构建文本语料库这种方法:
当利用这种方法构建语料库的时候,用户只需要提供所需的文本类别体系。
而后从互联网中采集大量网站,提取并分析网站的内容层次结构和每个主题词对应的网页内容信息。
从每个网站中筛选出用户所需要的文本作为候选语料。
而后对形成的语料库进行去噪。
事实上这种方法贺天昌记得以前看过国外大学一些学报似乎记录过这方面的研究。
可国外那次失败了,因为采集到的语料库噪点太大,停用词过多,根本不堪一用。
林灰为什么会提出这种方法。
莫非林灰对去噪所用的算法一定有独到的理解。
涉及到nlp什么的其实贺天昌也不是很擅长。
但问题不大,贺天昌国内可是有些老朋友很是精于此道的。
贺天昌默默将这事记下了。
同贺天昌学术上的交流,林灰收获还是很大的。
首先
本章未完,点击下一页继续阅读。