第100章 谷歌产生浓厚兴趣(3/7)
pagerank通过网络浩瀚的超链接关系来确定一个页面的等级,把从a页面到b页面的链接解释为a页面给b页面投票,谷/歌根据a页面甚至链接到a的页面的等级和投票目标的等级来决定b的等级。
简单的说,一个高等级的页面可以使其他低等级页面的等级提升。
该算法把整个互联网可以看作是一张有向图,网页是图中的节点,网页之间的链接就是图中的边。
借助该算法可以衡量不同网页的根搜索关键词的关联程度从而对网页排序。
认识十年的老书友给我推荐的追书app,!真特么好用,开车、睡前都靠这个朗读听书打发时间,这里可以下载】
在很长一段时间内,当你在谷/歌键入关键词后得到的搜索信息。
搜索信息里那一系列网页对应着的网页排列顺序就是依托pagerank算法进行排序的。
这个算法的重要性可见一斑。
pagerank算法不止用于搜索引擎领域。
还跨界进入了自然语言处理nlp领域。
在nlp方面大名鼎鼎的tetrank算法就是在pagerank算法之上而来的。
而tetrank算法一向是抽取式摘要算法的核心算法。
虽然目前tetrank算法主要用于自然语言处理方面。
但并不代表这个算法不能应用于搜索方面。
毕竟tetrank算法和用于搜索的pagerank算法本是同根生。
而林灰搞得生成式文本摘要算法gta虽然表面上看是文本处理算法。
但事实上也有作用于未来搜索领域的潜质。
相比于pagerank算法对网页超链接抓取排序。
有了gta算法,谷歌可以更进一步直接对pagerank算法下排名靠前的网页内容进行抓取获取相应的信息。
按照信息和搜索关键词的关键度再进行二次精确排序。
这无疑可以大大提高谷/歌搜索的准确度。
尽管以现在的技术将生成式文本摘要算法嵌套在pagerank算法之下还很难保证搜索高效率。
但谁能保证未来的服务器以及计算力水平不会突飞勐进呢?
万一之后技术能够暴涨呢?
而且就算短时间内谷歌无法将该技术用于搜索领域。
生成式文本摘要算法表现出的强大的文字处理能力也是很值得谷歌重视的技术。
本章未完,点击下一页继续阅读。