第82章 领先一代半的算法(2/3)
行排序,以期能得到想要的摘要。
客观来说,这种算法虽然也还可以。
但问题在于抽取式摘要主要考虑单词词频,并没有考虑过多的语义信息。
也正因为如此,这种抽取式摘要很难获取复杂新闻的核心内容。
而且这种摘要方式的一个极其明显的弊端在于:
抽取式摘要对英文新闻还算能凑合着用。
但对于中文新闻完全是无所适从的状态。
总而言之,抽取式的摘要目前虽然已经比较成熟。
但是抽取质量及内容流畅度方面都有点不够看。
正因为抽取式摘要的种种不足。
之后又出现了生成式摘要算法。
生成式摘要算法得益于神经网络学习研究的深入。
这种摘要以一种更接近于人的方式生成摘要。
这就要求生成式模型有更强的表征、理解、生成文本的能力。
生成式则是计算机通读原文后,在理解整篇文章意思的基础上,按机器自己的话生成流畅的概括。
生成式新闻摘要主要依靠深度神经网络结构实现。
生成式摘要在理解新闻内容方面相比抽取式摘要有着先天优势。
但这种摘要也不是完全没有弊端。
这种摘要方式很容易受到原文长度的制约。
当把一篇很长新闻放在生成式摘要算法前。
其表现大概率为:(⊙﹏⊙)太长不看!
而生成/抽取复合式新闻摘要算法则综合了抽取式摘要算法和生成式摘要算法的优点。
对于较长的新闻,利用该算法可以实现先抽取核心内容。
再在核心内容的基础上进行生成。
总而言之,如果依托生成/抽取复合式新闻摘要算法开发一款软件的话
也完全能够吊打尼克·达洛伊西奥开发的软件。
毕竟尼克开发的软件。
无论是ly还是yanewdget(雅虎新闻摘要)
这些都是基于抽取式算法的。
生成/抽取复合式新闻摘要算法在效率方面可以说是吊打抽取式摘要算法。
不过话说回来这么弔的算法只开发一个软件然后卖出去。
似乎有点亏。
怎么说也是领先于时代的技术。
似乎可以水几篇论文什么的。
呃,不过高中才毕业就发表论文的话似乎有点过于惊世骇俗了。
究竟怎么做才能
本章未完,点击下一页继续阅读。