第169章 你渴望推开那扇门么(6)(2/5)
题在低维空间中不会遇到。
比如物理空间很少会遇到这样的问题,毕竟物理上通常只用三维来建模。
说起来很神奇,尽管物理上很难遇到维度爆炸问题。
但在自然语言处理、机器学习方面维度爆炸是常有的事情。
在这一领域随便一点信息量都会轻而易举地突破三维。
其实在很多领域中,如采样、组合数学、机器学习和数据挖掘都有提及到维度爆炸的现象。
这些问题的共同特色是当维数提高时,空间的体积提高太快,因而可用数据变得很稀疏。
在高维空间中,当所有的数据都变得很稀疏,从很多角度看都不相似,因而平常使用的数据组织策略变得极其低效。
事实上尹芙·卡莉她们先前团队所应用的基于网路知识进行文本相似度衡量时。
如果直接对所有网页进行分析,往往会导致知识含量稀疏计算困难。
事实上,这种情况就是因为维度爆炸所导致的。
尹芙·卡莉很清楚现在这种利用向量引入到语义文本相似度的方法会带来维度爆炸。
林灰为什么突然询问她如何看到将向量引入到计算语义文本相似度呢?
莫非林灰真的有什么办法能够妥善处理维度爆炸这一问题吗?
可是在机器学习、自然语言处理方向的维度爆炸并不是那么容易解决的。
还是说林灰打算干脆绕过向量去衡量语义文本相似度吗?
尹芙·卡莉虽然不知道林灰为什么突然这么问。
但这种有可能得到林灰提点的机会,尹芙·卡莉怎可能轻易放弃。
尹芙·卡莉先是给林灰陈述了一下当前西方在计算语义文本相似度的时候向量通常客串的角色。
而后尹芙·卡莉才正式开始回答林灰先前问她的问题:
“引入向量后才能使得机器更方便的处理语义文本的信息。
如果不引入向量的话在处理语义文本相似度的时候我们能选择的方案很少。
而且不引入向量的情况下,我们在计算语义文本相似度所选择的方案多多少少都有点lw。
比如说,基于字符串的方法,这种方法都是对原始文本进行比较。
主要包括编辑距离、最长公共子序列、ngra相似度等来进行衡量。
话说,,,版。】
就以编辑距离来说吧,其衡量两个文本之间相似度的根据是依据两个文本之间由一个转换成另一个所需的最少编辑
本章未完,点击下一页继续阅读。