穿越：2014_猪熊_第156章步步紧逼的追赶者(下)- 笔趣阁

　　第156章步步紧逼的追赶者(下) (第2/3页)

但翻译在转达的时候却省略了什么东西。

    如果是省略了一些重要的名词那实在是太糟糕了。

    到底林灰想表达是将高维数据转化为低维数据？

    还是说将高维模型转化为低维模型？

    抑或是什么其他含义？

    伊芙·卡莉很想询问一下。

    不过考虑到林灰先前为了米娜·卡莉做出的贴心之举。

    伊芙·卡莉并不好就这种事情让林灰带来的翻译陷入到不安之中。

    仔细思索林灰话里的含意。

    首先伊芙·卡莉觉得林灰想说的应该不是将高维数据降低成低维数据。

    在进行自然语言处理时如果出现了高维数据的话。

    在分析高维数据时，确实是可以进行降维的。

    也必须要进行降维！

    高维数据模型虽然收集到的数据点很多。

    但是所收集到的数据通常会散布在一个极其分散广袤的高维空间中。

    这种情况下很多统计方法都难以应用到高维数据上。

    这也是“维度灾难”存在的原因之一。

    遇到这种维度灾难，不降维的话高维数据是很难进行处理的。

    作为数据去噪简化的一种方法，降维处理对处理大多数现代机器学习数据很有帮助。

    通过降低数据的维度，理论上讲可以把这个复杂棘手的问题变得简单轻松。

    机器学习领域中所谓的降维就是指采用某种映射方法。

    将原高维空间中的数据点映射到低维度的空间中。

    这么做是为了除去噪音同时保存所关注信息的低维度数据。

    这样对研究人员理解原本的高维数据所隐含的结构和模式很有帮助。

    原始的高维度数据通常包含了许多无关或冗余变量的观测值。

    降维可以被看作是一种潜在特征提取的方法。

    降维这种方法经常用于数据压缩、数据探索以及数据可视化。

    话虽如此，但降维并不是像科幻书里描述的那般扔一个二向箔就完事了。

    涉及到降维是一件极其麻烦的事情！

    在选择降维方法的时候，人们不得不考虑很多因素。

    首先要考虑输入数据的性质。

    比如说，对于连续数据、分类数据、计数数据、距离数据，它们会需要用到不同的降维方法。

    对数据的性质和分辨率的考虑是十分重要的。

    如果不考虑输入数据的性质贸然进行降维的话虽然能够使得这些这些高维模型低维化。

    极有可能使得原本离散的数据直接“糊”在一起。

    这种情况比高维离散还要糟糕。

    在应用正式的降维技术之前。

    还要对高维数据进行适当的预处理。

    毕竟不是所有的数据都是样本数据。

    而有的时候进行预处理时。

    最佳的预处理方式又是引入降维。

    这就会陷入一个疯狂套娃的循环之中。

    总而言之，对高维数据进行降维是一件超级麻烦的事情。

    在实际进行处理时一般自然语言处理方向的研究人员一般都竭力避免出现高维爆炸的情况。

    而不是等出现高维数据之后再进行低维处理。

    高维数据的低维处理某种程度更像是一种迫不得已的异常麻烦的补救措施。

    很多东西因为麻烦就足以让人说再见了。

    繁复的过程意味着容易出错。

    而美好的事物所呈现的形式应该是简洁的。

    就像欧拉公式一般。

    正因为如此，伊芙·卡莉觉得林灰这种天才想表达的意思绝对不是将高维数据降维成低维数据。

    如果林灰想表达的意思不是对高维数据做手脚。

    而是说对传统的向量空间模型做文章？

    将高维向量空间模型转化为维度较低的空间向量模型？

    这种思路倒是不错。

    但这种尝试先前并不是没人做过。

    很早之前就有人进行了尝试。

    早在上世纪末期就有人提出了潜在语义分析模型。

    潜在语义分析模型是基于空间向量模型而提出的。

    潜在语义分析模型其基本思想是在得到文本的空间向量表示后。

    通过奇异值分解，将高维且稀疏的空间向量映射到低维的潜在语义空间当中。

    在得到低维的文本向量和单词向量之后。

    再用余弦相似度等度量方式来计算文本间的语义相似度。

    潜在语义分析的本质思想就是通过降维来去除原始矩阵中的噪音，从而提高计算准确度。

    虽然这种思路不错，但这种方法并没有普适性。

    这是因为潜在语义分析模型在架构模型的过程中采用的奇异值分解。

    这种做法使得计算复杂度增高，并且可移植性较差。

    在这种方法提出来之后。

    并不是没人尝试对这种方法进行过改进。

    同样是上世纪末。

    有研究人员提出了概率潜在语义分析模型。

    这种模型是基于概率，而不是基于奇异值分解。

    这种模型相比于潜在语义分析模型的主要差异是增加一个主题层。

    而后使用期望最大化算法训练主题，并找到一个概率性的潜在主题模型。

    以此用来预测文本空间向量中的观察数据。

    在这种概率潜在语义分析模型中，多义词被归入不同的主题下，而同义词被归入同一主题下。

    这样可以避免同义词和多义词对文本相似度计算的影响。

    然而，概率潜在语义分析模型的参数随着文档数量的增加而线性增长。

    很容易出现过拟合和泛