• 高维空间数据稀疏与模型性能的讨论

    高维空间采样的困难度讨论在高维空间中,数据点的分布通常是比较稀疏的。想象在一个维的单位超立方体内随机撒下个点,其中每个点的坐标都在区间之间且独立同分布的。如果我们将这个区间划分为个等长的子区间,那么整个超立方体就会被分割成个小立方体。随着维数的增加,哪怕是数百万的数据点也不足以覆盖个小立方体中的每一个。换句话说,大多数立方体将是没有数据对应的,这种情况在高维空间是普遍存在的。 为了确保每一个...
12