作者:王树良,李英,耿晶
摘要:非参数核方法由于采用统一的度量标准,在大数据中利用高维样本数据学习时容易遭遇维数灾难问题。挖掘高维空间中的低维几何特性,有助于揭示数据分布的流形结构,进而利用有限样本的高维数据在低维子空间逼近数据的真实分布。基于此,提出一种新的高维数据密度非参数估计的低维流形代表点法,通过从高维空间中挖掘数据分布的几何结构来估计密度。首先,通过寻找局部区域内能够代表流形结构主方向的点,计算局部协方差矩阵,描述局部的数据分布;然后,考虑流形结构中附近数据点不同的影响,根据每个样本数据点对密度的贡献进行加权。与传统的核密度估计方法和流形核密度方法进行了对比实验,结果表明,该方法能够快速稳健地进行密度估计,反映数据的真实分布。
发文机构:北京理工大学计算机学院 青岛大学计算机科学技术学院
关键词:低维流形代表点法核密度估计非参数密度估计交叉似然验证高维数据low-dimensional manifold representative point methodkernel density estimationnon-parametric density estimationcross-validated likelihoodhigh-dimensional data
分类号: P208[天文地球—地图制图学与地理信息工程]