作者:王震,张海清,彭莉,汪杰,游凤,李代伟,唐聃
摘要:当医疗数据存在缺失和冗余信息的情况下如何提高预测准确率一直是一个极具挑战的问题。为解决这一挑战,大多数预测模型要么直接删除缺失和冗余的实例,要么使用均值或其他方式对缺失数据进行填补。基于加权KNN算法(weightedk-nearest neighbor,WKNN),提出一种改进的医疗数据分类方法,该方法首先利用KNNI(knearest neighbor imputation,KNNI)对包含缺失数据的数据集进行预填补,然后采用奇异值分解(singular value decomposition,简称SVD)对填补后完整的数据进行有效信息提取,最后使用修订权重的WKNN算法进行分类预测。实验表明,在对数据进行填补和信息提取后,显著提高了分类准确率。在5个医疗数据集上,相较于传统的KNN算法分类准确率提升10%左右。在8个医疗数据集上均使用随机森林算法、朴素贝叶斯算法和支持向量机算法进行实验对比,算法分类准确率均取得较好效果。
发文机构:成都信息工程大学软件工程学院
关键词:医疗数据集缺失值填补奇异值分解K最近邻算法medical data setmissing value imputationsingular value decompositionk nearest neighbor algorithm
分类号: R-05[自动化与计算机技术—控制理论与控制工程]TP18