管理科学 · 2017年第1期95-106,共12页

改进随机森林的集成分类方法预测结直肠癌存活性

作者:王宇燕,王杜娟,王延章,Yaochu Jin

摘要:癌症是人类死亡的主要原因之一,许多国家在癌症方面的支出占医疗总支出的很大比例。癌症存活性预测作为癌症预后的一项重要工作,可以辅助医生做出更精准的诊疗决策,进而降低癌症治疗成本。近年来,基于数据驱动的癌症存活性预测方法逐渐得到应用,而预测的准确性是评价预测方法性能的主要指标,因此提高癌症存活性预测方法的准确性一直是一个活跃的研究领域。结直肠癌是一种具有高发病率和高死亡率的癌症,为了提高结直肠癌存活性预测的准确性,利用遗传算法对随机森林进行改进,提出基于GA-RF的集成分类方法。该方法通过遗传算法对随机森林中的决策树实行进化搜索,以提高集成分类准确率为目标选出决策树的满意集成。实验分别使用基于GA-RF的集成分类方法、决策树和参数优化的随机森林训练预测模型预测结直肠癌患者的存活性,利用SEER数据库的结直肠癌数据集对3种方法分别进行10折交叉验证,然后用准确性、敏感性和特异性3个指标对它们进行评价。实验结果显示,基于GA-RF的集成分类方法的预测精度最高(88.2%),参数优化的随机森林的预测精度次之(86.4%),但集成复杂度远高于基于GA-RF的集成分类方法,决策树的预测精度最差(74.2%),而基于GA-RF的集成分类方法还表现出了最好的泛化性能。该集成分类方法对随机森林进行了有效的改进,能以更高的运算效率和更好的准确性预测结直肠癌存活性,可以为结直肠癌的预后提供决策参考,弥补经验预测的不足,该方法的提出对节约医疗资源、降低医疗成本、提高患者满意度具有实际意义。

发文机构:大连理工大学管理与经济学部 英国萨里大学计算机系

关键词:随机森林遗传算法集成分类存活性预测结直肠癌random forestgenetic algorithmensemble classificationsurvivability predictioncolorectal cancer

分类号: TP181[自动化与计算机技术—控制科学与工程][自动化与计算机技术—控制理论与控制工程]

来源期刊
管理科学

管理科学

Journal of Management Science
  • CSSCI
  • 北大核心
注:学术社仅提供期刊论文索引,查看正文请前往相应的收录平台查阅
相关文章