作者:吴武清,汪成杰,蒋勇,陈敏
摘要:线性回归中当备选变元的个数(P)大于样本量(n),尤其当p〉〉n时,很多经典的统计推断可能失效。因此.高维数据分析技术的理论和实证探讨很有必要。本文讨论了高维数据分析面临的3种新问题.并介绍了SIS、LASSO等6种高维选元方法。模拟部分选用了5种评价准则比较了上述6种方法的选元效果,对比后发现p/n比率和选元效果是相关的:p/n比率较高时SIS的选元效果最好。而当p/n比率降低,特别是降低到p〈n的情形时,除平方根LASSO外的5种选元方法的选元效果趋近一致。在纳税评估中,行业细分一般会提高评估效果,但细分会使得备选变元的个数大于样本量.此时需要借助高维数据选元技术。本文使用SIS方法对某市13个细分行业的进项税额进行建模,研究结果表明SIS方法的选元效果显著。
发文机构:中国人民大学商学院 江苏省盐城市国税局 中国人民银行征信中心博士后科研工作站 中国科学院数学与系统科学研究院
关键词:高维数据降维选元方法SISLASSOhigh-dimensional data, dimensionality reduction, variable selection, SIS, LASSO
分类号: F812.42[经济管理—财政学]