作业帮 > 数学 > 作业

在应用聚类分析和判别分析解决实际问题时应该注意哪些方面?

来源:学生作业帮 编辑:作业帮 分类:数学作业 时间:2024/10/01 19:45:52
在应用聚类分析和判别分析解决实际问题时应该注意哪些方面?
急,希望能在明早之前得到答案,
聚类要注意的问题
聚类结果主要受所选择的变量影响.如果去掉一些变量,或者增加一些变量,结果会很不同.
相比之下,聚类方法的选择则不那么重要了.因此,聚类之前一定要目标明确._
另外就分成多少类来说,也要有道理.只要你高兴,从分层聚类的计算机结果可以得到任何可能数量的类.但是,聚类的目的是要使各类距离尽可能的远,而类中点的距离尽可能的近,而且分类结果还要有令人信服的解释.这一点就不是数学可以解决的了.
判别分析要注意的问题
训练样本中必须有所有要判别的类型,分类必须清楚,不能有混杂.
要选择好可能由于判别的预测变量.这是最重要的一步.当然,在应用中,选择的余地不见得有多大.
要注意数据是否有不寻常的点或者模式存在.还要看预测变量中是否有些不适宜的;这可以用单变量方差分析(ANOVA)和相关分析来验证.
判别分析是为了正确地分类,但同时也要注意使用尽可能少的预测变量来达到这个目的.使用较少的变量意味着节省资源和易于对结果进行解释.
在计算中需要看关于各个类的有关变量的均值是否显著不同的检验结果(在SPSS选项中选择Wilks' Lambda,Rao's V,The Squared Mahalanobis Distance或The Sum of Unexplained Variations等检验的计算机输出),以确定是否分类结果是仅仅由于随机因素.
此外成员的权数(SPSS用prior probability,即"先验概率",和贝叶斯统计的先验概率有区别)需要考虑;一般来说,加权要按照各类观测值的多少,观测值少的就要按照比例多加权.
对于多个判别函数,要弄清各自的重要性.
注意训练样本的正确和错误分类率.研究被误分类的观测值,看是否可以找出原因.