2024年3月13日发(作者:新疆中考数学试卷打印版图片)
数学建模SPSS双变量相关性分析
关键词:数学建模 相关性分析 SPSS
摘要:在数学建模中,相关性分析是很重要的一部分,尤其是在双变量分析时,
要根据变量之间的联系建立评价指标,并且通过这些指标来进行比对赋值而做出
评价结果。本文由数学建模中的双变量分析出发,首先阐述最主要的三种数据分
析:Pearson系数, Spearman系数和Kendall系数的原理与应用,再由实际建模
问题出发,阐述整个建模过程和结果。
相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两
个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才
可以进行相关性分析。相关性不等于因果性,也不是简单的个性化,相关性所涵
盖的范围和领域几乎覆盖了我们所见到的方方面面,相关性在不同的学科里面的
定义也有很大的差异。
双变量相关分析中有三种数据分析:Pearson系数, Spearman系数和Kendall
系数。
Pearson相关系数用来衡量两个数据集合是否在一条线上面,它用来衡量定
距变量间的线性关系。如衡量国民收入和居民储蓄存款、身高和体重、高中成绩
和高考成绩等变量间的线性相关关系。当两个变量都是正态连续变量,而且两者
之间呈线性关系时,表现这两个变量之间相关程度用积差相关系数,主要有
Pearson简单相关系数r。
r
X
X
Y
Y
X
X
Y
Y
22
l
XY
l
XX
l
YY
Spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关
分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。对
于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低
一些。Spearman相关系数的计算公式可以完全套用Spearman相关系数计算公式,
但公式中的x和y用相应的秩次代替即可。
设有n组观察对象,将Xi、Yi(i=1,2,…,n)分别由小到大编秩。并用Pi
表示Xi的秩,Qi表示Yi的秩。
两者秩和为:
n(n+1)
∑P
i
=∑Q
i
=
2
两者平均秩为:
P
ave
=Q
ave
=
秩相关系数r
s
计算公式为:
(n+1)
2
r
s
=
∑
(P
i
−P
ave
)(Q
i
−Q
ave
)
√
∑
(P
i
−P
ave
)
2
(Q
i
−Q
ave
)
2
下面以2013年“五一”大学生数学建模大赛为例:
要检验变量之间的相关性,利用SPSS进行双变量相关分析即可。因附录给
出的数据存在许多错误,因此在进行分析前需要进行简单筛选。由于测量人数较
多,直接在EXCEL中将测量数据为0或者过大的行全部删除即可。
双变量相关分析中有三种数据分析:Pearson系数, Spearman系数和Kendall
系数。为了确定合适的分析类型,我们需要利用SPSS对数据进行正态检验。
通过观察发现,附录中给出的男女体质指标是不一样的,并且通过我们调查,
男女体质数据的分布会有很大不同,因此在本问接下来的讨论中,我们把男女分
开讨论。
正太检验结果如下表5.1.1.1,Sig>0.05为符合正态分布:
男生正态性检验
身高男总
台阶测试男总
体重男总
握力男总
肺活量男总
跳远男总
Kolmogorov-Smirnov
统计量
.032
.120
.091
.075
.043
.067
df
762
762
762
762
762
762
Sig.
.068
.000
.000
.000
.002
.000
统计量
a
Shapiro-Wilk
df
762
762
762
762
762
762
Sig.
.000
.000
.000
.000
.000
.000
.982
.906
.928
.923
.977
.966
a. Lilliefors 显著水平修正
女生正态性检验
Kolmogorov-Smirnov
统计量
.043
.076
.045
.056
.109
.044
df
305
305
305
305
305
305
Sig.
.200
.000
.200
.023
.000
.200
*
*
*
a
身高女总
体重女总
跳远女总
位体前驱女总
台阶测试女总
肺活量女总
Shapiro-Wilk
统计量
.997
.915
.981
.984
.919
.995
df
305
305
305
305
305
305
Sig.
.770
.000
.000
.002
.000
.445
a. Lilliefors 显著水平修正
*. 这是真实显著水平的下限。
表5.1.1.1
经过检验发现,部分数据符合正态分布,部分不符合。但是作为分析成分的
“体重”不满足正态分布,因此我们舍弃了Pearson相关系数分析而选择Spearman
秩相关系数分析最为合适。其模型原理如下:
进行Spearman相关系数ρ的假设检验,H0:Rho=0时,Prob>|r|。以r的绝
对值值判断关联程度,其判断标准为表5.1.1.2:
相关性
极低/不相关
低相关
中等相关
显著相关
|rs|
0.0-0.09
0.1-0.3
0.3-0.5
0.5-1.0
表5.1.1.2
在SPSS中打开数据,点击:分析—>相关—>双变量,打开对话窗口,选择
需要分析的两个变量、Spearman秩相关系数分析以及双侧检验。
需要说明两点:
(1)因各体重与各体质数据之间的相关性正负未知,需选用双侧检验;
(2)除了数据满足非正态分布以外,Spearman秩相关系数分析还需要数据
分级,以计算秩。但在SPSS中程序会自动生成秩,无需再手动分级。
注意要保证总体相关系数ρ与样本相关系数r保持一致,还须考虑Sig值。
由数据,Sig<0.5表示接受原假设,即Rho>|r|。Sig<0.5则拒绝原假设,两者
不相关。而r值则代表了正负相关性,以及相关性大小。结果见表
男生女生体重与体质健康相关性
男生
项目
身高
相关性
正相关
相关系数
0.381
0.377
-0.071
0.329
相关程度
中等相关
中等相关
极低/不相关
中等相关
体
重
项目
身高
肺活量
台阶测试
跳远
女生
相关性
正相关
正相关
不相关
负相关
相关系数
0.416
0.23
-0.115
相关程度
中等相关
低相关
低相关
肺活量 正相关
体
台阶测试 不相关
重
跳远 负相关
握力
正相关 坐位体前驱 不相关
更多推荐
变量,分析,数据,相关,进行,建模
发布评论