相关性分析方法步骤(相关性分析方法)
您好,今天柳柳来为大家解答以上的问题。相关性分析方法步骤,相关性分析方法相信很多小伙伴还不知道,现在让我们一起来看看吧!
1、一、离散与离散变量之间的相关性卡方检验卡方检验是一种用途很广的计数资料的假设检验方法。
2、它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。
3、其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
4、它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
5、2、信息增益和信息增益率在介绍信息增益之前,先来介绍两个基础概念,信息熵和条件熵。
6、信息熵,就是一个随机变量的不确定性程度。
7、条件熵,就是在一个条件下,随机变量的不确定性。
8、二、连续与连续变量之间的相关性协方差协方差,表达了两个随机变量的协同变化关系。
9、如果两个变量不相关,则协方差为0。
10、Cov(X,Y)=E{[X-E(X)],[Y-E(Y)]}当 cov(X, Y)>0时,表明 X与Y 正相关;当 cov(X, Y)<0时,表明X与Y负相关;当 cov(X, Y)=0时,表明X与Y不相关。
11、协方差只能对两组数据进行相关性分析,当有两组以上数据时就需要使用协方差矩阵。
12、协方差通过数字衡量变量间的相关性,正值表示正相关,负值表示负相关。
13、但无法对相关的密切程度进行度量。
14、当我们面对多个变量时,无法通过协方差来说明那两组数据的相关性最高。
15、要衡量和对比相关性的密切程度,就需要使用下一个方法:相关系数。
16、2、线性相关系数也叫Pearson相关系数, 主要衡量两个变量线性相关的程度。
17、r=cov(X,Y)/(D(X)D(Y))相关系数是用协方差除以两个随机变量的标准差。
18、相关系数的大小在-1和1之间变化。
19、再也不会出现因为计量单位变化,而数值暴涨的情况了。
20、线性相关系数必须建立在因变量与自变量是线性的关系基础上,否则线性相关系数是无意义的。
21、三、连续与离散变量之间的相关性连续变量离散化将连续变量离散化,然后,使用离散与离散变量相关性分析的方法来分析相关性。
22、2、箱形图使用画箱形图的方法,看离散变量取不同值,连续变量的均值与方差及取值分布情况。
本文就为大家分享到这里,希望小伙伴们会喜欢。