多元回归分析_单因素统计和多因素回归分析有什么区别
多元线性回归分析的优缺点一、多元线性回归分析的优点:
1、在回归分析中,如果有两个或两个以上的自变量,就称为多元回归 。事实上 , 一种现象常常是与多个因素相联系的 , 由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际 。因此多元线性回归比一元线性回归的实用意义更大 。
2、在多元线性回归分析是多元回归分析中最基础、最简单的一种 。
3、运用回归模型,只要采用的模型和数据相同,通过标准的统计方法可以计算出唯一的结果 。
二、多元线性回归分析的缺点
有时候在回归分析中,选用何种因子和该因子采用何种表达 式只是一种推测 , 这影响了用电因子的多样性和某些因子的不可测性,使得回归分析在某些 情况下受到限制 。
多元线性回归的基本原理和基本计算过程与一元线性回归相同,但由于自变量个数多,计算相当麻烦,一般在实际中应用时都要借助统计软件 。这里只介绍多元线性回归的一些基本问题 。

文章插图
扩展资料
社会经济现象的变化往往受到多个因素的影响,因此,一般要进行多元回归分析 , 我们把包括两个或两个以上自变量的回归称为多元线性回归。
多元线性回归与一元线性回归类似,可以用最小二乘法估计模型参数,也需对模型及模型参数进行统计检验 。
选择合适的自变量是正确进行多元回归预测的前提之一,多元回归模型自变量的选择可以利用变量之间的相关矩阵来解决 。
Matlab、spss、SAS等软件都是进行多元线性回归的常用软件 。多元回归分析为了更好地定量说明土壤理化性质对PAHs浓度的影响 , 对土壤理化参数和PAHs总量进行了多元回归分析,多元线性回归分析用于揭示被解释变量(因变量)与其他多个解释变量(自变量)之间的线性关系 。因为自变量之间可能存在相关关系,为消除多重共线性的缺点,采用逐步回归方法进行分析 。模型以PAHs总量为因变量 , 8个理化参数为自变量,3个灌区的回归结果见表4.10 。
【多元回归分析_单因素统计和多因素回归分析有什么区别】表4.10 各灌区剖面的PAHs总量与土壤理化指标的回归模型
注:R为相关系数,t为对回归参数的显著性检验值,F为回归方程的显著性检验,Sig为显著性概率 。污灌区PAHs总量的回归方程为
y=6509.691+570.341x1-12.012x2-756.247x3-18.610x4
式中:y为PAHs总量;x1为TOC;x2为土壤含水量;x3为pH值;x4为可溶盐含量 。土壤的TOC含量、含水量、pH值、可溶盐含量是影响污水灌区土壤中PAHs分布的主要因素 。
再生水灌区的回归方程为
y=70.053+107.296x1-3.623x2
式中:y为PAHs总量;x1为TOC;x2为土壤含水量 。土壤的TOC含量和含水量是再生水灌区土壤中PAHs分布的主要影响因素 。
清灌区的回归方程为
y=-3.627+54.853x
式中:y为PAHs总量;x为土壤的TOC含量 。土壤TOC含量是清灌区土壤中PAHs分布的主要影响因素 。
综合上述多元回归分析结果,土壤TOC含量是3个灌区唯一共同的影响因素,也是3个模型最重要的影响因子 。在3个灌区,回归分析筛选出来的影响因子和相关分析得到的相关因子基本一致 。
萘和菲均是3个灌区剖面检出含量占第一、第二位的污染物 , 同时也是2环和3环PAHs的典型代表,因此选择这两种PAHs建立单组分的多元线性回归分析模型(表4.11) 。6个模型所筛选出来的因子和方程的显著性稍有差异,但TOC在各方程中依然是“最优”因子 , 且影响最显著 , 由此也可推出TOC是影响PAHs在土壤剖面分布的主要因素 。
表4.11 各灌区剖面典型PAHs含量与土壤理化指标的逐步回归分析结果
注 :F为回归方程的显著性检验,Sig为显著性概率(参见表4.10) 。什么是分层逐步多元回归分析?所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式) 。回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析 。此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析 。通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理 。
分层回归其实是对两个或多个回归模型进行比较 。我们可以根据两个模型所解释的变异量的差异来比较所建立的两个模型 。一个模型解释了越多的变异,则它对数据的拟合就越好 。假如在其他条件相等的情况下,一个模型比另一个模型解释了更多的变异,则这个模型是一个更好的模型 。两个模型所解释的变异量之间的差异可以用统计显著性来估计和检验 。
模型比较可以用来评估个体预测变量 。检验一个预测变量是否显著的方法是比较两个模型 , 其中第一个模型不包括这个预测变量,而第二个模型包括该变量 。假如该预测变量解释了显著的额外变异,那第二个模型就显著地解释了比第一个模型更多的变异 。这种观点简单而有力 。但是,要理解这种分析,你必须理解该预测变量所解释的独特变异和总体变异之间的差异 。
一个预测变量所解释的总体变异是该预测变量和结果变量之间相关的平方 。它包括该预测变量和结果变量之间的所有关系 。
预测变量的独特变异是指在控制了其他变量以后,预测变量对结果变量的影响 。这样,预测变量的独特变异依赖于其他预测变量 。在标准多重回归分析中,可以对独特变异进行检验,每个预测变量的回归系数大小依赖于模型中的其他预测变量 。
在标准多重回归分析中 , 回归系数用来检验每个预测变量所解释的独特变异 。这个独特变异就是偏相关的平方(Squared semi-partial correlation)-sr2(偏确定系数) 。它表示了结果变量中由特定预测变量所单独解释的变异 。正如我们看到的,它依赖于模型中的其他变量 。假如预测变量之间存在重叠,那么它们共有的变异就会削弱独特变异 。预测变量的独特效应指的是去除重叠效应后该预测变量与结果变量的相关 。这样,某个预测变量的特定效应就依赖于模型中的其他预测变量 。
标准多重回归的局限性在于不能将重叠(共同)变异归因于模型中的任何一个预测变量 。这就意味着模型中所有预测变量的偏决定系数之和要小于整个模型的决定系数(R2) 。总决定系数包括偏决定系数之和与共同变异 。分层回归提供了一种可以将共同变异分配给特定预测变量的方法 。
分层回归
标准多重回归可以测量模型所解释的变异量的大小,它由复相关系数的平方(R2,即决定系数)来表示,代表了预测变量所解释的因变量的变异量 。模型的显著性检验是将预测变量所解释的变异与误差变异进行比较(即F值) 。
但是,也可以采用相同的方式来比较两个模型 。可以将两个模型所解释的变异之差作为F值的分子 。假如与误差变异相比,两个模型所解释的变异差别足够大,那么就可以说这种差别达到了统计的显著性 。相应的方程式将在下面详细阐述 。
分层回归就是采用的这种方式 。分层回归包括建立一系列模型,处于系列中某个位置的模型将会包括前一模型所没有的额外预测变量 。假如加入模型的额外解释变量对解释分数差异具有显著的额外贡献,那么它将会显著地提高决定系数 。
这个模型与标准多重回归的差异在于它可以将共同变异分配到预测变量中 。而在标准多重回归中,共同变异不能分配到任何预测变量中,每个预测变量只能分配到它所解释的独特变异,共同变异则被抛弃了 。在分层回归中,将会把重叠(共同)变异分配给第一个模型中的预测变量 。因此 , 共同变异将会分配给优先进入模型的变量 。
重叠的预测变量(相关的预测变量Predictor variables that overlap)
简单地看来,由一系列预测变量所解释的变异就像一块块蛋糕堆积在一起 。每个预测变量都有自己明确的一块 。它们到达桌子的时间是无关紧要的,因为总有同样大小的蛋糕在等着它们 。不同部分变异的简单相加就构成了某个模型所解释的总体变异 。
但是,这种加法的观点只有在每个预测变量互相独立的情况下才是正确的 。对于多重回归来说,则往往不正确 。假如预测变量彼此相关,它们就会在解释变异时彼此竞争 。归因于某个预测变量的变异数量还取决于模型中所包含的其他变量 。这就使得我们对两个模型的比较进行解释时,情况变得更为复杂 。
方差分析模型是建立在模型中的因素相互独立的基础上的 。在ANOVA中 , 因素对应于多重回归中的预测变量 。这些因素具有加法效应 , 变异(方差)可以被整齐地切开或分割 。这些因素之间是正交的 。
但是 , 在多重回归中 , 变量进入模型的顺序会影响该变量所分配的变异量 。在这种情况下,预测变量就像一块块浸在咖啡杯中的海绵 。每一块都吸收了一些变异 。在分层多重回归中,第一块浸入咖啡杯的海绵首先吸收变异,它贪婪地吸收尽可能多的变异 。假如两个预测变量相关,那它们所解释的变异就存在重叠 。如果一个变量首先进入模型,那它就将重叠(共同)变异吸收据为己有,不再与另一个变量分享 。
在标准多重回归中,所有预测变量同时进入模型,就像将所有海绵同时扔进咖啡杯一样 , 它们互相分享共同变异 。在这种情况下 , 偏相关的平方(sr2)与回归系数相等 , 它们检验了相同的东西:排除了任何共同变异后的独特变异 。这样,在多重回归中,对回归系数的T检验就是sr2的统计显著性检验 。但是,在分层回归或逐步回归中,sr2不再与回归系数相等 。但T检验仍然是对回归系数的检验 。要估计sr2是否显著,必须对模型进行比较 。
模型比较就是首先建立一个模型(模型a),使它包括除了要检验的变量以外的所有变量,然后再将想要检验的变量加入模型(模型b),看所解释的变异是否显著提高 。要检验模型b是否要比模型a显著地解释了更多的变异 , 就要考察各个模型所解释的变异之差是否显著大于误差变异 。下面就是检验方程式(Tabachnik and Fidell, 1989) 。
(R2b-R2a)/M
F = ————————
(1+ R2b) /dferror
(2为平方,a,b为下标 。不知道在blog里如何设置文字格式)
原文(DATA ANALYSIS FOR PSYCHOLOGY, George Dunbar)如此,但参考了其他书后,觉得这是误?。嬲墓接Ω檬钦庋模?br />
(R2b-R2a)/M
F = ————————
(1- R2b) /dferror
注:
M是指模型b中添加的预测变量数量
R2b是指模型b(包含更多预测变量的模型)的复相关系数的平方(决定系数) 。
R2a是指模型a(包含较少预测变量的模型)的复相关系数的平方(决定系数) 。
dferror是指模型b误差变异的自由度 。
分层回归与向前回归、向后回归和逐步回归的区别
后三者都是选择变量的方法 。
向前回归:根据自变量对因变量的贡献率,首先选择一个贡献率最大的自变量进入 , 一次只加入一个进入模型 。然后 , 再选择另一个最好的加入模型 , 直至选择所有符合标准者全部进入回归 。
向后回归:将自变量一次纳入回归,然后根据标准删除一个最不显著者,再做一次回归判断其余变量的取舍,直至保留者都达到要求 。
逐步回归是向前回归法和向后回归法的结合 。首先按自变量对因变量的贡献率进行排序,按照从大到小的顺序选择进入模型的变量 。每将一个变量加入模型,就要对模型中的每个变量进行检验,剔除不显著的变量,然后再对留在模型中的变量进行检验 。直到没有变量可以纳入,也没有变量可以剔除为止 。
向前回归、向后回归和逐步回归都要按照一定判断标准执行 。即在将自变量加入或删除模型时,要进行偏F检验,计算公式为:
(R2b-R2a)/M
F = ————————
(1- R2b) /dferror
SPSS回归所设定的默认标准是选择进入者时偏F检验值为3.84 , 选择删除者时的F检验值为2.71 。
从上面可以看出,分层回归和各种选择自变量的方法,其实都涉及模型之间的比较问题,而且F检验的公式也相等,说明它们拥有相同的统计学基础 。但是,它们又是不同范畴的概念 。分层回归是对于模型比较而言的,而上面三种方法则是针对自变量而言的 。上面三种选择自变量的方法,都是由软件根据设定标准来自动选择进入模型的变量 。而分层回归则是由研究者根据经验和理论思考来将自变量分成不同的组(block),然后再安排每一组变量进入模型的顺序,进入的顺序不是根据贡献率,而是根据相应的理论假设 。而且,研究者还可以为不同组的自变量选用不同的纳入变量的方法 。
分层回归在SPSS上的实现
在线性回归主对话框中 , 在定义完一组自变量后,在因变量不变的情况下,利用block前后的previous和next按钮,继续将其他变量组加入模型 。
多元回归分析与logistic回归的分析的区别和联系1、概念不同:
(1)多重线性回归模型可视为简单直线模型的直接推广,具有两个及两个以上自变量的线性模型即为多重线性回归模型 。
(2)logistic属于概率型非线性回归,是研究二分类(可扩展到多分类)观察结果与一些影响因素之间关系的一种多变量分析方法 。
2、变量的特点
多元回归分析的应变量:1个;数值变量(正态分布);自变量:2个及2个以上;最好是数值变量,也可以是无序分类变量、有序变量 。
logistic回归的分析应变量:1个;二分 类变量(二项分布)、无序 /有序多分类变量;自变量:2个及2个以上;数值变量、二分类变量、无序/有序多分类变量 。
总体回归模型LogitP=(样本)偏回归系数含义表示在控制其它因素或说扣除其它因素的作用后(其它所有自变量固定不变的情况下),某一个自变量变化一个单位时引起因变量Y变化的平均大小 。
表示在控制其它因素或说扣除其它因素的作用后(其它所有自变量固定不变的情况下),某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值(logitP的平均变化量),即lnOR 。
3、适用条件LINE:
1、L:线性——自变量X与应变量Y之间存在线性关系;
2、I:独立性——Y值相互独立,在模型中则要求残差相互独立,不存在自相关;
3、N:正态性——随机误差(即残差)e服从均值为零,方差为 2的正态分布;
4、E:等方差——对于所有的自变量X,残差e的方差齐 。
观察对象(case)之间相互独立;若有数值变量,应接近正态分布(不能严重偏离正态分布);二分类变量服从二项分布;要有足够的样本量;LogitP与自变量呈线性关系 。
什么是回归分析,运用回归分析有什么作用???回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法 。
运用十分广泛,回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析 。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析 。如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为多重线性回归分析 。

文章插图
扩展资料:
回归分析步骤
1、确定变量
明确预测的具体目标 , 也就确定了因变量 。如预测具体目标是下一年度的销售量,那么销售量Y就是因变量 。通过市场调查和查阅资料,寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素 。
2、建立预测模型
依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型 。
3、进行相关分析
回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理 。只有当自变量与因变量确实存在某种关系时,建立的回归方程才有意义 。因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题 。进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度 。
4、计算预测误差
回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算 。回归方程只有通过各种检验,且预测误差较小 , 才能将回归方程作为预测模型进行预测 。
5、确定预测值
利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值 。
参考资料来源:百度百科-回归分析单因素统计和多因素回归分析有什么区别一、概念不同
1、单因素统计:单因素分析(monofactor analysis)是指在一个时间点上对某一变量的分析 。
2、多因素回归分析:指在相关变量中将一个变量视为因变量,其他一个或多个变量视为自变量,建立多个变量之间线性或非线性数学模型数量关系式并利用样本数据进行分析的统计分析方法 。
二、方法不同
1、单因素统计:试验单元编号、随机分组 。
2、多因素回归分析:引进虚拟变量的回归分析、曲线回归、多元回归模型 。

文章插图
三、应用方向不同
1、单因素统计:单因素的盆栽试验;温室内、实验室内的实验等 , 应用该设计,若实验中获得的数据各处理重复数相等,采用重复数相等的单因素资料方差分析法分析,若实验中获得的数据各处理重复数不相等,则采用重复数不等的单因素资料方差分析法分析 。
2、多因素回归分析:影响因变量的因素有多个,这种多个自变量影响一个因变量的问题可以通过多元回归分析来解决 。
例如,经济学知识告诉我们,商品需求量Q除了与商品价格P有关外,还受到替代品的价格、互补品的价格,和消费者收入等因素 , 甚至还包括商品品牌Brand这一品质变量(品质变量不能用数字来衡量,需要在模型中引入虚拟变量)的影响 。
参考资料来源:百度百科-单因素分析
- 外贸跟单货_货代单证和外贸跟单这两份工作 分析分析 哪个更好
- 埃及王子电影影评_求助:从视听语言 镜头分析角度 写《埃及王子》这...
- 埃及王子影评_求助:从视听语言 镜头分析角度 写《埃及王子》这...
- 在爱的回归线歌词_在爱的回归线 是那首歌的歌词
- 在爱的回归线_抖音在爱的回归线又期待会相见是什么歌 完整版歌词
- 九种不仅好吃而且美容的食物 早餐与美容的关系分析
- 面相分析:通过眼神看您的感情运势
- 回归分析法_回归分析法
- 四年级语文试卷分析_家长对孩子语文试卷分析怎么写
- 四年级数学质量分析_如何写四年级数学下册期末测试质量分析