推广 热搜: csgo  vue  angelababy  2023  gps  新车  htc  落地  app  p2p 

Logistic 回归简明教程 | 30天学会医学统计与SPSS公益课(Day2

   2023-08-13 网络整理佚名1280
核心提示:借鉴线性回归的原理,我们希望建立起一个关于P的线性函数:由于能够巧妙地计算OR值,回归在医学领域大受欢迎,特别是病例对照研究。回归模型分类(本图来源于“医学统计分析学习”公众号)本研究是基础教程,多分类、配对回归不再学习范围之内,我就介绍最基本的二分类非回归分析。

性研究领域,无论是调查、病例对照研究还是队列研究,经常会遇到分类健康结果,包括二分法(例如:生存和死亡、阳性和阴性、患病和未患病)或多分类变量(如:疾病转归、治愈、无效、死亡;按损伤程度分级的转归指标,如结核性胸腔积液程度、胸膜粘连程度、视网膜出血程度、早产儿脑缺血程度)以及一些生理生化、免疫指标等(如血压、血镁、血脂和胆固醇等)。 当研究的健康终点为二元变量时,线性回归分析往往是不可能的(线性回归分析要求残差服从线性、正态性、独立性和方差齐性),此时可以考虑回归模型

尤其是病例对照研究,其结果都是分类结果,非常令人胃口大开。 同时,病例对照研究常常需要计算OR值(优势比)来评估暴露因素的影响,这个指标也是可以计算的。 因此,病例对照研究设计和回归分析是自然契合的。 因此,本系列继病例对照研究方法一章之后,引入回归分析。 病例分析

例1:医生以某医院为对象进行病例对照研究,探讨冠心病发病的相关影响因素。 收集新发冠心病患者作为病例组,收集同期在院的非循环系统疾病患者作为对照组。 研究的暴露因素是患者年龄、性别、心电图测试是否异常心电图、高血压、糖尿病。 数据见.s

AV.

1 统计分析策略

影响因素研究包括基础统计方法和高级分析方法(病例对照研究的基本统计分析策略); 一般来说,基本的统计方法不能满足影响因素的研究,一般需要进行回归分析,并且需要进行多因素回归分析。

线性回归通常包括线性回归、回归和Cox比例风险模型,分别用于定量数据、分类数据和带有结果的生存时间数据。

本案例是一项病例对照研究,其结果是分类变量数据。 使用的方法是回归法(病例对照研究的基本统计分析策略)。

回归分析的基础知识

回归分析的主要作用是研究影响因素并做出预测。 线性回归分析是通过构建线性函数来探索影响和预测定量数据结果的因素。 如果结果是分类变量,回归分析主要分析影响正向事件发生的因素,预测正向事件的发生。 在本例中,冠心病的发生就是要探讨的积极事件。

正向事件的影响和预测可以用概率P来表示。P值越大,正向事件发生的可能性越大。 如果某个因素能够导致概率P增加,则说明该因素是重要的影响因素或预测因素。

借鉴线性回归的原理,我们希望建立一个关于P的线性函数:

不幸的是,P和x之间的关系不满足线性回归分析所需的线性关系前提条件(它们的关系是S曲线关系),因此方程无法成立。 正如上一篇推文中提到的,如果线性回归不满足线性条件,可以转换Y或X来满足线性回归的要求。 因此,统计研究者对P进行变换,称为logit变换,或logit(P):

因此,我们建立了P与结果之间的变换线性关系。 这种回归模型称为广义线性模型,logit(P)的变换模型称为回归。

仅考虑数据本身,回归模型包括一个分类因变量和多个自变量(可以是分类变量或连续变量),反映m个自变量对因变量的线性影响。 这种格式对于病例对照研究和队列研究都是不变的。

根据上述公式,我们可以根据多个自变量预测结果 Y。 上面的公式可以转化为下面更直接的P公式:

例如,有一位患者,女性,57岁,心电图ST段严重异常,同时患有高血压和糖尿病,则可以计算出她患有冠心病的概率为0.961。 相反,如果另一位患者是女性,49 岁,心电图有轻度 ST 段异常,并且患有糖尿病但没有高血压,则她患有 CHD 的概率为 0.262。 对于一个好的模型来说,残差误差越小越好,残差误差的均方越小越好。 因此,在回归模型中,残差也是一个非常重要的评价指标。

或值计算

回归的核心功能之一是研究影响因素,用于评价暴露因素影响程度的指标是OR值。

关于OR值,我在之前的文章(病例对照研究的基本统计分析策略)中已经详细介绍过。 观察性研究,无论是横断面调查、病例对照研究还是队列研究,往往需要依赖暴露因子效应值的OR值。 事实上,实验研究经常使用这个指标来评估干预措施的效果。 OR值是指优势比/优势比(,OR)。 赔率是指二元事件中一类事件相对于其相反事件的优势。 优势在于病例组中暴露/未暴​​露的数量,以及对照组中暴露/未暴​​露的数量。

回归分析,其实也是关于优势的回归模型。 稍微想一下,可以发现a/(a+c)、b/(b+d)是P,c/(a+c)、d/(b+d)是1- P。 a/(a+c) 除以 c/(a+c) 就是 P/1-P,即积极事件的优势。 因此,可以得到以下公式:

现在如果要讨论性别的影响,男女的差异,可以从两个角度来分析:一是计算回归系数β1,表示性别变量X对Y的影响;二是计算回归系数β1,表示性别变量X对Y的影响; 其次,计算OR值,两者等价,男性(P1)相对于女性(P0)的回归系数b值等于ln(OR)值。

简而言之:

OR值大于1,表明暴露促进正向事件的发生;

OR值小于1,表明暴露阻碍正向事件的发生;

OR 值等于 1 表示暴露与正面事件的发生无关。

相对而言,OR值在解释对结果的影响方面比b值更有意义,它可以解释结果Y的风险增加的程度。例如OR=2,可以粗略地解释暴露因子增加阳性结果的概率提高1倍(请注意,这里只能是粗略,或者大约,后面会讨论原因)

在医学研究中,风险评估是一个重要的内容。 回归由于其计算 OR 值的巧妙能力,在医学领域(尤其是病例对照研究)中广受欢迎。

回归分析类型

根据研究设计的不同,可分为无条件回归模型和条件回归模型。 无条件回归用于分组设计的观察性研究,而条件回归通常用于匹配设计的研究。

根据因变量类型(级别数),可分为二元回归模型和多分类回归模型; 二元回归又称二元回归(SPSS软件名)

另外,根据多类别因变量是否有序,可以分为多类别有序回归模型和多类别无序回归模型。

回归模型分类(此图来自《医学统计分析与学习》公众号)

本研究是一个基础教程。 多分类和配对回归不再属于学习范围。 我会介绍最基本的二元分类和非回归分析。 本例采用的方法是多因素无条件回归分析。

SPSS操作

返回条目

分析——回归——二元回归

①因变量:填入“是否患有冠心病(ca)”

②协变量:自变量,包括年龄、性别、心电图表现、糖尿病、高血压

③保存:可以分别计算预测值(即P值)和残差。 残差包括原始残差和标准化残差。

④选项:计算-拟合优度(-,HL检验)(①),OR值的95% CI置信区间(②)

回归分析结果及解释

回归已经得到了很多结果,初学者只需关注下面的表格即可。

首先提供的是模型的测试:指的是模型的整体全局测试,即似然比测试。

结果中的三行指的是:步骤统计量是每一步与上一步的似然比检验结果,块(block)是指块n与块n-1比较的似然比检验结果,模型线输出回归模型中所有参数是否为0的似然比检验结果,是整体评价的关键检验。 磷

其次,回归提供了对模型拟合优度的评估。 所谓拟合优度是指模型构建的效果,与真实情况或理想情况相比差距有多大。 线性回归分析一般用R^2来反映拟合优度的效果。回归拟合优度包括两类:拟合优度定量评价和拟合优度质量

拟合优度效应的定量评估。 回归分析提供类 R^2、Cox & Snell R 方 (Cox & Snell R^2) 和 的 R 方 (R^2)。 不过,这两个R^2有时被称为伪R^2,在回归中意义不大(与线性回归不同),可以忽略不计。 -2对似然值(-2 log,-2LL))是模型评价的重要指标,值越小越好,可以用来评价不同模型的效果。

拟合优度效应的图像质量评价。 - 拟合优度检验(-,HL 检验)可用于评估模型是否充分利用现有信息来最大化模型的拟合度并解释模型的变异。 本研究若P>0.05,则可以说明模型的拟合优度较好,若P

本例中,P=0.485,表明模型拟合优度良好。

最后,核心分析结果:回归分析分别为回归系数b值、b值标准误、Wald卡方值(Wald)、自由度、P值(显着性)、OR值(Exp B)及其置信区间。

其中,Wald卡方值(Wald)和P值是回归系数b值的假设检验。 磷

Exp B是OR值,与回归系数的关系就是e^b值。 OR值置信区间与P值的关系为:当P<0.05时,置信区间包括1。

特别提醒大家:OR值大于1是风险因素吗? OR 值小于 1 是保护因素吗?

这种说法是非常武断的。

首先,不能再使用术语“风险”或“保护”来表示 OR 值。 风险和保护方法通常针对不良积极事件结果,措辞往往过于严肃。 在临床或者更多领域,体现在促进或者阻碍方面,是比较中性的,更容易理解的。

如果OR值大于1,说明该暴露因素是正向事件发生的促进因素;

OR值小于1,表明暴露因素是积极事件发生的阻碍因素;

OR值等于1,表明暴露因素对阳性事件的发生没有影响。

其次,要理解OR值,必须非常清楚:谁是暴露因子的对照组? 以及谁是积极事件。

SPSS统计结果表并没有给出太多信息。 比如性别,它只是告诉我们性别对积极事件的发生有影响。 但是男性的风险更大还是女性的风险更大呢? OR=6.24是针对谁的?

要看懂统计结果表,看懂OR值,必须清楚:

(1)什么是积极事件。 我们可能想当然地认为,冠心病的发生一定是积极的事件;但事实上,冠心病的发生一定是积极的事件。 然而,在 SPSS 分析中,积极事件是指为数据库中的结果变量分配较大值的结果。 在这个例子中,如果存在冠心病(ca)变量,如果(冠心病为0,无冠心病为1),则不存在冠心病为正事件。

是不是听起来特别别扭? 我要研究的是冠心病的风险! 我应该怎么办? 然后,在构建数据库时,请给识别出的正事件赋予比负事件更高的值。 对于两个类别的结果,最好用0、1来表示(0代表负面事件,1代表正面事件),保证你概念中的正面事件与正面事件的定义统一SPSS中,不容易出错。

(2) 明确自变量,谁是控制者?

对于定量数据,例如年龄,b值代表x每增加一个单位,结果的变化量; OR值更有意义,OR的意思是如果x增加1个单位,比如年龄增加1岁,正事件的概率会增加大约(OR-1)倍; 以年龄为例,如果年龄增加一岁,平均风险就会增加0.091倍,这意味着年龄越大,患冠心病的风险就越高。 对于二分定性数据,OR 值还表示当 x 增加 1 个单位时结果变化的量。 例如,对于性别来说,如果x增加1个单位,风险就会增加约5.24倍。 那么,这里的“增加一个单位”的含义如何理解呢? 其实是不是意味着数据库性别变量赋值增加1个单位(性别变量从0增加到1),风险增加约5.24倍(但与年龄不同,性别变量x只能增加1 )。

很多时候,这样的解释还是别扭的,我们更愿意寻找比较作为对比分析的支点。 性别取值范围为0到1,即性别变量赋值为1时,与赋值为0相比,风险增加了5.24。0是什么? 0 为女性,1 为男性,这意味着男性的风险比女性增加约 5.24 倍。

在SPSS统计分析二元分类自变量的影响时,默认是使用自变量较低的指定值作为对照,探讨较高的指定值是否可以增加正事件的概率。

对于分级数据,其解释与定量数据相同,即每在一个等级中添加X,例如年龄增加一岁,积极事件的概率会增加约(OR-1)倍; 例如,对于心电图异常这个变量,心电图每异常一级,意味着患冠心病的风险会增加约2.406倍。

另外,高血压变量在数据库中被赋值为0=无高血压,1=高血压,这意味着对照组没有高血压,与高血压患者相比,风险增加了约9.814倍。 糖尿病没有统计学意义。

简而言之,OR值就是探讨SPSS数据库中赋值较大的自变量对SPSS数据库中正事件(同样赋值较大)的影响。 如果不注意这一点,只看OR值来讨论是否是风险因素,可能会得到相反的结论。

最后,由于本文的SPSS操作中检查了预测值和残差的计算,因此数据库给出了两个新变量,即PRE_1(预测值)和RES_1(残差),将两组相加在一起,正好是“冠心病”。

统计结果汇编

标准文本1:包括年龄、心电图和性别,构建多因素回归方程。 结果显示,心电图异常对冠心病的影响有统计学意义(OR=3.40,95%CI 1.81-6.37,P

标准文本2:包括年龄、心电图、性别等,构建多因素回归方程。 结果显示:心电图异常水平增加会增加冠心病风险,且具有统计学意义(OR=3.40,95%CI 1.81-6.37,P

特别提醒:回归OR值不能代表风险增加的确切倍数,所以在文字描述中,不要说男性比女性患冠心病的风险增加5.24倍。

规格表:

对于二分定性数据,OR 值还表示当 x 增加 1 个单位时结果变化的量。 例如,对于性别来说,如果x增加1个单位,风险就会增加约5.24倍。 那么,这里的“增加一个单位”的含义如何理解呢? 其实是不是意味着数据库性别变量赋值增加1个单位(性别变量从0增加到1),风险增加约5.24倍(但与年龄不同,性别变量x只能增加1 )。

很多时候,这样的解释还是别扭的,我们更愿意寻找比较作为对比分析的支点。 性别取值范围为0到1,即性别变量赋值为1时,与赋值为0相比,风险增加了5.24。0是什么? 0 为女性,1 为男性,这意味着男性的风险比女性增加约 5.24 倍。

在SPSS统计分析二元分类自变量的影响时,默认是使用自变量较低的指定值作为对照,探讨较高的指定值是否可以增加正事件的概率。

对于分级数据,其解释与定量数据相同,即每在一个等级中添加X,例如年龄增加一岁,积极事件的概率会增加约(OR-1)倍; 例如,对于心电图异常这个变量,心电图每异常一级,意味着患冠心病的风险会增加约2.406倍。

另外,高血压变量在数据库中被赋值为0=无高血压,1=高血压,这意味着对照组没有高血压。 与高血压患者相比,风险增加约9.814倍。 糖尿病没有统计学意义。

简而言之,OR值就是探讨SPSS数据库中赋值较大的自变量对SPSS数据库中正事件(同样赋值较大)的影响。 如果不注意这一点,只看OR值来讨论是否是风险因素,可能会得到相反的结论。

最后,由于本文的SPSS操作中检查了预测值和残差的计算,因此数据库给出了两个新变量,即PRE_1(预测值)和RES_1(残差),将两组相加在一起,正好是“冠心病”。

统计结果汇编

标准文本1:包括年龄、心电图和性别,构建多因素回归方程。 结果显示,心电图异常对冠心病的影响有统计学意义(OR=3.40,95%CI 1.81-6.37,P

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯
推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报
Powered By DESTOON