百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

R数据分析:再写潜在类别分析LCA的做法与解释

liuian 2024-12-15 15:25 30 浏览

应粉丝要求,再给大家写一期潜在类别分析的教程,尽量写的详细一点。

首先,问题导入,啥是潜在类别分析?

Latent Class Analysis (LCA) is a statistical model in which individuals can be classified into mutually exclusive and exhaustive types, or latent classes, based on their pattern of answers on a set of (categorical) measured variables.

潜在类别分析就是依据个体在分类变量上的响应,将个体分为互斥的组,群,潜类别

在这儿,组,群,潜类别都是一个东西,这儿大家注意,在潜在类别分析中响应变量或者说显变一定是分类变量,这个要和潜在剖面分析LPA区别开。

在做潜类别的时候你首先要设定你要你的数据有几个潜类别,我们的标准是拟合好的情况下尽可能选择最少的潜类别。

这儿值得注意的是,在R语言种poLCA的作者说过这么一段话:

He said, that he wouldn′t rely on statistical criteria to decide which model is the best, but he would look which model has the most meaningful interpretation and has a better answer to the research question.

也就是说最终你考虑到底你的数据有几个潜类别时,一定要考虑结果的可解释性。

今天还是给大家写一个系统的例子。

实例操练

我们要用到的R包为poLCA,在做潜类别分析的时候,我们的数据中不能有0,负值和小数点,还有,如果你的变量是二分类变量,一定不能编码为0、1,需要改为1,2。

跑潜在类别分析的语法

poLCA(formula, data, nclass=2, maxiter=1000, graphs=FALSE, tol=1e-10, na.rm=TRUE, probs.start=NULL, nrep=1, verbose=TRUE, calc.se=TRUE)

上面是poLCA包默认的语法参数,在自己跑的时候你可把graphs参数改成TRUE,这样就可以自动出图。

比如我们还是用上一篇文章中的samhsa2015.csv数据集跑,那么语法就可以写为:

f1 <- cbind(mhintake, mhdiageval, mhreferral, treatmt, adminserv)~1
LCA2 <- poLCA(f1, data=samhsa2015, nclass=2,graphs=TRUE)

运行后,我们就可以出图:

图中有每个显变量,和两个潜类别在不同显变量上的响应概率以及两个潜类别中的个体数量占比。

循环语法

咱们自己做分析时,会遇到的情况是,我也不知道我到底该把潜类别数量固定为几个,所以我们需要一个一个去试,相信很多用Mplus的同学都有这种经历,需要把类别数量设定为不同的数,然后都跑一遍,然后把结果记下来,再比较选择最优的模型。

但是如果用R跑,我们可以写一个循环,让它一次性把所有可能给我们跑完,并输出最优模型,岂不是美滋滋。所以大家一定有必要掌握一门编程语言哦。

循环语法如下:

#循环所有可能数量的潜类别
max_II <- -100000
min_bic <- 100000
for(i in 2:10){
  lc <- poLCA(f, mydata, nclass=i, maxiter=3000, 
              tol=1e-5, na.rm=FALSE,  
              nrep=10, verbose=TRUE, calc.se=TRUE)
  if(lc$bic < min_bic){
    min_bic <- lc$bic
    LCA_best_model<-lc
  }
}    	
LCA_best_model

大家只需要把自己的数据套进去就可以直接输出最优模型啦。

比如还是我们刚刚用的数据,直接运行循环语法:

max_II <- -100000
min_bic <- 100000
for(i in 2:10){
  lc <- poLCA(f1, samhsa2015, nclass=i, maxiter=3000, 
              tol=1e-5, na.rm=FALSE,  
              nrep=10, verbose=TRUE, calc.se=TRUE)
  if(lc$bic < min_bic){
    min_bic <- lc$bic
    LCA_best_model<-lc
  }
}    	
LCA_best_model

上面的代码从2到10给你自动拟合10个模型,并输出最优bic的模型,运行时间有点长哈,我电脑跑了20分钟,大家耐心一点。

不过你不用设置跑2到10,一般情况跑2-5个潜类别就完全够用了。

我对我的数据跑完上面的代码后,得到如下结果

就是说,其实我的数据适合做4个潜类别。

LCA画2D可视化语法

我们poLCA的自己出的图是3D的,我们也可以选择用ggplot2画2D的图出来,代码如下:

lcmodel <- reshape2::melt(LCA_best_model$probs, level=2)
zp1 <- ggplot(lcmodel,aes(x = L2, y = value, fill = Var2))
zp1 <- zp1 + geom_bar(stat = "identity", position = "stack")
zp1 <- zp1 + facet_grid(Var1 ~ .) 
zp1 <- zp1 + scale_fill_brewer(type="seq", palette="Greys") +theme_bw()
zp1 <- zp1 + labs(x = "Fragebogenitems",y="Anteil der Item-\nAntwortkategorien", fill ="Antwortkategorien")
zp1 <- zp1 + theme( axis.text.y=element_blank(),
                    axis.ticks.y=element_blank(),                    
                    panel.grid.major.y=element_blank())
zp1 <- zp1 + guides(fill = guide_legend(reverse=TRUE))
print(zp1)

运行后得到下图:

这个如怎么解释呢?

我这个数据不是有5个变量嘛,意思就是指标告诉我们根据这5个变量把数据分为4个潜类别比较合适,上面这个图就是每一个潜类别在5个指标上的响应概率,因为我的每个指标都是2分类,pr(1)表示在相应指标响应1的概率,pr(2)表示在相应指标相应2的概率。

理解到这,我们就可以知道潜类别3在每个指标上响应2的概率都很大,而潜类别1在每个指标上响应1的概率都很大,以此类推,根据这些信息你就可以给你数据的每个潜类别进行命名啦。

你学会了嘛?

快快关注一波。

小结

今天又给大家写了潜类别的做法,感谢大家耐心看完,自己的文章都写的很细,代码都在原文中,希望大家都可以自己做一做,请关注后私信回复“数据链接”获取所有数据和本人收集的学习资料。如果对您有用请先收藏,再点赞转发。

也欢迎大家的意见和建议,大家想了解什么统计方法都可以在文章下留言,说不定我看见了就会给你写教程哦。

如果你是一个大学本科生或研究生,如果你正在因为你的统计作业、数据分析、论文、报告、考试等发愁,如果你在使用SPSS,R,Python,Mplus, Excel中遇到任何问题,都可以联系我。因为我可以给您提供好的,详细和耐心的数据分析服务。

如果你对Z检验,t检验,方差分析,多元方差分析,回归,卡方检验,相关,多水平模型,结构方程模型,中介调节,量表信效度等等统计技巧有任何问题,请私信我,获取详细和耐心的指导。

If you are a student and you are worried about you statistical #Assignments, #Data #Analysis, #Thesis, #reports, #composing, #Quizzes, Exams.. And if you are facing problem in #SPSS, #R-Programming, #Excel, Mplus, then contact me. Because I could provide you the best services for your Data Analysis.

Are you confused with statistical Techniques like z-test, t-test, ANOVA, MANOVA, Regression, Logistic Regression, Chi-Square, Correlation, Association, SEM, multilevel model, mediation and moderation etc. for your Data Analysis...??

Then Contact Me. I will solve your Problem...

加油吧,打工人!

猜你喜欢

R数据分析:潜在剖面分析LPA的做法与解释

Mplus数据分析:潜在类别分析(LCA)流程(详细版)

R数据分析:用R语言做潜类别分析LCA

相关推荐

GANs为何引爆机器学习?这篇基于TensorFlow的实例教程为你解惑!

「机器人圈导览」:生成对抗网络无疑是机器学习领域近三年来最火爆的研究领域,相关论文层出不求,各种领域的应用层出不穷。那么,GAN到底如何实践?本文编译自Medium,该文作者以一朵玫瑰花为例,详细阐...

高丽大学等机构联合发布StarGAN:可自定义表情和面部特征

原文来源:arXiv、GitHub作者:YunjeyChoi、MinjeChoi、MunyoungKim、Jung-WooHa、SungKim、JaegulChoo「雷克世界」编译:嗯~...

TensorFlow和PyTorch相继发布最新版,有何变化

原文来源:GitHub「机器人圈」编译:嗯~阿童木呀、多啦A亮Tensorflow主要特征和改进在Tensorflow库中添加封装评估量。所添加的评估量列表如下:1.深度神经网络分类器(DNNCl...

「2022 年」崔庆才 Python3 爬虫教程 - 深度学习识别滑动验证码缺口

上一节我们使用OpenCV识别了图形验证码躯壳欧。这时候就有朋友可能会说了,现在深度学习不是对图像识别很准吗?那深度学习可以用在识别滑动验证码缺口位置吗?当然也是可以的,本节我们就来了解下使用深度...

20K star!搞定 LLM 微调的开源利器

LLM(大语言模型)微调一直都是老大难问题,不仅因为微调需要大量的计算资源,而且微调的方法也很多,要去尝试每种方法的效果,需要安装大量的第三方库和依赖,甚至要接入一些框架,可能在还没开始微调就已经因为...

大模型DeepSeek本地部署后如何进行自定义调整?

1.理解模型架构a)查看深度求索官方文档或提供的源代码文件,了解模型的结构、输入输出格式以及支持的功能。模型是否为预训练权重?如果是,可以在预训练的基础上进行微调(Fine-tuning)。是否需要...

因配置不当,约5000个AI模型与数据集在公网暴露

除了可访问机器学习模型外,暴露的数据还可能包括训练数据集、超参数,甚至是用于构建模型的原始数据。前情回顾·人工智能安全动态向ChatGPT植入恶意“长期记忆”,持续窃取用户输入数据多模态大语言模型的致...

基于pytorch的深度学习人员重识别

基于pytorch的深度学习人员重识别Torchreid是一个库。基于pytorch的深度学习人员重识别。特点:支持多GPU训练支持图像的人员重识别与视频的人员重识别端到端的训练与评估简单的re...

DeepSeek本地部署:轻松训练你的AI模型

引言:为什么选择本地部署?在AI技术飞速发展的今天,越来越多的企业和个人希望将AI技术应用于实际场景中。然而,对于一些对数据隐私和计算资源有特殊需求的用户来说,云端部署可能并不是最佳选择。此时,本地部...

谷歌今天又开源了,这次是Sketch-RNN

前不久,谷歌公布了一项最新技术,可以教机器画画。今天,谷歌开源了代码。在我们研究其代码之前,首先先按要求设置Magenta环境。(https://github.com/tensorflow/magen...

Tensorflow 使用预训练模型训练的完整流程

前面已经介绍了深度学习框架Tensorflow的图像的标注和训练数据的准备工作,本文介绍一下使用预训练模型完成训练并导出训练的模型。1.选择预训练模型1.1下载预训练模型首先需要在Tensorf...

30天大模型调优学习计划(30分钟训练大模型)

30天大模型调优学习计划,结合Unsloth和Lora进行大模型微调,掌握大模型基础知识和调优方法,熟练应用。第1周:基础入门目标:了解大模型基础并熟悉Unsloth等工具的基本使用。Day1:大模...

python爬取喜马拉雅音频,json参数解析

一.抓包分析json,获取加密方式1.抓包获取音频界面f12打开抓包工具,播放一个(非vip)视频,点击“媒体”单击打开可以复制URL,发现就是我们要的音频。复制“CKwRIJEEXn-cABa0Tg...

五、JSONPath使用(Python)(json数据python)

1.安装方法pipinstalljsonpath2.jsonpath与Xpath下面表格是jsonpath语法与Xpath的完整概述和比较。Xpathjsonpath概述/$根节点.@当前节点...

Python网络爬虫的时候json=就是让你少写个json.dumps()

大家好,我是皮皮。一、前言前几天在Python白银交流群【空翼】问了一个Python网络爬虫的问题,提问截图如下:登录请求地址是这个:二、实现过程这里【甯同学】给了一个提示,如下所示:估计很多小伙伴和...