SCI期刊 | 网站地图 周一至周日 8:00-22:30
你的位置:首页 >  心理健康教育论文 » 正文

中职生心理健康教育中分类技术的运用

2021-4-10 | 心理健康教育论文

1数据准备

1.1数据选择

本文采用症状自评量表(SCL-90),通过对某中职学校2011级学生进行心理健康状况测试得到的数据,发出问卷413份,其中有效问卷377份,有效率为91.3%。

1.2数据预处理

数据挖掘的目的是从日常业务数据中抽取一些有价值的知识或信息,但实际的数据库太大,极易受噪声数据、空缺数据和不一致性数据的侵扰,这就给后续的数据分析和数据挖掘带来极大的不便,甚至导致错误的结论,所以有必要对数据进行预处理。经验表明,只有通过前期细致的数据准备工作,才能在数据挖掘过程中节省挖掘的时间,提高挖掘的效率,得到高质量的挖掘结果。常见的数据预处理方法有多种,包括数据抽取、数据清洗、数据集成、数据变换等。

1)数据抽取

在数据挖掘过程中一般并不需要使用所有的数据,有些数据对构建数据模型干扰不大,有些数据会降低挖掘计算的效率,甚至可能导致谬误,并且这些数据对最终的数据分析没有任何益处,也不会影响正确结论的获得。因此,根据所定义的项目任务,确定所需的数据源,并从中收集和提取数据,查找数据属性特征,减少数据规模,使得在不影响数据分析基础上最大可能地精简数据量,方便挖掘出数据之间隐含的规律和内在的联系。在收集到的中职学生心理健康测试数据中有很多属性,其中有一些属性与挖掘任务之间没有太大关系,或数据本身没有挖掘的意义。如学生的学号、姓名、ID号等属性,这些属性值都是唯一性的,而且数据量又很大,只会增加挖掘计算的时间和空间,可以直接删除。另外,像民族、出生年月、学生类别之类的属性,由于选取的数据中有八成以上为汉族学生,全部是2011级,类别过于集中,没有分类的意义,对挖掘的结果影响不大,因此在数据提取时也需要清除这部分属性值,使得数据规模得以降低。根据中职学生心理健康数据的特点,经过数据抽取,确定了与挖掘任务相关的学生基本属性是性别、独生子女、专业、家庭所在地,分别对躯体化、强迫症状、人际关系敏感、抑郁、焦虑、敌对、恐怖、偏执、精神病性等十个心理症状进行挖掘。

2)数据清洗

数据清洗目的是通过检测数据中存在的错误和不一致来清理数据,包括空值处理、噪声处理及不一致数据的处理等。该文所使用的数据集在收回症状自评量表时已经对数据的有效性做了初步的筛选,剔除了存在较大缺失的测试数据。因此,在数据清理这个环节主要针对数据中的不完整性、不一致性进一步筛查,确保数据的有效性。在心理测试过程中,由于学生填涂不规范、错填或者其他因素干扰等原因,导致数据不完整,会产生大量的噪声数据。这些错误数据和空值数据、重复数据需要通过预处理方法进行数据清洗。经过对数据空值及不一致性的清理后,所得到的数据质量有了很大的提高,保证了数据挖掘结果的准确性和有效性。

3)数据转换

数据转换的基本原则是连续型数据离散化,离散型数据类别化。源数据中有些数据是连续型的,还有些数据虽是离散型,但其分类太多,如家庭所在地属性值分散较广,专业属性值有多个等,不利于进行数据挖掘,必须转换。另外,为了提高挖掘的效率,必须规范数据格式,中文属性值可用一些英文字符或数字编号替代。

2数据分类规则挖掘方法-基于决策树模型的方法

数据分类是数据挖掘技术的主要组成部分,采用KDD技术对数据进行有效分析。它能找出描述数据类或概念的模型,以便能使用模型预测类来标记未知的对象类。在众多的分类挖掘技术中,决策树方法以其算法容易理解,易生成分类规则等优点被广泛研究和应用。

2.1决策树概述

决策树方法首先对数据进行处理,构建分类模型,生成决策树,利用生成的分类规则对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树是一个可以自动对数据进行分类的倒置树形结构,采用自顶向下的递归方式,对它的每个内部节点进行一个属性上的测试,对每个节点上问题的不同回答引出两个或多个分支,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。决策树中最顶层的节点称为根节点,是整个决策树的开始。每个节点代表一个属性,并根据属性值的不同判断该节点向下的分支,最终会到达叶节点。其中每个分支代表它所连接的上节点在其属性上的可能取值,每个叶节点对应一个类别。根据类别属性建立一个类似流程图的树形结构,从根结点到叶结点的一条路径就形成了一个分类规则,整个决策树就相应形成一组析取规则,这样就很容易转换成IF-THEN形式的分类规则,根据这个分类规则就可以比较容易地对新数据进行分类识别和预测。

2.2ID3算法

生成决策树的一个著名算法是ID3算法,是由Quinlan等人于1986年提出的,其基本思想是自顶向下递归地搜索训练样本集,在每个节点处测试每一个属性,从而构成决策树。ID3算法在每个非叶节点选择信息增益最大的属性作为测试属性。ID3算法的核心是确定分支准则,即如何从众多的属性变量中选择一个最佳的分裂属性。通常,在树的每个非叶节点选择具有信息增益最大的属性作为当前节点的测试属性,使得对结果划分中的样本分类所需的信息量最小,并确保找到一棵相对简单的树。算法计算每个属性的信息增益,具有最高信息增益的属性选作给定集合的根节点,然后依次比对节点和训练样本中的其他属性值,完成对训练样本的划分。

3基于决策树的中职学生心理健康模型的发现

将汽车制造与检修、计算机网络技术、机电技术应用三个专业学生的数据抽出,共有242条记录作为训练数据集进行决策树挖掘。具体包含了中职学生相关属性(性别、独生子女、专业、家庭所在地)和症状自评量表10个维度(躯体化、强迫症状、人际关系敏感、抑郁、焦虑、敌对、恐怖、偏执、精神病性、其他)共14个字段。这里,将挖掘任务具体为分析焦虑症状与中职学生的哪些属性相关,其相关程度如何。因此,选择性别、独生子女、专业、家庭所在地以及焦虑作为决策树挖掘字段,生成如图1所示决策树。其中用JL1和JL2分别代表学生有焦虑症状和无焦虑症状。采用决策树的最大特点就是能方便地提取分类规则,并使用IF...THEN形式表示对应的分类规则。IF...THEN规则就是从根节点到叶节点的每条路径生成一个规则,据此可以得到如下判定学生是否焦虑的规则:IF独生子女=“是”and专业=“机电技术应用”and性别=“男”and家庭所在地=“农村”THEN有焦虑症状;IF独生子女=“是”and专业=“机电技术应用”and性别=“男”and家庭所在地=“中小城市”THEN无焦虑症状;IF独生子女=“是”and专业=“计算机网络技术”and性别=“男”THEN有焦虑症状;IF独生子女=“是”and专业=“计算机网络技术”and性别=“女”THEN无焦虑症状;IF独生子女=“否”and专业=“汽车制造与检修”and性别=“男”and家庭所在地=“农村”THEN无焦虑症状;IF独生子女=“否”and专业=“汽车制造与检修”and性别=“女”and家庭所在地=“农村”THEN有焦虑症状;……从生成的决策树可以看出,与焦虑症状最为相关的学生属性是是否独生子女,其次是专业。从图中可以得出以下结论:独生子女的焦虑程度明显高于非独生子女,男生的比例明显高于女生,男生中为独生子女、专业为机电技术应用且来自农村或小城镇的学生焦虑症状比较普遍。根据分析的结果,在进行与焦虑症状相关的心理咨询、心理辅导工作中,应对独生子女、农村或小村镇、机电技术应用专业男生等容易出现心理问题的群体给予特别的关注,予以适当的引导、帮助,降低心理健康问题对学生成长的影响。

4结束语

中职学生心理健康问题十分内隐,外人无法直接感知,很难体会到有心理疾病学生矛盾、困惑乃至痛苦的内心处境。通过对分类规则挖掘方法的阐述,辅以具体实例进行描述,生成决策树,并提取相应的分类规则,方便学校心理咨询老师和学生管理部门对心理问题比较集中的中职学生人群进行提前干预,尽力控制心理疾病的发生,以提高中职学生的心理健康教育水平,让中职学生能够走出心理困境,健康成长。

本文作者:方胜 单位:安徽电气工程学校

Top