l 引言数据挖掘是从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程I”。数据挖掘技术已经广泛地应用于商业决策、海难分析、网络安全预警、冶炼成本管理等众多领域。将先进的数据挖掘技术引入教育考试数据分析领域,可以提高教育考试数据的分析利用水平,获得潜在规律和发展趋势,为教育管理、教育决策提供科学的参考,更好地为考生和社会服务。’
  目前,随着教育系统信息化建设步伐不断加快,功能完备、覆盖各类考试业务的计算机信息管理系统已经在全国各地区的教育考试部门推广使用,伴随而来的是日益庞大的教育考试电子数据。这些数据客观记录了各地区以考生、学校、专业、师资等为主体的教育考试历史情况和现状.同时也隐含着各地区教育布局的特点,蕴藏着教育行业的发展规律和趋势。但是现阶段也存在着教育考试电子数据综合利用率低,潜在效能没有发挥的问题,主要体现在:基于独立数据库的各教育考试管理信息系统对数据的利用仅限于分类统计、一般查询的层次;不同数据库中的数据整合困难,无法实现不同系统跨平台信息共享与交互,无法实现面向主题的高层次的数据分析,从而无法充分、有效利用数据资源。
  显然,传统的面向应用的数据库管理信息系统,尽管数据丰富,但对于教育决策和数据挖掘还远远不够。因此,需要建立为数据挖掘和决策分析提供专门支持的教育考试数据资源系统,将分布异构数据生成高质量、纯净、集成的数据,在此基础上进行教育考试数据分析与挖掘。
  2数据集市多维数据模世数据仓库/集市的逻辑建模是将分布异构数据生成高质量、纯净、集成的数据的关键步骤,对数据仓库/集市的物理实施有着重要的指导作用。主要的数据仓库/集市逻辑模型有星型模型和雪花模型12一。—个星型模型包括—个事实表和一组维度表。事实表描述挖掘主题的多个角度,位于星型模型的中心;维度表从不同角度详细描述挖掘主题的相关数据,环绕在事实表的周围。雪花模型是星型模型的扩展模式。雪花模型中,维度表被分解成与事实表直接关联的主维度表和与主维度表关联的次维度表,次维度表与事实表I'日J接关联。
  结合教育考试挖掘主题与教育考试数据的特点,系统的数据集市采用雪花模型结构。以考生高考数据集市为例,其雪花模型如图I所示。位于核心的“考生高考事实表”包括“考生键”、“志愿键”、“成绩键”、“时问键”四个键值,分别与“考生表”、“志愿表”、“成绩表”、“时间表”四个主维度表关联,除“时间表”之外的其余三个主维度表分别有各自的二级维度表,而“院校表”、“专业表”、“就读学校表”又有自己的三级维度表。
  雪花模型是多个星型模型复合而成,与星型模型一样,雪花模型能够在数据库数据之I’日J建立简明清晰的关系。同时,建立多级维度表,还具有如下优点:(1)降低数据集市与数据仓库数据冗余度,减少其数据量,并且保证数据一致性;(2)实现基于灵活粒度的数据挖掘。数据集市的粒度描述的是数据集市中数据单元的综合程度。粒度越小,数据就越详细,综合度就越低;粒度越大,内容则越模糊,数据综合度就越高。
  3数据挖掘建立好数据集市后,就可以进行数据挖掘工作了。本文进行考试成绩的关联规则挖掘,对于关联规则挖掘的频繁数据项集生成过程,采用Apriori算法。
  3.1 Apriori算法及其特点关联规则挖掘是数据挖掘的—个主要研究方向,目的是发现海量数据集中数据项集之间的关联关系141。关联规则的挖掘分为两个步骤:(1)找出所有的频繁数据项集.即出现次数不小于用户指定的最小支持数的项集;(2)由频繁项集产生强关联规则,只有不小于用户给定的置信度阈值的规则才被保留下来。步骤(2)是在(1)的基础上实现的,且其工作量要远远小于步骤(1)。
  Apriori算法是一种重要的频繁数据项集生成算法,采用分层搜索策略,并利用先验知识进行候选数据项集剪枝,缩小搜索范围,提高算法效率嘲。算法描述如下。其中厶是k阶频繁数据项集;c^是k阶候选项集,即可能成为k阶频繁数据项集的3.2采用Apriori算法实现关联规则挖掘本系统采用Apriori算法生成频繁数据项集,进而对考生高考数据集市进行挖掘,研究考生各科目成绩之间的关联性问题。
  系统的数据源为某市2003年高考招生数据库。在进行关联规则挖掘前,首先要对数据源中的高招数据进行抽取与采样,并对异构数据清洗和转换,然后加载到考生高考数据集市。生成数据集市之后,就可以采用Apriori算法生成频繁数据项集了。
  (1)将数据集市中“考生科目成绩”项的内容由数值型转换为二值型。
  本系统中,将语文、数学、外语、综合等4个科目的成绩按照“优秀”、“良好”、“中等”、“较差”、“差”分成5个等级,依次对应5个分值区间,并分别用符号标记。通过转换,每个考生及其4科成绩可以表示为(Sid,A‰,Bn6,Cn,,砜)的形式,其中Sid为学生的ID号,A、曰、C、D分别代表语文、数学、外语、综合,%m、knd的取值范围为{I,2,3,4,5l。例如,(00001,A2,BI,C1,D2)表示00001号考生的语文、数学、外语、综合4科成绩分别为良好、优秀、优秀、良好。
  (2)给定最小支持度阈值m/nsup为4%,采用Apriofi算法计算各阶频繁数据项集。
  因为数据集市中共有4门科目成绩,所以计算得出的频繁项集的阶数不会大于4。表l一表4分别给出了各阶频繁项集及其支持度的计算结果。
  4结束语数据仓库与数据挖掘技术是—个具有广泛用途的领域,本文在分析教育考试数据资源应用现状的基础上,构建了教育考试数据集市雪花模型,并采用Apriori算法生成频繁数据项集,进而挖掘考生各科目成绩之间的关联性,并得出了考生4科成绩之间的关联规则,各规则的置信度均达到75%以上。

文章来自中国论文发表网,本论文站是专业的医学论文发表网,如需转载请保留一个链接:http://www.lunwen56.com

原创文章如转载请注明:转载自『中国论文发表网http://www.lunwen56.com/
原文链接:http://www.lunwen56.com/post/959.html
将本文收藏到网摘: google书签  新浪ViVi   Poco网摘  365key天天网摘   yahoo收藏  windows live书签  添加到del.cio.us  加入收客收藏  分享到饭否  天极网摘  和讯网摘  百度收藏  QQ书签  有道阅读