下面是小编为大家推荐的一种基于数理统计的数据挖掘方法研究,本文共8篇,欢迎大家分享。

篇1:统计数据挖掘的方法及应用

摘要:在我国,经济统计工作的进行是为了有效地反映经济发展状况,为决策者提供有效决策的依据。

因此,统计部门在进行经济统计时必须重视经济统计信息的准确性和可靠性。

统计数据挖掘技术可以从混乱、纷繁的数据中提取关键的信息与知识,有利于过程控制、决策支持、查询优化、信息管理等工作的顺利开展,在信息爆炸的时代具有十分重要的应用价值。

因此,分析统计数据挖掘的方法,探究统计数据挖掘技术的恰当应用是非常必要的。

关键词:统计数据挖掘;聚类分析方法;统计基础方法

数据挖掘是由数据采集、数据处理、数据规则知识表达和知识应用与服务等几个方面组成。

其中,数据采集是基础,数据处理是关键,数据规则知识表达是形式,知识应用与服务是目的。

现实世界中的大部分数据是有污染的,任何对数据的分析和挖掘都是建立在或多或少的病态数据基础上的,没有好的数据,就不可能提供可靠的规则和知识。

规则往往是被大量复杂的数据项隐藏,有些数据是冗余的,有些数据是完全无关的,它们的存在有可能影响到有价值规则的发现,这必然要求我们在数据处理过程中把好数据关,即选择什么样的数据,如何进行数据清理,对选择好的数据如何处理、要进行哪些处理,只有过好数据关才能保证整个基于统计分析的数据挖掘工作的顺利完成。

一、数据挖掘技术的概念及特征

数据挖掘技术,简单地说就是从大量的数据信息中挖掘出有用的信息。

这里大量的数据信息通常被认为是不完全的、模糊的、有噪音的、随机的,是完全没有加以处理的信息。

而挖掘之后呈现的就是有效的、潜在有用的、新颖的信息。

这样的一个变化过程,也常常被认为是数据挖掘。

数据挖掘,可以是经济信息转换的一个过程,还可以是一门交叉的学科。

数据挖掘是一门涉及面广的学科,包括机器学习、神经网络、数据库、数据统计等等,现在广泛应用于统计界。

数据挖掘作为一个信息转换的过程,其大体的步骤是:数据准备――数据挖掘――结果分析总结。

数据挖掘的主要功能是:分类、预测模型、数据聚类、数据总结等。

数据挖掘的特点,同时又是数据挖掘的优点有以下几点:其一,处理的数据量巨大;其二,具有自动找寻信息的功能;其三,能够有效地描绘过去和预测未来;其四,信息反映快捷及时。

数据挖掘常常采用的一些技术有:关联规则方法、聚集检测、记忆基础推理方法、链接分析等等。

二、统计数据挖掘的内容

随着统计信息化工程的'进展,各地市统计系统的数据库建设正在紧锣密鼓地进行,有的已经开始,有的正在酝酿之中。

一般小型数据库采用了FoxPro、Access等数据库软件,大型数据库采用了oracle系统,同时一些大型企业也都建立了自己的统计数据库。

另外还有基于Web的统计数据库系统,这些不同数据源收集的统计信息,通过数据清理、数据变换、数据集成、数据装人和定期数据刷新就构成了一个大型的统计数据仓库,为统计数据的挖掘创造了条件。

具体来讲统计数据挖掘的内容有:

(一)时间序列数据序的挖掘

时间序列数据库是存放随时间变化序列值的数据库,包括反映月度、季度变化的进度数据库以及年度数据库,由于这些数据是经过长期历史积累形成的,因此显得尤其珍贵。

其中有些是反映国家或某一地区国家经济和社会发展的,出现在各种统计年鉴中的,有些是反映企业的生产、销售、成本等状况的,有些是反映市场状况的,如交易状况。

通过对时间序列数据库的挖掘,可以发现数据库中对象演变特征或对象的变化趋势,以及相互之间的长期均衡的各种关系,利用这些信息可以进行有关预测及决策和进一步的定量分析。

(二)截面数据库的挖掘

截面数据库是存放同一时间上不同个体数据指标的数据库,包括不同省市、城市、县镇区的宏观经济指标数据库,也包括不同企业、家庭及居民的各种行为指标数据库,反映了不同个体之间的差异性及特殊性。

通过对截面数据库的挖掘,可以发现不同个体之间呈现出的各种规律及量化关系,以及通过统计中的聚类分析、判别分析,对不同个体进行分类,还可以进行孤立点分析,判别出那些数据与数据的一般行为或模型不一致,例如可以发现信用卡欺诈、为骗取保险金的伪保险、交易中的违规交易等。

(三)统计信息数据库的挖掘

统计信息涵盖了国家社会、经济、科技信息的主要方面,是国家重要的基本信息资源。

统计工作信息化的建设一直是各级统计部门工作中的重点,已经初具规模,有FoxPro为系统的小型信息数据库,也有oracle大型数据库管理系统,此外,还开发引进了一些通用的和专用的报表处理、统计报表排版、统计分析等应用较件,各种统计信息资源应有尽有。

同是大型企业也十分重视建立统计信息管理系统,主要用于企业内部的统计业务处理和向上级公司和政府机关上报报表。

通过对统计信息数据库的挖掘,可以全方位掌握和了解最新的国民经济、社会发展、企业景气状况的动态,为政府和企业的决策服务。

(四)统计普查数据库的挖掘

普查是专门组织的一次性全面调查,是全面系统地掌握国情国力统计资料的重要途径。

例如工业普查、农业普查、人口普查、物质库存普查、工作设备普查等等。

由于进行普查的工作量大,需要动员较多的人力、物力,组织一次很不容易,因此普查的统计资料就显得尤为珍贵,需要对普查后的数据整理、保存,建立相关统计普查数据库,通过对统计普查数据库的挖掘,可以掌握相关的真实数据,从普查中提炼出有价值的信息。

(五)抽样调查数据库的挖掘

在社会经济现象中,有很多现象,是无法进行全面调查的,有些也不必要进行全面调查,这样抽样调查的方法就显得比较重要,它较全面调查有节省人力、财力,速度快等优点。

由于抽样调查需要事先设计好抽样框,要体现出随机性原则,因此随机抽样,并不是简单地抽取,要完成一次好的随机抽样也并不是易事,抽样调查的结果也非常有价值,抽样调查的结果保存在计算机中,就形成了抽样调查数据库。

通过抽样调查数据库的挖掘可以及时了解社会经济,特别是居民生活方面的现实状况,对企业来讲可全方位地了解市场信息及市场行情。

三、统计数据挖掘的方法及应用探析

(一)统计基础方法

数据挖掘经常能够用到统计的基础方法,例如,用直方图和茎叶图对样本数据作描述;数据结构的基本特征可以用数据的集中频次和频率进行描述;数据中心可以用均值、中位数和众数进行描述;数据的离散特征可以用极值与百分位点等进行点状描述;数据的离散特征可以用极差和离差进行区间描述;数据特征的综合描述可以用样本方差或箱形图等。

此外,数据挖掘中,还广泛的应用了回归分析,回归又包括线性回归和非线性回归。

线性回归是最简单的回归形式。

双变量回归是将一个随机变量看作另一个随机变量的线性函数。

非线性回归用于描述变量间的曲线性式关系。

回归分析表明了数据间的相关关系,为进一步的数据分析提供了依据。

(二)聚类分析方法

在模式类型无法得知的情况下,可以运用聚类分析法进行分类、识别。

按照模式间的相似程度进行自动分类的聚类分析法,能够将相似度大的模式归为一类。

聚类分析法有凝聚算法、分裂算法、增量聚类和划分聚类。

例如,层次方法就是按照一定的层次分解给定的数据对象集合,可以分为分裂层次方法和凝聚层次方法。

聚类分析法适用于分析样本之间的内部关系,合理的评价样本结构。

此外,孤立点的检测也可以应用聚类分析。

聚类是为了将某个对象从大量的数据中分离出来,不是简单地将数据集聚在一起。

目前,聚类分析广泛应用于图像处理、模式识别、经济分析等多个领域。

(三)粗集方法

在缺少数据先验知识的情况下,例如隶属函数、隶属度和概率分布等,直接从给定的问题出发,问题的近似域确定可以运用不可分辨类与不可分辨关系,找出问题中存在的规律。

粗集理论和证据理论、神经网络、模糊集等一样都是进行不确定性计算的重要理论方法,粗集方法在数据挖掘中有着广泛的应用,在残缺、模糊信息和知识的分类与获取上有着较大的应用优势,比较有代表性的方法有:统计检验方法;单规则离散器方法;信息嫡方法等。

这些方法都各具特点,但又存在着一个共同的缺陷――每个属性的离散化过程是各自独立的,这忽视了不同属性之间的关联,进而导致离散的结果中包含了不合理或冗余的分割点。

四、结束语

可以确信,如果数学是统计方法的首要工具,那么以计算机和网络为代表的信息技术,正在成为统计应用的首要工具。

随着统计学与现代信息技术的融合,在方法上不断进行新的探索,一定会为统计学和数据挖掘未来的发展开辟一片新的天地。

参考文献:

[1]陈凤兰.数据挖掘技术在经济统计中的应用[J].现代商业,,05

[2]吴慧香.数据挖掘在财务风险警报系统中的应用[J].财会通讯,,02

[3]丁卫平,王杰华,管致锦.基于数据挖掘技术的教学评估智能辅助决策平台的设计与实现[J].电化教育研究,,04

[4]李占宣.数据库中面向复杂应用的查询方法[J].电脑学习,2009,04

篇2:一种基于数理统计的数据挖掘方法研究

一种基于数理统计的数据挖掘方法研究

吴良刚           周海涛

湖南长沙中南大学

摘要:本文分析了数理统计方法在数据挖掘中的作用,提出了一种基于数理统计的数据挖掘模型,并用实例证明该数据挖掘模型有效性。

关键词:数据挖掘、乔里斯基法、雅可比法

a kind of data mining mothod about

Zhou haitao   Wu lianggang

Abstract:The paper analyses the function of Mathematical Statisties moehod  in the field of data mine,provides a kind of model of data mine about  Mathematical Statisties ,proves the effectiveness of the data mine model with a example

Key words:data mining , Cholesky method,  Jacobi  method

一、

前言

随着数据库技术的广泛应用,各行各业都积累了大量的数据,这些数据的内在联系可能就是有价值的知识,运用

数据仓库技术,发现并提取这些知识,成了当务之急。

数据挖掘就是从大量的数据中提取隐含的、未知的、对决策有潜在价值的知识和规则的`过程,它的主要技术包括聚类,粗糙集,关联规则、统计分析、神经网络、模糊数学等。

数理统计学是一门关于数据资料的收集、整理、分析和推理的科学,在时下的数据挖掘热潮中,数理统计方法仍是一种不可或缺的方法,下面就介绍一种用数理统计学方法挖掘数据数据仓库中数据规律性的方法。

篇3:飞机实时监控数据挖掘方法研究

飞机实时监控数据挖掘方法研究

通过数据挖掘技术分析与飞机运行和维护相关的.数据资源来研究一套能及时察觉、分类并预报故障的飞机实时监控系统(Aircraft Real-Time Monitoring & Troubleshooting System,AMTS),使其能够在优化飞机关键部件寿命的同时减少飞机运行和维护的费用.分析着手于历史维护经验库,结合飞机维护技术文档和相关数据挖掘算法,介绍了构建该系统的原理和方法,并初步实现利用飞机实时故障报文对飞行状态进行实时监控及故障诊断.

作 者:朱睿 郭隐彪 ZHU Rui GUO Yin-biao  作者单位:厦门大学机电工程系,福建,厦门,361005 刊 名:厦门大学学报(自然科学版)  ISTIC PKU英文刊名:JOURNAL OF XIAMEN UNIVERSITY(NATURAL SCIENCE) 年,卷(期): 46(5) 分类号:V267 V247.5 关键词:数据挖掘   实时监控   技术文档   历史经验  

篇4:基于仿真与数据挖掘的故障诊断方法研究

基于仿真与数据挖掘的故障诊断方法研究

针对导弹武器系统故障信息的特点,提出了系统仿真与数据挖掘相结合的综合故障诊断方法.文中将导弹武器系统故障检测信息分为3类,即:离散交互特征信息、连续动态特征信息和离散事件特征信息.通过实例阐述了数据挖掘在导弹武器系统故障诊断中的`应用.分析了基于仿真的故障诊断方法,在此基础上,结合仿真与数据挖掘各自在故障诊断方面的优势,进一步提出了基于仿真与数据挖掘的综合诊断方法,给出了方法的步骤和诊断流程.

作 者:张素兰 胡骏 ZHANG Su-lan HU Jun  作者单位:中国航天科工集团二院706所,北京,100854 刊 名:计算机仿真  ISTIC PKU英文刊名:COMPUTER SIMULATION 年,卷(期):2007 24(1) 分类号:V2 TP3 关键词:导弹武器系统   故障诊断   系统仿真   数据挖掘  

篇5:长尾关键词挖掘方法

结合自身的一些经验,我认为长尾关键词的挖掘首先要弄清楚四个问题,然后才能把我们的长尾关键词的挖掘工作做的很好。

因为只有弄懂了这四个问题,大家才能更懂长尾关键词的挖掘工作,才能更加重视长尾关键词的挖掘意义,才能更快找准长尾关键词的挖掘方向,才能更好把握长尾关键词的挖掘深度。

1、长尾关键词是什么?长尾关键词到底有多长?

很多站长朋友在谈到长尾关键词的挖掘经验的时候都会有自己的一套看法,但是最基本的东西大家是必须要弄清楚的。

我认为长尾关键词其实就是在主关键词或者一些和网站的内容相关的辅助关键词的基础上,经过一些词语的不断叠加修饰发展而来的一批关键词,这些关键词数量巨大,而且每个都不相同。

长尾关键词的长度如果搜索引擎不限制的话一般是可以无限长的,但是很明显这是不可能的事情,一般每个搜索引擎对网页标题的都有一个限制,最多的也不会超过200个字节。

这里我要跟大家说的一点是,虽然长尾关键词会很长,而且越长约精准,但是越长搜索的人肯定会非常少,这样就得不偿失了。

2、长尾关键词的挖掘是一件很难的事情!

一直以来我都认为挖掘长尾关键词是一件很难的事情。

因为首先挖掘长尾关键词需要长时间的坚持,并不是一蹴而就的,很多时候一个网站长尾关键词的很好布局需要4-6个月的持续挖掘。

其次长尾关键词的挖掘还是有很多的经验技巧的,还需要很多的网站行业相关的专业知识作为支撑,并不是简简单单的就能做到很好,挖掘的全面。

最后,我们挖掘的长尾关键词到底能给网站带来多少流量我们是很难把握的,也许有的关键词根本就是吃力不讨好,甚至毫无作用。

我们站长做挖掘工作的时候一定要认清楚这一点,并且要有坚持的决心和毅力,每天都去挖掘,每天都去发现,这样我们肯定会获得丰盛的回报。

3、长尾关键词到底去哪里挖掘?

很多没注意长尾关键词的站长在准备开始挖掘长尾关键词的时候肯定会问到这个问题,因为他们不知道方向,所以很是茫然无措。

我一开始其实也没有什么方向,只是埋头慢慢摸索,摸索着摸索着就摸索出了几个很好的道路。

这几个道路其实我在前面介绍做关键词选择的一篇文章《虚子雨:八大绝招教你选好关键词》中谈的很清楚了,这里给大家大概的介绍一下:列举关键词,然后拓展;看统计数据分析;关键词分析工具分析;去竞争对手网站找;实地调查;和朋友讨论;不同时间选择不同的关键词,在关键词前面加上时间限制;根据转化率高的关键词拓展。

具体的方向其实还有很多,例如去各大论坛和网友讨论,去问答平台回答别人问题等,这些方向都是很好的方向,大家在挖掘的时候一定要注意好好把握。

4、长尾关键词到底挖掘多深好?

很多人都觉得长尾关键词是挖掘的越多越好,其实这个观点不够准确。

在前面的第3个问题中我谈到了一点:根据转化率高的关键词拓展。

我认为做SEO最好的还是做精准的流量,这样对于网站来说转化率和效益才会更高,所以在挖掘长尾关键词的时候一定要注意挖掘转化率高的。

大家想想看,转化率太低的.长尾关键词我们有必要去花费自己宝贵的时间和精力去挖掘吗?这样做不是给自己没事找事吗?但是长尾关键词挖掘的越多越好这个观点很大程度上也是非常正确的,挖掘的越多,获取的流量就会越多,如果我们能够认清哪些是我们该花大精力挖掘的长尾关键词,哪些是该摒弃的关键词,那么对于我们的挖掘工作来说就会事半功倍,就会节约人力物力资力。

巧妙挖掘网站长尾关键词【2】

什么是长尾关键词?

传统行业简单的说,所谓的长尾理论是指,当商品储存流通展示的场地和渠道足够宽广,商品生产成本急剧下降以至于个人都可以进行生产,并且商品的销售成本急剧降低时,几乎任何以前看似需求极低的产品,只要有卖,都会有人买。

这些需求和销量不高的产品所占据的共同市场份额,可以和主流产品的市场份额相比,甚至更大。

这个理论在互联网发扬光大,对网络营销产生了非常深远的影响,可以说互联网把该理论用到了极致。

在网络营销行业中,长尾关键词通常是指网站上非目标关键词但也可以带来搜索流量的关键词,长尾关键词一般比较长,往往是2-3个词组成,甚至是短语,存在于内容页面,除了内容页的标题,还存在于内容中。

长尾关键词带来的客户,转化为网站产品客户的概率比目标关键词高很多。

所以一个网站不能单纯看某个目标关键词的排名,而是整站的长尾优化,存在大量长尾关键词的大中型网站,其带来的总流量非常大。

长尾关键词基本属性是:可延伸性,针对性强,范围广,下面整理了长尾关键词的特征:

1、比较长,往往是2-3个词组成,甚至是短语。

2、存在于内容页面,除了内容页的标题,还存在于内容中。

3、搜索量非常少,并且不稳定。

4、长尾关键词带来的客户,转化为网站产品客户的概率比目标关键词低很多。

5、存在大量长尾关键词的大中型网站,其带来的总流量非常大。

长尾理论和关键词选择以及网站配合的重要性

现在网络推广达人谈到关键词选择的时候,经常提到长尾关键词,而在搜索引擎优化工作中,长尾理论最明显的表现就是关键词的选择。

现在的趋势是越来越多的SEOER不会把时间和精力局限在主要的目标关键词上,而更多把时间花在关键词的扩展上。

从吴锋自己掌握的一些网站的情况看,稍微大一些的网站从那些长尾关键词(也就是搜索量不大,但数量和变化很多的关键词)得到的流量都占总网站流量的百分之五六十以上,虽然这些网站的主要目标关键词排名也相当不错。

对一些比较小的网站来说,由于长尾关键词不多,主要关键词所占的流量比例就上升。

得到的启示是,这些小的只专注于主要关键词的网站,浪费了不少机会。

如果能增加网站内容,扩充关键词,流量必然会成倍增加。

可以说,长尾理论是对20/80理论的颠覆。

咱们来看看长尾关键词对电子商务网站是何等重要的,根据对一些电子商务网站的统计,长尾产品和长尾关键词得到的流量,占总流量的百分之二十到三十还多,但是从长尾产品所得到的利润却有可能是一半以上。

换句话说,以前所流行的所谓20%的客户或产品产生80%的利润这一观点,在互联网上被彻底颠覆了。

原因可能有两方面,一是这些长尾关键词得到的用户,更容易被转化为付费客户。

举个例子,三个人分别搜索三个关键词,”团购”,”成都团购”,”成都美发团购”。

从统计上来说,搜索”成都美食团购”的人要比搜索”团购”的人成为客户的概率要高很多。

因为很明显,他已经在找具体的某类产品或者某种服务,而搜索”团购”的人想要找的信息到底是什么就很难讲了。

第二个原因是长尾关键词和长尾产品的成本要低的多。

就像前面的三个关键词,想排在”成都美发团购”的第一页,显然要比”团购”容易的多。

长尾关键词选择挖掘非常重要,但也需要网站相应的配合,因为长尾关键字选择过多可能使用户最终不做选择。

吴锋刚进入网络推广行业,想在当当网买一些关于网络推广的书,搜索”网络推广”,返回79本图书。

几乎可以肯定,如果不是网络推广方面朋友曾经给我推荐一本书,我不太可能去研究这79本书哪本更合适。

所以选择过多是长尾经济的一个天生特质,对商家来说,任务就是怎样帮助用户做出最好的选择。

在这里甚至良好的分类,功能强大的搜索都远远不足够。

吴锋感觉是,这类长尾网站需要有用户评论,用户打分,编辑评论,甚至对评论的评级等内容,来帮助其他用户做出选择。

经常在当当上面购买图书,每次都是读了用户评论之后才做出决定的。

挖掘网站长尾关键词的技巧【3】

对于整站优化来说,长尾关键词挖掘是一项非常重要的工作,挖掘得多挖掘得好,能给网站源源不断带来不菲流量。

咱们除了站在用户的角度来思考他的搜索意图进行长尾词的布署外,适当使用一些工具帮助分析选择,能大大提高工作效率,事半功倍,如果是使用搜索引擎公司本身提供的工具进行分析选择,在长尾关键词量化方面是人力想象不可比拟的优势。

在这里和大伙分享一些技巧,“不可量化的技巧”太虚,可操作性不太强本来不想写,后面还是匆忙加上,在思路上进行拓展也是挺好的,童鞋们要认真看到最后,真正的干货在最后的“挖掘长尾关键词可量化的工具”。

什么是长尾关键词

什么是长尾关键词

1、挖掘关键词不可量化的手段

1)、将目标关键词进行扩展。

咱们文章刚才提到最原始的方法,也就是说围绕某个目标关键词进行思路发散展开,增加一些修饰词短语,比如做的是成都本地团购网站,可以扩展成“成都团购网”,“成都美发团购”、“成都火锅团购”等等,这个就要自己对这个行业比较熟,才能扩展出更多的词。

2)、利用百度等相关搜索。

一般我们搜索某个目标关键词的时候,搜索引擎的搜索框会出现相关搜索词,还有搜索引擎底部相关搜索也会出现一些相关的关键词,这些就是我们要找的长尾关键词,我们可以顺着下面的词,不断点击进去,会收集越来越多的长尾词。

这些就是和主关键词相关的长尾关键词了,不过你想到的别人也都想到了,这些词一般竞争也是很激烈的。

3)、通过分析竞争对手网站等来获取。

我的成功可以复制“,复制别人的成功方法,让自己也成功。

我们去分析排在前面的竞争对手的网站,观察他们网站的关键词设置,并将对其关键词做相应扩展。

也可以去观察他们网站上比较热门的文章,看看标题和内容,从中获取有效的长尾关键词。

4)、利用百度知道等一些问答平台。

各种各样的知道问答平台,可是长尾关键词挖掘的宝藏哦,这里有最接近用户搜索习惯的关键词,最能找到用户的搜索意图。

我们可以输入网站的目标关键词,就可以找到大堆相关的问题了。

而且还可以回答问题,留个反向链接呢。

5)、利用流量统计工具。

一般网站运营一段时间后,我们就可以通过流量统计系统来挖掘长尾关键词了,分析统计对我们的SEO和网站运营非常有帮助,所以大家要养成看统计的习惯。

我们可以知道用户是通过搜索什么关键词进来的,可以看到哪些页面用户停留时间最长。

2、挖掘长尾关键词可量化的工具

1)、百度指数。

显示特定关键词的用户关注度以及媒体关注度,用户可以输入不同的关键词,比较用户关注度和媒体关注度数据,从而确定那个关键词市场需求更大,同时展示相关关键词。

如果有百度指数账号,用户所搜索的关键词数据可以存储,并且可以批量查询。

没有百度账号的用户,也可以在百度网站上进行简单的查询和调查。

篇6:提高环境统计数据质量方法的探讨

关于提高环境统计数据质量方法的探讨

环境统计覆盖面广,牵涉多方面利益.目前,环保部门监管存在缺位、不到位,个体数据错漏较多,同时,部分环保部门在统计工作中弄虚作假,导致汇总结果误差较大.改进核算方法,改变统计是数字汇总的传统观念,通过综合评估,宏观调控,能有效地提高数据质量,可操作性强.

作 者:潘烁 陈刚宁 王彦刚 PAN Shuo CHEN Gang-ning WANG Yan-gang  作者单位:潘烁,PAN Shuo(广东省环境保护监测中心站,广州,510045)

陈刚宁,王彦刚,CHEN Gang-ning,WANG Yan-gang(广东省环境信息中心,广州,510630)

刊 名:环境科学与技术  ISTIC PKU英文刊名:ENVIRONMENTAL SCIENCE & TECHNOLOGY 年,卷(期): 28(z2) 分类号:X32 关键词:环境统计   抽样推算   总量测算   分级核算   下算一级  

篇7:数据挖掘教学方法研究论文

数据挖掘教学方法研究论文

摘要:在本科高年级学生中开设符合学术研究和工业应用热点的进阶课程是十分必要的。以数据挖掘课程为例,本科高年级学生了解并掌握数据挖掘的相关技术,对于其今后的工作、学习不无裨益。着重阐述数据挖掘等进阶课程在本科高年级学生中的教学方法,基于本科高年级学生的实际情况,以及进阶课程的知识体系特点,提出有针对性的教学方法参考,从而提高进阶课程的教学效果。

关键词:数据挖掘;进阶课程;教学方法研究;本科高年级

学生在本科高年级学生中开设数据挖掘等进阶课程是十分必要的,以大数据、数据挖掘为例,其相关技术不仅是当前学术界的研究热点,也是各家企事业单位招聘中重要岗位的要求之一。对于即将攻读硕士或博士学位的学生,对于即将走上工作岗位的学生,了解并掌握一些大数据相关技术,尤其是数据挖掘技术,都是不无裨益的。在目前本科教学中,对于数据挖掘等课程的教学,由于前序课程的要求,往往是放在本科四年级进行。如何激发本科四年级学生在考研,找工作等繁杂事务中的学习兴趣,从而更好地掌握数据挖掘的相关技术是本课程面临的主要挑战,也是所有本科进阶课程所面临的难题之一。

1数据挖掘等进阶课程所面临的问题

1.1进阶课程知识体系的综合性

进阶课程由于其理论与技术的先进性,往往是学术研究的前沿,工业应用的热点,是综合多方面知识的课程。以数据挖掘课程为例,其中包括数据库、机器学习、模式识别、统计、可视化、高性能技术,算法等多方面的知识内容。虽然学生在前期的本科学习中已经掌握了部分相关内容,如数据库、统计、算法等,但对于其他内容如机器学习、人工智能、模式识别、可视化等,有的是与数据挖掘课程同时开设的进阶课程,有的已经是研究生的教学内容。对于进阶课程繁杂的知识体系,应该如何把握广度和深度的关系尤为重要。

1.2进阶课程的教学的目的要求

进阶课程的知识体系的综合性体现在知识点过多、技术特征复杂。从教学效益的角度出发,进阶课程的教学目的是在有限的课时内最大化学生的知识收获。从教学结果的可测度出发,进阶课程的教学需要能够有效验证学生掌握重点知识的.学习成果。1.3本科高年级学生的实际情况本科高年级学生需要处理考研复习,找工作等繁杂事务,往往对于剩余本科阶段的学习不重视,存在得过且过的心态。进阶课程往往是专业选修课程,部分学分已经修满的学生往往放弃这部分课程的学习,一来没有时间,二来怕拖累学分。

2数据挖掘等进阶课程的具体教学方法

进阶课程的教学理念是在有限的课时内,尽可能地提高课程的广度,增加介绍性内容,在授课中着重讲解1~2个关键技术,如在数据挖掘课程中,着重讲解分类中的决策树算法,聚类中的K-Means算法等复杂度一般,应用广泛的重要知识点,并利用实践来检验学习成果。

2.1进阶课程的课堂教学

数据挖掘等进阶课程所涉及的知识点众多,在课堂上则采用演示和讲授相结合的方法,对大部分知识点做广度介绍,而对需要重点掌握知识点具体讲授,结合实践案例及板书。在介绍工业实践案例的过程中,对于具体数据挖掘任务的来龙去脉解释清楚,尤其是对于问题的归纳,数据的处理,算法的选择等步骤,并在不同的知识点的教学中重复介绍和总结数据挖掘的一般性流程,可以加深学生对于数据挖掘的深入理解。对于一些需要记忆的知识点,在课堂上采用随机问答的方式,必要的时候可以在每堂课的开始重复提问,提高学习的效果。

2.2进阶课程的课后教学

对于由于时间限制无法在课上深入讨论的知识点,只能依靠学生在课后自学掌握。本科高年级学生的课后自学的动力不像低年级学生那么充足,可以布置需要动手实践并涵盖相关知识点的课后实践,但尽量降低作业的工程量。鼓励学生利用开源软件和框架,基于提供的数据集,实际解决一些简单的数据挖掘任务,让学生掌握相关算法技术的使用,并对算法有一定的了解。利用学院与大数据相关企业建立的合作关系,在课后通过参观,了解大数据技术在当前企业实践中是如何应用的,激发学生的学习兴趣。

2.3进阶课程的教学效果考察进阶课程的考察不宜采取考试的形式,可以采用大作业的形式。从具体的数据挖掘实践中检验教学的成果,力求是学生在上完本课程后可以解决一些简单的数据挖掘任务,将较复杂的数据挖掘技术的学习留给学生自己。

3结语

数据挖掘是来源于实践的科学,学习完本课程的学生需要真正理解,掌握相关的数据挖掘技术,并能够在实际数据挖掘任务中应用相关算法解决问题。这也对教师的教学水平提出了挑战,并直接与教师的科研水平相关。在具体的教学过程中,发现往往是在讲授实际科研中遇到的问题时,学生的兴趣较大,对于书本上的例子则反映一般。进阶课程在注重教学方法的基础上,对于教师的科研水平提出了新的要求,这也是对于教师科研的反哺,使教学过程变成了教学相长的过程。

参考文献:

[1]孙宇,梁俊斌,钟淑瑛.面向工程的《数据挖掘》课程教学方法探讨[J].现代计算机,(13).

[2]蒋盛益,李霞,郑琪.研究性学习和研究性教学的实证研究———以数据挖掘课程为例[J].计算机教育,2014(24).

[3]张晓芳,王芬,黄晓.国内外大数据课程体系与专业建设调查研究[C].2ndInternationalConferenceonEducation,ManagementandSocialScience(ICEMSS2014),2014.

[4]郝洁.《无线传感器网络》课程特点、挑战和解决方案[J].现代计算机,(35).

[5]王永红.计算机类专业剖析中课程分析探讨[J].现代计算机,(04).

篇8:应用于飞机健康管理的数据挖掘方法研究

应用于飞机健康管理的数据挖掘方法研究

旨在通过数据挖掘技术分析与飞机运行和维护相关的'数据资源,研究一套能及时察觉、分类并预报故障的飞机健康管理系统,使其能够在优化飞机关键部件寿命的同时减少飞机运行和维护的费用.

作 者:朱睿  作者单位:厦门大学 刊 名:航空维修与工程  PKU英文刊名:AVIATION MAINTENANCE & ENGINEERING 年,卷(期):2007 “”(4) 分类号:V2 关键词: 

更多推荐

一种基于数理统计的数据挖掘方法研究