2023年12月29日发(作者:2023安徽数学试卷)
第36卷 第12期 Vo1.36 ・计算机工程 2010年6月 June 2010 No.12 Computer Engineering 软件技术与数据库・ 文章编号;1oo 428(2o1o)12__伽33_-03 文献标识码;A 中图分类号:TP311 优势关系下属性值粗化细化时近似集分析 季晓岚 ,李天王I} ,邹维丽 ,陈红梅 (1.西南交通大学信息科学与技术学院,成都610031;2.西南交通大学数学学院,成都61003I) 摘要:基于优势关系粗糙集模型反映属性间的偏好情况,实际上多数数据库中的数据是动态变化的。如何利用已有的信息更新近似集对 于提高知识发现效率有重要意义。提出不完备信息系统在优势关系下属性值粗化细化的定义,讨论优势关系下不完备信息系统中属性值粗 化细化时近似集的变化情况,对比分析优势关系下属性值粗化细化前后的粗糙近似精度和粗糙近似质量。通过实例分析验证了该方法的有 效性。 关健诃:不完备信息系统;粗糙集;优势关系;近似集 Analysis “Approximations ysis ol A roximations U Under n Dominanclominance RelationDuring Attribute Values Coarsening and Refining JI Xiao.1an ,LI Tian.rui ,ZOU Wei.1i ,CHEN Hong.mei (1.School ofInformation Science andTechnology,Southwest JiaotongUniversity,Chengdu 61003l: 2.School ofMathematics,Southwest Jiaotong University,Chengdu 610031) [Abstract]In the dominance—based rough sets approach,attributes values in information systems have preference relation.Many data sources have dynamic characteristics.How tO update approximations based on the original approximations information is an important problem since it ma3, improve the eficifency of knowledge discovery.This paper provides the definitions of attribute values coarsening and refining based on the dominance relation in incomplete information systems,focuses on discussing and analyzing the change of upper and lower approximations,rough approximation accuracy and the quality of rough approximations in incomplete information systems based on the dominance relation while attibutre values are coarsened or refined respectively.An example is used to illustrate the validity of he tmethod. [Key words]incomplete information system;rough set;dominance relation;approximations 1概述 粗糙集理论是一种用于处理不完备和不精确知识的数学 多个属性同时增删时近似集的增量式更新方法和规则提取方 法。然而,在属性值改变时,对属性值粗化细化时基于优势 工具…。它以等价关系为基础,发现信息系统中隐含的知识, 进行规则提取,在机器学习、模式识别和数据挖掘等领域得 到了成功的应用 J。 在现实世界中,很多属性是具有偏好信息的,属性不但 以一种有序的状态存在,而且还存在一种优势关系,如用于 评价火车是否舒适的噪声指数、振动指数、空气流动等属性。 关系粗糙集模型的动态知识发现问题却未见报道。本文讨论 在优势关系下不完备信息系统中属性值粗化细化时近似集的 变化情况,为基于优势关系粗糙集模型的动态知识发现问题 的研究提供了基础。 2基本概念 定义1L2 设四元组S=fU,A,V,f1是一个信息系统。其 中, 是非空的有限对象集合;A是非空的有限属性集合; 由于传统的粗糙集只考虑属性值是否可区分,而不考虑其偏 好关系,因此在系统分析过程中不能很好地表达其原有的偏 好信息。针对基于等价关系的经典粗糙集方法不能解决带有 偏好关系属性问题,文献【3—4】提出的基于优势关系的粗糙集 方法考虑了属性取值之间存在的偏好关系,弥补了传统粗糙 集的缺陷。近年来,基于优势关系的粗糙集方法得到了人们 的普遍关注。例如,文献[5】给出了优势关系下不完备有序信 息系统中的知识约简方法;文献【6】讨论了基于有限扩展优势 关系的粗糙决策分析方法;文献[7】设计了优势关系下信息系 V={ :q∈A},属性值 具有偏好次序,即属性值域是全 序集;f:UxA_÷ 是一个信息函数,使f( ,q)∈ , ( ,q)∈UxA。 表示某条记录在对应属性上的值不可知。如果 e , q∈A,则称此信息系统为不完备信息系统,否则,称为完备 信息系统。 基金项目:国家自然科学基金资助项目“基于粒计算的动态知识发 现中若干关键问题研究”(60873108) 统分配约筒的矩阵算法。 现实中数据的动态变化是多数数据库的一个主要特点。 针对这一特点,不少学者从属性集粗化细化、对象集粗化细 化2个方面对基于粗糙集的动态知识发现问题进行了研究。 如文献【8】在经典粗糙集框架下提出了单个属性增加与删除 作者简介:季晓岚(1984-),女,硕士研究生,主研方向:智能信息 处理;李天瑞,教授、博士、博士生导师;邹维丽,硕士研究生; 陈红梅,讲师、博士研究生 时近似集的增量式更新方法和规则提取方法。文献【9】实现了 收稿日期.2009—11—24 E-mail:xiaolan一677@126.corn 一33—
假定 是一个全Greco序集,即对于Vx,ye U, 定义8设信息系统s,B A,ql∈B,f(xi,qt)为对象 在属性ql下的属性值。f(xk,q1)为对象 ( ≠ )在属性 q(x)>q(Y)、q(x)<q(Y)和q(x)=q(Y)中必有一个成立,其 中,q( )表示属性q在 处的值。 下文讨论的信息系统S:(U,A,V,f)都是基于优势关系 下的不完备信息系统,简记为S。 定义2设信息系统S,B A且B=B.UB2,BI是上向 属性集(偏好递增有序),Bz是下向属性集(偏好递减有序)。记: ={(y, )∈U ̄U l(Vq ∈ ,f(Y,q )≥f(x,q。) or f( ,})orf(y,*))and(Vq2∈B2,f( ,q2)≥ f(x,q2)orf(x, )or,(y, ))} 则称 为信息系统 的属性子集B确定的优势关系。 定义≥ 为相对于q具有优势。 ≥ Y表示相对于属性 q,x至少与Y一样好,即: x≥ Y甘f( ,q)≥f(Y,q)(依偏好递增有序) ≥。Y甘I(x,q)≤f(Y,q)(依偏好递减有序) 对于属性子集B A,本文定义:x≥ Y铮Vq∈B, x≥ Y,即对于属性子集B中的所有属性,x至少与Y一样 好。如果(),,x)e ,那么Y在B上优于 。 定义3_j 设信息系统S,VxeU,B£A, 在属性集B 上的优势集可定义为 ={), u l()’, ) ) 称【 ] 是关于属性集B比 优的对象集合。 定义4 设信息系统S,VxeU,B A, 对于优势关 系 的上、下近似集及边界域可定义为 磁 (x)={ ∈U l X} (X)= ∈Ul NX≠ } BNR; (x)= (x)一 (x) 设信息系统S,Vxe U,B A,Vq∈B,则有以下性 质成立: (1)优势关系具有自反性和传递性; (2) (X) X (X); (3) X]A ; (4) ( ) (x), (X) nA (x)。 与文献【6】中的定义类似,可以定义在优势关系下集合的 上下边界、粗糙近似精度和粗糙近似质量。 定义5设B A,集合X U在优势关系月 下关于属 性集B的上边界、下边界可定义为:△ (x)= (X)一X, 垒砧 (X)=X— (X)。 定义6设B A,集合X U在优势关系 下关于属 性集 的粗糙近似精度可定义为 i ( )f 其中,x≠ ;lx J表示集合x的基数。 定义7设B∈A,集合X U在优势关系R 下关于属 性集 的粗糙近似质量可定义为 (x):—U-BNe广_ ̄(_一X)[。 面一34一 下的属性值,且,(t, )≠,( ,qi)。u =xj∈uls(x ̄,g2)= f(xi, )},令f(xj,q )=f(xt,q ), ∈U ,则称属性值 f(xi,q1)被粗化为f(xk, )。 记 为经粗化后的属性q,, 为经粗化后的属性集B, 为属性 的值域。 定义9设信息系统S,B A,gf∈B,f(xi, )为对象 在属性qt下的一个值,U ={_ uIS(x,,q,)-s(-,, )},若 v芒 , U ,令f(xj, )=V,则称对象 下的属性值 ,(xj,q )被细化为v。 记 为经细化后的属性q , 为经细化后的属性集B, 为属性 的值域。 3属性值粗化细化时近似集的变化情况 3.1单个属性的属性值粗化细化时近似集的变化情况 定理1设信息系统S,X U,B A,g』∈B,属性qf的 属性值粗化后,近似集的变化情况为: , 。 证明:依属性值粗化定义知V(x,)')e磁 ,有( ,),)∈ , 所以【 C【 。 (1)因为Vxe (x),[ ] X,所以【 】 X, xE (X), 。 (2)Vxe (x),[ E Nx≠ ,因为【 E 【 , 所以[ Nx≠ , ∈ (x), 。 推论1设信息系统s,x u,B A, ∈B,属性ql的 属性值粗化后,边界集变化情况为:△舻(X) Az. (X), 垒 (X)c7_AR. ;(X)。 推论2设信息系统S,X U,B C7.A,qt∈B,属性q,的 属性值粗化后,粗糙近似精度和粗糙近似质量的变化情况为: 一≥ ;, ;。(X)≥ ・ (X)。 B定理2设信息系统S,X U,B A, ∈B,属性 的 属性值细化后,近似集的变化情况为: R: , 。 证明:依属性值细化定义知V(X,y)E R ,有 ( ) ,所以 。 (1)因为Vxe (x),【 E X,所以[ 】: X, xE (X), 。 (2)Vxe (x),[ Nx≠ ,因为【 【 】 , 所以【 ]: Nx≠ , ∈ (x), 。 推论3设信息系统S,X U,B A,qt∈B,属性 的 属性值细化后,边界集的变化情况为 △ (X) AR " (X),垒 ;(X) 垒 : (X) 推论4设信息系统S,X U,B A, ∈B,属性ql的
属性值细化后,粗糙近似精度和粗糙近似质量的变化情况为 . R (X)={x5),R (X)={ , ,x4,x5,x6,x7) BN∥(x)={x2,x3,x4, ,xT},AR (X)={x3,x6) ≥ , 。 (X) (X) 3.2 多个属性的属性值粗化细化时近似集的变化情况 在现实中,经常会出现多个属性值同时变化的情形。因 此,需要讨论多个属性值粗化细化时近似集的变化。 垒 (x)={ z,x4, ), 一 云, (x) 号 将对象‘和x 在空气流动指数下的值粗化(不妨设其值 分别为1.7和2.9),则: 定理3设信息系统S,X U,B A,属性集B的属 性值粗化后,近似集的变化情况为 R , R 。 声数一噪指一 n =2[ =[ =[ 2'X3'X4,X5, XT}, 证明:证明过程与定理1类似,略。 推论5设信息系统S,x U,B A,属性集B的属 【 ={ ,. , ),Ix 】 =Ix6]; ={ ,x0}, 性值粗化后,边界集的变化情况为 △ (X) AR; (X),垒 (X) 垒R: (x) 推论6设信息系统S,X U,B A,属性集B的属 性值粗化后,粗糙近似精度和粗糙近似质量的变化情况为 aR;;≥ . , : (X)≥ 。 (X) 定理4设信息系统S,X U,B A,属性集B的属 性值细化后,近似集的变化情况为 ,% R: 。 证明:证明过程与定理2类似,略。 推论7设信息系统s,x G U,B A,属性集B的属 性值细化后,边界集的变化情况为 AR; (X) △ (X),垒 (X) 垒 : (X) 推论8设信息系统S,x U,B∈k,属性集B的属 性值细化后,粗糙近似精度和粗糙近似质量的变化情况为 _¨;≥ , .;(x)≥ (X) 定理1~定理4表明,属性值粗化后,下近似集变小,上 近似集变大,从而边界变大;属性值细化后,下近似集变大, 上近似集变小,从而边界变小。推论2、4、6和8表明,属 性值粗化后,基于R: 的粗糙近似精度和粗糙近似质量低于 基于 的粗糙近似;属性值细化后,基于 的粗糙近似 精度和粗糙近似的质量不低于基于 的粗糙近似。 4实例分析 下面从评价火车是否舒适的几个指标对优势关系下不完 备信息系统进行分析,结果见表1。 表1不完备信息系统 振动 空流 湿度 指数 指数 指数 o 96 l 5 O.89 2 7 3 9 o 9l l 7 2 8 l 7 3 1 o 89 3 1 5 2 o 74 2 9 4 4 o 79 2 1 4 2 在表1中,对象集U= ,x2,x3,x4, ,x6,x7),根据先验 经验,噪声指数和振动指数是下向属性,即噪声指数和振动 指数越大,火车舒适度越低;而空流指数(空气流动指数)和 湿度指数是上向属性,即空气流动指数和湿度指数较大,火 车舒适度较高。 例:令B={空气流动指数l,X={x2,x4,x5,x7},则: 【 ={ , ,x3,x4,x5,x6,xT},【 ={x2,x5,x6) [ ] ={x2,x3,x4,x5,x6, },[ ] ={x2,x3,x4,x5,x6,x7} 【砖】 ={鼍),【%] :{ , ),ix,i; ={x2, , ,xT} 【 】 ={ , ,x6, },尺: (X)= , ( )={ 。,x2,x3,x4, ,x6,西),aR; (X):{_, , ), 垒 (X)={x2, , ,x7), BN ( )={ ・, ,x3,x4,x5,x6, ), =0, ;(x) 0 显然有: (x) (xj, (X) (x),△ B;(X) △ (x),垒 (x) AR* (x), ≤ , (x)≤ (x)。 这样的结果也验证了定理1、推论1和推论2。 将对象 在空气流动指数下的值细化(不妨设其值为 1.9), 则: ={XpX2, ,X4, ,X6,XT}, = X5,X0}, 】 ={ , . , ,. , rr},[-】 ={ , , , , ), 】 ={ },[ 】 ={ ,x6},[ ] ={ ,x5,x6,x7} (X)={ j, =≥(x):{x2,x4,x5,x6,x7}, BN (x)={xI x2, ,x4,x5,x6, ),AR; (X)={ }, 。(x)= ,xT}一 1, B ( ) 号 显然有:尺≥ (x) (X), (x) (x), (x) AR; (x),垒 (x) 垒 (X),a"g: ≥ 一, .B ()≥ ;(X x)。这样的结果也验证了定理2、推论3和推论4。 类似地,可以验证多个属性值粗化细化的情况也成立。 5结束语 本文给出了优势关系下属性值粗化细化的概念,讨论了 在不完备有序信息系统中属性值粗化细化时近似集的变化情 况。当属性值粗化后,上近似集变大,下近似集变小,从而 边界变大,粗糙近似精度和粗糙近似的质量变低。当属性值 细化后,上近似集变小,下近似集变大,从而边界变小,粗 糙近似精度和粗糙近似的质量变高。本文只讨论了不含决策 属性的不完备有序信息系统,优势关系下的不完备决策信息 系统中近似集的研究将另文介绍。 参考文献 【l】王国胤.Rough集理论与知识获取[M].西安:西安交通大学出版 社,2001. [2】张文修,吴伟志.粗糙集理论与方法【M].北京:科学出版社, 2001. 【3]Salvatore G,Benedetto M.Rough Appoximation of a Preference Relation by Dominance Relations[J].European Journal of Operational Research,1999,53(1):63—83. [41 Salvatore G,Benedetto M,Roman S.Rough Approximation by Dominance Relations[J].International Journal of Intelligent Syste ,2002,17(2):153—171 (下转第42页) 一35一
平均附加空间的大小与压缩效果关系不大,这是由于引入的 附加空间相对自动机所占内存空间可以忽略。结果表明,对 参考文献 [1]1 Kumar S,Dharmapurikar S,Yu Fang,et a1.Algorithms to Accelerate 网络应用中实际存在的规则,Bs.FA只需引入较小空间的位 Multiple Regular Expressions Matching for Deep Packet 图结构,就能够充分减少正则表达式的空间存储需求。 Inspection[C]//Proc.of the Annual Conference of the ACM Special 表3 Bs-FA在snort规尉集的评估结果 Interest Group on Data Communication.Pisa,Italy:【s.n.】,2006: 339—350. [2]Kumar S,Turner J,Williams J.Advanced Algorithms for Fast and Scalable Deep Packet Inspection[C]//Proc.of the ACMflEEE Symposium on Architecture for Networking and Communications Systems.New York,N USA:ACM Press,2006:81・92. [3】Becchi M,Crowley P.An Improved Algorithm to Accelerate Regular Expression Evaluation[C]//Proc.of the 3rd ACM/IEEE Symposium on Architecture for Networking and Communications Systems.New York,N USA:ACM Press,2007:145—154. 【4]Yu Fang,Chen Zhifeng,Diao Yanlei,et a1.Fast and Memory— efifcient Regulra Expression Matching for Deep Packet lnspection[C]//Proc.of the ACM/IEEE Symposium on Architecture 6结束语 for Networking and Communications Systems.New York,N USA 本文通过对PCRE规则语法引起的状态爆炸情况进行研 ACM Press,2006:93—102. 究,给出了一类尚无法有效处理的模式。针对该模式将条件 [5】Becchi M,Crowley P A Hybrid Finite Automaton for Practical Deep 函数和位图结构引入传统自动机,提出了一种位图移位有限 Packet Inspection[C]//Proc.of the International Conference on 自动机Bs—FA。该自动机同时可以处理满足重写规则1和重 Emerging Networking Experiments and Technologies.New York, 写规则2中的模式。通过对实际的规则集进行评估,与其他 N USA:ACM Press.2007:770—773. 方法相比,该自动机可以大量节省内存空间。 编辑顾逸斐 (上接第35页) 【8]Chan Chienchung.A Rough Set Approach to Attirbute Generali— [5】Yang Xibei,Yang Jingyu,Wu Chen,et a1.Dominance—based Rough zation in Data Mining[J].Information Sciences,1998,107(1-4): Set Approach and Knowledge Reductions in Incomplete Ordered 1 77—194. Information System[J].Information Sciences,2008,174(4):1219— [9]Li Tianrui,Yang Ning,Xu Yang,et a1.An Incremental Algorithm 1234. ofr Mining Classiifcation Rules in Incomplete Information 【6]胡明礼,刘思峰.基于有限扩展优势关系的粗糙决策分析方 System[C]//Proc.of International Conference of the North 法[J].系统工程,2006,24(4):106一l10. American Fuzzy Information Processing Society.Chicago,USA: 【7】徐伟华,张文修.基于优势关系下信息系统分配约简的矩阵算 [s.n.】,2004:446—449. 法【J]_计算机工程,2007,33(14):4-7. 编辑张正兴 (上接第38页) 5结束语 [3]Liu Bing,Zhao Kaidi,Benkler J,et a1.Rule Interestingness Analysis 仿真结果分析如下:在相同的数据集、最小支持度门限 Using OLAP Operation[C]//Proc.of the 12出International 和最小置信度门限条件下,无冗余关联规则数量和产生时间 Conference on Knowledge Discovery and Data Mining.New York, 均分别远远小于冗余关联规则数量和产生时间,尤其是低支 N USA:ACM Press.2006:297—306. 持度门限时,差距更加明显。导致这种差异的本质原因是 [4】Jian Pei,Han Jiawei,Mao Runying.CLOSET:An Efifcient Apriori算法采用穷举方法发现全部规则,而本文算法通过相 Algorithm for Mining Frequent Closed Itemset[cl//Proc.of the 集分解产生最小生成项集的方法能够大大减少搜索空间,并 International Workshop on Data Mining and Knowledge Discovery. 且根据关联规则之间的相关性对规则进行了精简。 New York,N USA:ACM Press,2000:1 1-20. 参考文献 [5】Zaki J.Mining Non-redundant Association RulescJ】.Data Minmg 【1】Geng Liqiang,Hamiton J.Interestingness Measures ofr Data Mining and Knowledge Discovery,2004,9(1):223-248. ASurvey[J].ACMComputing Surveys,2006,38(3):1145—1177. [6]Bastide Pasquier N,Taouil R,et a1.Mining Minimal [2】Bayardo R,Agrawal R,Gunopulos D.Constraint—based Rule Mining Non—redundant Association Rules Using Frequent Closed in Large,Dense Databases[C]//Proc.of the 1 5th International Itemsets[C]//Proc.of the 1st International Conference on Conference on Data Engineering.Washington D.C.,USA:IEEE Computational Logic.London,UK:Springer-Verlag,2000:972—986. Computer Society,1999:167-177. 编辑顾逸斐 —_42一
更多推荐
属性,关系,优势,方法
发布评论