2023年12月9日发(作者:高一数数学试卷)

一.模糊数学的基础知识

1.模糊集、隶属函数及模糊集的运算。

普通集合A,对x,有xA或xA。

如果要进一步描述一个人属于年轻人的程度大小时,仅用特征函数就不够了。模糊集理论将普通集合的特征函数的值域推广到[0,1]闭区间内,取值的函数以度量这种程度的大小,这个函数(记为E(x))称为集合E的隶属函数。即对于每一个元素x,有[0,1]内的一个数E(x)与之对应。

(1)模糊子集的定义:射给定论域U,U到[0,1]上的任一映射:

A:U[0,1],uA(u)(uU)

都确定了U上的一个模糊集合,简称为模糊子集。A(u)称为元素u属于模糊集A的隶属度。映射所表示的函数称为隶属函数。

例如:设论域U=[0,100],U上的老年人这个集合就是模糊集合:0,u50u5021

A(u)(1()),50u1005若在集合U上定义了一个隶属函数,则称E为模糊集。

(2)模糊集合的表示:U{u1,u2,.....,un},A(u)称为元素u属于模糊集A的隶属度;则模糊集可以表示为:AA(un)A(u1)A(u2)。

....u1u2un或

A{A(u1),A(u2),.....,A(un)},A{(u1,A(u1)),(u2,A(u2)),.....,(un,A(un))},

(3)模糊集合的运算:

A{A(u1),A(u2),.....,A(un)},B{B(u1),B(u2),.....,B(un)},

并集:AB{A(u1)B(u1),A(u2)B(u2),.....,A(un)B(un)},

交集:AB{A(u1)B(u1),A(u2)B(u2),.....,A(un)B(un)},

cA1A(un)},

补集:{1A(u1),1A(u2),.....,包含:若uU,有A(u)B(u),则有AB,

2.模糊集的截集

已知U上模糊子集A:U[0,1],uA(u)(uU)

对[0,1],则称A{uuU,A(u)}为模糊集A的-截集;

称A{uuU,A(u)}为模糊集A的-强截集;称为A、A的置信水平或阀值。

ss二.模糊数学的基本定理

1.模糊截积:

已知U上模糊子集A:U[0,1],uA(u)(uU)

A也是U上模糊集,(A)(u)A(u),(uU);对[0,1],其隶属函数为:

称为A为与A的模糊截积。

2.分解定理1:已知模糊子集AF(U),则AA

[0,1]推论1:对uU,A(u){[0,1],uA}

3.分解定理2:已知模糊子集AF(U),则AA

[0,1]S推论2:对uU,A(u){[0,1],uA}

三.模糊关系与模糊聚类

1.模糊关系与模糊关系的合成

(1) 模糊关系

普通集合的经典关系,

模糊关系:从U到V 上的一个模糊关系:R:UV[0,1],R(ui,vj)表示Sui与vj具有的关系程度,uiU,vjV。A(aij)mn(aij满足0aij1)称为U到V 上的一个模糊关系的模糊矩阵。

(2).设A=(aij)np和B=(Bij)pm为两个模糊矩阵,令

cij=(aikbkj),i=1,2,…,n,j=1,2,…,m。

k1p则称矩阵C=(cij)nm为模糊矩阵A与B的褶积,记为

C =AB,

其中“”和“”的含义为

abmax{a,b}

abmin{a,b}

显然,两个模糊矩阵的褶积仍为模糊矩阵

2. 模糊等价矩阵及其矩阵

设方阵A为以模糊矩阵,若A满足

AA=A

则称A为模糊等价矩阵。

模糊等价矩阵可以反映模糊分类关系的传递性,即描述诸如“甲像乙,乙像丙,则甲像丙”这样的关系。

设A=(aij)nn为一个模糊等价阵,01为一个给定的数,令

a()1,若aijij

i,j1,2,...,n,

0,若aij则称矩阵A()(aij)nn为A的截阵

例如,

10.40.6A =0.410.4

0.60.41为一个模糊等价阵,取0.4<0.6,则

101A=010

101若取00.4,则

111A=111111



2.模糊聚类: 模糊划分的概念最早由Ruspini提出,利用这一概念人们提出了多种聚类方法,比较典型的有:基于相似性关系和模糊关系的方法(包括聚合法和分裂法),基于模糊等价关系的传递闭包方法、基于模糊图论最大树方法,以及基于数据集的凸分解、动态规划和难以辨识关系等方法. 然而由于上述方法不适用于大数据量情况,难以满足实时性要求高的场合,因此其实际的应用不够广泛,故在该方面的研究也就逐步减少了. 实际中受到普遍欢迎的是基于目标函数的方法,该方法设计简单、解决问题的范围广,最终还可以转化为优化问题而借助经典数学的非线性规划理论求解,并易于计算机实现. 因此,随着计算机的应用和发展,该类方法成为聚类研究的热点.

(1)模糊聚类的基本概念

模糊聚类目标函数的演化

模糊聚类方法

模糊聚类法和一般的聚类方法相似,先将数据进行标准化,计算变量间相似矩阵或样品间的距离矩阵,将其元素压缩到0与1之间形成模糊相似矩阵,进一步改造为模糊等价矩阵,最后取不同的标准,得到不同的截阵,从而就可以得到不同的类。具体步骤如下:

第一步:数据标准化

1.数据矩阵

设论域U{x1,x2,...,xn}为被分类的对象,每个对象又由m个指标表示其性状:

xi{xi1,xi2,...,xim} (i1,2,...,n)

于是得到原始数据矩阵为

x11x21...2n...x1m...x2m

.........xnm2.数据标准化

在实际问题中,不同的数据一般有不同的量纲。为了使有不同的量纲的量也能进行比较,通常需要对数据作适当的变换。但是,即使这样得到的数据也不一定在区间[0,1]上。因此,这里所说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间[0,1]上。

通常需要作如下变换:

(1)平移·标准差变换:



xikxikxk (i1,2,...,n;k1,2,...,m)

Sk1n1n其中xxik,Sk(xikxk)2。

ni1ni1经过变化后,每个变量的均值为0,标准差为1,且消除了量纲的影响。但是,还不一定在区间[0,1]上。 这样得到的xk(2)平移·级差变换

xikmin{xik}xik1in}min{xik}max{xik1in1in (k1,2,...,m)

1,而且也消除了量纲的影响。 显然有0xik第二步:标定(建立模糊相似矩阵)

设论U{x1,x2,...,xn},xi{xi1,xi2,...,xim}依照传统的方法确定相似系数,建立模糊相似矩阵,xi与xj的相似程度rijR(xi,xj)。可根据问题的性质,选取下列公式之一计算rij

1. 数量积法

1,ij;

rij1mxx,ij;Mikjkk1其中Mmax(xikxjk)

ijk1m显然rij[0,1],若rij中出现负值,也可采用下面的方法将rij压缩在[0,1]上

令rijrij12[0,1]。 ,则rij当然也可用上述的平移·级差变换。 2.夹角余弦法

rij=xk1nk1nikxjk122[xikx2jk]k1n

若将变量Xi的n个观测值(xi1,xi2,...,xin)T与变量Xj的相应n个观测值(xj1,xj2,...,xjn)T看成n维空间中的两个向量,rij正好时这两个向量夹角的余弦。

3.相关系数法

从统计角度看,两个随机变量的相关系数是描述这两个变量关联性(线性关系)强弱的一个很有用的特征数字。因此,用任意两个变量的n个观测值对其相关系数的估计可作为两个变量关联性的一种度量,其定义为

rij=|(xk1nk1nikxi)||(xjkxj)|n122,

[(xikxi)2(xjixj)]i11n其中xi(i=1,2,…,p)见(xi=xik,i=1,2,…,

p,)。

nk1rij(1i,jp)其实就是X=(X1,...,Xp)T的样本相关矩阵中的各元素。

4.指数相似系数法

21m3(xikxjk)rijexp{},

2mk14Sk1n1n2其中SK(xikxik),而xkxik(k1,2,...,m)

ni1ni1需要注意的是,相关系数法与指数相似系数法中的统计指标的内容是不同的。

5.最大最小法

rij(x(xk1k1mmikxjk)

ikxjk)6.算术平均最小法

2(xikxjk)m

rij(xk1mk1m

ikxjk)7.几何平均最小法

rij(xk1mikxjk)

xikxjkk1(上述5,6,7三种方法均要求xij0,否则也要做适当变换)

8.绝对值减数法

rij1C|xikxjk|

k1m适当选取C,使得0rij1。

9.绝对值倒数法

其中M适当选取,使得0rij1。

1,ij10.绝对值指数法

Mrijm,ijm|xx|ikjkrijexp{|xikxjk|}

i1k111.距离法

rij1Cd(xi,xj)

其中C为适当选取的参数,它使得0rij1,经常采用的距离有

(1)绝对距离

d (xi,xj)|xpa1aixaj|.

(2)欧式距离: d(xi,xj)[(xpa1aixaj)2]1/2

(3)Chebishov距离:

ij

d(x,x)max{|x1apaixaj|}.

12.主观评分法:请有实际经验者直接对xi与xj的相似程度评分,作为rij的值。

上述方法究竟选哪一种,需要根据问题的性质及应用方便来选择。

第三步:进行模糊聚类

1.基于模糊等价矩阵聚类方法

一般来说。上述模糊矩阵R(rij)是一个模糊相似矩阵,不一定具有等价性,即R不一定是模糊等价矩阵。这可以通过模糊矩阵的褶积将其转化为模糊等价阵,具体方法如下:

计算R2RR,R4R2R2,R8R4R4,…,直到满足R2kRk这时模糊矩~阵Rk便是一个模糊等价矩阵。记R(~rij)Rk。

将~rij按由大到小的顺序排列,从=1开始,沿着~rij由大到小的次序依次取~~=~求R的相应的截阵R,其中元素为1的表示将其对应的两个变量(或rij,rij}时,样品)归为一类,随着的变小,其合并的类越来越多,最终当=min{~1i,jn将全部变量(或样品)归为一个大类。按值画出聚类的谱系图

2.直接聚类法

所谓直接聚类法是指:在建立模糊相似矩阵之后,不去求传递闭包t(R),直接从相似矩阵出发,求得聚类图。其步骤如下:

(1)取1=1(最大值),对每个xi作相似类[xi]R:

[xi]R={xj|rij1},

即将满足rij1的xi与xj放在一类,构成相似类。相似类与等价类的不同之处是,不同的相似类可能有公共元素,即可出现[xi]R={xi,xk},[xj]R={xj,xk},[xi][xj].此时只要将有公共元素的相似类合并,即可得1=1水平上的等价分类。

(2)取2为次大值,从R中直接找出相似程度为2的元素对(xi,xj)(即,相应的将对应于1=1的等价分类中xi所在类与xj所在类合并,将所rij2)有这些情况合并后,即得对应2的等价分类。

(3)取3为第三大值,从R中直接找出相似程度为3的元素对(xi,xj)(即,类似的将对应于2的等价分类中xi所在类与xj所在类合并,将所有这rij3)些情况合并后,即得对应3的等价分类。

(4)依次类推,直到合并到U成为一类为止。

直接聚类法与传递闭包法所得的结果是一致的,直接聚类法要明显简单一些,下面再介绍直接聚类法的图形化方法,即最大树法。

所谓最大树法,就是画出以被分类元素为顶点,以相似矩阵R的元素rij为权重的一棵最大的树,取定[0,1],去掉权重低于的枝,得到一个不连通的图,各个连通的分支便构成了在水平上的分类。

下面介绍求最大树的Kruskal法

设U{x1,x2,...,xn},先画出所有顶点xi(i1,2,...,n),从模糊相似矩阵R中按rij从大到小的顺序依次画枝,并标上权重,要求不产生圈,直到所有顶点连通为止,这就得到一棵最大树(最大树可以不唯一)。

上述两个聚类方法各有优劣,使用传递闭包法分类,当矩阵阶数较高时,手工计算量大,但在计算机上还是容易实现的,因此,人们还是乐于使用它。当矩阵阶数不高时,直接聚类法比较直观,也便于操作,适合推广使用。

最佳阙值的确定

在模糊聚类分析中,对于各个不同的[0,1],可得到不同的分类,从而形成一种动态聚类图,这对全面了解样本的分类情况是比较形象和直观的。但许多实际问题需要选择某个阙值的问题。现介绍下面两种方法。

1. 按照实际需要,在动态聚类图中,调整的值以得到适当的分类,而不需要事先准确地估计好样本应分为几类。当然,也可由具有丰富经验的专家结合专业知识来确定阙值,从而得出在水平上的等价分类。

2. 用F统计量确定最佳值

设论域U{x1,x2,...,xn}为样本空间(样本总数为n),而每个样本xi有m个特征(即由试验或观察得到的m个数据);xi=(xi1,xi2,...,xim)(i1,2,...,是,得到原始数据矩阵,如下表所示

样本

指 标

1 2 …

k …

m

。于n)x1

x2

·

x11

x12 …

x1k …

x1m

x21

x22 …

x2k …

x2m

· · … · … ·

xi

xi1

xi2 …

xik …

xim

· · · … · … ·

xn

x

xn1

xn2 …

xnk …

xnm

x1

x2 …

xk …

xm

1n 其中,xkxik(k1,2,...,m),x称为总体样本的中心向量。

ni1设对应于值的分类数为r,第j类的样本数为nj,第j类的样本记为:(j)(j),第j类的聚类中心为向量x=(x1,x2,…,

xn),其中xk,x1(j),x2,...,xnj(j)(j)(j)(j)(j)为第k个特征向量的平均值:

1x=nj(j)kxi1nj(j)ik (k1,2,...,m)

作F统一量 nFj1rnjrj||x(j)x||2(j)(r1)||2)

||xi(j)xj1i1(nr)其中||x(j)x||(j)(xkxk)2为xk1m(j)(j)与x的距离,||xi(j)x(j)||为第j类样本xi(j)与中心x的距离,称式(*)为F统一量。它的分子表征类与类之间的距离,分母表征类样本间的距离。因此,F值越大,说明分类越合理,对应F统一值最大的阙值为最佳值。

(二).模型实例分析

例: 设某地区设置有11个雨量站,其分布图见图5-1,10年来各雨量站所测得的年降雨量列入表5-1中。现因经费问题,希望撤销几个雨量站,问撤销那些雨量站,而不会太多的减少降雨信息?

xx77x2x1x1x4x4x5x5xx66x8x8x11x11x3x3x9x9x10x10

图1

表1

年序号

x1

276

251

192

246

291

x2

324

287

433

232

311

x3

159

349

290

243

502

x4

413

344

563

281

388

x5

292

310

479

267

330

x6

258

454

502

310

410

x7

311

285

221

273

352

x8

303

451

220

315

267

x9

175

402

320

285

603

x10

243

307

411

327

290

x11

320

470

232

352

292

1

2

3

4

5 6

7

8

9

10

466

258

453

158

324

158

327

365

271

406

224

432

357

410

235

178

401

452

308

520

164

361

384

283

442

203

381

420

410

520

502

301

482

201

358

320

413

228

179

343

240

402

360

430

251

278

199

316

342

282

350

421

252

185

371

应该撤销那些雨量站,涉及雨量站的分布,地形,地貌,人员,设备等众多因素。我们仅考虑尽可能地减少降雨信息问题。一个自然的想法是就10年来各雨量站所获得的降雨信息之间的相似性,对全部雨量站进行分类,撤去“同类”(所获降雨信息十分相似)的雨量站中“多余”的站。

问题求解 假设为使问题简化,特作如下假设

(1) 每个观测站具有同等规模及仪器设备;

(2) 每个观测站的经费开支均等;

具有相同的被裁可能性。

分析:对上述撤销观测站的问题用基于模糊等价矩阵的模糊聚类方法进行分析,原始数据如上。

求解步骤:

1.利用相关系数法,构造模糊相似关系矩阵(r)1111,其中

rij=|(xk1nk1nikxi)||(xjkxj)|n122

[(xikxi)2(xjkxj)]k1110其中xi=xik,i=1,2,…,11。

10k11n

xj=xjk,j=1,2,…,11。

nk1用C语言编程计算出模糊相似关系矩阵(r)1111,具体程序如下

#include

#include

double r[11][11];

double x[11];

void main()

{ int i,j,k; double fenzi=0,fenmu1=0,fenmu2=0,fenmu=0;

int year[10][11]={276,324,159,413, 292 ,258,311,303,175,243,320,

for(i=0;i<11;i++)

{ for(k=0;k<10;k++)

{ x[i]=x[i]+year[k][i];}

251 ,287,349,344,310,454,285,451,402,307,470,

192 ,433,290,563,479,502,221,220,320,411,232,

246 ,232,243,281,267,310,273,315,285,327,352,

291,311,502,388 ,330,410,352,267,603,290,292,

466 ,158,224,178,164,203,502,320,240,278,350,

258,327,432

453,365,357

,401,361,381,301,413,402,199,421,

,452,384,420,482,228,360,316,252,

158 ,271,410,308,283,410,201,179,430,342,185,

324,406,235,520 ,442,520,358,343,251,282,371};

x[i]=x[i]/10;

}

for(i=0;i<11;i++)

{for(j=0;j<11;j++)

{ for(k=0;k<10;k++)

{ fenzi=fenzi+fabs((year[k][i]-x[i])*(year[k][j]-x[j]));

fenmu1=fenmu1+(year[k][i]-x[i])*(year[k][i]-x[i]);

fenmu2=fenmu2+(year[k][j]-x[j])*(year[k][j]-x[j]);

fenmu=sqrt(fenmu1)*sqrt(fenmu2);

}

r[i][j]=fenzi/fenmu;

fenmu=fenmu1=fenmu2=fenzi=0;

}}

for(i=0;i<11;i++)

{ for(j=0;j<11;j++)

{printf(\"%6.3f\",r[i][j]);}

printf(\"n\");}

getchar();

}

得到模糊相似矩阵R

1.000 0.839 0.528 0.844 0.828 0.702 0.995 0.671 0.431 0.573 0.712

0.839 1.000 0.542 0.996 0.989 0.899 0.855 0.510 0.475 0.617 0.572

0.528 0.542 1.000 0.562 0.585 0.697 0.571 0.551 0.962 0.642 0.568

0.844 0.996 0.562 1.000 0.992 0.908 0.861 0.542 0.499 0.639 0.607

0.828 0.989 0.585 0.992 1.000 0.922 0.843 0.526 0.512 0.686 0.584

0.702 0.899 0.697 0.908 0.922 1.000 0.726 0.455 0.667 0.596 0.511

0.995 0.855 0.571 0.861 0.843 0.726 1.000 0.676 0.489 0.587 0.719

0.671 0.510 0.551 0.542 0.526 0.455 0.676 1.000 0.467 0.678 0.994

0.431 0.475 0.962 0.499 0.512 0.667 0.489 0.467 1.000 0.487 0.485

0.573 0.617 0.642 0.639 0.686 0.596 0.587 0.678 0.487 1.000 0.688

0.712 0.572 0.568 0.607 0.584 0.511 0.719 0.994 0.485 0.688 1.000

4对这个模糊相似矩阵用平方法作传递闭包运算,求R2R:R4 即t(R)=R4=R*

注:R是对称矩阵,故只写出它的下三角矩阵 1.0000.8610.6970.8610.861R*0.8610.9940.7190.6970.6880.71910.69711110.9960.6970.9960.6970.9920.9950.6970.9220.9220.8610.6970.8610.8610.8610.7190.6970.7190.7190.7190.6970.9620.6970.6970.6970.6880.6880.6880.6880.6880.7190.6970.7190.7190.71910.71910.6970.67610.6880.6880.69710.7190.6880.6970.6881

取=0.996,则

111111111R0.996=1

11111故第二行(列),第四行(列)完全一致,故x2,x4同属一类,所以此时可以将观测站分为9类{x2,x4,x5},{x1},{x3},{x6},{x7},{x8},{x9},{x10},{x11}

这表明,若只裁减一个观测站,可以裁x2,x4中的一个。若要裁掉更多的观测站,则要降低置信水平,对不同的作同样分析,得到

=0.995时,可分为8类,即{x2,x4,x5,x6},{x1},{x3},{x7},{x8},{x9},{x10},{x11}

=0.994时,可分为7类{x2,x4,x5,x6},{x1,x7},{x3} ,{x8},{x9},{x10},{x11} =0.962时,可分为6类{x2,x4,{x3,,{x8}, {x10},{x11}

x5,x6},{x1,x7},x9}

 =0.719时,可分为5类{x2,x4,x5,x6},{x1,x7},{x3,x9} ,{x8,x11},{x10}

24561739811100.9960.9950.9940.9620.719

再具体分析图5-1,我们可以看到x6虽然和x2,x4,x5分为一类,但x6和x2,x4,x5观测点相距较远,撤去x6是不太合适的,保留x6而撤去x2,x4,x5就更不合适了。因此还是将其分为6类,即{x2,x4,x5},{x6},{x1,x7},{x3,x9} ,{x8,x11},{x10},依据每类最少保留一个站的原则,最多可撤去5个站。实际应该撤去哪几个站就应该依据其他条件来确定了。

由本例可以看出,当需要比较聚类的数据较多时,一般采用模糊聚类法进行分析,在分析过程中,复杂的数据运算都可以在计算机上实现,从而减少繁琐的手工操作


更多推荐

方法,聚类,矩阵,分类,相似,问题