2023年12月22日发(作者:湖北八校联考2数学试卷)
)Vol.48 No.4 JournalofSouthwestChinaNormalUniversitNaturalScienceEditiony(:/.2023.04.001j第48卷
第4期
西南师范大学学报(自然科学版)2023年4月Ar.2023p稀疏统计学习及其最新研究进展综述西安交通大学数学与统计学院,西安710049①张红英,
董珂臻摘要:稀疏性意谓可以仅用少数位于低维子空间的参数(特征变量)近似表示高维空间的复杂物理过程,是实际应用中普遍存在的性质.稀疏统计学习旨在探索高维数据的稀疏性,并进行统计建模和推断.文章综述了基于回归分析的稀疏统计学习模型及其最新研究进展.主要介绍了各类带有凸或非凸正则项的稀疏回归模型,特别是L1正则化框架的算法和应用.近10年来,深度学习取得革命性进展,结合传统稀疏统计学习模型与深度神经网络的研究逐渐受到了广泛的关注.文章主要介绍了基于稀疏建模的深度学习方法和数据驱动的稀疏统计分析方法,前者包括深度网络展开等,后者则包括深度哈希学习及深度典型相关分析.最后,文章进行了总结,并展望了未来可能的研究方向.关
键
词:稀疏性;正则化框架;正则项;L1正则化框架;深度学习;深度网络展开22()中图分类号:TP181
文献标志码:A
文章编号:14000112AReviewofSarseStatisticalLearninpgandItsRecentResearchProressg, DZHANGHoninONGKezhengygSchoolofMathematicsandStatistics,Xi\'anJiaotonniversitXi\'an710049,ChinagUy,tatisticallearninimstoexlorethesarsitfhih-pyipppgappyoglearlntroducesgmgygyi,varioustesofsarsereressionmodelswithconvexornon-convexreularizationtermseseciallheyppggpyt,astdecadedeeearninasmadegppgplgh2,revolutionarroressandtheresearchcombininraditionalsarsestatisticallearninodelswithdeeypggtpgmp:AbstractSarsiteansthatcomlexphsicalrocessesinhih-dimensionalsacescanbearoximatedpympypgppp),bnlfewparameters(characteristicvariableslocatedinlow-dimensionalsubsacesandisapreviclereviewsthesarsestatisticalgap,includineenfoldinetworksandsoonandthelatterincludineeashlearninnddeeanoni-gdpugngdphgapc①iclemainlintroducesthedeelearn-yrpyp,inethodsbasedonsarsemodelinnddata-drivensarsestatisticalanalsismethodstheformergmpgapy收稿日期:20220617)基金项目:国家自然科学基金面上项目(12171386,11671007.学习等研究.作者简介:张红英,教授,博士研究生导师,主要从事人工智能的数学基础、认知不确定大数据分析、基于信息理论的机器学习和统计Copyright©博看网. All Rights Reserved.
2,thearticleconcludeswithasummarndlooksatossiblefutureresearchyyyap;learnindeenfoldinetworksgpugn2
://西南师范大学学报(自然科学版)
第48卷pjdirections.:;;Keordssarsitreularizationframework;reularizationtermsL1-reularizationframework;deepygggpyw稀疏性是高维空间中信号或者数据的普遍内蕴属性,意谓可以仅用少数位于低维子空间的参数(特征变量)近似表示高维空间的复杂物理过程.例如,在压缩感知领域,图像可用小波基线性表示并得到表示系数,保留较大系数,对较小系数赋值为0,可得到图像的近似表示.通过此近似表示对图像进行复原,基本1]可以恢复原图[因此,图像可通过少数系数(特征变量)近似线性表示,称为图像的稀疏表示.稀疏性广泛.2-4]存在于高维数据特征选择、稀疏信号恢复以及众多其他问题[之中.这些问题具有共同特点:在数据生成过程中,特征变量的数量大于采样数量.具有这样特点的问题被称为高维统计分析问题.稀疏统计学习正是处理这类问题的有效方法.能最好的变量子集,即最优子集选择方法.然而,若特征变量的数量稍大,最优子集选择方法的计算消耗便表性方法之一.Lasso模型可看作最优子集选择方法的最紧凸近似,在计算效率和变量选择能力上优势显著,因此迅速受到广泛关注.大量基于Lasso惩罚的模型被提出并得到应用,同时涌现出众多基于改进变量选择是稀疏统计学习的核心问题之一.直觉的处理方法是在所有变量子集中,选出使模型拟合性十分巨大,因此,基于统计学习正则化框架的变量选择方法逐渐进入研究者视野.Lasso模型即是其中的代Lasso惩罚得到的广义Lasso模型,例如自适应Lasso模型、弹性网模型、组Lasso模型、稀疏组Lasso模型、融合L然而,asso模型以及非参模型中的稀疏加法模型等.Lasso模型有变量选择不一致及不具有Ora-罚的模型被提出.此类模型具有Oracle性质.为了克服L惩罚模型、cle性质等缺陷.asso模型的缺陷,诸如L1SCAD模型及MCP模型等基于非凸惩2近10年来,深度学习在人脸识别、语音处理和文本分析等领域获得空前成功,在众多任务上均达到接近甚至超越人类的性能表现.然而,大量的网络参数会带来训练代价巨大、容易过拟合等问题,网络的黑箱特性也导致模型可解释性较弱.稀疏统计学习固有的约简特性和强可解释性,提供了解决上述问题的一种可能.将稀疏统计学习与深度学习结合,成为受到广泛关注的热点领域.相关研究大致可以分为基于稀疏建模的深度学习方法和数据驱动的稀疏统计分析方法.前者通过稀疏建模的思想与方法,进行深度神经网络架构和算法的设计.后者则利用深度神经网络的强大表示能力,通过深度神经网络学习特征表示,并应用于稀疏统计学习模型.越来越多的研究集中于该领域,并获得了令人欣喜的成果.学习相结合的研究进行简要综述.本文从经典的稀疏统计学习方法出发,回顾经典的稀疏回归分析方法,并对深度神经网络与稀疏统计1
稀疏回归分析回归分析方法作为统计数据分析强有力的工具之一,一直是统计学的研究热点,同时也被广泛应用于自然科学及社会科学的各个领域.回归分析旨在描述输出变量与特征变量的关系,并进行统计建模和推断.近年来,随着计算与数据采集能力的持续提高,高维数据逐渐成为回归分析的重要对象.为得到正定解,在析的各类模型.高维数据回归分析中,一般使用基于稀疏性假设的正则化框架.本节将在正则化框架下,综述稀疏回归分1.1
正则化框架p假设存在度量空间Z=X×Y,其中X⊆R是特征空间,Y是输出空间,并在度量空间Z中独立同分n)},其中f∈H,布地抽取随机样本{假设输入与输出之间存在函数关系y=f(Zi=(Xi,X)H为yii=1.假设空间.回归分析的重要目标之一是通过有限的随机样本估计特征空间与输出空间的函数关系f.为此,一类被广泛应用的重要方法将问题建模为如下模型:1,)λmin∑L(Xi)P(f(yf)i+f∈Hni=1{n}()1Copyright©博看网. All Rights Reserved.
第4期
张红英,等:稀疏统计学习及其最新研究进展综述)称为统计学习的正则化框架,其中L()是损失函数,)是正则项,模型(特定的正··1P(λ是正则化参数.则化框架会使模型的解具有正定性、光滑性和稀疏性等性质,从而提高了模型的精度和可解释性.不同的1.2
稀疏回归分析中的变量选择稀疏性假设是针对高维数据进行统计建模和分析的重要手段.稀疏性假设意指在统计模型中,仅少数特征变量对输出产生重要影响.基于稀疏性假设,稀疏回归分析旨在基于回归分析框架对高维数据进行统计建模、分析和推断.因仅少数特征变量产生重要影响,变量选择便成为稀疏回归分析中的关键问题.最优子集选择5则是对于多元线性回归模型[]
3方法常根据不同的先验信息选择不同的损失函数和正则项.最直接的变量选择方法.()2y=Xβ+εT,,2,…,),其中X=(最优子集选择在所有包含m(x1,x2,…,xp)ε是随机噪声.0≤m≤p)β=(ββ1βp个变量的模型中,选择拟合效果最好(残差最小)的一个.最优子集的选择可以被纳入统计学习的正则化框架,可以被看作是基于L0正则项的最小二乘模型.假设‖β‖0是向量β的L0范数,其中L0范数表示向量β中的非零元素个数,则基于L0惩罚的最小二乘估计准则为6))当‖的解等价于最优子集选择的结果.求解模型(是N33P难问题,已知算法均无β‖0=m时,模型(法在多项式时间内有效解决.因此,求解过程通常需要进行近似.值得指出的是,一些准则例如AIC准[][][][]min{‖y-Xβ‖2+λ‖β‖0}β2()389则7、BIC准则、HQIC准则等也是L0正则化模型.1.3
基于凸正则项的稀疏回归分析Tikhonov正则化方法通过利用控制函数光滑性的惩罚项解决积分方程不可解或者有无穷多解的问题,是一种标准的求解非适定积分方程的方法.以求解逆问题的观点来看,岭回归模型可以认为是Tikhonov正0,其形式为则化方法的特例1[])的N求解模型(3P难问题,一个重要方法就是利用正则化框架进行松弛处理.)模型(用L24)不具有变量选择性质,且在参数较大时会带来偏差.元素趋向于0,却不恰等于0.因此,模型(4p()设定初始估计量β∈R;i()求解模型ii122()‖4y-Xβ‖2+λ‖β‖2β2)正则项代替模型(中的L0正则项,具有解析解,并具有收缩性质,即迫使参数β的所有3min{}]提出了基于线性回归模型的非负绞刑模型.文献[该模型可看作3个步骤:11~使得c≥0,得到最优解c;∧∧~∧~21mincxc‖1-y()βj+λ‖ij∑∑iip2ic∈R=1j=1{np}()5()得到估计β=iiic☉adamard积.β,其中☉表示H非负绞刑模型具有变量选择性质,并且可以得到比最优子集选择和逐步选择方法更加稳定的解.[3]的L0正则项.几乎在同一时期,基于L1正则项的L1正则项同样被用于信号处理领域的基追踪方法模型具有形式]提出了L受到非负绞刑模型的启发,文献[该模型使用L1正则项替代最优子集选择中12asso模型.12()‖6y-Xβ‖2+λ‖β‖1β2大量 Lasso惩罚具有变量选择性质,且是L0范数的最紧凸松弛,在特定条件下,两者的解完全等价.[4]的研究显示,基于L1正则项的L和计算高效性等良好性质,因asso模型具有强可解释性、统计有效性1minCopyright©博看网. All Rights Reserved.
{}
4此得到了广泛关注和应用.
://西南师范大学学报(自然科学版)
第48卷pjLasso模型在变量选择过程中,通过对全部特征变量的系数施加相同程度的惩罚进行系数收缩,以达到将与响应变量无关的冗余变量压缩为0的目的.然而,这会使得与响应变量相关的目标变量的系数也受到相同程度的压缩,导致回归系数的估计是有偏的.min12()‖7y-Xβ‖2+λ‖wβ‖1β2p其中,自适应Lw∈R是已知的权重向量.asso模型采用重新加权的L1范数,能够修正Lasso模型的过度估计,并且具有Oracle性质.当一组特征变量两两之间Lasso模型的另一个缺陷是无法妥善处理特征变量间具有高相关性的数据.]为了克服此缺陷,文献[提出了n>p且特征变量间有强相关性时,Lasso模型的性能逊于岭回归模型.16弹性网模型.该模型的惩罚项是Lasso惩罚与岭回归惩罚的凸组合,具体形式为min相关性很高时,Lasso模型倾向于只选择其中任意一个;当n
]提出了稀疏加法模型通过在加法模型上应用Lasso惩罚,文献[21pxj)+εy=∑fj(j=12p()12()13)任何非参数方法均可以用于拟合模型(tting算法min{‖xj)‖2+λ∑‖y-∑fj(j‖1}ββjpβj=1j=1[22])同样适用于计算模型(ght©博看网. All Rights Reserved.
第4期
张红英,等:稀疏统计学习及其最新研究进展综述1.4
基于非凸正则项的稀疏回归分析因此,L0正则化模型中L0范数是向量中非零元素的个数,为非凸非连续函数.L0正则化模型是基于非凸正则项的稀疏回归模型.]发现L文献[23-25asso估计需要在特定条件下才具有较好的变量估计和选择特性,且即使在这些条min{‖y-Xβ‖2+λ‖β‖q}β2
5件下,为克服上述缺陷,可采用非凸的0 L13222了求解L1正则化问题的H该定理证明了L1正则化问题的解满足不动点阈值表示alf阈值迭代算法.21(+X()y-Xβ=Tλβμβ)μ,2min{‖y-Xβ‖2+λ‖β‖}β221212()16T1ùæú是任意正实数.1是H其中,Tλalf阈值函数,其形式为μ∈ç0,μ,2‖X‖2úèû*1( |fλyj)yj|>yμ,21([]Tλy)j=μ,2否则0()17{()18其中f且1λ,2(j)æ2öö2æφπ2λy()çç÷÷1cos=+yjyj-3èè3øø3254()]文献[同样给出了Hλ3是阈值.32alf阈值迭代算法的正则化参数选择策略以及收敛性分析.y=4μ[3]-34]35、矩阵分解、图像复原[及高光谱图像L1正则化框架以其良好的性质被广泛应用于压缩感知3*3yj|öæλæ|()çç÷arccos=yφλjè8è3ø-23ö÷ø等领域.2]例如在矩阵的稀疏低秩分解领域,文献[将L1惩罚引入稀疏低秩矩阵分解问题,提出了模型36m×nA,E∈Rmin{‖A‖r22使得‖D-A-E‖F≤δ.其中,‖A‖S1=(∑σi)112S122}+λ‖E‖1aa()192‖E‖1=(∑∑|Eij|aai=1j=1mna)1ai=1表示矩阵A的所有奇异值构成向量的L12范数,表示矩阵E拉直向量的l范数,参数a可根据不同的噪声水平δ选取不同aCopyright©博看网. All Rights Reserved. 61[7][8])模型优化过程基于A思想,将作用于向量的S和算法3oft3alf阈值算子推广到2了矩阵情形,设计了稳健且高效的算法.的值(1或者]类似地,文献[尝试利用基于L1惩罚的矩阵低秩表示模型解决高光谱图像分类问题,提出了模型3922{1+min‖Z‖λ‖E‖2,1},1 ://西南师范大学学报(自然科学版) 第48卷pj[40])利用增广拉格朗日乘子方法(使得D=D模型(和HZ+E.20ALM)alf阈值算子进行求解.ZE2()20]的启发,文献[]仔细考察了基于矩阵的L1正则化框架模型受到文献[3241m×nD∈R并提出了求解的迭代算法,同时证明了其收敛性.了建模,并应用于运动目标检测问题,提出了模型A,E∈Rmin{‖XD-Y‖2+λ‖D‖}2221212()21[3]]]基于文献[的结果,文献[通过结合T和L1正则项对矩阵稀疏低秩分解问题进行4142V正则项42}min{‖A‖*+λΩ(E)‖E‖l+μ1m×n21(使得‖D-A-E‖F≤ε,其中rankA)≤r.2()22EKh和Ekv分别表示水平方向和竖直方向的运算.正则项提出了基于张量框架的模型L12使得R=S+T,其中T=Z+C.1p-‖Ek‖TV=∑∑i=1j=1m-1n-1()+()+Ekh(i,EKv(i,i,n)m,|+∑|EKh(|j)j)j)∑|EKv(22Ω(E)=∑‖Ek‖TVk=1pm-1n-1i=1j=1[5])])模型(针对2维矩阵的模型,文献[将模型(推广至3维张量的情形,结合T和224422TV正则项422{min‖S‖λT‖λ‖Z‖λ‖C‖TTV}++1‖l☉l21+31,,,2211STZC()23‖C‖TTV=∑|C(x,z)x+1,z)x,z)x,z)-C(|+∑|C(-C(|+y,y,y,y+1,x=1n-1y=1[46]1-q[47])模型(通过基于交替方向最小化(的增广拉格☉是张量核范数,表示张量秩的最紧凸松弛.23ADM)[0]朗日乘子法(ALM)进行优化求解4.鉴于非凸正则项的显著优势,除0 λ≤|λ≤aβi|()í()=pλβ2a-1iï2)ï(a+1λλ|>aïβi|2îCopyright©博看网. All Rights Reserved. ()25 第4期 张红英,等:稀疏统计学习及其最新研究进展综述其中λ≥0,a>正则项可以产生具有Oracle性质的估计.]提出了极小极大凹正则项(,其形式为文献[49MCP) 72ìïβiλ|λ- |≤aββi|i|ï2a)()26pλ(βi=í2ïaλλ|>aïβi|î2)理论上近似无偏,且具有O其中a>1.模型(26racle性质.SCAD和MCP均为FoldedConcave惩罚函数,分别是软阈值方法和硬阈值方法的拓展.SCAD是连续的,但MCP不连续.2 深度稀疏统计分析过去1深度0年,深度神经网络的研究取得了空前的成功,尤其在图像、语音、文本等任务上表现出色.神经网络研究的成功极大地拓宽了处理高维数据方法的边界,提高了处理能力.然而,现代深度神经网络,其内部原理依然不清晰,可解释性较差,因而无法严格保证模型性能.在训练和应用中通常被当作“黑箱”另外,现代深度神经网络参数量巨大,训练过程需要大量训练数据.这使得深度神经网络训练过程中的计算消耗巨大,常需要庞大的计算资源支持,效率较低.作为处理高维数据的经典方法,稀疏统计分析方法依据统计理论和不同先验信息建模,通常有较强的可解释性.同时,稀疏统计分析方法并不依靠大量训练数据,求解过程也仅需要少量迭代便能达到较好性能,因而计算消耗较小,效率较高.如何将稀疏统计分析方法与深度神经网络结合起来,使模型兼具两种方法优点,逐渐成为广受关注的热点问题.已有研究大致可以分为两个方向:基于稀疏建模的深度学习方法和基于数据驱动的稀疏统计分析方2.1 基于稀疏建模的深度学习方法基于稀疏建模的深度学习方法通过稀疏统计分析方法进行数据建模,并据此进行深度神经网络架构和算法的设计.此类方法通常包含深度神经网络展开、神经网络剪枝、神经网络架构搜索等主题.本文以深度神经网络展开为例进行介绍.进行线性和非线性的变换,其中非线性变换借由R此类结构与稀疏统计学习模型中eLU等激活函数完成.的阈值迭代算法十分类似,其中阈值算子可以看作激活函数.鉴于这种联系,将稀疏编码算法展开成为神经网络的深度神经网络展开方法逐渐受到关注.]的工作,为了提高稀疏编码算法的计算效率,提出了一早期的深度网络展开方法可以追溯到文献[50)的稀疏编码:稀疏编码问题的目标是求解模型(27mx∈R法.本节将针对这两方面的相关方法进行综述.深度神经网络展开是基于稀疏建模的深度学习方法的典型代表.深度神经网络的架构通常需要交替地[1]种端到端的学习方法(该算法将求解稀疏编码问题的I的每一步迭代看作循环神LISTA).STA迭代算法5经网络的一层,由此得到一个多层循环神经网络,通过学习参数,自动地学得字典和稀疏编码.min12‖x‖2+λ‖x‖1y-W2n×m)其中λ>0,是过完备字典.的常用方法之一.其迭代过W∈RISTA迭代算法是求解稀疏编码模型(27程为()271Töl1Tæ…I-WW÷x+Wy l=0,1,=Sλçèøμμ其中Sλ是逐元素的软阈值算子,其在每个元素上定义为({}·mSλ(x)inx)ax‖x‖-λ,0=sgxl1+{}()28()29()30 æ1öTæ1öT)可改写为若令Wt=I-ç÷WW,We=ç÷W,则此时公式(28èμøèμøl1l+…x=Sλ{Wtx+We l=0,1,y}Copyright©博看网. All Rights Reserved. 8l)可以发现,仔细观察公式(30ISTA迭代算法的每一步迭代中,输入x经过线性变换和软阈值算子,得到 ://西南师范大学学报(自然科学版) 第48卷pj新的xl+1.这可以看作深度神经网络中的一层,其中软阈值算子对应于神经网络中的激活函数.执行L步迭代相当于连接了L层的深度神经网络.基于此,LISTA将ISTA展开为深度神经网络,其训练损失函数为nnn*n其中,x(Wt,We,λ)是网络输出的对y稀疏编码的预测值,x是稀疏编码的真实值.y;∧∧1nn2*n(L(Wt,We,λ)‖xWt,We,λ)=∑-x‖2y;Nn=1N()31该LISTA通过将稀疏编码算法展开为深度神经网络,以一种可学习的方式获得了稀疏编码问题的解.模型基于稀疏编码算法,有着强可解释性.同时,该模型在计算效率上有着显著的优势.实验表明,在达到同一精度的条件下,该模型比某些经典ISTA方法快将近20倍.]法展开为神经网络,文献[将近端梯度下降算法展开为深度神经网络,均获得了不错的表现.55-57]此外,其他针对稀疏编码问题的算法同样可以被展开为深度神经网络.例如,文献[将A52-54DMM算除了深度神经网络展开外,稀疏统计学习方法在深度学习的其他方面也有着广泛的应用.例如,神经[8]59-61]网络正则化方法D因其可诱导核范数[而可被看作探索网络稀疏结构的方式之一;深度神经网roout5p]6263]、特征标准化方法[络的初始化权重方法[等训练方法看作稀疏信号恢复或低秩矩阵恢复算法中的等距2.2 基于数据驱动的稀疏统计分析方法实际应用中,稀疏统计分析方法常依赖于手工得到的低阶特征,表示能力有限.特征表示的好坏往往对模型性能有着重要影响.基于数据驱动的稀疏统计分析方法通常建立在传统稀疏统计分析模型基础之上,利用深度神经网络强大的特征表示能力,学习数据的高阶特征,并应用于稀疏统计分析方法之中,以提升模型性能.深度哈希学习便是数据驱动的稀疏回归分析模型的应用之一.文献[提出了深度语义排序模型65]]64,从而保证模型的性能表现.约束性质[(,将深度卷积神经网络整合到哈希函数中,共同学习特征表示及哈希函数,并保持特征表示与哈DSRH)希编码之间的相似性,摆脱了手工特征语义表示能力的限制.同时,该方法利用编码多层次相似度信息的],该模型基于卷积神经网络排序表来指导深度哈希函数的学习.文献[提出了深度监督哈希模型(66DSH)框架设计,将成对的图像(相似或者不相似)作为训练输入以学习近似离散的二元哈希编码表示.]码的表示能力而受到广泛关注.文献[将卷积神经网络引入哈希学习方法,提出了一种深度监督哈希学67习方法(模型首先通过网络学习图像的特征表示,然后将此特征表示通过哈希函数映射为哈希编DPSH).码.模型以端到端的方式,通过衡量成对标签相似性的损失函数同时学习特征表示和哈希编码.为了进一步]探索标签信息,文献[在D文献[利用锚点图设计68PSH基础上增加了一个判别项用以更新二值编码.69],可以更加高效地获得哈希编码.出深度监督哈希学习方法(模型通过构建样本锚点子集,并建立DAGH)锚点与哈希编码之间联系的方式达到提高计算效率的目的.关分析方法(该方法先用深度神经网络分别求出两个视图的投影向量,然后通过最大化两个投DeeCA).pC影向量的相关性进行求解.DeeCA在训练过程中需要将全部训练数据作为一个批次,因此不能应对大pC]规模的数据.为解决该问题,文献[提出了随机D该模型将神经网络参数训练嵌入交71eeCA(SDCCA).pC替最小二乘方法,以适应小批次随机优化.文献[针对多模态数据,提出了基于深度典型相关分析的处72]理方法D该模型利用深度全连接网络学习文本数据的特征,并利用卷积神经网络(学习图像数)据的特征.随后两个模态的数据被当作两个视图的数据矩阵输入典型相关分析框架.深度自编码器同样被],将典型相关分析与用于典型相关分析.文献[基于C73CA框架提出了深度典型相关自编码器(DCCAE)])深度自编码器进行结合,达到了更好的性能.文献[提出了相关神经网络(以进一步描述重构误74CorrNet差.该模型可以利用已存在的一个视图准确恢复另一个视图.深度典型相关分析也是数据驱动的稀疏多元分析方法的代表之一.文献[提出了早期的深度典型相70]相比于含有两阶段过程的深度哈希学习方法,端到端的深度哈希学习方法以其能大幅提高所学哈希编3 总结大数据时代,作为传统统计学习经典方法的稀疏统计学习,在高维数据处理领域发挥着举足轻重的作Copyright©博看网. All Rights Reserved. 第4期 张红英,等:稀疏统计学习及其最新研究进展综述用,基于稀疏假设的正则化框架带来了大量高效的高维数据处理方法.同时,随着深度学习的革命性进展,结合稀疏统计学习与深度神经网络以兼取两种方法优点的研究也日趋受到重视.本文综述了稀疏统计学习合的研究还有巨大的探索空间,接下来,对未来研究方向提出一些展望:)由于传统优化理论与算法的局限性,目前稀疏统计学习的研究多集中于求解凸目标函数.但实际应1用中频繁遇到损失函数和正则项非凸的情形.同时,非凸正则项通常具有更好的统计性质.因此,对于含有非凸损失和非凸正则项的模型,包括算法的设计与收敛性的证明,都是值得进一步研究的方向.)由于传统的稀疏统计学习方法通常基于最小二乘损失,其数据服从高斯分布.然而,现实应用中数2据常常并不服从高斯分布.同时,高斯分布对异常点敏感的特性也限制了它的应用.因此,探索基于更加鲁棒的损失函数的稀疏统计学习方法,例如基于分位数回归的稀疏统计学习方法等也值得进一步的研究.很初步,其性能表现也有进一步提升的空间,这些均为需要进一步研究的问题.)深度网络展开方法的研究目前也集中于具有凸性的稀疏编码方法.对带有非凸正则项的稀疏编码算3法进行展开,包括算法效率和性能的研究,还需要更进一步的探索.另外,深度网络展开方法的理论研究还)传统稀疏统计学习的建模往往嵌入了数据本身的先验信息,大量的经典方法在理论和性能上都有4着不错的表现.同时,针对不同数据、不同问题的新型深度神经网络也不断涌现出来.探索更适合特定问题的深度神经网络特征表示与传统稀疏统计算法的结合,最大限度地发挥两种方法的优点,也是值得进一步研究的方向.参考文献:[]HA:1STIET,TIBSHIRANIR,ticalLearninithSarsitTheLassoandGeneralizations[M].gwpy[]],():本体稀疏矩阵学习以及在相似度计算中的应用[西南大学学报(自然科学版)2 兰美辉,范全润,高炜.J.2020,421[]],:基于扰动B西南师范大学学报(自然科学版)3 刘春燕,李川,齐静.OMP算法的块稀疏信号重构[J.2020,45(7)[]],基于稀疏系统辨识的广义递归核风险敏感算法[西南大学学报(自然科学版)4 王代丽,王世元,张涛,等.J.2022,[]],:5 HOCKINGRR,ionoftheBestSubsetinReressionAnalsis[metrics1967,9(4)gy[]],:6 roximateSolutionstoLinearSstems[urnalonComutin1995,24(2)pppypg[]],7 okattheStatisticalModelIdentification[ansactionsonAutomaticControl1974,[]],():8 tinheDimensionofaModel[alsofStatistics1978,:),():SocietSeriesB(Methodoloical1979,():196716-723.227-234.531-540.():444196-205.144-149.118-123.:,BocaRatonCRCPress2015:3-4. 9中的经典模型,简要介绍了传统稀疏统计学习与现代深度学习相结合的研究进展.然而,目前针对此类结[],QU]9 erminationoftheOrderofanAutoreression[loftheRoalStatisticalgy[]HO:],10ERLAE,ressionBiasedEstimationforNonorthoonalProblems[metricsggg[]B],():SubsetReressionUsinheNonneativeGarrote[metrics1995,(),():Methodoloical1996,581267-288.g():1970,12155-67.[]T]:ionShrinkaeandSelectionviatheLasso[loftheRoalStatisticalSocietSeriesBggyy[]CHE,D]13NSSONOHODL,DecomositionbasisPursuit[view,2001,pyB[]HA:D,,14STIET,TIBSHIRANIR,mentsofStatisticalLearninataMininInferenceandgg[]Z],tiveLassoandItsOracleProerties[loftheAmericanStatisticalAssociation2006,pp():1014761418-1429.,:erPrediction[M].kSrin2016:():ght©博看网. All Rights Reserved. 10[]Z]:16OUH,izationandVariableSelectionviatheElasticNet[loftheRoalStatisticalSocietgyy[]YUANM,]electionandEstimationinReressionwithGrouedVariables[loftheRoalSta-gpy[]P///18UIGAT,WIESELA,dimensionalShrinkae-Thresholdinerator[C]2009IEEESP15thggOp113-116.:),():tisticalSocietSeriesB(StatisticalMethodolo2006,),():SeriesB(StatisticalMethodolo2005, ://西南师范大学学报(自然科学版) 第48卷pj:,fInstituteofElectricalandElectronicsEnineers(IEEE)2009:poggg[]S,HA]19IMONN,FRIEDMANJSTIET,-Grouasso[lofComutationalandGrahicalSta-ppLpp[]T,]20IBSHIRANIR,SAUNDERSM,ndSmoothnessviatheFusedLasso[lofthepya[]R,]:21AVIKUMARP,LAFFERTYJLIUH,dditiveModels[loftheRoalStatisticalSocietpyy[]B]22REIMANL,tintimalTransformationsforMultileReressionandCorrelation[-gOppg[]C,T],ansactionsonInformationTheor005,gbyLgg[y[]ME]24INSHAUSENN,BÜ-DimensionalGrahsandVariableSelectionwiththeLasso[alsgp[]Z],:25HAOP,lSelectionConsistencfLasso[rnalofMachineLearninesearch2006(7)yogR[]F],26RANKLLE,sticalViewofSomeChemometricsReressionTools[metricsg[]27]CHARTRANDR,eyPppg[[]X:28UZB,GUOHL,WANGY,ntativeofL1ReularizationAmon0 第4期 张红英,等:稀疏统计学习及其最新研究进展综述[]J,,l-SatialHersectralImaeClassificationUsinl1ReularizedLow-RankRe-ppyppgggp,():tionsandRemoteSensin2015,862473-2484.g]resentationandSarseReresentation-BasedGrahCuts[urnalofSelectedToicsinAliedEarthObserva-pppppp2 11[]L40INZC,CHENMM,entedLaraneMultilierMethodforExactRecoverfCorrutedLow-Rankgggpyop[]P41ENGDT,XIUNH,YUJ.S1ReularizationMethodsandFixedPointAlorithmsforAffineRankMinimizationgg[]Z42HUL,HAOY,SONGY.L1NormandSatialContinuiteularizedLow-RankAroximationforMovinbectpyRgppgOj[]CHAMB]ithmforTotalVariationMinimizationandAlications[lofMathematicalIma-gpp[]T,-WatimizationTechniueforNoiseRobustMovinbectDetectionUsinensoryOpqgOjgT1014.2/[]:////Matrices[EBOL].2],():Problems[tionalOtimizationandAlications2017,2],():DetectioninDnamicBackround[nalProcessinetters2018,,():inndVision2004,,],:Low-RankAroximationl1,andTTVReularizations[ansactionsonCbernetics2021,51(2)1004-ppgy[]YAN,45GS,WANGJFANW,cientADMMAlorithmforMultidimensionalAnisotroicTotalVariationgp:A,kssociationforComutinachiner2013://ReularizationProblems[C]Proceedinsofthe19thACMSIGKDDInternationalConferenceonKnowledeDiscovergggy[]L:E46UCY,FENGJS,CHENYD,RobustPrincialComonentAnalsisxactRecoverfCorrutedppyyop//Low-RankTensorsviaConvexOtimization[C]ProceedinsoftheIEEEConferenceonComuterVisionandPatternpgp:,Reconition(CVPR).CardiffInstituteofElectricalandElectronicsEnineers(IEEE)2016:[]HAORR,]edLaranianAlternatinirectionMethodforTensorRPCA[lofMathemati-ggggD[]F]48ANJQ,leSelectionviaNonconcavePenalizedLikelihoodandItsOracleProerties[lofthep[]Z],alsofStatistics2010,yUy[[]G//50REGORK,nastAroximationsofSarseCodinC]Proceedinsofthe27thInternationalgFpppg[g[]B]51ECKA,terativeShrinkae-ThresholdinlorithmforLinearInverseProblems[Ag[]YAN,:]52GY,SUNJLIHB,gAppgpg[[]X,//53IEX,WUJLIUG,entiableLinearizedADMM[C]Proceedinsofthe36thInternationalConferenceong[]D54INGY,XUEXW,WANGZZ,KnowledeDrivenDeenrollinforRainRemovalfromSinleImaegpUggg,neers(IEEE)2018:14-19.[//:C]20187thInternationalConferenceonDiitalHome(ICDH).CardiffInstituteofElectricalandElectronicsEni-gg:,ineJournalofMachineLearninesearch2019:,():TransactionsonPatternAnalsisandMachineIntellience2020,,():JournalonImainciences2009,:,ineJournalofMachineLearninesearch2010:():382894-942.,():AmericanStatisticalAssociation2001,964561348-1360.,():calResearchwithAlications2017,[]ME:U55INHARDTT,MOELLERM,HAZIRBASC,nroximalOeratorssinenoisinetworksforgPpgDgN:,CardiffInstituteofElectricalandElectronicsEnineers(IEEE)2017:1799-1808.g]//ReularizinnverseImainroblems[CProceedinsoftheIEEEInternationalConferenceonComuterVision(ICCV).ggIggPgp[]YAN:AP//56GD,alDehaze-NetriorLearnin-BasedDeeetworkforSinleImaeDehazinC]Pro-gpNggg[[]HO:H57SSEINISAH,YAMANB,MOELLERS,ecurrentNeuralNetworksforAcceleratedMRIistor-y():1461280-1291.,ceedinsoftheEuroeanConferenceonComuterVision(ECCV).Cham:Sriner2018:],2ConizantUnrollinfOtimizationAlorithms[urnalofSelectedToicsinSinalProcessin020,ggopgpgg[]S:AS58RIVASTAVAN,HINTONG,KRIZHEVSKYA,imleWaoPreventNeuralNetworksfromppyt,MO[]C//RERIOP,HA59AVAZZAJEFFELEB,asaLow-RankReularizerforMatrixFactorization[C]pg],():lofMachineLearninesearch2014,1511929-1958.g[gRCopyright©博看网. All Rights Reserved. 12:ProceedinsoftheTwent-FineJournalofgyg[]M//60IANJYP,ARORAR,mlicitBiasofDroout[C]Proceedinsofthe35thInternationalConfer-ppg[]P//61ALA,LANEC,VIDALR,eularizationProertiesofStructuredDroout[C]Proceedinsofthegppg/:IEEECVFConferenceonComuterVisionandPatternReconition(CVPR).CardiffInstituteofElectricalandElec-pg,tronicsEnineers(IEEE)2020:7668-7676.g:,ineJournalofMachineLearninesearch2018:,MachineLearninesearch2018: ://西南师范大学学报(自然科学版) 第48卷pj[]G//62LOROTX,tandinheDifficultfTrainineeeedforwardNeuralNetworks[C]Proceed-gtyogDpF:insoftheThirteineJournalofMachineggLearninesearch,2010:[//:C]ineJournalofMachineLearnine-gggR[]:63IOFFES,ormalizationAcceleratineeetworkTrainineducinInternalCovariateShiftgDpNgbyRgsearch,2015:448-456.[]WR,MAY.:P,C,64IGHTJHih-DimensionalDataAnalsiswithLow-DimensionalModelsrincilesomutationandgypp:,Alications[M].CambrideCambrideUniversitress2022:[]Z//65HAOF,HUANGYZ,WANGL,nticRankinasedHashinforMulti-LabelImaeRetrieval[C]pSgBgg:ProceedinsoftheIEEEConferenceonComuterVisionandPatternReconition(CVPR).CardiffInstituteofElectricalandgpg[]L//66IUHM,WANGRP,SHANSG,visedHashinorFastImaeRetrieval[C]ProceedinsofthepSpgfgg:IEEEConferenceonComuterVisionandPatternReconition(CVPR).CardiffInstituteofElectricalandElectronicspg,Enineers(IEEE)2016:2064-2072.g,ElectronicsEnineers(IEEE)2015:1556-1564.g[]L,WAN//67IWJGS,eLearninasedDeeuervisedHashinithPairwiseLabels[C]Proceed-gBpSpgw1717.:AAA,insofthtoIPress2016:1711-gyg[]L//68IQ,SUNZ,HER,visedDiscreteHashinC]AdvancesinNeuralInformationProcessins-pSpg[gSy[]CHE,///69NYD,LAIZH,visedHashinithAnchorGrah[C]2019IEEECVFInterna-pSpgwp2019:9795-9803.):N,tems30(oeuralInformationProcessinstemsFoundation2017:):,tionalConferenceonComuterVision(fInstituteofElectricalandElectronicsEnineers(IEEE)pg[]AN,//70DREWG,ARORAR,nicalCorrelationAnalsis[C]Proceedinsofthe30thInterna-pCyg[]WANGWR,A71RORAR,LIVESCUK,sticOtimizationforDeeCAviaNonlinearOrthoonalItera-ppCg//,,):tions[C]201553rdAfIn-pg(,stituteofElectricalandElectronicsEnineers(IEEE)2015:688-695.g:,():ineJournalofMachineLearninesearch2013,[]YANF,M//elationforMatchinmaesandText[C]ProceedinsoftheIEEEConferencepCgIgg2015:3441-3450.:,onComuterVisionandPatternReconition(CVPR).CardiffInstituteofElectricalandElectronicsEnineers(IEEE)pgg[]WANGWR,A//73RORAR,LIVESCUK,lti-ViewReresentationLearninC]ProceedinsofthepMpg[g[]CHAN],74DARS,KHAPRAMM,LAROCHELLEH,ationalNeuralNetworks[Comutationp():2016,282257-285.:ineJournalofMachineLearninesearch,2015:责任编辑 廖坤 Copyright©博看网. All Rights Reserved. 1时,Lq正则项不满足稀疏性;L1正则项不满足无偏性;当0≤q<1时,Lq正则]提出了S项不满足连续性.基于此,文献[48CAD模型.SCAD模型的形式为)的形式为其中,pλ(βi12)min‖X‖2+∑pλ(-yββjp2i=1β∈R低模型的偏差;连续性保证模型性能关于数据的稳定性.Lq正则化框架所产生的估计均无法同时满足以{p}()24λ|ì|<λββi|i|ïï22λ2aλ-+||-ββiiï
更多推荐
模型,方法,学习,深度,神经网络,统计
发布评论