涕是什么意思翻译读音海词韩语词典-riverside


2023年4月4日发(作者:职称英语考试成绩查询)

基于向量空间模型和人工神经网络的泰米

尔语文件的自动分类

摘要:

基于向量空间模型(VSM),人工神经网络(ANN),K近邻(KNN),

Naives贝叶斯(NB)和支持向量机(SVM)模型的自动文本分类已经被应用于

英语语言的文件,并在文本挖掘和信息检索(IR)研究人员当中很流行。本文

提出了VSM人工神经网络在泰米尔语的分类当中的应用文档。泰米尔语是形态

丰富的达罗毗荼古典语言。互联网的发展导致了一个潜在的增长在电子文档的

数量上,这些电子文档不仅仅是用英语写的,也包括用其他区地区性语言写的。

泰米尔语的文档至今没有详细的自动分类。在本文中,语料库是用近于构建和

测试VSM和人工神经网络的模型。反映每一项重要性的文档表示,分配权重,

的方法都被讨论了。在传统的基于字匹配分类系统,最流行的文档表示为VSM。

该方法需要一个高维空间中表示的文件。人工神经网络分类器需要较少的特点。

实验结果表明,人工神经网络模型达到93.33%,比对泰米尔文档分类收益率

90.33%的VSM的表现还要好。

2009Elsevier公司保留所有权利

1介绍:

今天,大量网上的文档,电子书,期刊文章,技术报告和数字图书馆的信息在

网上是可用的。此内容的主要部分是用自然语言主要是英语写的自由格式文本

互联网的发展导致了一个潜在的增长,在电子文本的数量上,这些电子文本不

仅仅是用英语写的,也有的是用其他的地区性语言写的,因此,对羌笛何须怨杨柳春风不度玉门关全诗 自动文档分

类的需求是非常快速增长的。

自动文档分类是一项任务,这项任务的目的是将预先定义的类分配给事先未被

定义的文档,当一个未知的文档被给予系统时,系统会把与他最匹配的类分给

它,在有效率的文档管理中文本数据分类是非常具有现实意义的。特别是,随

着可获得的网上信息的日益增多,在没有适当的分类的情况下,管理和检索这

些文档是非常困难的。

有2种主要的文档分类方法监督和无监督学习,在监督学习中分类器是首先被

训练用许多训练行的数据,在这些训练性数据当中孤帆远影碧空尽的下一句 文档时用他们的类进行划分

的,然后这这些被训练的系统被用来给新的文档进行分类,这些未被监督的学

习方法主要是基于聚类的。

由于信息技术的快速发展,关于文档分类的额外研究也已经被开展起来,许多

统计和机器学习已经被应用于文档分类上例如KNN(Chiang&Chen,2001),

NB(Tan,2005),SVM(Joach秀气的意思 ims,1998),Neuralnetwork(Lin&Chen,

1996;Miguel&Padmini,1998),等。

在监督行性学习方法当中最受欢迎的方式之一就是VSM,他是基于分配权重正比

于现在的类词的文档频率给其余的类别。在VSM表示文本文件,向量,其中每

个不同的单词是一个单独的组件。它分配一些权重向量的每个分量视该组件的

重要性。

支持向量机的应用是最重要的进展之一文档分类,这是非常流行和被证明是

一个用于文档分类(塞巴斯蒂亚尼最好的算法,2002年)。神经网络也是一种

流行的分类方法,它可以处理线性和非线性问题,文档分类,无论是线性和非

线性分类器取得了良好的结果(郑华&不久Choel,2006)。对于神经网络,

训练文档和测试文档表示为向量输入矢量和相应的目标矢量用来训练,直到它

可以逼近一个函数,联营输入向量与特定目标的载体。文本的自动分类中起着

的主要作用语料库的建设进程。提供的文件可以在网上通过这些文件的正确分

类添加到语料库。文本分类可以在应用中有使用的流需要被有组织的动态信息。

在本文中,由印度语言的中央研究所研制的语料库(CIIL),迈索尔,(CIIL

语料库)用于训练和测试模型。这些模型中自动语料库的方法中使用建设过程

中,新的泰米尔文件分为其中一个预定义的类,并在语料库补充说。本文的其

余部分安排如下:在第2节中,泰米尔文件的性质,和泰米尔语语料库的特点

是提供。在Section3the向量空间模型解释。在Section4,神经网络模型是如

何训练的分类的文件,进行了讨论。该实验结果和性能分析在Section5进行总

结。

2.泰米尔语

泰米尔是最古老的语言之一,它属于南德拉威家庭。所有的达罗毗荼语言,泰

米尔语具有最长文学传统。最早的记录是从洞穴铭文公元前二世纪泰米尔是一

个形态丰富,粘着语。词形变化的标志是附在词汇基地后缀,其可以通过派生

后缀来扩充。当语素或词结合起来,一定形态音位变化发生(安马&Steever,

1999)。也就是说在泰米尔有很强的后置屈折成分。对于动词,这些词形变化

进行人称,数和性别主体的信息。此外,模型和时态信息的动词也搭配在语调。

对于名词,词形变化起到标记的情况下,名词(莱曼,1993)。泰米尔人的

屈折性质也就是说防止像一个这是一个简单的过程中所产生用于英文文档。一

个完整的形态分析找到干也麻烦,因为它需要一个干词典。

2.1泰米尔语语料库

泰米尔语语料库(CIIL语料库)在咏梅王安石的诗翻译 CIIL-迈索尔印度开发的,包括书面泰米尔

约3.5万字。主题的泰米尔语语料库areliterature,美术,社会科学的自然,

物理和专业的科学,商业,官方和媒体的语言和翻译的材料。另外泰米尔语料

库是“莫知语料库”,这已经从广泛的150000句子当代不等,泰米尔语的著作

(拉詹,Ramalingam,与GANESAN,2002年a)。该在CIIL语料库提供的文件数

量显示在表1(略)。

2.2特征提取

文本文件的特点是词或短语出现中的文件。对于文本表示,在极端的情况下,

我们可以考虑每个单词作为一个功能。但是这将导致更多的计算时间和存储要

求。它会影响分类精度为好。精心挑建党周年朗诵稿《盛世中国》 选的话是需要的而不是所有的话(马文-斯

科特,1999年)。一个简单的无序列表字和相关联的权重通常足以代表一个文

件。有研究表明,通过意义可以不使用命令字(兰道尔,LAHAM,渲染提取,

&的Schreiner,1972)。要构建文档表示,文档的集合被索引,而不是个别的

文件。创建索引的主要目的是使其易于区分文档。的大小索引可以的话,当被

用来代替茎减小的单词的各种形式(索尔顿,黄,杨和,1975)。索引有两

个子任务,即(i)分配的令牌为一个文件(ⅱ)权重分配给这些令牌。文件索

引这样的一个简单的方法是通过定义以下步骤:

1。找到的集合中的每个文件中的唯一字培训文件。

2。计算发生这些独特的频率也就是说在数据库中的每个文件。

3。横跨计算发生的每个单词的总频率在数据库中的所有文档。

4。排序词语的频率依次递增。

5。具有非常高和非常低的频率除去的话从出现的列表。

6。删除无效的字符和其词的话小于3个字节

2.3。停止字

噪声通常被定义在IR为微不足道,无关紧要词或停用词,它们通常存在于任

何自然语言文字。停止的话在任何标准语言语料库的平均分布,通常不会带来

任何资料分类任务。这些停用词具有较高的频率出现的。

2.4。权重计算

的重量是一个数值是直接正比于该单词的文档中的重要性。每个文档的文本被

分成标记和独特的标记在发生文中列出。只有实词被认为是在索引中。

我们用这个词出现在索引中的绝对计数。这使得它很难比较不同长度的文件。

文档的索引是归一化。归一化频率对于一个字是一个介于0和1之间。每个单

词的频率由内容单词的文档中的总数除以。

3。向量空间模型

在任何数字文本可以通过机器学习处理(ML)的分类器,一个映射必须是这样

的数据来执行在某种程度上能够代表所要求的特性或\'功能\'成更紧凑,计算适

当的形式(Rijsbergen,1979)。历史最悠久的和众所周知的方法的文档权重

的方法是向量空天山共色 间模型。VSM的是,编码一个所谓的\'\'袋-字的方法“表示,

其中明确顺序信息不明确抓获。最常见的和经典的统计方法在使用红外和文本

挖掘是TFIDF(词频逆文档频率)测量(索尔顿和巴克利,1988)。TFIDF给出

了如何重要的一个字是一个加权或相关性文件在向量空间模型中documentdi

是由一组代表字(T1,T2......TN),其中eachtj是出现在文本中的单词

documentdi和ndenotes的各个单词的总数该索引用来识别文本文件的含义。字

TJ具有计算的组合的对应weightw统计术语frequencyTF(TJ,二)和逆文档

频率。

TheTFvalue是成正比的单词的出现频率在文件中并theIDFvalue成反比其在频

语料库。函数编码的直觉:(i)该更经常的单词出现在一个文档中,更多的是

代表性的文本的内容;(ii)本更多的文字这个词出现在,少判别它是(法布

里兹欧,2002)。它已被观察到的逆文档频率是一本有用的一个良好指标

词的分类(武宣&诚,1994)。测试文件也受到TF和IDF权重,用在培训文件。

一旦文档被表示为权重矩阵的基础上,对TF和IDF,我们可以应用中的任何一

个的距离的措施,例如欧几里得距离,Mahalanobis距离,曼哈坦距离或余弦

度量找到的相似文件(Sushmita&Tinku,2003年)

5实验结果与讨论:

5.1。向量空间模型向量空间模型和神经网络模型已经申请泰米尔语文档的分

类。为了衡量这两款车型的各项性能指标的收集从训练语料条款使用。我们使

用了CIIL的一个子集语料库。我们的数据已经从五大类386107令牌。从每个

类别收集单词的编号列在theTable2。这些字组合和排序。长度少的话超过3

个字节,超过25字节从列表中删除。有些单词结束字符将被删除。唯一的话是

确定和排列出现的他们的频率的基础上。停止的话,甚高频词和非常低的高频

词被删除。该条款被分配的权重基于对TF和IDF从方程(1)。对于列表中

的每个字,权重由与逆文档乘法计算频率。TheTable3示出了与它们的权重的

话的部分列表。共有5753预处理后索引词被选为的功能,这被表示为一个术语

-文档矩阵。TheTable图4显示的话,在每个类别的总数和只在一个特定的类

别,它发生的话。这些字多作贡献的分类,不是的话这整个文档传播。试验样

品是从测试文件随机制备的下列方法:?从文档中选择几个段落。?从测试文

件选择特定页面。?选择文档作为一个整体。我们为了使用基于长期的向量空

间,以证明其有效性测试的模型上泰米尔文件。

为了测试模式,从五大类100个文档的使用随机。遵循用于测试相同的预处理

步骤文件还。根据该相似性度量,则返回类别靠近测试文件。文本的片段

存储为单独的文件中,并用于测试。实验结果VSM显示90.3%的性能测试分类

文档。

5.2神经网络模型对于一个神经网络模型

5753功能都非常大,训练网络。具有大量术语的固有的高维不仅不适合于神经

网络(鲍姆和大卫,1989),而且还提高了过拟合问题。我们减少了的功能通

过选择前1000,其中有更多的大小权重。向量的缩小的尺寸大大减小在BP神

经网络计算(训练)时间。每次训练文档的功能被应用到网络随机。用于测试

的文件相同的号码的神经网络也。的性能进行了比较。该神经网络有1000个神

经元对应的特征数目的输入层。该网络有5个神经元输出层为五类。在神经网

络中使用IS1000的L结构-25N-5L。在神经网络结构,该整数代表在每

个层的神经元数目(输入,隐藏和输出),字母L和N分别表示线性和非线性

单元分别。非线性单元usetanh(次),为激活函数,wheresis单位的激活值。

神经网络模型得出93.3%作为它的整体性能在泰米尔语文档分类。的正确分类

文件的百分比是最高94.66%的自然科学文件。的性能对不同类别的VSM和NN

模型示于

6结论

在本文中我们开发了泰米尔文本分类系统基于向量空间模型和神经网络模型。

自目前有更多可用的预分类的数字文件英语,大部分在现有文档分类任务文献

中对英语语言的文件执行。由于泰米尔是粘着性的,建立特征向量为需要特别

注意以限制字的数目的文件形式。我们使用屈折规则来切断的结局,减少项数。

上泰米尔语语料库的实验已经证明,在VSM和NN模型是有效的表示和分类泰米

尔文档也。神经网络的性能是比较有代表性的集合更好。结果表明该神经网络

模型更能够捕捉到非线性关系输入文档向量和文档类别之间比VSM的。可扩展

性的问题必须通过测试非常大的文档集合。作为一名未来的工作中,我们有计

划尝试不同的机器学习模型的N-gram特征选择。还文档可以被用来改善模型的

语言学习能力。

致谢

这项研究已经进行了在AICTE(全印度技术教育委员会,新德里,印度政府)

资助(卢比15万卢比)。神经模糊系统实验室,计算机科学与工程学院工程系

技术,安马大学与中心合作高级研究语言学,安马大学,泰米尔纳德邦,印度

中央研究所研制的语料库语言,迈索尔。

更多推荐

给料的英文译语怎么说