2024年3月15日发(作者:2021太仓一模数学试卷)
第四届“泰迪杯”
全国数据挖掘挑战赛
优
秀
作
品
作品名称:网络招聘信息的数据挖掘与综合分析
荣获奖项:特等并获企业冠名奖
作品单位:北京林业大学
作品成员:孙海锋郑中枢杨武岳
指导老师:崔晓晖
网络招聘信息的分析与挖掘
摘要
近年来,随着互联网的广泛应用和网络招聘的迅速发展,网络招聘信息平台
已成为招聘者获取信息的主要渠道。因此,运用网络文本分析和数据挖掘技术对
网络招聘信息的研究具有重大的意义。
对于问题1,通过PositionId对招聘信息表、职位描述表进行去重,得到不
重复的招聘职位信息。利用jieba中文分词工具对岗位描述信息进行分词,并通
过TF-IDF算法提取每个职位描述的前5个关键词。再利用TF-IDF算法得到每个
职位描述的TF-IDF权重向量,采用K-means对TF-IDF权重向量进行聚类,得到7
个质心。分别求出距离各个质心最近的5个职位,结合招聘信息表的
PositionFirstType字段,根据KNN算法,为各个类加上行业性质标签。再分别对
各个职业类型的PositionName进行统计分析,得出各个职业类型对应的专业领
域。
对于问题2,通过利用excel对去重后的招聘信息表对行业领域、工作地域、
职位分类三个项目进行分类筛选,对各个项目的各类内容进行计数汇总统计,根
据计数多的内容去定于热门的行业、地域、职位。
对于问题3,根据数据挖掘与分析的职位特征,将新兴的职位定义为两大类
并分别筛选出来。利用发散性思维,再分别对筛选出来的结果按照城市(city)、
公司阶段(financestage)、学历要求(Education)、薪资(Salary)四个方面对其
进行多方面系统地统计,结合图表进行分析预测相关职位的需求。
对于问题4,通过寻找it职位对应的id的职业描述,并对其分词和it专业
语义库构建,在此基础上筛选出所有的it职位。对附件1进行数据预处理,在预
处理得到的数据上进行数据初步筛选出it行业的职位。对筛选出的it职位对应
的职业id找到职位描述表的职位描述,对该描述构建it专业语义库。判断职业
描述表中职位是否符合it职业,通过判断与专业语义库的交集长度来确定是否为
it职业并统计地域。
对于问题5,根据研究结果,通过分析目前的主要职业类型、职业要求、热
门行业及地域、工作经验及就业现状等问题,给在校大学生的就业规划提出可行
性的建议。
关键词:去重中文分词K-means聚类KNN算法TF-IDF算法预测相关职位
第1页
更多推荐
职位,进行,信息,招聘,描述
发布评论