2024年3月15日发(作者:2021太仓一模数学试卷)

第四届“泰迪杯”

全国数据挖掘挑战赛

作品名称:网络招聘信息的数据挖掘与综合分析

荣获奖项:特等并获企业冠名奖

作品单位:北京林业大学

作品成员:孙海锋郑中枢杨武岳

指导老师:崔晓晖

网络招聘信息的分析与挖掘

摘要

近年来,随着互联网的广泛应用和网络招聘的迅速发展,网络招聘信息平台

已成为招聘者获取信息的主要渠道。因此,运用网络文本分析和数据挖掘技术对

网络招聘信息的研究具有重大的意义。

对于问题1,通过PositionId对招聘信息表、职位描述表进行去重,得到不

重复的招聘职位信息。利用jieba中文分词工具对岗位描述信息进行分词,并通

过TF-IDF算法提取每个职位描述的前5个关键词。再利用TF-IDF算法得到每个

职位描述的TF-IDF权重向量,采用K-means对TF-IDF权重向量进行聚类,得到7

个质心。分别求出距离各个质心最近的5个职位,结合招聘信息表的

PositionFirstType字段,根据KNN算法,为各个类加上行业性质标签。再分别对

各个职业类型的PositionName进行统计分析,得出各个职业类型对应的专业领

域。

对于问题2,通过利用excel对去重后的招聘信息表对行业领域、工作地域、

职位分类三个项目进行分类筛选,对各个项目的各类内容进行计数汇总统计,根

据计数多的内容去定于热门的行业、地域、职位。

对于问题3,根据数据挖掘与分析的职位特征,将新兴的职位定义为两大类

并分别筛选出来。利用发散性思维,再分别对筛选出来的结果按照城市(city)、

公司阶段(financestage)、学历要求(Education)、薪资(Salary)四个方面对其

进行多方面系统地统计,结合图表进行分析预测相关职位的需求。

对于问题4,通过寻找it职位对应的id的职业描述,并对其分词和it专业

语义库构建,在此基础上筛选出所有的it职位。对附件1进行数据预处理,在预

处理得到的数据上进行数据初步筛选出it行业的职位。对筛选出的it职位对应

的职业id找到职位描述表的职位描述,对该描述构建it专业语义库。判断职业

描述表中职位是否符合it职业,通过判断与专业语义库的交集长度来确定是否为

it职业并统计地域。

对于问题5,根据研究结果,通过分析目前的主要职业类型、职业要求、热

门行业及地域、工作经验及就业现状等问题,给在校大学生的就业规划提出可行

性的建议。

关键词:去重中文分词K-means聚类KNN算法TF-IDF算法预测相关职位

第1页


更多推荐

职位,进行,信息,招聘,描述