2023年12月15日发(作者:国家开放大学经济数学试卷)
Python-天池新人赛天猫优惠券O2O预测数学建模赛
比赛官网:
O2O(Online to Offline)消费是指将线下的商务机会与互联网结合,让互联网成为线下交易的平台。以优惠券盘活老用户或吸引新客户
进店消费是O2O的一种重要营销方式。通过个性化投放优惠券,提高优惠券的核销率;通过分析建模,精准预测用户是否会在规定时间内
使用相应优惠券。
数据集给出了用户在2016年1月1日至2016年6月30日之间真实线上、线下消费行为。需要通过建模来预测用户在2016年7月领取优惠
券后15天以内的使用情况。模型的评价标准为:优惠券核销预测的平均AUC(ROC曲线下面积),即对每个优惠券coupon_id单独计算核
销预测的AUC值,再对所有优惠券的AUC值求平均作为最终的评价标准。
根据用户线上online、线下offline这两份数据表,首先对数据集进行划分,然后提取以下特征:用户相关的特征、商家相关的特征,优惠券
相关的特征,用户与商家之间的交互特征,以及利用本赛题的leakage得到的其它特征(这部分特征在实际业务中是不可能获取到的)。最
后训练了XGBoost,GBDT,RandomForest进行模型融合。
赛题提供的预测集中,包含了同一个用户在整个7月份里的优惠券领取情况,这实际上是一种leakage,比如存在这种情况:某一个用户在7
月10日领取了某优惠券,然后在7月12日和7月15日又领取了相同的优惠券,那么7月10日领取的优惠券被核销的可能性就很大了。我们
在做特征工程时也注意到了这一点,提取了一些相关的特征。加入这部分特征后,AUC提升了10个百分点,相信大多数队伍都利用了这一
leakage,但这些特征在实际业务中是无法获取到的。
特征提取:
1.用户线下相关的特征:用户领取优惠券次数;用户获得优惠券但没有消费的次数;用户获得优惠券并核销次数;用户领取优惠券后进行核
销率;用户满050/50200/200~500 减的优惠券核销率;用户核销满050/50200/200~500减的优惠券占所有核销优惠券的比重;用
户核销优惠券的平均/最低/最高消费折率用户核销过优惠券的不同商家数量,及其占所有不同商家的比重;用户核销过的不同优惠券数量,
及其占所有不同优惠券的比重;用户平均核销每个商家多少张优惠券;用户核销优惠券中的平均/最大/最小用户-商家距离;
2.用户线上相关的特征:用户线上操作次数;用户线上点击率;用户线上购买率;用户线上领取率;用户线上不消费次数;用户线上优惠券
核销次数;用户线上优惠券核销率;用户线下不消费次数占线上线下总的不消费次数的比重;用户线下的优惠券核销次数占线上线下总的优
惠券核销次数的比重;用户线下领取的记录数量占总的记录数量的比重;
3.商家相关的特征:商家优惠券被领取次数;商家优惠券被领取后不核销次数;商家优惠券被领取后核销次数;商家优惠券被领取后核销
率;商家优惠券核销的平均/最小/最大消费折率;核销商家优惠券的不同用户数量,及其占领取不同的用户比重;商家优惠券平均每个用户
核销多少张;商家被核销过的不同优惠券数量;商家被核销过的不同优惠券数量占所有领取过的不同优惠券数量的比重;商家平均每种优惠
券核销多少张;商家被核销优惠券的平均时间率;商家被核销优惠券中的平均/最小/最大用户-商家距离;用户-商家交互特征;用户领取商
家的优惠券次数;用户领取商家的优惠券后不核销次数;用户领取商家的优惠券后核销次数;用户领取商家的优惠券后核销率;用户对每个
商家的不核销次数占用户总的不核销次数的比重;用户对每个商家的优惠券核销次数占用户总的核销次数的比重;用户对每个商家的不核销
次数占商家总的不核销次数的比重;用户对每个商家的优惠券核销次数占商家总的核销次数的比重;
4.优惠券相关的特征:优惠券类型(直接优惠为0, 满减为1);优惠券折率;满减优惠券的最低消费;历史出现次数;历史核销次数;历史核
销率;历史核销时间率;领取优惠券是一周的第几天;领取优惠券是一月的第几天;历史上用户领取该优惠券次数;历史上用户消费该优惠
券次数;历史上用户对该优惠券的核销率;
5.其它特征:这部分特征利用了赛题leakage,都是在预测区间提取的;用户领取的所有优惠券数目;用户领取的特定优惠券数目;用户此
次之后/前领取的所有优惠券数目;用户此次之后/前领取的特定优惠券数目;用户上/下一次领取的时间间隔;用户领取特定商家的优惠券
数目;用户领取的不同商家数目;用户当天领取的优惠券数目;用户当天领取的特定优惠券数目;用户领取的所有优惠券种类数目;商家被
领取的优惠券数目;商家被领取的特定优惠券数目;商家被多少不同用户领取的数目;商家发行的所有优惠券种类数目;
更多推荐
优惠券,用户,核销,商家,领取,次数,特征,用户线
发布评论