Huangtuzhi/AlibabaRecommand: Alibaba 2015 mobile recommending algorithm competit ...

原作者: [db:作者] 来自: 网络收藏邀请

开源软件名称（OpenSource Name）：

Huangtuzhi/AlibabaRecommand

开源软件地址(OpenSource Url)：

https://github.com/Huangtuzhi/AlibabaRecommand

开源编程语言(OpenSource Language)：

Python 100.0%

开源软件介绍(OpenSource Introduction)：

AlibabaRecommand

介绍

通过对用户在移动终端上一个月的行为数据进行分析，为后一天的用户购买行为作出预测，进行推荐。

目录结构

├── LICENSE               #许可证
└── README.md             #使用说明
#建表
├── create_table.sql      #创建基本表
├── add_table.sql         #后续增加的表
├── add_index.sql         #为表建立索引
├── add_table_31day.sql   #建立存储31天数据的表，结构同上
└── add_index_31day.sql   #为表建立索引
#数据导入
├── datatoDB.sql          #csv格式原始数据导入基本表
└── FeaturetoDB.sql       #feature.txt导入对应表
#main
├── __init__.py
├── Utility.py            #工具类
├── TrainModel.py         #特征提取
├── ObtainPredict.py      #生成模型
└── GetFeature31day.py    #进行预测
#数据 
├── feature.txt           #符合某个筛选标准的样本
├── data_features.txt     #feature.txt中记录的n维特征
├── data_features.npy     #转为矩阵格式(numpy库)，下同
├── data_labels.txt       #feature.txt中记录的label(1/0表示购买/未购买)
├── data_labels.npy    
├── feature_pos.txt       #feature.txt中所有正例
├── feature_p.npy      
├── feature_neg.txt       #feature.txt中所有负例
├── feature_p.npy
├── TrainSet.npy          #训练集
├── TestSet.npy           #测试集
└── 31day_data_features.txt #31天所有数据的n维特征
#结果
├── predict_all_pairs.txt #得到所有预测的userid itemid对
└── filter_pairs.txt      #用train_item过滤的userid itemid对

使用

TrainModel类用来生成每个样本的特征和对应的label

    model = TrainModel()
    model.DivideByTime("2014-12-18 00:00:00") #按时间点分割
    model.MergeData()           #将特征组合起来
    model.SimplifyTrainUser()   #按规则滤除一部分特征
    model.MergeFeatures()       #合并特征
    model.GenLabels()           #产生样本对应label

PredictEmption类用来生成模型和选取最优阈值

    PE = PredictEmption()
    PE.DivideSet()          #把正负样本分开
    PE.GenTrainTestSet()    #生成训练集和测试集
    PE.TestPredict()        #打印模型预测的准确率和召回率

GetFeature31day.py用来提取31天的特征样本和进行预测

    model = TrainModel()
    model.MergeData()
    model.MergeFeatures()    #合并特征
    model.Transform2Matrix() #把文本转化为便于处理的矩阵
    model.PerformPredict()   #进行预测
    model.FilterByItems()    #用物品进行过滤
    model.RemoveDuplicate()  #去除重复

原理

题目给了31天的数据，我们选择第30天作为分割点。用前30天的数据提取n维特征(每个[user_id,item_id]对可以提取一行特征)，用第31天的真实数据去标记每行特征。

举个例子：某个[user_id，item_id]对[9909811,266982489]在前30天出现，如果在第31天它也出现了且behavior_type为购买，则标记这一行的label为1，否则为0。

这样形成了很多行的特征数据，我们把数据进行Logistic Regression训练，得到一个二分类的模型，这样模型就训练好了。

接下来就是预测，预测的东西就是上面的label，也即模型的输出。label为1表示我们认为用户会购买。那么模型的输入是什么呢？模型的输入就是31天所有数据的特征。

1th~30th————> 31th的label
1th~31th————> 32th的label

因为31th的label数据是已知的，所以可以利用它对训练出来的模型进行评估。而32th的label就是输出结果了。

建模

模型建立主要采取对特征数据进行Logistic Regression。

现有一组用户在一个月内的移动端数据，我们需要预测他们在后一天购买某件商品的可能性。通过二值分类，我们仅仅能够预测用户是否购买，不同于此的是，现在我们还关心购买的可能性，即：

f(x) = P(+1|x)

取值范围是区间[0,1]。

在二值分类中，我们通过w*x得到一个score后，通过符号运算sign来预测y是+1或-1。而对于当前问题，如果能够将这个score映射到[0,1]区间，问题似乎就迎刃而解了。而问题的关键就是选择映射函数，逻辑斯蒂回归选择的映射函数是S型的sigmoid函数。

f(s) = 1 / (1 + exp(-s))

s取值范围是整个实数域,f(x)单调递增。而逻辑斯蒂回归用

h(x) = 1 / (1 + exp(-wx))

来逼近上面的目标函数。其中,x为要预测的样本,w为训练出的模型向量(w和x的维度相同),h是算得的样本概率。

说明

本repo是一个流程和预测的框架，特征工程很多地方还需要改善。

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

UMich-CURLY-teaching/UMich-ROB-530-public: UMich 500-Level Mobile Robotics Cours ...发布时间：2022-09-04

card-io/card.io-iOS-SDK: card.io provides fast, easy credit card scanning in mob ...发布时间：2022-09-04

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：18827|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：9874|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8284|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8640|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8570|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9576|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8567|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：7959|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8569|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7497|2022-11-06

客服电话

电子邮件

Huangtuzhi/AlibabaRecommand: Alibaba 2015 mobile recommending algorithm competit ...

开源软件名称（OpenSource Name）：

开源软件地址(OpenSource Url)：

开源编程语言(OpenSource Language)：

开源软件介绍(OpenSource Introduction)：

AlibabaRecommand

介绍

目录结构

使用

原理

建模

说明

请发表评论

全部评论

上一篇：

下一篇：

CVE-2022-28371

hetznercloud/csi-driver: Kubernetes Cont

bradtraversy/iweather: Ionic 3 mobile we

joaomh/curso-de-matlab

断牙刷新位置时间（断牙属性及刷新位置介绍

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053