超市用户的k-means聚类处理-创新互联

导入超市用户的数据

创新互联主营永兴网站建设的网络公司,主营网站建设方案,app开发定制,永兴h5微信小程序开发搭建,永兴网站营销推广欢迎永兴等地区企业咨询

import pandas as pd

from sklearn.preprocessing import StandardScaler #标准差标准化

com = pd.read_csv('./company.csv',encoding='ansi')

超市用户的k-means聚类处理

导入剔除异常值的函数

def box_analysis(data):

'''

进行箱线图分析，剔除异常值

:param data:

:return:

'''

qu = data.quantile(0.75)

ql = data.quantile(0.25)

iqr = qu - ql

#上限与下限 1.5可以微调

up = qu+1.5*iqr

low = ql-1.5*iqr

#进行比较运算

bool_id_1 = data<=up

bool_id_2 = data>=low

bool_num = bool_id_1 & bool_id_2

return bool_num

进行缺失值检测

print(com.isnull().sum())

检测结果无缺失值

筛选有用特征,切片处理

data = com.iloc[:,-2:]

超市用户的k-means聚类处理

箱线图分析来进行异常值检测

按照平均每次消费金额进行异常值去除

bood_id_1 = box_analysis(data.iloc[:,0])

data = data.loc[bood_id_1,:]

按照平均消费周期进行异常值去除

bood_id_2 = box_analysis(data.iloc[:,1])

data = data.loc[bood_id_2,:]

构建需要特征

data.loc[:,'每日消费金额'] = data.loc[:,'平均每次消费金额']/data.loc[:,'平均消费周期(天)']

标准化数据,量级不大，暂时不处理量级

stand = StandardScaler() #创建标准差示例

#先计算每一列的均值、标准差再进行转化数据

x = stand.fit_transform(data) #进行标准化

把上面数据处理部分封装进函数

def built_data():

#缺失值检测

# print(com.isnull().sum())

#筛选有用特征,切片处理

data = com.iloc[:,-2:]

# print(data)

#异常值检测，箱线图分析

#按照平均每次消费金额进行异常值去除

bood_id_1 = box_analysis(data.iloc[:,0])

data = data.loc[bood_id_1,:]

#按照平均消费周期进行异常值去除

bood_id_2 = box_analysis(data.iloc[:,1])

data = data.loc[bood_id_2,:]

#构建需要特征

data.loc[:,'每日消费金额'] = data.loc[:,'平均每次消费金额']/data.loc[:,'平均消费周期(天)']

# print(data)

#标准化数据,量级不大，暂时不处理量级

#标准化数据

stand = StandardScaler() #创建标准差示例

#先计算每一列的均值、标准差再进行转化数据

x = stand.fit_transform(data) #进行标准化

return data.values

绘图部分函数如下

def show_res_km(data,y_predict,center):

'''无锡妇科检查医院 http://www.87554006.com/

进行结果展示

:param data:原始数据

:param y_predict:预测标签

:param center:最终的聚类中心

:return:

'''

plt.figure()

#获取原始数据的行数

index_num = data.shape[0]

#

colors = ['r','g','b','y']

for i in range(index_num):

plt.scatter(data[i,0],data[i,1],c=colors[int(y_predict[i])])

#散点图的绘制，一个一个绘制

#聚类中心的位置

#b的话是描点划线，bx的话是画点但是不描线

plt.plot(center[:,0],center[:,1],'bx',marker='x',markersize=12)

plt.show()

调用函数来进行聚类

data = built_data()

#导包实现

k=3

km = KMeans(n_clusters=k)

#训练数据

km.fit(data)

#进行预测 ,y_predict预测标签

y_predict = km.predict(data)

#获取聚类中心

center = km.cluster_centers_

print('预测值:\n',y_predict)

print('聚类中心:\n',center)

show_res_km(data.values,y_predict,center)

得出结果

另外有需要云服务器可以了解下创新互联cdcxhl.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。

当前题目：超市用户的k-means聚类处理-创新互联
分享地址：http://lszwz.com/article/phgoo.html

其他资讯

售后响应及时

7×24小时客服热线

数据备份

更安全、更高效、更稳定

价格公道精准

项目经理精准报价不弄虚作假

合作无风险

重合同讲信誉，无效全额退款

乐山小谭建站工作室是一家专注从事于高品质视觉体验及互联网设计开发，乐山网站建设，乐山网站设计，乐山网页设计，乐山网站制作，品牌网站建设，营销网站建设，集团网站建设，企业网站建设，外贸网站建设，响应式网站建设，小程序开发，微信开发，企业形象设计，企业宣传视频等服务，小谭建站位于乐山市龙岗区大运软件小镇，小谭建站拥有经验丰富的高级网站建设工程师和一流的网页高端设计人员，具备各种规模与类型网站建设的雄厚实力，在网站建设领域树立了自己独特的设计风格。

友情链接交换友情链接

成都网站建设成都响应式网站建设公司营销网站建设梦港之夜德阳定制网站建设消防工程香港虚拟主机腾讯云成都网站制作网站空间攀枝花网站设计

Copyright © 2022 青羊区小谭信息技术咨询服务工作室乐山建站工作室 All Rights Reserved 蜀ICP备2021004003号-25

Copyright © 2022 青羊区小谭信息技术咨询服务工作室乐山建站工作室

蜀ICP备2021004003号-25