Python用K-means聚类算法进行客户分群的实现
一、背景
1.项目描述
- 你拥有一个超市(Supermarket Mall)。通过会员卡,你用有一些关于你的客户的基本数据,如客户ID,年龄,性别,年收入和消费分数。
- 消费分数是根据客户行为和购买数据等定义的参数分配给客户的。
- 问题陈述:你拥有这个商场。想要了解怎么样的顾客可以很容易地聚集在一起(目标顾客),以便可以给营销团队以灵感并相应地计划策略。
2.数据描述
字段名 | 描述 |
---|---|
CustomerID | 客户编号 |
Gender | 性别 |
Age | 年龄 |
Annual Income (k$) | 年收入,单位为千美元 |
Spending Score (1-100) | 消费分数,范围在1~100 |
二、相关模块
import numpy as np import pandas as pd
from pandas import plotting import matplotlib.pyplot as plt import seaborn as sns import plotly.graph_objs as go import plotly.offline as py
from sklearn.cluster import KMeans
import warnings warnings.filterwarnings('ignore')
三、数据可视化
1.数据读取
io = '.../Mall_Customers.csv' df = pd.DataFrame(pd.read_csv(io)) # 修改列名 df.rename(columns={'Annual Income (k$)': 'Annual Income', 'Spending Score (1-100)': 'Spending Score'}, inplace=True) print(df.head()) print(df.describe()) print(df.shape) print(df.count()) print(df.dtypes)
输出如下。
CustomerID Gender Age Annual Income Spending Score
0 1 Male 19 15 39
1 2 Male 21 15 81
2 3 Female 20 16 6
3 4 Female 23 16 77
4 5 Female 31 17 40
-----------------------------------------------------------------
CustomerID Age Annual Income Spending Score
count 200.000000 200.000000 200.000000 200.000000
mean 100.500000 38.850000 60.560000 50.200000
std 57.879185 13.969007 26.264721 25.823522
min 1.000000 18.000000 15.000000 1.000000
25% 50.750000 28.750000 41.500000 34.750000
50% 100.500000 36.000000 61.500000 50.000000
75% 150.250000 49.000000 78.000000 73.000000
max 200.000000 70.000000 137.000000 99.000000
-----------------------------------------------------------------
(200, 5)
CustomerID 200
Gender 200
Age 200
Annual Income 200
Spending Score 200
dtype: int64
-----------------------------------------------------------------
CustomerID int64
Gender object
Age int64
Annual Income int64
Spending Score int64
dtype: object
2.数据可视化
2.1 平行坐标图
- 平行坐标图(Parallel coordinates plot)用于多元数据的可视化,将高维数据的各个属性(变量)用一系列相互平行的坐标轴表示, 纵向是属性值,横向是属性类别。
- 若在某个属性上相同颜色折线较为集中,不同颜色有一定的间距,则说明该属性对于预标签类别判定有较大的帮助。
- 若某个属性上线条混乱,颜色混杂,则可能该属性对于标签类别判定没有价值。
plotting.parallel_coordinates(df.drop('CustomerID', axis=1), 'Gender') plt.title('平行坐标图', fontsize=12) plt.grid(linestyle='-.') plt.show()
核心思想
- 随着聚类数k 的增大,样本划分会更加精细,每个簇的聚合程度会逐渐提高,那么SSE会逐渐变小。
- 当k 小于真实聚类数时,由于k 的增大会大幅增加每个簇的聚合程度,故SSE的下降幅度会很大。
- 当k到达真实聚类数时,再增加k所得到的聚合程度回报会迅速变小,所以SSE的下降幅度会骤减。然后随着k值的继续增大而趋于平缓,也就是说SSE和k的关系图是一个手肘的形状,而这个肘部对应的k值就是数据的真实聚类数。
1.基于年龄和消费分数的聚类
所需要的数据有‘Age'和‘Spending Score'。
df_a_sc = df[['Age', 'Spending Score']].values # 存放每次聚类结果的误差平方和 inertia1 = []
使用手肘法确定最合适的
for n in range(1, 11): # 构造聚类器 km1 = (KMeans(n_clusters=n, # 要分成的簇数,int类型,默认值为8 init='k-means++', # 初始化质心,k-means++是一种生成初始质心的算法 n_init=10, # 设置选择质心种子次数,默认为10次。返回质心最好的一次结果(好是指计算时长短) max_iter=300, # 每次迭代的最大次数 tol=0.0001, # 容忍的最小误差,当误差小于tol就会退出迭代 random_state=111, # 随机生成器的种子 ,和初始化中心有关 algorithm='elkan')) # 'full'是传统的K-Means算法,'elkan'是采用elkan K-Means算法 # 用训练数据拟合聚类器模型 km1.fit(df_a_sc) # 获取聚类标签 inertia1.append(km1.inertia_)
绘图确定
plt.figure(1, figsize=(15, 6)) plt.plot(np.arange(1, 11), inertia1, 'o') plt.plot(np.arange(1, 11), inertia1, '-', alpha=0.7) plt.title('手肘法图', fontsize=12) plt.xlabel('聚类数'), plt.ylabel('SSE') plt.grid(linestyle='-.') plt.show()
通过如下图,确定
到此这篇关于Python用K-means聚类算法进行客户分群的实现的文章就介绍到这了,更多相关Python K-means客户分群内容请搜索来客网以前的文章或继续浏览下面的相关文章希望大家以后多多支持来客网!