本文共 2938 字,大约阅读时间需要 9 分钟。
花萼长度
,花萼宽度
,花瓣长度
,花瓣宽度
4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。 # 1.加载数据集iris_data = load_iris()x = iris_data.datay = iris_data.target# 特征columns = iris_data.feature_names # ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
X:
Y:
# 2.数据预处理 --- 标准差标准化MMS = MinMaxScaler().fit(x)data = MMS.transform(x)
处理后的数据集:
# 3.构建KMeans模型训练数据cluster = KMeans(n_clusters=3,random_state=123).fit(data)# 3.1 获取聚类结果y_pred = cluster.labels_# 3.2 获取质心centers = cluster.cluster_centers_# [[0.70726496 0.4508547 0.79704476 0.82478632],# [0.19611111 0.595 0.07830508 0.06083333],# [0.44125683 0.30737705 0.57571548 0.54918033]]# 3.3 查看簇内平方和inertia = cluster.inertia_ # 6.982216473785234
t-SNE 是一种非线性降维算法,非常适用于高维数据降维到2维或者3维,进行可视化
。# 4.聚类结果可视化from sklearn.manifold import TSNE# 进行数据降维处理tsne = TSNE(n_components=2,init='random',random_state=177).fit(data)df = pd.DataFrame(tsne.embedding_)df['labels'] = y_pred
df1 = df[df['labels']==0]df2 = df[df['labels']==1]df3 = df[df['labels']==2]# 绘制画布fig = plt.figure(figsize=(9,6))plt.plot(df1[0],df1[1],'bo',df2[0],df2[1],'r*',df3[0],df3[1],'gD')plt.show()
# 5.1 使用轮廓系数法评价K-Means聚类模型 --- 畸变程度from sklearn.metrics import silhouette_scoresilhouetteScore = []for i in range(2,15): # 构建并训练模型 kmeans = KMeans(n_clusters=i,random_state=123).fit(data) score = silhouette_score(data,kmeans.labels_) silhouetteScore.append(score)plt.figure(figsize=(10,6))plt.plot(range(2,15),silhouetteScore,linewidth=1.5,linestyle='-')plt.show()
score是所有样本的轮廓系数均值
,如果要获取每个样本的轮廓系数应当使用silhouette_samples
。这里是针对超参数k(n_cluster)
,所以采用轮廓系数均值进行评估。# 5.2 卡林斯基-哈拉巴斯指数from sklearn.metrics import calinski_harabasz_scorechs = []for i in range(2,15): # 构建聚类模型 kmeans = KMeans(n_clusters=i,random_state=112).fit(data) chsScore = calinski_harabasz_score(data,kmeans.labels_) chs.append(chsScore)plt.figure(figsize=(10, 8))plt.plot(range(2, 15), chs, linewidth=1.5, linestyle='-')plt.show()
n_cluster=3
的时候,FMI评分最高,聚类效果较好。# 5.3 FMI评价法 --- 需要有真实标签from sklearn.metrics import fowlkes_mallows_scorefms = []for i in range(2,15): # 构建聚类模型 kmeans = KMeans(n_clusters=i,random_state=112).fit(data) fmsScore = fowlkes_mallows_score(y,kmeans.labels_) fms.append(fmsScore)plt.figure(figsize=(10, 8))plt.plot(range(2, 15), fms, linewidth=1.5, linestyle='-')plt.show()
n_cluster=3
的时候,FMI评分最高,聚类效果较好。 转载地址:http://cyeq.baihongyu.com/