07. 机器学习入门3 - 了解K-means

茶桁

發佈於茶桁的AI秘籍

更新於 2024/10/08發佈於 2023/10/08閱讀時間約 19 分鐘

Hi，你好。我是茶桁。

我们在机器学习入门已经学习了两节课，分别接触了动态规划，机器学习的背景，特征向量以及梯度下降。

本节课，我们在深入的学习一点其他的知识，我们来看看K-means.

当然，在本节课我们也只是浅尝即止，关于这些内容，后面我们还有更详细的内容等着我们去深入学习。

淘宝的商品问题

上节课的最后，我们学习的内容是梯度下降，在这里不得不再次强调一下，梯度下降是咱们以后非常非常重要的一个内容。

那关于今天要讲的K-means呢，我们还是按照惯例，用一个问题来引入。这个问题也是一个实际问题，并非乱举例。

在淘宝国际上经常会有一些人，基本是境外人员，会从国外出售违禁商品，国家是不许卖的，这些东西会被要求全部下架。

这些人就有一个很聪明的方法，他会更换物品的名字。

比方枪支又叫狗子，或者叫什么野狗。赌博账号叫米科，毒品账号可以叫野狼等等。

我们把这些话称为黑话、黑词。我们在明处、他们在暗处。整个淘宝假设现在就只知道十几个、二十几个人黑话，想屏蔽他们就很难屏蔽。

有人就说，我们可以像拦截垃圾邮件一样，我们可以去做记忆训练。

但是这个时候就有一个情况，你做那个垃圾邮件的时候会发现有很多很多的垃圾邮件可以供你训练，但是在互联网上，这种暗语可能有几千上万，但是在整个淘宝里边，他特别的少，比例特别低，其次经常还会变。也就是我们经常会说到的时效性。

后来人们想了一个这样的方法：

第一步选取部分淘宝的商品描述，第二步将文本向量化，也就是把一个一个的文本给它变成一个一个向量。接下来对文本进行聚类。

之前我们说过，聚类其实没有标准答案。我们就让它聚三类、聚四类、聚五类，可以规定聚多少类。把非常非常多的向量，距离接近的这些向量归为一类。所以对应出来把文本向量化之后，就是把文本接近的词归为同样一类。

然后我们按照已知的暗语定位商品的类别，获得该商品下词汇频率远高于正常词汇分布的单词。

比如我们知道“野狗”这个单词是一个黑词，首先让在淘宝里的这些商品进行自由分类，让文本相似的聚集到一块，然后我们看一下包含了”野狗“这个单词这个商品的那一大类里边哪些单词出现的频率比正常情况下出现的高。

就是说，如果这个人爱说黑话，那么他所说的别的话也更有可能是黑话。

假如说有一些街头帮派的人，他们爱说一些你听不懂的话，那么你听到了一句这样的话就找到了这样的这个人。把这一类人找到，再每天去监听一下他们说了什么话，他们说的有些话的频率其实比正常情况人群说的高，大概率就是黑话。

看这个过程，其实对应了我们上一节说说的，机器学习的基本框架。有观察的部分，有提取特征的部分，还有让机器进行聚类，让他去学习的过程。

这个时候我们又发现，让机器自动去聚类之后我们并没有用那个最终求解出来的f。也就是我们并没有让它去预测新数据，是用老数据，然后让老数据去给它聚类，并没有让这个东西去预测新数据。

其实我说两个非常重要的工程经验。

第一个工程经验是，所谓算法工程师并不是说他记住了多少算法，而是他要能把一个实际问题抽象成一个算法问题。

就比方说淘宝的这个问题，如果没人告诉你的话，你并不知道他是一个聚类问题。另外一些人，就能想到可以用聚类这个方法去解决。这个其实才是最重要的。

我有很多同学，记住了很多但是不会应用，这就不行。

第二个重要的点是在真正的工作中，我们的机器学习方法很多时候是作为整个项目的一部分，单靠机器学习很难解决完整项目。

整个项目它可能很长，有十多步，其中有几步用到了机器学习。而且用到的还是机器学习的中间的一些部分。

假如我们现在选10万个淘宝的商品，对他进行了聚类。其实按照标准的机器学习过程，聚类完成之后得再学些新的商品，让现在这个模型对这些新的去进行分类。

但是我们没有进行这一步，我们把这10万给它分完类，自动聚完类之后就停了，就进行下面的工作了。这就说明机器学习这个完整的步骤完全可以只使用其中的某几个部分，而不是一定要把这个全程跑完。

这就是要做一个算法工程师很重要的点。

K-means

接下来，来看第一个机器学习算法问题。我们把第一个机器学习问题叫做K-means。

如果给出了很多个点，给出了很多个向量。我们拿比较方便看的二维向量举例。

K-means原理很简单，假如有这么些数据。虽然我不知道最终的分类的结果是什么样的，但是可以告诉你我想把这些数据分成几类。

假如现在我要把这个数据分成三类，那么就随机产生3个点。

第一步是随机产生k个点。

第二步，判断其余待分类的点，离我们随机的K点哪一个更近一点。每一个待分类点一定能找到一个离的更近的k点。

然后把每一个分类的里面点再重新求一下它的中间值。

求得了新的中间值之后，把这个新的中间值再做为刚才的k点，让里边的所有的点去选择到底离哪个k最近。

然后再产生一轮新的k，当一轮新的k和上一轮的k的距离很接近的时候，我们就说找到了，这个中心点基本上就不变了。我们把这个方法叫做K-means。

这个means就是平均值的意思，首先有k个点，然后把这个图像里面的所有的点分配到这k个点，找到离k个点里面最近的。然后把这些隶属于每个k点最近的点求平均值，也就是求他的中心点。

求完中心点，这个中心点又变成了新的k值。同样的我们再执行，找离k最近的那些点，再求平均值。

这样一轮一轮的，把k点这样求出来之后，当上一次的k和这一次的k不怎么变的时候，我们就找到了它的中心值，就把它聚类起来。我们就把它叫做K-means。

以上是K-means的原理，接下来，咱们来看一个实际的案例。比如说，咱们想这样一个场景，我们给中国建几个能源中心，给咱们中国的省会设置能源中心。

OK,我们来看一下, 那首先呢，我们需要一组数据。

coordination_source = """
{name:'兰州', geoCoord:[103.73, 36.03]},
...
{name:'澳门', geoCoord:[113.54, 22.19]}
"""

完整数据请查看我源代码Core foundations/07.ipynb，为了篇幅我这里就不放完整的了。

这组数据就是每个省的城市和坐标，我们用正则表达式把这个城市里的名字和数字地址全部找出来。

import re
# 创建变量保存
city_location = {
    '香港': (114.17, 22.28)
}

test_string = "{name:'兰州', geoCoord:[103.73, 36.03]},"

pattern = re.compile(r"name:'(\w+)',\s+geoCoord:\[(\d+.\d+),\s(\d+.\d+)\]")

for line in test_string.split('\n'):
    city_info = pattern.findall(line)
    if not city_info: continue
    
    # following: we find the city info
    
    city, long, lat = city_info[0]
    
    long, lat = float(long), float(lat)
    
    city_location[city] = (long, lat)

city_location

---
{'香港': (114.17, 22.28), '兰州': (103.73, 36.03)}

测试字段证明我们这一段正则生效了，现在可以将内容替换成我们之前写的数据变量：

for line in test_string.split('\n'):
    ...

city_location

---
{'香港': (114.17, 22.28),
...
 '澳门': (113.54, 22.19)}

找出来之后, 就可以求距离了。但是我们需要注意一下，就是城市之间是有一个球面距离，就是在球面同样都是那个纬度，东经60度和东经45度，在北纬的这个位置不一样的时候距离差的是挺大的。最极限的时候在两极是0，最宽的是在赤道上，就会很大。所以有一个专门求经纬度距离的式子，就是经纬度在实际中球面距离的一个式子。

除此之外，还有一些距离公式，比方说余弦距离(Cosine Distance)、欧几里德距离(Euclidean Distance)、曼哈顿距离(Manhattan distance or Manhattan length):

余弦距离

欧几里德距离

维空间中：维空间中

曼哈顿距离

上图中红线代表曼哈顿距离，绿色代表欧氏距离，也就是直线距离，而蓝色和黄色代表等价的曼哈顿距离。曼哈顿距离——两点在南北方向上的距离加上在东西方向上的距离。

这些都是不同的求距离的方法。就之前给大家说过，我们可以把对象变成向量，向量要求解距离方法不仅仅只有一种。就像这里，咱们将会使用地理上的球面距离：

import math

def geo_distance(origin, destination):
    lon1, lat1 = origin
    lon2, lat2 = destination
    radius = 6371  # km

    dlat = math.radians(lat2 - lat1)
    dlon = math.radians(lon2 - lon1)
    a = (math.sin(dlat / 2) * math.sin(dlat / 2) +
         math.cos(math.radians(lat1)) * math.cos(math.radians(lat2)) *
         math.sin(dlon / 2) * math.sin(dlon / 2))
    c = 2 * math.atan2(math.sqrt(a), math.sqrt(1 - a))
    d = radius * c

    return d

这里，咱们涉及到了几个参数，一个是origin, 一个是destination，我们是要求这两个参数的距离。都是经度、纬度，类型为tuple of float。然后我们返回一个float。

比如慕尼黑到柏林的例子：

>>> origin = (48.1372, 11.5756)  # Munich
>>> destination = (52.5186, 13.4083)  # Berlin
>>> round(distance(origin, destination), 1)
504.2

city_location就是每一个城市的位置，我们就可以通过第三方库networkx画出来。

不过这里我们需要注意一点，就是如果是现实中文，我们还需要做一项工作，否则会出现乱码：

# 正常显示中文
from pylab import mpl

mpl.rcParams['font.sans-serif'] = ['SimHei'] # 默认字体
mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像负号'-'显示为方块的问题

然后我们来将图画出来：

import networkx as nx

%matplotlib inline

city_graph = nx.Graph()
city_graph.add_nodes_from(list(city_location.keys()))
nx.draw(city_graph, city_location, with_labels=True, node_size=30)

看，一个“公鸡”的骨架是不是就出现在图上了？

接下来，咱们就需要实现K-means的部分了。

我们需要将经纬度分别放在x,y里面:

all_x = []
all_y = []

for _, location in city_location.items():
    x, y = location
    all_x.append(x)
    all_y.append(y)

然后我们随机找了k个center:

def get_random_center(all_x, all_y):
    r_x = random.uniform(min(all_x), max(all_x))
    r_y = random.uniform(min(all_y), max(all_y))
    
    return r_x, r_y

get_random_center(all_x, all_y)

K = 5
centers = {'{}'.format(i+1): get_random_center(all_x, all_y) for i in range(K)}

all_x和all_y是刚刚所有的这些城市的经纬度，让这些城市的经纬度来和每个k去求距离,现在是让所有的x,y去一个一个和k去做对比，找到离它最近的k。

closet_points = defaultdict(list)

for x, y, in zip(all_x, all_y):
    closet_c, closet_dis = min([(k, geo_distance((x, y), centers[k])) for k in centers], key=lambda t: t[1])    
    
    closet_points[closet_c].append([x, y])

找到了k之后, 我们在所有的图上找到了离k最近的这些点, 然后再求一个means，在离k最近的这些点中求出新的平均值。

def iterate_once(centers, closet_points, threshold=5):
    have_changed = False
    
    for c in closet_points:
        former_center = centers[c]

        neighbors = closet_points[c]

        neighbors_center = np.mean(neighbors, axis=0)

        if geo_distance(neighbors_center, former_center) > threshold:
            centers[c] = neighbors_center
            have_changed = True
        else:
            pass ## keep former center
        
    return centers, have_changed

如果新的中心点和原有的中心点距离大于一个阈值，就把这个central改成新的值，否则就不改变它。

然后不断的去监测它，不断的去根据已知的这个k来求解。离每个k最近的这些点，找到这些最近的点，就求解出来新的means的center，就是平均的center。当我们发现这个center没有改变的时候就停了。

def kmeans(Xs, k, threshold=5):
    all_x = Xs[:, 0]
    all_y = Xs[:, 1]
    
    K = k
    
    centers = {'{}'.format(i+1): get_random_center(all_x, all_y) for i in range(K)}
    
    changed = True
    
    while changed:
        closet_points = defaultdict(list)

        for x, y, in zip(all_x, all_y):
            closet_c, closet_dis = min([(k, geo_distance((x, y), centers[k])) for k in centers], key=lambda t: t[1])    
            closet_points[closet_c].append([x, y])   
            
        centers, changed = iterate_once(centers, closet_points, threshold)
        print('iteration')

    return centers

然后我们就可以得出来我们的K-means迭代出来的情况:

kmeans(np.array(list(city_location.values())), k=5, threshold=5)

---
iteration
iteration
iteration
iteration
iteration
iteration

{'1': array([118.14307692,  37.97923077]),
 '2': array([115.528,  25.643]),
 '3': array([106.22      ,  28.16333333]),
 '4': array([99.518, 38.86 ]),
 '5': array([91.11, 29.97])}

我们可以将这些点画出图来，得到五个能源中心的地点：

plt.scatter(all_x, all_y)
plt.scatter(*zip(*centers.values()))

在内蒙有一个, 东南沿海有一个, 重庆有一个，西藏有一个。

感觉咱们这个迭代的次数应该是还不够，如果迭代次数再多一些，能源站应该会放到珠三角这个地方。

这段代码再运行的时间长一点，几个能源中心基本上它会自然而然的变到京津冀江浙沪，还有珠三角和成都重庆这些地方，可能还会有一个在嘉峪关和乌鲁木齐这个地方。

咱们会发现国家的经济中心的形成，其实是有很强的地理关系，非常的神奇。

我们这段代码是咱们从头到尾的把原理实现了一遍, 其实是我们手写的一个K-means。这样的话，大家就对这个原理就了解多了。当你以后要用到它或者要用它一部分的时候才能知道它的用途。

其实K-means也是有一个最大的缺点的，就是最终计算出来的结果会受到初始选取中心的影响。当然，除此之外还有一个缺点，就是它的计算时间复杂度比较高。

尤其是当每次图形越变化越大的时候，就是越斜越细长就会有越受影响，可以设定一个同样的random seed。

这个代码，大家之后一定要自己去敲，去运行。这样就会更加彻底，比绝大多数人更加理解。本节课的相关代码可以去课程仓库中去找，课程的相关问题可以留言提问（不负责免费解答其他无关问题）。

好，那我们机器学习的入门部分，也就随着本节课结束了。下节课开始的很长一段时间之内，咱们可以慢慢的来消化机器学习的相关知识点。

茶桁的沙龍茶桁的AI秘籍核心能力 - 基础

留言

留言分享你的想法！

茶桁的沙龍

9會員

62內容數

从基础开始，再到Python，然后是CV、BI、NLP等相关技术。从头到尾详细的教授一边人工智能。

茶桁的沙龍的其他內容

2023/10/07

06. 机器学习入门2 - 理解特征和向量

Hi, 你好。我是茶桁。上一节课，咱们用一个案例引入了机器学习的话题，并跟大家讲了一下「动态规划」。那这节课，我们要真正进入机器学习。机器学习初探在正式开始之前，我们来想这样一个问题：我为什么要先讲解「动态规划」，然后再引入机器学习呢？原因其实是这样：曾经有一度时间，差不多一

2023/10/07

06. 机器学习入门2 - 理解特征和向量

2023/10/02

05. 机器学习入门 - 动态规划

从一个案例开始动态规划 Hi, 你好。我是茶桁。咱们之前的课程就给大家讲了什么是人工智能，也说了每个人的定义都不太一样。关于人工智能的不同观点和方法，其实是一个很复杂的领域，我们无法用一个或者两个概念确定什么是人工智能，无法具体化。我也是要给大家讲两个重要的概念，要成为一个良好

2023/10/02

05. 机器学习入门 - 动态规划

2023/09/29

04. 人工智能核心基础 - 导论（3）

Hi，你好。我是茶桁。基于上一节课咱们的整体强度有点大，而且咱们马上也要进入高强度内容了，那么这一篇咱们就稍微水一篇吧。来聊聊天，讲讲学习人工智能的一些事项。人工智能和其他学科的关系经常有同学会问我：人工智能和其他学科有什么关系？有什么区别？有人说人工智能就是博弈论、梯度下降，人

2023/09/29

04. 人工智能核心基础 - 导论（3）

看更多

你可能也想看

渡狼／DL

蝦皮開箱｜TOMICA 吉伊卡哇烏薩奇兔兔小車

TOMICA第一波推出吉伊卡哇聯名小車車的時候馬上就被搶購一空，一直很扼腕當時沒有趕緊入手。前陣子閒來無事逛蝦皮，突然發現幾家商場都又開始重新上架，價格也都回到正常水準，估計是官方又再補了一批貨，想都沒想就立刻下單！同文也跟大家分享近期蝦皮購物紀錄、好用推薦、蝦皮分潤計畫的聯盟行銷！

#吉伊卡哇#開箱#蝦皮分潤計畫

2025/05/13

渡狼／DL

蝦皮開箱｜TOMICA 吉伊卡哇烏薩奇兔兔小車

#吉伊卡哇#開箱#蝦皮分潤計畫

2025/05/13

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

每年4月、5月都是最多稅要繳的月份，當然大部份的人都是有機會繳到「綜合所得稅」，只是相當相當多人還不知道，原來繳給政府的稅！可以透過一些有活動的銀行信用卡或電子支付來繳，從繳費中賺一點點小確幸！就是賺個１%~2%大家也是很開心的，因為你們把沒回饋變成有回饋，就是用卡的最高境界所得稅線上申報

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

茶桁的沙龍

07. 机器学习入门3 - 了解K-means

Hi，你好。我是茶桁。我们在机器学习入门已经学习了两节课，分别接触了动态规划，机器学习的背景，特征向量以及梯度下降。本节课，我们在深入的学习一点其他的知识，我们来看看K-means. 当然，在本节课我们也只是浅尝即止，关于这些内容，后面我们还有更详细的内容等着我们去深入学习。

#人工智能#AI#核心基础

2023/10/08

茶桁的沙龍

07. 机器学习入门3 - 了解K-means

#人工智能#AI#核心基础

2023/10/08

茶桁的沙龍

06. 机器学习入门2 - 理解特征和向量

#人工智能#AI#核心基础

2023/10/07

茶桁的沙龍

06. 机器学习入门2 - 理解特征和向量

2023/10/07

2023/10/02

2023/10/02

大家好，我是茶桁。最近事情太多，这一节课更新的有些晚了。首先我们先了解一下我们本节课讲要讲一些什么，我们之前介绍过 llama-index 和 LangChain，学习了将大语言模型和自己的知识库组合来解决问题的方法。这个方法中，我们不需要调整我们使用的模型，而是使用嵌入向量索引我们的数据，

2023/07/31

2023/07/31

本文深入探討機器學習的核心概念，包括迴歸、分類和生成式學習。我們解釋了如何使用特定函式來實現期望任務，並將此過程分為設定範圍、確立標準和實現目標三個階段。文章還介紹了如何使用機器學習來訓練和測試模型，並以寶可夢應用為例說明迴歸和分類問題。

2023/06/02

2023/06/02

【自然語言處理 — 概念篇】最基礎的Bag-of-Words模型是什麼呢？

常常我們在進行NLP討論時，不管哪一種NLP任務都會偶爾聽到BOW這個詞，原來全名就是「Bag-of-words」由名稱就可以知道這是在處理NLP任務之前的基礎工事，將一整篇文章切碎成一段語句，甚至是最小單位的「詞」，而這些詞又如何表述關係或者進一步的使用，試圖讓機器可以理解我們人類的詞語，就是基於

#AI#python#NLP

2023/05/26

阿Han的沙龍

【自然語言處理 — 概念篇】最基礎的Bag-of-Words模型是什麼呢？

#AI#python#NLP

2023/05/26

小譯者的日常

語言學家如何看待「翻譯將被人工智慧取代」這件事？（下篇）

在教機器學習語言之前，必須先釐清什麼是語言知識。用車子來譬喻。會開車的人未必懂得汽車的原理架構，會講中文的人也未必懂得漢語語法。我相信很多人在學外語之前，都不覺得中文也有語法吧？兒童學習母語的方式是用外在經驗灌溉基因裡的語言種籽，和成人之後學習外語是兩回事。所以從這一點來看，機器學習語言就有共通之處

#翻譯#人工智慧#語言學

2020/07/14

小譯者的日常

語言學家如何看待「翻譯將被人工智慧取代」這件事？（下篇）

#翻譯#人工智慧#語言學

2020/07/14

自營家的沙龍

人工智慧AI以行銷目的為多

十幾年前還在上班累積操作資金的時候(沒辦法! 沒有富爸爸), 從事的是資料科學(data science)相關, 也是Oracle ERP的data architect, 並受過SAP Data Warehousing 模組的訓練

2020/01/02

2020/01/02

我相信不論是因為工作、實習或是學習的過程中，我們的思維模式都會不斷的變化，而實際中我認為需要具備的幾種思維模式為以下幾種: E 1.分類思維(具有數據的情況下) 其實往往我們已經具備這一種思維模式，畢竟工作上我們會將客戶分群、產品歸類、市場分級，也會有所謂的績效評價...許多事情其實都

2019/06/30

2019/06/30

[探索] 門外漢的強化學習指南：A2CS 學習模型中的探索和竭盡難題

本文接續上篇直覺式強化學習教學，著重於解釋強化學習中常見的探索和竭盡難題，以及如何利用不同的方法來進行策略函式的學習，並與策略梯度做比較。同時，介紹 A2CS 所使用的損失函式，以及應用這個損失函示於深度學習時會遇到的訓練難題。最後，總結強化學習和深度學習的未來方向，以及本系列文章所企圖達到的目標。

#人工智慧#強化學習#直覺式教學

2018/06/30

Rene Wang的沙龍

[探索] 門外漢的強化學習指南：A2CS 學習模型中的探索和竭盡難題

#人工智慧#強化學習#直覺式教學

2018/06/30

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News