K-Means算法是最古老也是应用最广泛的聚类算法,它使用质心定义原型,质心是一组点的均值,通常该算法用于n维连续空间中的对象。 K-Means算法流程 step1:选择K个点作为初始质心 step2:repeat 将每个点指派到最近的质心,形成K个簇 重新计算每个簇的质心 until 质心不在变化 例如下图的样本集,初始选择是三个质心比较集中,但是迭代3次之后,质心趋于稳定,并将样本集分为3部分 我们对每一个步骤都进行分析 step1:选择K个点作为初始质心 这一步首先要知道K的值,也就是说K是手动设置的,而不是像EM算法那样自动聚类成n个簇 其次,如何选择初始质心 最简单的方式无异于,随机选取质心了,然后多次运行,取效果最好的那个结果。这个方法,简单但不见得有效,有很大的可能是得到局部最优。 另一种复杂的方式是,随机选取一个质心,然后计算离这个质心最远的样本点,对于每个后继质心都选取已经选取过的质心的最远点。使用这种方式,可以确保质心是随机的,并且是散开的。 step2:repeat 将每个点指派到最近的质心,形成K个簇 重新计算每个簇的质心 until 质心不在变化 如何定义最近的概念,对于欧式空间中的点,可以使用欧式空间,对于文档可以用余弦相似性等等。对于给定的数据,可能适应与多种合适的邻近性度量。
上传时间: 2018-11-27
上传用户:1159474180
介绍了数据科学领域常用的所有重要机器学习算法以及TensorFlow和特征工程等相关内容。涵盖的算法包括线性回归、逻辑回归、支持向量机、朴素贝叶斯、K均值、随机森林等,这些算法可以用于监督学习、非监督学习、强化学习或半监督学习。本书在简明扼要地阐明基本原理的基础上,侧重于介绍如何在Python环境下使用机器学习方法库,并通过大量实例清晰形象的展示了不同场景下机器学习方法的应用。
上传时间: 2021-10-21
上传用户:d1997wayne
matlab数学建模算法全收录 超清书签版
上传时间: 2013-05-15
上传用户:eeworm
视频图像格式转换芯片的算法研究
上传时间: 2013-05-25
上传用户:eeworm
精通:VISUAL C++指纹模式识别系统算法及实现_0
上传时间: 2013-06-01
上传用户:eeworm
VISUAL+C++指纹模式识别系统算法及实现_0
上传时间: 2013-04-15
上传用户:eeworm
VISUAL+C++指纹模式识别系统算法及实现_0
上传时间: 2013-05-29
上传用户:eeworm
Visual_C++数字图像处理典型算法及实现
上传时间: 2013-07-24
上传用户:eeworm
视频图像格式转换芯片的算法研究
上传时间: 2013-04-15
上传用户:eeworm
视频图像格式转换芯片的算法研究 .nh
上传时间: 2013-08-04
上传用户:eeworm