人工智能简介:群集或分段

点击打开微信,马上办理ETC

聚类是将对象组织成其成员在某种程度上相似的组的过程。然而,客户细分是将客户群划分为与营销相关的特定方式相似的个人群体的实践,例如年龄,性别,兴趣,消费习惯等。客户细分或群集在很多方面都很有用。它可以用于有针对性的营销。有时,在构建预测模型时,集群数据并为每个集群构建单独的预测模型是相当有效的。

聚类是一种无向数据挖掘技术。这意味着它可用于识别数据中隐藏的模式和结构,而无需制定特定的假设。群集中没有目标变量。例如,杂货零售商在分析开始时没有积极尝试识别新鲜食品爱好者。它只是试图了解其客户群的不同购买行为。

执行聚类以识别关于精确行为或维度的相似性。例如,我们希望识别具有类似购买行为的客户群。因此,使用代表客户购买模式的变量来执行聚类。

聚类分析可用于发现数据中的结构,而无需提供解释或解释。聚类分析只是发现数据中的模式而不解释它们存在的原因。由此产生的集群本身就没有意义。他们需要进行广泛的分析,以建立自己的身份,即了解他们所代表的内容以及他们与父母群体的不同之处。

群集主要用于执行细分,无论是客户,产品还是商店。例如,产品可以根据其使用,大小,品牌,味道等属性聚集在一起成为分层组。具有类似特征的商店销售,规模,客户群等可以聚集在一起。

聚类过程可以是分层的,其中聚类的特征在于层次结构或树状结构的发展。

 

      
凝聚聚类从单独聚类中的每个对象开始,通过将对象分组为越来越大的聚类来形成聚类。

      
另一方面,分裂聚类从分组到单个聚类中的所有对象开始,然后对聚类进行划分或拆分,直到每个对象位于单独的聚类中。

      
K表示聚类是非分层聚类,是首先分配或确定聚类中心,然后将预先指定的阈值内的所有对象组合在一起从中心进行分组的过程。

确定簇的数量基于理论或实际考虑。在分层聚类中,组合聚类的距离可以用作标准。在非分层聚类中,可以将组间方差内的总数与组方差之间的比率相对于聚类的数量进行绘制。

解释和分析群集涉及检查群集质心。质心表示每个变量上集群中包含的对象的平均值。可以为质心分配名称或标签。为了评估可靠性和有效性,必须使用不同的距离测量对相同的数据进行聚类分析,并比较结果以确定解的稳定性。将数据随机分成两半并在每一半上分别执行聚类,并在两个子样本之间比较聚类质心是我最喜欢的方法之一。在分层聚类中,解决方案可能取决于数据集中的案例顺序。为了获得最佳结果,请使用不同的案例顺序进行多次运行,直到解决方案稳定为止。

聚类还可以用于异常检测,例如,识别欺诈交易。群集检测方法可用于仅包含有效事务的样本,以确定正常群集的形状和大小。当出于任何原因出现在集群之外的事务时,它是可疑的。该方法已经在医学中用于检测组织样本中的异常细胞的存在,并且在电信中用于检测指示欺诈的呼叫模式。

聚类通常用于将大量数据分成更小的组,这些组更适合其他技术。例如,逻辑回归结果可以通过在行为不同的较小集群上单独执行来改进,并且可以遵循略微不同的分布。

总之,聚类是一种探索数据中模式结构的强大技术,在业务分析中具有广泛的应用。有各种聚类方法。分析师应该熟悉多种群集算法,并且应该能够根据业务需求应用最相关的技术。


 

点击打开微信,马上办理ETC

发表评论