2.1.2 客户需求物元的相似度计算
海明距离与欧式距离
在获得多个客户需求物元后,需要分析这些需求物元之间的差异,将其作为客户需求群细分的依据。通过客户需求物元的聚类划分,使得同一细分群体内的客户需求具有较大相似度,不同客户需求群之间的需求具有一定的差异性。为了对客户需求物元进行相似性度量,需要计算各需求物元之间的距离。由于客户需求物元的特征量值直接描述了客户对产品的量化需求,因此,从各特征量值之间的距离入手,分析可计算需求物元距离的计算方法。
通常,需求物元的特征量值有离散型和区间型两种,特征量之间的距离有点到点、点到区间以及区间到区间三种情况,因此,常用的距离计算方法(如海明距离和欧式距离)不适用于物元特征量值间的距离描述。Liem提出了一种可计算两区间距离的计算公式,具体如下。
假设两区间分别为A=[a1,a2],B=[b1,b2],其中,a1、a2、b1、b2均为实数,则区间A和区间B之间的距离D(A,B)由下式得出:
度量空间理论规定,对于空间集X中的任意两点p、q,其距离函数d(p,q)必须满足以下条件:
(1)如果p≠q,则d(p,q)>0;
(2)如果p=q,则d(p,q)=0;
(3)d(p,q)=d(q,p);
(4)对于任意h∈X,d(p,q)≤d(p,h)+d(h,q)。
显然,式(2-1)不满足条件(2),因此,该计算公式不能作为区间型空间的距离度量函数。为此,定义区间型空间的距离函数如下。
对任意两区间A=[a1,a2],B=[b1,b2],且A∩B=E=[e1,e2],其中,a1、a2、b1、b2、e1、e2均为实数,它们之间的距离D(A,B)由下式得出:
规定,若A∩B=E=∅,则e2-e1=0。
现证明式(2-1)满足距离函数度量条件。
对于条件(1),因为E=A∩B,且A≠B,易得
a2-a1>e2-e1, b2-b1>e2-e1
所以
因此,条件(1)得证。
对于条件(2),因为A=B,所以
a1=b1=e1, a2=b2=e2
可得
D(A,B)=0
因此,条件(2)得证。
对于条件(3),因为
所以
D(A,B)=D(B,A)
因此,条件(3)得证。
对于条件(4),不妨设空间中的任意一点为H=[h1,h2],A∩H=[s1,s2],B∩H=[g1,g2],则
因为A∩H=[s1,s2],所以a2-a1≥s2-s1,且h2-h1≥s2-s1,所以有
同理可得
所以
经化简可得
因为,,又因为h2-h1>(s2-s1)+(g2-g1),所以
则有
将上式化简后得
为便于分析,记
不妨设,则:
若,可得,且,所以有M≥0;
若,可得,且,所以有M≥0;
若,可得,且,所以有M=0。
综上情况,可得M≥0,则有
[D(A,H)+D(H,B)]2-D2(A,B)≥2M≥0
所以D(A,B)≤D(A,H)+D(H,B)。
因此,条件(4)得证。
以上分析过程证明,式(2-1)满足度量空间的距离定义条件,可作为区间距离的度量公式。
此外,由式(2-1)不难看出,当a1=a2=a且b1=b2=b时,D(A,B)=|a-b|,此时为两点之间的距离。当A或B有一个为点值时,D(A,B)为点与区间的距离。
所有客户集为CU={CU1,CU2,…,CUt},其对应的客户需求物元为S={S1,S2,…,St},需求物元的特征集为同类特征RC={r1,r2,…,rn},则客户需求物元的相似度计算步骤具体如下。
步骤1 计算需求特征距离。对任意两需求物元Si、Sj,由式(2-1)可得其相同特征rk的特征距离。
步骤2 规范化特征距离。考虑到不同需求特征量值的量纲和可比性问题,假设所有需求物元关于特征rk的最大特征距离值为,最小特征距离值为,则按照计算公式,对进行规范化处理,得到规范化的特征距离。
步骤3 计算需求物元距离。取需求特征rk的权重系数为μk,且,则两需求物元Si、Sj的物元距离Dij可按如下方法计算:。
步骤4 计算需求物元相似度。任意两需求物元Si、Sj的物元相似度SIij的计算方法为:SIij=1-Dij。