0%

认识数据

认识数据

数据对象和属性类型

数据对象

数据集由数据对象构成,一个数据对象代表一个实体。由称为样本、示例、事例、数据点、对象、元组等等

数据对象由属性来描述

属性

属性(Attribute)或维度,特征,变量

标称属性或名词性属性(Nominal attribute)

属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性有被看做是分类

属性的值不必具有有意义的序,因此是无序的,或是枚举的

属性的值没有数学运算的意义,即均值、中位数等没有意义

例如:婚姻状态={单身、结婚、离异、丧偶}

二元属性(Binary attribute)

布尔属性的名词性属性:只有两个状态名词性属性

  • 对称二元(Symmetric binary)

    同等重要的两种状态(例如:性别)

  • 非对称(Asymmetric binary)

    非同等重要的两种状态(例如:医疗检查中的阴性和阳性)

序数属性(Ordinal attribute)

属性值之间具有有意义的序或级别(Ranking),但相继值之间的差是未知的

例如:drink_size:大、中、小, grade:A+, A, A-, B+等等

对于记录不能客观度量的主观质量评估,使用序数属性,如等级评定调查,顾客满意度

**数值属性的离散化:将某种属性的数值量划分成有限个有序类别,标称、二元和序数属性都是定性的,**他们描述数据对象的特征,而不给出实际的大小或数量,是一种代表类别的词

数值属性(Numeric attribute)

是定量的,是可度量的两,用整数或实数值表示。分为区间标度或比率标度

  • 区间(interval-scaled)
    • 用相等的单位尺度度量
    • 属性值有序,可以为正、零、负
    • 没有真正的零点,无法计算倍数
    • 例如:摄氏度
  • 比率标度属性(Ratio-scaled)
    • 有真正的零点,被测量单位一个数量级
    • 开尔文温度,长度,计数,货币的数量等等

离散属性与连续属性

离散属性(Discrete Attribute)
  • 一个有限的或可数无限集值
  • 有时,表示为整数变量
  • 注:二元属性是离散属性的一个特殊情况
连续属性(Continuous Attribute)
  • 属性值为实数
  • 实际上,实值只能使用有限位数进行测量和代表
  • 连续属性通常表示为浮点变量

数据的基本统计描述

基本统计描述可以用来识别数据的性质,凸显那些数据值应该视为噪声或离群点;选择何种适用的数据挖掘算法等等

数据描述

数据的计量尺度

按照对事物计量的准确程度,可将所采用的计量尺度由低级到高级分为四个层次

  • 定类尺度

    • 按照事物的某种属性对其进行平行的分类或分组,计量层次最低,各类别可以指定数字代码表示,具有==\neq的数学特性,数据表现为“类别”

    • 只测度了事物之间的类别差,而对各类之间的其他差别却无法从中得知,因此,各类地位相同,顺序可以任意改变

    • 对定类尺度的计量结果,可以且只能计算每一类别中个元素出现的频数

    • 对事物进行分类时,必须符合穷尽和互斥的要求

  • 定序尺度

    • 对事物之间等级或顺序差别的一种测度。比定类尺度精确

    • 不仅可以测度类别差(分类),还可以测度次序差(比较优劣或排序)。数据表现为“类别”,但有序

    • 无法测出类别之间的准确差值。该尺度的计量结果只能排序,不能进行算数运算,具有<<>>的数学特性

  • 定距尺度(间隔尺度)

    • 是对事物类别或次序之间间距的测度(例如:100分制考试成绩)

    • 不仅能将事物区分为不同类型并进行排序,而且可准确指出类别之间的差距是多少

    • 比定序尺度精确。定距尺度通常以自然或物理单位为几辆尺度,因此数据表现为“数值”

    • 没有绝对零点,“0”是测量尺度上的一个测量点,并不代表“没有”

    • 计量结果可以进行加减运算,具有++-的数学特性

  • 定比尺度(比率尺度)

    • 是能够计算两个测度值之间比值的一种计量方式。(例如:职工月收入,企业产值等等)

    • 与定距尺度属于同一层次,计量结果也表现为数值,除了具有其他三种计量尺度的全部特点之外,还具有可计算两个测度值之间比值的特点

    • “0”表示没有,即它有一固定的绝对“零点”,因此它可以进行加、减、乘、除运算(而定距尺度只可进行加减运算)

数据分布特征的描述

数据分布的特征

1574741746381

中心趋势度量

定类数据:众数

定序数据:中位数和四分位数

定距和定比数据:平均数(均值)

集中趋势

一组数据向其中心支靠拢的倾向和程度

测度集中趋势就是寻找数据一般水平的代表值或中心值

不同类型的数据用不同的集中趋势测度值

低层次数据的集中趋势测度值适用于高层次的测量数据,翻过来高层次的集中趋势测度值并不适用于低层次的测量数据

定类数据:众数

不受极端值的影响,可能没有众数或有几个众数

定序数据:中位数

不受极端值的影响。主要用于定序数据,也可用于数值型数据,但不能用于定类数据

各变量值与中位数的离差绝对值之和最小,即i=1nxiMe\sum_{i=1}^n|x_i-M_e|最小

中位数的位置:N+12\frac {N+1} {2}

M_e=\begin{cases} X_{(\frac{N+1} {2}) }, &\mbox{if }N \mbox{ is odd} \\ \frac{1}{2}(X_{(\frac{N}{2})}+X_{(\frac{N}{2}+1)}), & \mbox{if} N \mbox{ is even} \end{cases}

定序数据:四分位数

排序后处于25%和75%位置上的值,不受极端值的影响,主要用于定序数据,也可用于数值型数据,但不能用于定类数据

数据散布度量:极差、四分位数、方差、标准差和四分位数极差

数据的基本统计描述的图形显示

数值型数据:平均数

集中趋势的最常用测度值,易受极端值的影响,根据总体数据计算的,称为平均数,记为μ\mu,根据样本数据计算的,称为样本平均数,记为xˉ\bar x

简单平均数,加权平均数

平均数的数学性质
  • 各变量值与平均值的离差之和等于零:i=1n(xixˉ=0)\sum_{i=1}^n(x_i-\bar{x}=0)
  • 各变量值与平均值的离差平方和最小:i=1n(xixˉ)2=min\sum_{i=1}^n(x_i-\bar{x})^2=min
几何平均数

n个变量值乘积的n次方根,适用于对比率数据的平均,主要用于计算平均增长率,计算公式为:

Gm=x1×x2×...×xnn=i=1n(xi)nG_m=\sqrt[n]{x_1 \times x_2 \times...\times x_n}=\sqrt[n]{\prod_{i=1}^n(x_i)}

可以看作是平均数的一种变形

lg(Gm)=1n(lgx1+lgx2+...+lgxn)=i=1nlgxin\lg(G_m)=\frac{1}{n}(\lg{x_1}+\lg{x_2}+...+\lg{x_n})=\frac {\sum_{i=1}^n\lg{x_i}} {n}

众数、平均数和中位数的关系

1574743466822

均值往哪里偏就是什么偏分布

离中趋势/离散趋势

离中趋势的各测度值是对数据离散程度所做的描述,反应各变量值原理其中心值的程度,因此也称为离中趋势。从另一个侧面说明了集中趋势测度值的代表程度,不同类型的数据有不同的离散程度测度值

离中/离散程度的度量

定类数据:异众比率

非众数组的频数占总频数的比例,用于衡量众数的代表性

vr=fifmfi=1fmfiv_r=\frac{\sum f_i-f_m}{\sum f_i} = 1 - \frac{f_m}{\sum f_i}

定序数据:四分位差

也称为内聚或四分位距,上四分位数与下四分位数Qd=DUQLQ_d=D_U-Q_L,反映了中间50%数据的离散程度,不受极端值的影响,用于衡量中位数的代表性

数值型数据:极差(range)

一组数据的最大值与最小值之差,离散程度的最简单测度值,易受极端值影响,未考虑数据的分布R=max(xi)min(xi)R=max(x_i)-min(x_i)

数据数值型数据:平均差(mean deviation)

各变量值与其平均数离差绝对值的平均数,能全面反映一组数据的离散程度,数学性质较差,实际中应用较少

未分组数据 Md=i=1nxixˉnM_d=\frac{\sum_{i=1}^{n} |x_i-\bar{x}|}{n}

组距分组数据 Md=i=1kMixˉfinM_d=\frac{\sum_{i=1}^k|M_i-\bar{x}|f_i}{n}

方差和标准差(variance and standard deviation)

数据离散程度的最常用测度值,反映了各变量值与均值的平均差异

方差:各变量值与其平均数离差平方的平均数

标准差:方差的平方根(总体方差/标准差(根据总体数据计算的) 或者 样本方差/标准差(根据样本数据计算的))

相对位置的度量:标准分数(standard score)

也称为标准化值,对某一个值在一组数据中相对位置的度量,也用于判断一组数据中是否有离群点,用于对标量的标准化处理

xi=xixˉSx_i=\frac{x_i-\bar{x}}{S}

标准分数的性质
  • 均值等于0 zˉ=zin=1n(xixˉ)S=1n0S=0\bar{z}=\frac{\sum z_i}{n} = \frac{1}{n} \frac{\sum(x_i-\bar{x})}{S}=\frac{1}{n}\cdot \frac{0}{S}=0

  • 方差等于1

    s2=(zizˉ)2n=(zi0)2n=z2n=1n(xIxˉ)2S2=s2s2=1s^2=\frac{\sum(z_i-\bar{z})^2}{n}=\frac{\sum(z_i-0)^2}{n}=\frac{z^2}{n}=\frac{1}{n} \cdot \frac{\sum(x_I-\bar{x})^2}{S^2}=\frac{s^2}{s^2} = 1

标准分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组中的位置,也没有改变该组数据分布的形状,而只是将该组数据变为均值为0,方差为1

1574745476109

经验法则

当一组数据对称分布时:

  • 约有68%的数据在平均数加减1个标准差的范围之内
  • 约有95%的数据在平均数加减2个标准差的范围之内
  • 约有99%的数据在平均数加减3个标准差的范围之内

在三个标准差之外的数据,称为异常值或离群点

切比雪夫不等式

对于任意分布形态的数据,切比雪夫不等式指出:至少有11k21-\frac{1}{k^2}的数据落在kk个标准差之内

  • 至少有75%的数据落在平均数加减2个标准差的范围之内
  • 至少有89%的数据落在平均数加减3个标准差的范围之内
  • 至少有94%的数据落在平均数加减4个标准差的范围之内
相对离散程度:离散系数(coeddicient of variation)比较时用

标准差与其相应的均值之比,对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较

xs=Sxˉx_s=\frac{S}{\bar{x}}

数据的整理与显示

定类数据的整理与显示

定类数据的整理

基本过程:

  • 列出各类别
  • 计算各类别的频数
  • 制作频数分布表
  • 用图形显示数据

主要指标:

  • 频数:落在各类别中的数据个数
  • 比例:某一类别数据占全部数据的比值
  • 比率:不同类别数值的比值
  • 百分比:将对比的基数作为100而计算的比值
定类数据的显示——条形图

用条形图高度来表示个类别数据的频数或频率

绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图

条形图:

1574746192581

柱形图:

1574746204733

对比柱形图:分类变量在不同时间或不同空间上有多个取值,对比分类变量的取值在不同时间或不同空间上的差异或变化趋势

1574746228384

Pareto图:按各类别数据出现的频数多少排序后绘制的柱形图

圆形图/饼图:主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用

1574746354305

定序数据的整理与显示

定序数据的整理

主要指标:

累计频数:将给类别的频数逐级累加

累计频率:将各类别的频率(百分比)逐级累加

1574746475405

定序数据的显示——累计频数分布图

1574746517201

环形图:可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环,可以用于进行比较研究,可用于展示定类和定序的数据(圆形图只能显示一个总体各部分所占的比例)

1574746605998

数值型数据的整理与显示

数值型数据的整理

将原始数据按照某种标准分成不同的组别,称为数据分组

数据分组的方法:

  • 单变量值分组:把每一个变量值作为一组
  • 组距分组:将全部变量值一次划分为若干个区间,并将这一区间的变量值作为一组
    • 分类:等距分组、异距分组
    • 特点:将变量值的一个区间作为一组,适合于连续变量,适合于变量值较多的情况,必须遵守“不重不漏”的原则
    • 步骤:
      • 确定组数,可以按照Sturges提出的经验公式来确定组数K K=1+lg(n)lg(2)K=1+ \frac{\lg{(n)}} {\lg(2)}
      • 确定各组的组距,可根据全部数据的最大值好最小值及所分的组数来确定,即 组距=(最大值-最小值)/ 组数
      • 根据分组整理成频数分布表
    • 组中值:下限与上限之间的中点值,即=+2组中值=\frac{上限值+下限值}{2}
等距分组与异距分组

等距分组:可以直接根据绝对频数来观察频数分布的特征和规律

异距分组:需要用频数密度(频数密度=频数 / 组距)反映频数分布的实际情况

数值型数据的显示

分组数据的显示——直方图

实际上是用矩形的“面积”来表示各组的频数分布,在直角坐标中,用横轴表示数据分组(宽度表示类别,是固定的),纵轴表示频数或频率(长度表示各类别的频数的多少),各组与相应的频数就形成了一个矩形,即直方图,直方图下的面积之和等于1

1574747351035

直方图的各矩形通常是连续排列,条形图则是分开排列

分组数据的显示——折线图

折线图也称为频数多边形图,折线图的两个终点要与横轴相交,具体做法是:

  • 第一个矩形顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴
  • 折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的

1574748670352

原始数据的显示——茎叶图

用于显示未分组的原始数据的分布

由“茎”和“叶”两部分构成,其图形是由数字组成的

以该组数据的高位数值作树茎,低位数字作树叶,对于n(20n300)n(20 \leq n \neq 300)个数据,茎叶图最大行数不超过L=[10×10log10n]L=[10 \times 10\log_{10}n]

类似于直方图,但是直方图只能大体上看出一组数据的分布状况,但没有给出具体的数值

茎叶图既能给出数据的分布状况,又能给出每一个原始数据,保留了原始数据的信息

1574748949760

原始数据的显示——箱线图

箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成

绘制方法:

  • 首先找出一组数据的5个特征值,即最大值、最小是、中位数Me和两个四分位数
  • 连接两个四分位数画出箱子,再将两个极值点与箱子相连接

1574749080067

时间序列数据的显示——线图

线图是在平面坐标上用折线表现数据变化特征的图形,时间一般绘在横轴,指标数据绘在纵轴

1574749176117

多变量的数据表示——雷达图

可用于研究多个样本之间的相似程度

设有n组样本S1,S2,...,SnS_1, S_2, ..., S_n,每个样本测得p个变量X1,X2,...,XpX_1, X_2, ..., X_p,要绘制这P个变量的雷达图,具体做法是:

  • 先做一个圆,然后将圆p等分,得到p个点,令这p个点分别对应p个变量,再将这p个点与圆心连线,得到p个辐射状的半径,这p个半径分别作为p个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示
  • 再将统一样本的值在p个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图

总结

1574749418707

集中常见的频数分布类型

1574749433670

度量数据的相似性和相异性

邻近性(Proximity)是用来表示相似性(Similarity)和相异性(Dissimilarity)的

简单属性的相似度/相异度

1574749568150

数据对象的相异度:欧式距离

欧式距离:d(x,y)=k=1n(xkyk)2d(x, y)=\sqrt{\sum_{k=1}^n(x_k-y_k)^2}

n是维数,而xkx_kyky_k分别是x和y的第k个属性(分量)

闵可夫斯基距离

Minkowski距离是欧式距离的推广:d(x,y)=(k=1nxkykr)1/rd(x, y)=(\sum_{k=1}^n|x_k-y_k|^r)^{1/r}

其中r是参数:

  • r=1,城市街区(也称曼哈顿,出租车,L1范数)距离,他是两个具有二维属性的对象(即两个二元向量之间不同的二进制位个数)

  • r=2,欧几里得距离

  • rr\rightarrow \infty,上确界距离,这是对象属性之间的最大距离,更正式地,最大距离由下列公式定义:

    d(x, y)=\underset{r\rightarrow \infty}\lim(\sum_{k=1}^n|x_k-y_k|^r)^{1/r}

距离的性质:非负性、对称性、三角不等式(d(x,z)d(x,y)+d(y,z)d(x, z) \leq d(x, y)+d(y, z)

非度量的相异度

有些相异度都不满足一个或多个度量性质,例如集合差、时间

数据对象之间的相似度

s(x,y)s(x, y)是数据点x和y之间的相似度

通常,0s(x,y)10 \leq s(x, y) \leq 1, s(x,y)=1,if x=ys(x, y)=1, \text{if x=y}

三角不等式或类似的性质通常不成立

有时,可以将相似度变换成一种度量距离,例如,余弦相似度量,Jaccard相似性度量

简单匹配系数/Jaccard系数

1574750444469

余弦相似度

设x和y是两个向量,则cos(x,y)=xyxycos(x,y)=\frac{x \cdot y}{||x||||y||}

1574750535637

几何解释:cos(x,y)=xxyy=xy\cos(x, y)=\frac{x}{||x||} \cdot \frac{y}{||y||}=x' \cdot y'

其中xx’yy'是长度为1的单位向量

广义Jaccard系数

广义Jaccard系数——Tanimoto系数:EJ(x,y)=xyx2+y2xyEJ(x, y)=\frac{x \cdot y}{||x||^2+||y||^2-x \cdot y}

相关性的度量

对象之间的相关性是对象属性之间线性联系的度量

设x和y是两个向量,标准差sx=1n1k=1n(xkxˉ)2s_x=\sqrt{\frac{1}{n-1} \sum_{k=1}^n (x_k-\bar{x})^2}sy=1n1k=1n(ykyˉ)2s_y=\sqrt{\frac{1}{n-1} \sum_{k=1}^n (y_k-\bar{y})^2}

协方差: sxy=1n1k=1n(xkxˉ)(ykyˉ)s_xy=\frac{1}{n-1} \sum_{k=1}^n (x_k-\bar{x})(y_k-\bar{y})

皮尔森相关系数(Pearson’s correlation)corr(x,y)=sxysxsycorr(x, y)=\frac{s_xy}{s_xs_y}

1corr(x,y)1,corr(x,y)=0-1 \leq corr(x, y) \leq 1, corr(x, y)=0不相关,corr(x,y)=1(1)corr(x, y)=1(-1)正(负)相关

邻近度计算问题

距离度量的标准化和相关性

  • 属性具有不同的值域
    • 问题:距离可能被具有较大值域的属性左右
    • 处理:变换到相同值域
  • 某些属性之间相关
    • 使用Mahalanobis距离, mahalanobis(x,y)=(xy)1(xy)Tmahalanobis(x, y)=(x-y)\sum^{-1}(x-y)^T, 1\sum^{-1}是数据协方差矩阵的逆

1574751272508

组合异种属性的相似度

异种对象的相似度
  • 对于第k个属性,计算相似度sk(x,y)s_k(x, y),在区间[0, 1]中

  • 对于第k个属性,定义一个指示变量δk\delta_k,如下

    • δk=0\delta_k=0,如果第k个属性是非对称属性,并且两个对象在该属性上的值都是0,或者如果一个对象的第k个属性具有遗漏值
    • δk=1\delta_k=1,否则
  • 使用如下公式计算两个对象的总相似度:

    similarity(x,y)=k=1nδksk(x,y))k=1nδksimilarity(x, y)=\frac{\sum_{k=1}^n \delta_k s_k(x, y)}{\sum)_{k=1}^n \delta_k}

加权的相似度:similariy(p,q)=k=1nwkδkskk=1nδksimilariy(p, q)=\frac{\sum_{k=1}^n w_k\delta_ks_k}{\sum_{k=1}^n \delta_k}

加权的闵可夫斯基距离:distance(p,q)=(k=1nwkpkqkr)1/rdistance(p, q)=(\sum_{k=1}^n w_k|p_k-q_k|^r)^{1/r}