认识数据
数据对象和属性类型
数据对象
数据集由数据对象构成,一个数据对象代表一个实体。由称为样本、示例、事例、数据点、对象、元组等等
数据对象由属性来描述
属性
属性(Attribute)或维度,特征,变量
标称属性或名词性属性(Nominal attribute)
属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性有被看做是分类的
属性的值不必具有有意义的序,因此是无序的,或是枚举的
属性的值没有数学运算的意义,即均值、中位数等没有意义
例如:婚姻状态={单身、结婚、离异、丧偶}
二元属性(Binary attribute)
布尔属性的名词性属性:只有两个状态的名词性属性
-
对称二元(Symmetric binary)
同等重要的两种状态(例如:性别)
-
非对称(Asymmetric binary)
非同等重要的两种状态(例如:医疗检查中的阴性和阳性)
序数属性(Ordinal attribute)
属性值之间具有有意义的序或级别(Ranking),但相继值之间的差是未知的
例如:drink_size:大、中、小, grade:A+, A, A-, B+等等
对于记录不能客观度量的主观质量评估,使用序数属性,如等级评定调查,顾客满意度
**数值属性的离散化:将某种属性的数值量划分成有限个有序类别,标称、二元和序数属性都是定性的,**他们描述数据对象的特征,而不给出实际的大小或数量,是一种代表类别的词
数值属性(Numeric attribute)
是定量的,是可度量的两,用整数或实数值表示。分为区间标度或比率标度
- 区间(interval-scaled)
- 用相等的单位尺度度量
- 属性值有序,可以为正、零、负
- 没有真正的零点,无法计算倍数
- 例如:摄氏度
- 比率标度属性(Ratio-scaled)
- 有真正的零点,被测量单位一个数量级
- 开尔文温度,长度,计数,货币的数量等等
离散属性与连续属性
离散属性(Discrete Attribute)
- 一个有限的或可数无限集值
- 有时,表示为整数变量
- 注:二元属性是离散属性的一个特殊情况
连续属性(Continuous Attribute)
- 属性值为实数
- 实际上,实值只能使用有限位数进行测量和代表
- 连续属性通常表示为浮点变量
数据的基本统计描述
基本统计描述可以用来识别数据的性质,凸显那些数据值应该视为噪声或离群点;选择何种适用的数据挖掘算法等等
数据描述
数据的计量尺度
按照对事物计量的准确程度,可将所采用的计量尺度由低级到高级分为四个层次
-
定类尺度
-
按照事物的某种属性对其进行平行的分类或分组,计量层次最低,各类别可以指定数字代码表示,具有或的数学特性,数据表现为“类别”
-
只测度了事物之间的类别差,而对各类之间的其他差别却无法从中得知,因此,各类地位相同,顺序可以任意改变
-
对定类尺度的计量结果,可以且只能计算每一类别中个元素出现的频数
-
对事物进行分类时,必须符合穷尽和互斥的要求
-
-
定序尺度
-
对事物之间等级或顺序差别的一种测度。比定类尺度精确
-
不仅可以测度类别差(分类),还可以测度次序差(比较优劣或排序)。数据表现为“类别”,但有序
-
无法测出类别之间的准确差值。该尺度的计量结果只能排序,不能进行算数运算,具有 或的数学特性
-
-
定距尺度(间隔尺度)
-
是对事物类别或次序之间间距的测度(例如:100分制考试成绩)
-
不仅能将事物区分为不同类型并进行排序,而且可准确指出类别之间的差距是多少
-
比定序尺度精确。定距尺度通常以自然或物理单位为几辆尺度,因此数据表现为“数值”
-
没有绝对零点,“0”是测量尺度上的一个测量点,并不代表“没有”
-
计量结果可以进行加减运算,具有 或 的数学特性
-
-
定比尺度(比率尺度)
-
是能够计算两个测度值之间比值的一种计量方式。(例如:职工月收入,企业产值等等)
-
与定距尺度属于同一层次,计量结果也表现为数值,除了具有其他三种计量尺度的全部特点之外,还具有可计算两个测度值之间比值的特点
-
“0”表示没有,即它有一固定的绝对“零点”,因此它可以进行加、减、乘、除运算(而定距尺度只可进行加减运算)
-
数据分布特征的描述
数据分布的特征
中心趋势度量
定类数据:众数
定序数据:中位数和四分位数
定距和定比数据:平均数(均值)
集中趋势
一组数据向其中心支靠拢的倾向和程度
测度集中趋势就是寻找数据一般水平的代表值或中心值
不同类型的数据用不同的集中趋势测度值
低层次数据的集中趋势测度值适用于高层次的测量数据,翻过来高层次的集中趋势测度值并不适用于低层次的测量数据
定类数据:众数
不受极端值的影响,可能没有众数或有几个众数
定序数据:中位数
不受极端值的影响。主要用于定序数据,也可用于数值型数据,但不能用于定类数据
各变量值与中位数的离差绝对值之和最小,即最小
中位数的位置:
M_e=\begin{cases} X_{(\frac{N+1} {2}) }, &\mbox{if }N \mbox{ is odd} \\ \frac{1}{2}(X_{(\frac{N}{2})}+X_{(\frac{N}{2}+1)}), & \mbox{if} N \mbox{ is even} \end{cases}
定序数据:四分位数
排序后处于25%和75%位置上的值,不受极端值的影响,主要用于定序数据,也可用于数值型数据,但不能用于定类数据
数据散布度量:极差、四分位数、方差、标准差和四分位数极差
数据的基本统计描述的图形显示
数值型数据:平均数
集中趋势的最常用测度值,易受极端值的影响,根据总体数据计算的,称为平均数,记为,根据样本数据计算的,称为样本平均数,记为
简单平均数,加权平均数
平均数的数学性质
- 各变量值与平均值的离差之和等于零:
- 各变量值与平均值的离差平方和最小:
几何平均数
n个变量值乘积的n次方根,适用于对比率数据的平均,主要用于计算平均增长率,计算公式为:
可以看作是平均数的一种变形
众数、平均数和中位数的关系
均值往哪里偏就是什么偏分布
离中趋势/离散趋势
离中趋势的各测度值是对数据离散程度所做的描述,反应各变量值原理其中心值的程度,因此也称为离中趋势。从另一个侧面说明了集中趋势测度值的代表程度,不同类型的数据有不同的离散程度测度值
离中/离散程度的度量
定类数据:异众比率
非众数组的频数占总频数的比例,用于衡量众数的代表性
定序数据:四分位差
也称为内聚或四分位距,上四分位数与下四分位数,反映了中间50%数据的离散程度,不受极端值的影响,用于衡量中位数的代表性
数值型数据:极差(range)
一组数据的最大值与最小值之差,离散程度的最简单测度值,易受极端值影响,未考虑数据的分布,
数据数值型数据:平均差(mean deviation)
各变量值与其平均数离差绝对值的平均数,能全面反映一组数据的离散程度,数学性质较差,实际中应用较少
未分组数据
组距分组数据
方差和标准差(variance and standard deviation)
数据离散程度的最常用测度值,反映了各变量值与均值的平均差异
方差:各变量值与其平均数离差平方的平均数
标准差:方差的平方根(总体方差/标准差(根据总体数据计算的) 或者 样本方差/标准差(根据样本数据计算的))
相对位置的度量:标准分数(standard score)
也称为标准化值,对某一个值在一组数据中相对位置的度量,也用于判断一组数据中是否有离群点,用于对标量的标准化处理
标准分数的性质
-
均值等于0
-
方差等于1
标准分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组中的位置,也没有改变该组数据分布的形状,而只是将该组数据变为均值为0,方差为1
经验法则
当一组数据对称分布时:
- 约有68%的数据在平均数加减1个标准差的范围之内
- 约有95%的数据在平均数加减2个标准差的范围之内
- 约有99%的数据在平均数加减3个标准差的范围之内
在三个标准差之外的数据,称为异常值或离群点
切比雪夫不等式
对于任意分布形态的数据,切比雪夫不等式指出:至少有的数据落在个标准差之内
- 至少有75%的数据落在平均数加减2个标准差的范围之内
- 至少有89%的数据落在平均数加减3个标准差的范围之内
- 至少有94%的数据落在平均数加减4个标准差的范围之内
相对离散程度:离散系数(coeddicient of variation)比较时用
标准差与其相应的均值之比,对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较
数据的整理与显示
定类数据的整理与显示
定类数据的整理
基本过程:
- 列出各类别
- 计算各类别的频数
- 制作频数分布表
- 用图形显示数据
主要指标:
- 频数:落在各类别中的数据个数
- 比例:某一类别数据占全部数据的比值
- 比率:不同类别数值的比值
- 百分比:将对比的基数作为100而计算的比值
定类数据的显示——条形图
用条形图高度来表示个类别数据的频数或频率
绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图
条形图:
柱形图:
对比柱形图:分类变量在不同时间或不同空间上有多个取值,对比分类变量的取值在不同时间或不同空间上的差异或变化趋势
Pareto图:按各类别数据出现的频数多少排序后绘制的柱形图
圆形图/饼图:主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用
定序数据的整理与显示
定序数据的整理
主要指标:
累计频数:将给类别的频数逐级累加
累计频率:将各类别的频率(百分比)逐级累加
定序数据的显示——累计频数分布图
环形图:可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环,可以用于进行比较研究,可用于展示定类和定序的数据(圆形图只能显示一个总体各部分所占的比例)
数值型数据的整理与显示
数值型数据的整理
将原始数据按照某种标准分成不同的组别,称为数据分组
数据分组的方法:
- 单变量值分组:把每一个变量值作为一组
- 组距分组:将全部变量值一次划分为若干个区间,并将这一区间的变量值作为一组
- 分类:等距分组、异距分组
- 特点:将变量值的一个区间作为一组,适合于连续变量,适合于变量值较多的情况,必须遵守“不重不漏”的原则
- 步骤:
- 确定组数,可以按照Sturges提出的经验公式来确定组数K
- 确定各组的组距,可根据全部数据的最大值好最小值及所分的组数来确定,即 组距=(最大值最小值)/ 组数
- 根据分组整理成频数分布表
- 组中值:下限与上限之间的中点值,即
等距分组与异距分组
等距分组:可以直接根据绝对频数来观察频数分布的特征和规律
异距分组:需要用频数密度(频数密度=频数 / 组距)反映频数分布的实际情况
数值型数据的显示
分组数据的显示——直方图
实际上是用矩形的“面积”来表示各组的频数分布,在直角坐标中,用横轴表示数据分组(宽度表示类别,是固定的),纵轴表示频数或频率(长度表示各类别的频数的多少),各组与相应的频数就形成了一个矩形,即直方图,直方图下的面积之和等于1
直方图的各矩形通常是连续排列,条形图则是分开排列
分组数据的显示——折线图
折线图也称为频数多边形图,折线图的两个终点要与横轴相交,具体做法是:
- 第一个矩形顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴
- 折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的
原始数据的显示——茎叶图
用于显示未分组的原始数据的分布
由“茎”和“叶”两部分构成,其图形是由数字组成的
以该组数据的高位数值作树茎,低位数字作树叶,对于个数据,茎叶图最大行数不超过
类似于直方图,但是直方图只能大体上看出一组数据的分布状况,但没有给出具体的数值
茎叶图既能给出数据的分布状况,又能给出每一个原始数据,保留了原始数据的信息
原始数据的显示——箱线图
箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成
绘制方法:
- 首先找出一组数据的5个特征值,即最大值、最小是、中位数Me和两个四分位数
- 连接两个四分位数画出箱子,再将两个极值点与箱子相连接
时间序列数据的显示——线图
线图是在平面坐标上用折线表现数据变化特征的图形,时间一般绘在横轴,指标数据绘在纵轴
多变量的数据表示——雷达图
可用于研究多个样本之间的相似程度
设有n组样本,每个样本测得p个变量,要绘制这P个变量的雷达图,具体做法是:
- 先做一个圆,然后将圆p等分,得到p个点,令这p个点分别对应p个变量,再将这p个点与圆心连线,得到p个辐射状的半径,这p个半径分别作为p个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示
- 再将统一样本的值在p个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图
总结
集中常见的频数分布类型
度量数据的相似性和相异性
邻近性(Proximity)是用来表示相似性(Similarity)和相异性(Dissimilarity)的
简单属性的相似度/相异度
数据对象的相异度:欧式距离
欧式距离:
n是维数,而和分别是x和y的第k个属性(分量)
闵可夫斯基距离
Minkowski距离是欧式距离的推广:
其中r是参数:
-
r=1,城市街区(也称曼哈顿,出租车,L1范数)距离,他是两个具有二维属性的对象(即两个二元向量之间不同的二进制位个数)
-
r=2,欧几里得距离
-
,上确界距离,这是对象属性之间的最大距离,更正式地,最大距离由下列公式定义:
d(x, y)=\underset{r\rightarrow \infty}\lim(\sum_{k=1}^n|x_k-y_k|^r)^{1/r}
距离的性质:非负性、对称性、三角不等式()
非度量的相异度
有些相异度都不满足一个或多个度量性质,例如集合差、时间
数据对象之间的相似度
设是数据点x和y之间的相似度
通常,,
三角不等式或类似的性质通常不成立
有时,可以将相似度变换成一种度量距离,例如,余弦相似度量,Jaccard相似性度量
简单匹配系数/Jaccard系数
余弦相似度
设x和y是两个向量,则
几何解释:
其中 和是长度为1的单位向量
广义Jaccard系数
广义Jaccard系数——Tanimoto系数:
相关性的度量
对象之间的相关性是对象属性之间线性联系的度量
设x和y是两个向量,标准差,
协方差:
皮尔森相关系数(Pearson’s correlation)
不相关,正(负)相关
邻近度计算问题
距离度量的标准化和相关性
- 属性具有不同的值域
- 问题:距离可能被具有较大值域的属性左右
- 处理:变换到相同值域
- 某些属性之间相关
- 使用Mahalanobis距离, , 是数据协方差矩阵的逆
组合异种属性的相似度
异种对象的相似度
-
对于第k个属性,计算相似度,在区间[0, 1]中
-
对于第k个属性,定义一个指示变量,如下
- ,如果第k个属性是非对称属性,并且两个对象在该属性上的值都是0,或者如果一个对象的第k个属性具有遗漏值
- ,否则
-
使用如下公式计算两个对象的总相似度:
加权的相似度:
加权的闵可夫斯基距离: