admin 管理员组文章数量: 1184232
2024年4月16日发(作者:简短洋气的英文名女)
数据离散化方法综述
摘要:
数据离散化是一个训练集预处理的方法,用于将连续的数值属性转化为离
散的数值属性。离散数值属性在数据挖掘的过程中具有重要的作用。本文首先介
绍了离散化方法的分类,同时还按照分类介绍几种具有代表性的离散化方法。然
后比较各种离散化方法在特定应用环境下的优势和不足,提出需根据具体应用特
征选取离散化方法。
关键字:
连续属性; 离散属性; 数据离散化
1.概述
数据的特征按照其取值可以分为连续型和离散型。连续型数据也叫定量特征,
通常用间隔的尺度和比例尺度来衡量,其值取自于某个连续的区间,通常具有较
多或者无穷多个可能的取值,例如气温、身高、价格等等。离散型数据也叫定性
特征,一般以名义尺度或者有序尺度定义,其值取自于某个有限的集合当中,如
人的性别只能在{男、女}中取值。此类特征的值域只限定于较少的取值。数据离
散化作为训练集的预处理过程,其输出直接被用作随后进行的数据挖掘算法,如
分类和预测算法的输入。这些算法大多数是针对离散型数据的,对于连续型数据
不适用;有些算法即使能够处理连续型数据,效果也不如处理离散型数据好。在
数据库系统中连续型受占多数,要更好地分析处理这些数据就有必要对这些数据
进行离散化。
离散化的方法有很多,本文第2节介绍离散化方法的分类以及离散化的一般
过程第3节按类别具体介绍几种代表性的离散化方法。第4节提出要根据具体应
用环境选择合适的离散化方法。
2.离散化过程及分类
2.1数值离散化的一般过程
对连续特征进行离散化处理,一般经过以下步骤:(1)对此特征进行排序。
特别是对于大数据集,排序算法的选择要有助于节省时间,提高效率,减少离散
化的整个过程的时间开支及复杂度。(2)选择某个点作为候选点,用所选取的具
体的离散化方法的尺度来衡量候选选点是否满足要求。(3)若候选点满足离散化
的衡量尺度,则对数据集进行分裂或合并,再选择下一个候选点,重复步骤(2)
(3)。(4)当离散算法存在停止准则时,如果满足停止准则,则不再进行离散化
过程,从而得到最终的离散结果。
其中“候选点”指的是一个数值属性取值范围内的值,这个值将属性的取值
范围分为两个部分,其中一个范围中的值小于等于“候选点”的值,另一个范围
中的值大于“分割点”的值。例如,一个连续的区间[a,b]被分割成[a,c]和(c,b],
其中c是分割点。不同的算法根据不同的标准来衡量候选点的优劣,其中一种衡
量候选点优劣程度的标准是根据一个分割或合并与类别标号的关联,如基于熵的
衡量标准和基于统计的衡量标准。“停止准则”指出何时停止离散化过程,它实
质上是一个精确性与易理解性的折中。离散化程度越高,数据的精确性越差,丢
失信息量越大,但是使得离散分类跟容易归纳和理解。离散化程度越低,数据保
有的信息量越大,但是不容归纳出数据与分类的关系和对数据的理解。此外,停
止准则还需要考虑数据不一致性的问题,即两个数据对象所有属性的值都相同,
但是所属类别不同。离散化过程导致的数据不一致性不应该比离散化之前原有数
据的不一致性高。
2.2离散化方法的分类及特点
离散化方法依据不同的需求沿着不同的主线发展至今,目前已存在很多不同
离散化方法的分类体系。不同的分类体系强调离散化方法间的区别的不同方面。
主要的分类体系有有监督的和无监督的、动态的和静态的、全局的和局部的、分
裂式的(从上至下)和合并式的(从下至上)、单变量的和多变量的以及直接的
和增量式的。
根据离散化方法是否在离散化过程当中使用数据集的类别标注信息,离散化
方法可以分为有监督的离散化方法和无监督的离散化方法。其中无监督的离散化
方法在离散化过程当中无需使用类别信息,这类方法的典型代表是分箱方法,包
括等宽度分箱和等频率分箱。分箱方法使用箱均值或箱中位数替换箱中的每一个
值来将数据离散化。实际应用中,分箱方法效果不佳,特别是当数值数据分布不
均匀的时候。有监督的离散化方法在离散化过程当中需要使用类别信息。以前的
研究表明,有监督的方法比无监督的方法效果要好。
离散化方法也常以动态或静态的分类方法来区分。动态的离散化方法就是在
建立分类模型的同时对连续特征进行离散化,如分类算法C4.5。静态的离散化
方法就是在进行分类之前完成离散化处理。
根据离散化过程是否是针对整个训练数据空间的,离散化方法又可分为全局
的和局部的。全局的离散化方法使用所有的实例,而局部的离散化方法只是用一
部分的实例。
离散化方法还可分为从上至下的和从下至上的,也可称为分裂式的和合并式
的。分裂的离散化方法起始的分裂点列表是空的,通过离散化过程逐渐往列表中
加入分裂点,而合并的离散化方法则是将所有的连续值都看作可能的分裂点,再
逐渐合并相邻区域的值形成区间。
单变量的离散化方法是指一次只对数据集的一个特征进行离散化,而多变量
的离散化是同时考虑数据集的多个特征及其相互关联关系进行离散化,需要考虑
更多的因素,算法更加复杂。
另外一种离散化方法的分类是直接式的和增量式的。直接式的离散化方法就
是根据额外给定的参数(离散化所需得到的区间数等)一次性形成所有的分裂点,
而增量式的离散化方法是根据某个准则逐渐的将离散化结果进行改进,直到满足
准则的停止条件为止。
2.3离散化结果的评价
不同的离散化方法会产生不同的离散化结果。优良的离散化,应使划分尽可
能简约,又尽可能多的保留由样本数据代表的对象的固有特性。
离散化结果的好坏可以从以下几方面来考虑:(1)区间的个数。这也是对模型
简洁性的要求。理论上来说,离散得到的区间数越少越好,便于理解,但区间数
的减少另一方面也会导致数据的可理解性变差; (2) 离散化所导致的不一致性。
离散化之后数据的不一致性不能比离散化之前更高。这一点是对模型一致性的要
求。(3)预测准确性。即对模型准确性的要求。这一点通常通过交叉检验模式
建立分类树来衡量。
3.常用的离散化方法
3.1 基于熵的离散化方法
3.1.1基于熵的一般化方法
熵(Entropy)是最常用的离散化度量之一。基于熵的离散化是一种监督的、自
顶向下的分裂技术。它在计算和确定分裂点时利用分布信息。例如,为了离散化
属性A,该方法选择A的具有最小熵的值作为分裂点,并递归地划分结果区间,
得到分层离散化。这种离散化形成A的概念分层。
设D由属性集和类标号属性定义的数据元组组成。类标号属性提供每个元组
的类信息。该集合中属性A的基于熵的离散化基本方法如下:A的每个值都可
以看作一个划分A的值域的潜在的区间边界或分裂点(记作split_point)。也就
是说,A的分裂点可以将D中的元组划分成分别满足条件A≦split_point和A≥
split_point的两个子集,这样就创建了一个二元离散化。选择分裂点对数据集进
行划分的目的是为了将数据更清晰地分类。理想的状态下,我们希望每一个分类
中的元组所属类别尽可能地少,即分类后各类中的元组的类别尽可能地一致,也
就是说在属性A上按照split_point划分D后为了得到完全的分类所需要的信息
越少。为了度量某一划分之后得到完全的分类还需要信息,引入期望信息需求的
概念,期望信息需求由下式给出:
|
版权声明:本文标题:数值数据离散化 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1713238929a625417.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
更多相关文章
移动硬盘不再担忧!揭秘简单加密步骤,保护个人数据
在工作中,我们经常需要使用移动硬盘来保存重要数据,但是这样却不能保护重要数据的安全。所以,我们可以使用加密来保护移动硬盘。那么,移动硬盘要怎么加密呢?U盘超级加密3000 U盘超级加密3000是一款
解锁32位与64位操作系统的幕后知识:如何选择适合你的系统
64位系统和32位系统的区别:操作系统只是硬件和应用软件中间的一个平台 32位操作系统针对的32位的CPU设计 64位操作系统针对的64位的CPU设计 我们的CPU从原来的8位,16位,
NRG文件不再难:Flash开发者指南与实战技巧
NRG 文件是光盘映像文件的一种,通常用于存储光盘的完整副本,包括数据、文件系统和光盘的结构。在本文中,我将向您介绍如何打开和编程处理 NRG 文件。 要处理 NRG 文件,您可以使用开源的工具或库来读取和提取其中的数据。下面
IE主页被SWF破坏?恢复教程,快来看看!
假如你的首页被修改后是1.打开internet属性,把首页改回。2.右键点击快速启动栏上的IE图标,选择 属性,将"C:Program FilesInternet Exploreriexplore.e
安静!500错误,Adobe Flash Player在幕后悄悄闹别扭!
网页无法显示 您要访问的网页存在问题,因此无法显示。 ---------------------------------------------请尝试下列操作: 打开
在Adobe Flash Player内,500错误是通往Flash中心的障碍
网页无法显示 您要访问的网页存在问题,因此无法显示。 ---------------------------------------------请尝试下列操作: 打开
厂区热门聚焦:即时解读SWF、Flash中心、Adobe Flash Player的热点事件
1 今日内容 1.1 定时计算与实时计算 1.2 今日内容 kafkaStream 什么是流式计算 kafkaStream概述 kafkaStream入门案例
深度解读硬盘性能排行榜,助你选购顶级硬盘!
硬盘天梯排行榜数据集成指南 引言 硬盘天梯排行榜数据为开发者和企业提供了硬盘性能的权威参考,涵盖SSD、HDD等各类存储设备的读写速度、耐用性、性价比等关键指标。通过API集成这些数据,用户可以快速获取最新的硬盘排名信
不再受困:Mac上的卸载技巧,专治SWF、Flash中心等应用程序的困扰!
Mac电脑如果有太多无用的应用程序,很有可能会拖垮Mac系统的运行速度。因此,卸载电脑中无用的软件是优化Mac系统运行速度的最佳方式之一。Mac删除应用程序特别简单,长点击应用点击x,或是直接将应用拖进废纸篓。但是有一些应用长按没有x
Windows应用数据揭秘:在Windows 8开发中构建个性化应用程序
一、Application Data简介Applicaion Data相当于桌面应用的注册表,存储一些用户配置信息,如运行时状态,用户喜好等,需要注意的时, 当卸载应用时,这些数据会被删除,所以不要存储重要数
Win8应用商店应用设置详解:轻松保存和读取本地设置
ApplicationData有一个静态属性——Current,不用多解释,指的自然是 我们当前运行的应用程序。因此,我们就知道,要得到当前应用程序的ApplicationData, 就通过该属性。 好的,第一个
从头到尾,全面深度清理电脑上的SWF文件和Adobe Flash Player痕迹
1、手动清理 (1)打开资源管理器,右键-属性,点击“磁盘清理”,然后选中要清理的文件,点击确定即可; (2)对于一些软件的卸载残留,可以打开注册表,找到各目录下的software子目录,从里面找那些你已经卸载过的软件
Winsock LSP导致无法上网(传说中的“浏览器劫持”)
关于Winsock LSP“浏览器劫持”,中招者一直高居不下,由于其特殊性,直接删除而不恢复LSP的正常状态很可能会导致无法上网所以对其修复需慎重. 先说说什么是Winsock LSP“浏览器劫持”.Winsock LS
笔记本只能指纹打开,密码忘记的解决办法_win10用指纹登录后,忘记登录密码怎么办
方法11、重新启动电脑,当电脑屏幕显示系统的登录页面时,在键盘上同时按下组合键Ctrl+Alt,接着数次连击Del。2、随后便会出现一个新的登录界面,在用户名的地方输入:Administrator,密码不必填,
DiskGenius靠谱吗?_diskgenius坏道检测准确吗
在数字化时代,数据的重要性不言而喻。无论是个人用户还是企业,每天都要和大量数据打交道。当我们面临磁盘管理或数据恢复的需求时,我们需要一款可靠的工具来帮助我们管理磁盘空间和恢复丢失的数据。DiskGenius作为一款广受欢迎的磁盘管理软
找回路由器密码教程:步骤详解与密码恢复策略
转自:无线路由器改密码方法:1、打开手机浏览器,输入路由器的管理地址,再输入密码进入。 2、进入页面后,选择左侧的互联网选项卡,设置上网方式,再点击设置选项进行设置,然后进行保存。 3、选择wi
破解XP开机密码方法
如何破解XP开机密码当Windows XP登录密码丢失时,我们可以针对不同的情况采用不同的办法来解决: (1)如果在安装Windows XP时,Administrator密码设置为空。大家可以在系统引导的时候
五种百度云盘速度慢解决方法_百度云
我们chrome插件网在之前有介绍过一篇文章:!里面有介绍过一些百度云盘下载工具和解决百度云盘下载限速的问题。时间久了有些方法并不好用啦,今天我们重新整理了五种百度云盘下载速度慢解决方法。希望可以帮助到大家。 原文
英雄联盟战斗力与隐藏分查询系统源码实战项目
简介:本项目是一个针对《英雄联盟》(LOL)的游戏数据分析工具,涵盖战斗力评估、隐藏分查询、皮肤信息展示及自动化数据获取功能。通过API接口或网络爬虫技术,系统可获取玩家表现数据并进行深度分析,帮助玩家了解自身真实水平与匹配机制。源码
如何利用192.168.1.1优化你的家庭网络体验
虽然前面小编也发布过关于的相关信息,但是都是解释相关的问题的,没有好好介绍关于的信息,今天小编星期八就给大家介绍一下的详细信息! 是什么? 192.168.0.1属于IP地址的
发表评论