admin 管理员组

文章数量: 1086019


2024年4月16日发(作者:简短洋气的英文名女)

数据离散化方法综述

摘要:

数据离散化是一个训练集预处理的方法,用于将连续的数值属性转化为离

散的数值属性。离散数值属性在数据挖掘的过程中具有重要的作用。本文首先介

绍了离散化方法的分类,同时还按照分类介绍几种具有代表性的离散化方法。然

后比较各种离散化方法在特定应用环境下的优势和不足,提出需根据具体应用特

征选取离散化方法。

关键字:

连续属性; 离散属性; 数据离散化

1.概述

数据的特征按照其取值可以分为连续型和离散型。连续型数据也叫定量特征,

通常用间隔的尺度和比例尺度来衡量,其值取自于某个连续的区间,通常具有较

多或者无穷多个可能的取值,例如气温、身高、价格等等。离散型数据也叫定性

特征,一般以名义尺度或者有序尺度定义,其值取自于某个有限的集合当中,如

人的性别只能在{男、女}中取值。此类特征的值域只限定于较少的取值。数据离

散化作为训练集的预处理过程,其输出直接被用作随后进行的数据挖掘算法,如

分类和预测算法的输入。这些算法大多数是针对离散型数据的,对于连续型数据

不适用;有些算法即使能够处理连续型数据,效果也不如处理离散型数据好。在

数据库系统中连续型受占多数,要更好地分析处理这些数据就有必要对这些数据

进行离散化。

离散化的方法有很多,本文第2节介绍离散化方法的分类以及离散化的一般

过程第3节按类别具体介绍几种代表性的离散化方法。第4节提出要根据具体应

用环境选择合适的离散化方法。

2.离散化过程及分类

2.1数值离散化的一般过程

对连续特征进行离散化处理,一般经过以下步骤:(1)对此特征进行排序。

特别是对于大数据集,排序算法的选择要有助于节省时间,提高效率,减少离散

化的整个过程的时间开支及复杂度。(2)选择某个点作为候选点,用所选取的具

体的离散化方法的尺度来衡量候选选点是否满足要求。(3)若候选点满足离散化

的衡量尺度,则对数据集进行分裂或合并,再选择下一个候选点,重复步骤(2)

(3)。(4)当离散算法存在停止准则时,如果满足停止准则,则不再进行离散化

过程,从而得到最终的离散结果。

其中“候选点”指的是一个数值属性取值范围内的值,这个值将属性的取值

范围分为两个部分,其中一个范围中的值小于等于“候选点”的值,另一个范围

中的值大于“分割点”的值。例如,一个连续的区间[a,b]被分割成[a,c]和(c,b],

其中c是分割点。不同的算法根据不同的标准来衡量候选点的优劣,其中一种衡

量候选点优劣程度的标准是根据一个分割或合并与类别标号的关联,如基于熵的

衡量标准和基于统计的衡量标准。“停止准则”指出何时停止离散化过程,它实

质上是一个精确性与易理解性的折中。离散化程度越高,数据的精确性越差,丢

失信息量越大,但是使得离散分类跟容易归纳和理解。离散化程度越低,数据保

有的信息量越大,但是不容归纳出数据与分类的关系和对数据的理解。此外,停

止准则还需要考虑数据不一致性的问题,即两个数据对象所有属性的值都相同,

但是所属类别不同。离散化过程导致的数据不一致性不应该比离散化之前原有数

据的不一致性高。

2.2离散化方法的分类及特点

离散化方法依据不同的需求沿着不同的主线发展至今,目前已存在很多不同

离散化方法的分类体系。不同的分类体系强调离散化方法间的区别的不同方面。

主要的分类体系有有监督的和无监督的、动态的和静态的、全局的和局部的、分

裂式的(从上至下)和合并式的(从下至上)、单变量的和多变量的以及直接的

和增量式的。

根据离散化方法是否在离散化过程当中使用数据集的类别标注信息,离散化

方法可以分为有监督的离散化方法和无监督的离散化方法。其中无监督的离散化

方法在离散化过程当中无需使用类别信息,这类方法的典型代表是分箱方法,包

括等宽度分箱和等频率分箱。分箱方法使用箱均值或箱中位数替换箱中的每一个

值来将数据离散化。实际应用中,分箱方法效果不佳,特别是当数值数据分布不

均匀的时候。有监督的离散化方法在离散化过程当中需要使用类别信息。以前的

研究表明,有监督的方法比无监督的方法效果要好。

离散化方法也常以动态或静态的分类方法来区分。动态的离散化方法就是在

建立分类模型的同时对连续特征进行离散化,如分类算法C4.5。静态的离散化

方法就是在进行分类之前完成离散化处理。

根据离散化过程是否是针对整个训练数据空间的,离散化方法又可分为全局

的和局部的。全局的离散化方法使用所有的实例,而局部的离散化方法只是用一

部分的实例。

离散化方法还可分为从上至下的和从下至上的,也可称为分裂式的和合并式

的。分裂的离散化方法起始的分裂点列表是空的,通过离散化过程逐渐往列表中

加入分裂点,而合并的离散化方法则是将所有的连续值都看作可能的分裂点,再

逐渐合并相邻区域的值形成区间。

单变量的离散化方法是指一次只对数据集的一个特征进行离散化,而多变量

的离散化是同时考虑数据集的多个特征及其相互关联关系进行离散化,需要考虑

更多的因素,算法更加复杂。

另外一种离散化方法的分类是直接式的和增量式的。直接式的离散化方法就

是根据额外给定的参数(离散化所需得到的区间数等)一次性形成所有的分裂点,

而增量式的离散化方法是根据某个准则逐渐的将离散化结果进行改进,直到满足

准则的停止条件为止。

2.3离散化结果的评价

不同的离散化方法会产生不同的离散化结果。优良的离散化,应使划分尽可

能简约,又尽可能多的保留由样本数据代表的对象的固有特性。

离散化结果的好坏可以从以下几方面来考虑:(1)区间的个数。这也是对模型

简洁性的要求。理论上来说,离散得到的区间数越少越好,便于理解,但区间数

的减少另一方面也会导致数据的可理解性变差; (2) 离散化所导致的不一致性。

离散化之后数据的不一致性不能比离散化之前更高。这一点是对模型一致性的要

求。(3)预测准确性。即对模型准确性的要求。这一点通常通过交叉检验模式

建立分类树来衡量。

3.常用的离散化方法

3.1 基于熵的离散化方法

3.1.1基于熵的一般化方法

熵(Entropy)是最常用的离散化度量之一。基于熵的离散化是一种监督的、自

顶向下的分裂技术。它在计算和确定分裂点时利用分布信息。例如,为了离散化

属性A,该方法选择A的具有最小熵的值作为分裂点,并递归地划分结果区间,

得到分层离散化。这种离散化形成A的概念分层。

设D由属性集和类标号属性定义的数据元组组成。类标号属性提供每个元组

的类信息。该集合中属性A的基于熵的离散化基本方法如下:A的每个值都可

以看作一个划分A的值域的潜在的区间边界或分裂点(记作split_point)。也就

是说,A的分裂点可以将D中的元组划分成分别满足条件A≦split_point和A≥

split_point的两个子集,这样就创建了一个二元离散化。选择分裂点对数据集进

行划分的目的是为了将数据更清晰地分类。理想的状态下,我们希望每一个分类

中的元组所属类别尽可能地少,即分类后各类中的元组的类别尽可能地一致,也

就是说在属性A上按照split_point划分D后为了得到完全的分类所需要的信息

越少。为了度量某一划分之后得到完全的分类还需要信息,引入期望信息需求的

概念,期望信息需求由下式给出:

|

本文标签: 离散 方法 数据 属性 区间

更多相关文章

win10应用已被java安全阻止,win10系统不能运行java提示“应用程序已被安全设置被阻止”的图文方法...

1月前

win10系统不能运行java提示“应用程序已被安全设置被阻止”的图文方法? win10系统有很多人都喜欢使用,我们操作的过程中常常会碰到win10系统不能运行java提示“应用程序已被安全设置被阻止”的问题。如果遇到win10系统不能运行

WIFI和路由器密码破解的方法

1月前

首先我们找到一个信号比较好的热点进行接入测试。 根据名字 ** LOVE ** 可大概看出两个人名,应该是男朋友,想到这心里为 Z 君凉了一半。 找到疑似对方入口的地方就好说了&#xff0

在Windows系统中配置多个版本的Java开发环境的方法

1月前

Windows中多个版本的Java环境配置 1.1 环境变量的配置 这里分别下载了 jdk8 和 jdk16 ,分别配置如下的环境变量。 然后配置 JAVA_HOME 和 CLASSPATH 两个环境变量。图示中&

0x80070570 文件或目录损坏且无法读取 CHKDSK 修复方法

1月前

原因 1、没有正常插拔移动设备,系统没有完成完整的读写操作,致使文件目录信息错乱和不完整。比如我们复制一个文件到移动设备,关机重启、拔取后,再次打开使用

使用chatgpt降低论文重复率的方法和需要注意的一些细节

29天前

要降低论文的重复率,可以借助ChatGPT进行多种方式的优化。以下是几种策略: 1. 重写段落或句子: 输入你认为可能重复率较高的段落或句子,要求Ch

Windows安装SoftEther客户端及连接方法

28天前

一、下载SoftEther客户端 1.下载地址:链接:https:pan.baidus1T5PUyysSo1hZhsLP3SF1Rw  提取码:7s1e 2.官网下载

《CWAP-404》,第4章:802.11 MAC 帧(4.4,数据帧与QoS数据帧)

28天前

数据帧用于承载数据,或在空数据帧(Null Data frame)中用于与电源管理相关的控制功能。数据帧使用本章前文讨论的通用帧格式。它们包含特定MACPHY的完整头部&a

Windows10 安装 Centos 双系统的方法全教程

27天前

在windows10上安装centos7不需要VMWare的方法 第一步,安装 CentOS 打开Windows10系统自带的 Microsoft Store商城,搜CentOS&#xf

更换硬盘并迁移系统的方法

27天前

更换硬盘并迁移系统的方法 一、前言 由于环境配置得太多,所以不得不做系统迁移,但是只有一个接口的情况下,经过多次尝试成功了。写这篇文章是因为踩的坑是在是太多了&#

微信内置浏览器中打开的h5,需要调用微信方法

27天前

微信内置浏览器中打开的h5(原生方法),需要调用微信方法 https:qydev.weixin.qqwikiindex.php?titleWeixinJS%E6%8

浏览器怎么导入导出|删除书签,方法步骤来咯

27天前

很多人日常使用的浏览器不止一个,因为工作的需要经常要在多个浏览器切换。当我们需要用到不同的浏览器的时候,需要把收藏的书签网址导入导出到另一个浏览器。下面给大家介绍浏览器导入导出书签&#xf

双击计算机文档,电脑双击文件都是打开属性窗口怎么办

26天前

电脑双击文件都是打开属性窗口怎么办 电脑双击文件都是打开属性窗口怎么办?不知道电脑怎么回事,双击文件后显示的都是属性窗口,该怎么办呢?下面小编分享电脑鼠标双击文件都是打开属性窗口的解决办法&

【mysql解决办法】insert into select 想插入的数据如果部分为空怎么办?

26天前

简述 一开始,真的没想到这么简单。 期末数据默认就为NULL,所以,插入的时候,不要管就好了。 比如,我下面要插入的数据中&a

excel出现为了防止数据流失,无法移走非空单元格怎么办

26天前

excel出现为了防止数据流失,无法移走非空单元格怎么办 1.问题 excel出现为了防止数据流失,无法移走非空单元格怎么办 2.原因 出现这种问题的原因有: Ex

windows系统下设置redis开机自启动的方法教程

26天前

转自https:www.2ctodatabase201807762681.html 一、下载windows版本的Redis 去官网找了很久,发现原来在官网上可以下载的windows版本的&#xff0

windows10组策略关闭系统更新方法

26天前

windowsR,打开运行窗口,并输入services.msc 向下滑动,找到Windows Update 双击打开,然后按照图片进行操作

保姆级教程:ABAP 通过 HTTP POST 调用 OData 服务创建业务数据的具体例子

24天前

笔者之前的文章 SAP ABAP Web Service 的创建与消费:保姆级教程发布之后,有朋友在评论区留言,询问 ABAP 除了 Web Service 之外,是否也支持 HTTP 呢? ABAP 这么强大的语言,支持 HTTP 当然

U盘插入遭遇格式化提示?别急,数据还能救!

24天前

现象描述 当U盘插入电脑,满怀期待地点开却遭遇格式化提示,这一幕想必让不少用户心头一紧。U盘作为便携存储设备,承载着大量重要数据,突如其来的格式化要求

Kali调用笔记本电脑内置无线网卡抓包全套方法

24天前

文章目录 1 教程简述2 抓包步骤2.1 U盘录入Kali2.2 解锁BitLocker2.3 U盘启动Kali2.4 捕获握手包2.4.1 方法1:使用命令抓包2.4.2 方法2:使用fern抓包2.4.3 方法3:使用wifite抓包3

网心云OECOEC-turbo刷机问题——刷机教程、救砖方法、技术要点及下载boot失败异常解决尝试

24天前

最近真的很喜欢Arm设备,刷成Armbian系统后,做内网小服务器,真的很6。更重要的是省电,2W的功率,长年开着都不心疼了。

发表评论

全部评论 0
暂无评论