范文_ 基于概率维度的不确定数据挖掘框架及其应用实例

《信息与电脑》

级别：省级分类：科技周期：半月刊

主管单位：北京电子控股

主办单位：北京电子控股

国内刊号：CN 11-2697/TP

国际刊号：ISSN 1003-9767

收稿编辑：QQ /电话2880067970 / 0531-85701017

投稿邮箱：xxydnzazhi@163.com

期刊名称	（*）投稿期刊名称
文章标题	（*）投稿论文的题目
作者姓名	（*）只需填写通讯作者
作者电话	（*）方便编辑及时沟通
作者邮箱	（*）方便编辑做详细用稿答复
上传稿件	（*）限word文件
投稿附言	有需要交代的话，填写此处。

期刊信息

期刊名称：信息与电脑

主编：苏建东

出版周期：半月刊

出版地区：北京市

定价：20.00元

收录：知网、万方、维普、龙源

社址：北京市东城区北沿河大街79号

邮政编码：100009

范文- 基于概率维度的不确定数据挖掘框架及其应用实例-信息与电脑

基于概率维度的不确定数据挖掘框架及其应用实例

吴仲

（中国人民银行三亚市中心支行 572000 ）

【摘要】本文提出了一种新的数据挖掘模式，较充分的考虑了数据的不确定性以及挖掘结果的权威性，更符合数据挖掘技术作为决策工具的本质。

【关键词】数据挖掘概率维度不确定数据

一、引言

近年来，随着人们对数据采集及预处理技术的不断了解，数据的不确定性得到了高度的重视，它几乎存在于任何一个数据挖掘过程中。人们对不确定性数据有了一定的认识，但是目前的不确定数据大多是从确定性数据源处理所得到的，需要采用统计方法或经验办法等加入概率维度，这些方法不仅带来了新的不确定性，使得挖掘结果精度下降，而且对于海量数据的概率维度扩展，经验办法显然无法完成。

二、基于概率维度的不确定数据挖掘框架

我们结合传统的数据挖掘方式以及不确定数据挖掘方法，构造一个新的数据挖掘框架，它既有传统挖掘方法成熟稳定的优点，也考虑了数据不确定性的一面。新框架的基本流程是，从原始数据集出发，经过一些预处理方法达到传统的预处理效果的同时，增加概率维度，并对新生成的数据进行基于概率维度的不确定数据挖掘。图1显示了该框架的流程图。

三、不确定数据概率维度生成实例

上节中提出的数据挖掘框架，概率维度的生成起到了至关重要的作用，它的误差将对不确定数据挖掘结果产生重要影响。我们对于特定的数据集构造了一个概率维度生成实例，流程图见图2。

对于某一服从特定分布的数据集，首先根据其是否为确定性数据进行分流，将完全确定的数据集合记为Deterministic Data，反之则为Uncertain Data;其次，对Deterministic Data中的数据进行去噪、补值、数据平滑等操作，并据此通过数学方法估计原数据的概率分布函数；再次，根据所得的原数据分布规律对Uncertain Data中的缺损值进行填补以及确定它们的概率维度（Deterministic Data中数据概率维度的值均为1）；最后，根据所得完备的、含有概率维度的数据集进行不确定数据挖掘。

（一）问题背景

实际的挖掘项目中，尤其是在现今机器化采集海量数据的环境下，源数据的概率维度往往无法准确得出，但是工程师一般能够凭借经验对所采集数据服从的概率分布作出估计。

设，现有一个服从多元正态分布的数据集X，X = ( x1, x2, …, xm+n )，

其分布为

，