信息与电脑官方 国内统一刊号:CN 11-2697/TP
国际标准刊号:ISSN 1003-9767
* 投稿网站
信息与电脑
《 信息与电脑 》
级别:省级     分类:科技    周期:半月刊
主管单位:北京电子控股
主办单位:北京电子控股
国内刊号:CN 11-2697/TP
国际刊号:ISSN 1003-9767
收稿编辑:QQ /电话2880067970 / 0531-85701017
投稿邮箱:xxydnzazhi@163.com
期刊名称 (*)投稿期刊名称
文章标题 (*)投稿论文的题目
作者姓名 (*)只需填写通讯作者
作者电话 (*)方便编辑及时沟通
作者邮箱 (*)方便编辑做详细用稿答复
上传稿件 (*)限word文件
投稿附言   
期刊信息
期刊名称:信息与电脑
主      编:苏建东
出版周期:半月刊
出版地区:北京市
定      价:20.00元
收      录:知网、万方、维普、龙源
社      址:北京市东城区北沿河大街79号
邮政编码:100009
范文- 基于概率维度的不确定数据挖掘框架及其应用实例-信息与电脑

 基于概率维度的不确定数据挖掘框架及其应用实例

吴仲
                   (中国人民银行三亚市中心支行  572000 )
【摘要】本文提出了一种新的数据挖掘模式,较充分的考虑了数据的不确定性以及挖掘结果的权威性,更符合数据挖掘技术作为决策工具的本质。
【关键词】数据挖掘  概率维度 不确定数据
一、引 言
近年来,随着人们对数据采集及预处理技术的不断了解,数据的不确定性得到了高度的重视,它几乎存在于任何一个数据挖掘过程中。人们对不确定性数据有了一定的认识,但是目前的不确定数据大多是从确定性数据源处理所得到的,需要采用统计方法或经验办法等加入概率维度,这些方法不仅带来了新的不确定性,使得挖掘结果精度下降,而且对于海量数据的概率维度扩展,经验办法显然无法完成。
二、基于概率维度的不确定数据挖掘框架
我们结合传统的数据挖掘方式以及不确定数据挖掘方法,构造一个新的数据挖掘框架,它既有传统挖掘方法成熟稳定的优点,也考虑了数据不确定性的一面。新框架的基本流程是,从原始数据集出发,经过一些预处理方法达到传统的预处理效果的同时,增加概率维度,并对新生成的数据进行基于概率维度的不确定数据挖掘。图1显示了该框架的流程图。
 1.jpg
   
三、不确定数据概率维度生成实例
    上节中提出的数据挖掘框架,概率维度的生成起到了至关重要的作用,它的误差将对不确定数据挖掘结果产生重要影响。我们对于特定的数据集构造了一个概率维度生成实例,流程图见图2。
 2.jpg
对于某一服从特定分布的数据集,首先根据其是否为确定性数据进行分流,将完全确定的数据集合记为Deterministic Data,反之则为Uncertain Data;其次,对Deterministic Data中的数据进行去噪、补值、数据平滑等操作,并据此通过数学方法估计原数据的概率分布函数;再次,根据所得的原数据分布规律对Uncertain Data中的缺损值进行填补以及确定它们的概率维度(Deterministic Data中数据概率维度的值均为1);最后,根据所得完备的、含有概率维度的数据集进行不确定数据挖掘。
(一)问题背景
实际的挖掘项目中,尤其是在现今机器化采集海量数据的环境下,源数据的概率维度往往无法准确得出,但是工程师一般能够凭借经验对所采集数据服从的概率分布作出估计。
设,现有一个服从多元正态分布的数据集X,X = ( x1, x2, …, xm+n ), 
其分布为 3.jpg
u是数据个体的均值向量:u=Ex
是数据总体X的协方差矩阵:=E(x-Ex)(x-Ex)T
如果我们知道了具体分布的概率密度函数,那么任何一个数据的概率维度均可根据数据的偏移概率分布的程度去计算,但是工程师们一般未能对分布的具体参数u和做准确的经验估计,因此准确的估计出u和成为计算概率维度的核心,本实例中以多元正态分布的最大似然估计进行计算。
(二)数据分流及预处理
X=AB,AB=,集合A中元素为确定性数据,B中元素为不确定性数据。
采集得到的数据一般是不完备的噪声数据,现有数据挖掘领域中去噪分析以及缺损数据补值等预处理方式已经得到了充分的发展,本文中便不再赘述,假设X是一个完备的无噪数据。
(三)概率维度生成
由于A是确定性数据的集合,因此,A中数据的概率维度均为1。
对于多元正态分布的最大似然估计,其似然函数为
 4.jpg
对数似然函数为5.jpg
 
对其求偏导,u的最大似然为 6.jpg,与无关。显然 为u的无偏估计。
的最大似然估计为 6.jpg
由上,根据A中数据得出原数据的两个分布参数
 7.jpg
对与任意xiB,若xi插入A中使得u与的估计值变化越小,则说明xi符合原分布的概率越大,即xi为确定性数据的可能性越大,其概率维度越接近1;若xi插入A中使得u与的估计值变化越大,则说明xi为确定数据的可能性越小,其概率维度越接近0。
根据A中数据得出的估计值分别为 和 ;Ti={A,xi},xiB,又记Ti的估计值分别为 和 。
那么,任意xiB,其概率维度值 8.jpg
    至此,我们就得到了完备的、含有概率维度的数据集,从而可以进行不确定数据挖掘。