7.3.1数据挖掘的概念
数据挖掘(Data Mining)是随着人工智能和数据仓库技术发展起来的一门新兴技术,可以从不同角度定义数据挖掘。
1.技术上的定义
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
何为知识?从广义上理解,数据、信息也是知识的表现形式。但是人们常把概念、规则、模式、规律和约束等看作知识;把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理、查询优化、决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识、支持决策。在这种需求牵引下,不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员投身到数据挖掘这一新兴的研究领域,形成新的技术热点。
这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。
最好能用自然语言表达所发现的结果。
2.商业上的定义
数据挖掘是一种新的商业信息处理技术,其主要是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究;另外,由于当时计算能力的限制,使复杂的数据分析方法受到很大限制。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯机会的商业运作而产生。分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而创造利润。但所有企业面临的一个共同问题是,企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中进行深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。
因此,数据挖掘可以定义为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
3.数据挖掘的结构及特点
典型的数据挖掘系统具有以下主要成分:
(1)数据库、数据仓库、万维网或其他信息库
这是一个或一组数据库、数据仓库、电子数据表或其他类型的信息库。可以对这些数据进行数据清理、集成和选择。
(2)数据库或数据仓库服务器
根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据。
(3)知识库
这是领域知识,用于指导搜索或评估结果模式的兴趣度。这种知识可能包括概念分层,用于将属性或属性值组织成不同的抽象层。用户信念知识也可以包含在内,可以使用这种知识,根据非期望性评估模式的兴趣度。领域知识还包括附加的兴趣度约束或阈值以及元数据(例如,描述来自多个异构数据源的数据)。
(4)数据挖掘引擎这是数据挖掘系统的基本部分,理想情况下由一组功能模块组成,用于执行特征化、关联和相关分析、分类、预测、聚类分析、离群点分析和演变分析等任务。
(5)模式评估模块
通常,该模块使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚焦在有趣的模式上。它可能使用兴趣度阈值过滤已发现的模式。模式评估模块也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘方法的实现。对于有效的数据挖掘,建议尽可能深入地将模式评估兴趣度推进到挖掘过程之中,以便将搜索限制在有趣的模式上。
(6)用户界面
该模块在用户和数据挖掘系统之间通信,允许用户与系统交互,说明数据挖掘查询或任务,提供信息以帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。此外,该成分还允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模块进行可视化操作。
数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,且数据挖掘所得到的信息应具有先前未知、有效和可实用三个特征。“先前未知”是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。
从数据仓库观点来看,数据挖掘可以看作联机分析处理(OLAP)的高级阶段。然而,通过结合更高级的数据分析技术,数据挖掘会比数据仓库系统狭窄的汇总型分析处理走得更远。
7.3.2数据挖掘在供应链管理中的应用
供应链是一种网链关系,而数据挖掘主要应用于供应链中的核心企业及其上、下游的相关企业。
1.核心企业
供应链中的核心企业,可以是生产企业,也可以是商业企业。然而无论是何种企业,物料、产品、信息必然贯穿于始终。在经营管理中,核心企业包含了采购、生产计划、订单加工、库存管理、运输、仓储和客户服务等多方面内容。随着全球化市场竞争日趋激烈,核心企业需要的是应用现代信息技术来达到自身与合作伙伴的利益最大化。数据挖掘技术中的关联规则发现、分类发现和聚类技术在核心企业管理中的应用非常重要。
(1)关联规则发现
关联规则是这样一种规则:在购买面包和黄油的顾客中,有90%的人同时也买了牛奶。关联规则问题的研究目的是要在交易数据库中发现各项目之间的关系。供应链中的核心企业在经营中可获得大量的数据。利用关联规则发现技术对这些历史事务数据进行分析,就可对顾客的购买行为的预测提供极有价值的信息。作为核心企业,运用数据挖掘的技术方法,不仅将企业内部的采购、销售、库存联系起来,同时也包含与供应商、客户关系的处理,从事务数据中发现关联规则,对于改进企业经营的决策非常重要。
分类在数据挖掘中是一项应用极其广泛的重要的任务。分类的目的是学会一个分类函数或分类模型(也常称作分类器,该模型能把数据中的数据项映射到给定类别中的某一个)。分类模型的典型构造方法有决策树法、贝叶斯法、神经网络方法、近邻学习或基于事例的学习等方法。不同的分类模型有不同的特点,有三种评价尺度:预测准确度、计算复杂度、模型描述的简洁度。分类的效果一般与应用背景及数据的特点有关。
供应链中的核心企业,必然包含有销售目标定位、客户分类、信用分析、保险风险判定、供应商选择等内容,这样才能完成核心企业的有效管理。数据挖掘分类技术的应用可以很好地解决上面问题,从而建立供应链成员之间的联系。
(3)聚类
聚类是把一组个体按照相似性归纳成若干类别,即“物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。
在实现其他挖掘任务之前,应用聚类方法可使挖掘精度与效率大大提高。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。核心企业的内部数据包含了多方面的内容,在运作中必然会涉及供应与需求、原材料及备品备件的采购,制造与装配、物件的存放及库存查询、订单的录入与管理、渠道分销及最终交付使用等,为此需要采用合适的聚类分析技术,建立有效的数据集。
总之,作为供应链中的核心企业,为了在激烈的竞争中立于不败之地,必然需要有效的管理策略,把客户的需求放在第一位,建立供应链的拉式系统,利用数据挖掘中的技术方法对经营中的采购、生产、库存等情况进行分析预测,以达到供应链各节点间的有效连接。2.供应链上、下游企业管理应用
(1)供应商关系管理
供应商关系是指采购方基于不同的管理目标、不同的市场条件,与供应商之间建立并保持的供求、竞争或合作的业务联系的性质和形态。供应商关系已经成为企业参与竞争并确保获得竞争优势的强有力武器和宝贵资源,企业的成本和风险控制与供应商的关系管理日益密不可分。将数据挖掘应用于供应商关系管理包含多项内容。
1)供应商分类选择
对一个公司来讲,战略伙伴是为公司提供战略性物料(如设备、原材料等)的企业。
由于这些料件的专用性比较强,更换供应商的难度很大。有些供应商根本就是寡头垄断,因此必须明确它们对公司的战略意义,努力与之建立战略合作伙伴关系。这时应用聚类、分类的方法进行特征分析,运用决策树技术和模糊分类分析方法完成选择,并运用最优化策略进行研究。应用数据挖掘相关技术对公司的供应商进行分类的目标是为了对不同类型的供应商制定不同的管理方法,实现有效管理。
2)确定供应商关系的战略
战略伙伴供应商关系的建立是一个大浪淘沙、水到渠成的过程。企业最高层要意识到供应商关系管理是整个企业业务管理中最重要的组成部分,下决心支持采购等部门发展战略伙伴供应商关系,并且将利用伙伴供应商能力纳入到企业中长期发展战略计划中去,这是建立和维系战略伙伴关系的前提。在维持战略伙伴关系方面,一般要应用相关联序列分析,并应用分类的方法进行伙伴关系的建立和维护。
3)供应商谈判内容
企业可根据制定的供应商关系战略和认证的结果,与供应商进行谈判,签订采购合同框架协议,以此作为后续合作的基础。
4)供应商绩效评价
根据采购管理的目标和供应商选择的目的,企业应采用聚类(分类)和关联分析技术将供应商选择与评价的主要指标内容归纳为四类:业绩类、能力类、发展类和环境类,全方位对供应商进行评估。
(2)客户管理应用
对于核心企业来讲,应用数据挖掘技术对客户的管理主要包括以下几个方面。
1)客户价值分析
随着“以客户为中心”、“顾客就是上帝”的经营理念被企业经营者所普遍接受,分析客户、了解客户并引导客户的需求已成为企业经营的重要课题。企业可
先通过分析客户对企业业务所作的贡献,并结合投入产出,计算客户对企业的价值度。然后,企业根据价值度的大小,用分类或聚类的方法来划分客户群,以便对客户实施有差异的服务。
2)产品客户价值分析
此项目是分析客户对某种产品业务量的贡献,使用的方法与客户价值分析基本相同。产品客户价值分析,不仅有利于该产品的经营管理者有区别地做好客户服务,而且可以为该产品的营销提供相对准确的目标客户群。
3)客户保持
采用聚类(分类)和关联分析技术,可将客户群分为五类:高价值稳定的客户群、高价值易流失的客户群、低价值稳定的客户群、低价值易流失的客户群、没有价值的客户群。
4)客户满意度分析
分析客户对企业产品和服务的满意度,可以帮助企业改进客户营销策略,从而增加客户的忠诚度。数据挖掘可从零散的客户反馈信息中分析出客户的满意度。
5)客户信用分析
分析客户信用对商家很有意义,如对不同信用级别的客户,商家可采取不同的赊销方案等。数据挖掘可从大量历史数据中分析出具体客户的信用等级。
6)异常事件的确定
在许多商业领域中,异常事件(如客户流失、银行的信用卡欺诈、电信中移动话费拖欠等)具有显着的商业价值。应用数据挖掘中的奇异点分析可以迅速准确地甄别这些异常事件。