数据仓库数据挖掘——数据仓库的建立和维护


数据仓库的建立过程实际上是从传统的以数据库为中心的操作型系统结构转移到以数据仓库为中心的体系结构的过程。

1、数据仓库的投资分析

企业建立数据仓库的必要性与企业内部的复杂程度和客户的数目成正比

①定量分析:投资回报率ROI——ROI=收益现值/成本现值

                        投资回报周期——项目投入到企业收回投资成本之间的时间

②定性分析:

                        (1)能否提高产品质量,降低生产成本
                        (2)能否便于员工协同工作
                        (3)能否改善公司和客户之间的关系
                        (4)能否改善管理能力
                        (5)能否进行短期决策和长期决策:既能管理微观数据又能管理宏观数据
                        (6)能否加快企业对市场变化的反映速度


2、数据仓库的开发方法

①瀑布开发:

             大体分为这几个阶段:需求分析、设计、编码、测试、维护

             瀑布式开发在传统的操作型应用中效果较好,因为需求常常是事先确定的。
             分析型应用中,用户需求不事先确定,且容易变化,不适用本方法。

②螺旋式开发

             将一个庞大的任务划分成多个阶段;
             在每一个阶段中,按照问题定义、系统分析、系统设计、开发、实现、维护和系统评估来进行;
              一个阶段完成后,开始新的阶段,每个阶段都以前一阶段的结果为参考点,再新增新的需求项目,直到所有的需求都满足为止。
              本方法适合数据仓库系统的开发。

3、数据仓库的建立过程

①需求分析:绪论、总体需求描述、具体需求、事实及维度、其他需求、用户期望、用户参与、综合实施计划

②数据路线:概念模型设计、逻辑模型设计、物理模型设计、数据装载接口设计

③技术路线:主要是去顶数据仓库的基础构造

                        数据仓库的基础构造元素分成两大类:1、操作型基础构造    2、物理基础构造

                                 1、操作型基础构造
                                    包括人员、流程、培训和管理软件。
                                    2、物理基础构造
                                    (1)计算机平台
                                  硬件和操作系统
                                  服务器硬件:SMP、群集、MPP、NUMA
                                  数据库管理系统
                                    (2)软件工具
                                  数据获取:ETL
                                  数据存储:数据仓库
                                  信息传递:OLAP、查询和报表、预警系统、数据挖掘

④应用路线:

                        1、OLAP模型设计

                                                (1)、总体维度分析

                                                (2)、主题的维度设计

                                                (3)、确定事实表度量变量和数据粒度

                                                (4)、定义OLAP模型

                          2、数据挖掘模型设计

                                                   在数据挖掘前,要根据挖掘模型要求转换数据格式,将数据分为训练集合、验证集合,训练集合用于校正模型参数,验证集合用于评价模型的效果。

                          3、信息传递设计

                                                    数据仓库的信息潜力很大,数据仓库的信息传递方式是交互式的

⑤数据仓库部署

                          (1)用户认可
                                                       完成用户界面、系统性能方面的所有测试。在关键用户满意前,不要进行部署。
                           (2)初始装载
                                                       数据质量评估、数据安全
                           (3)桌面准备
                                                       客户计算机
                           (4)初始培训
                                                       建立对初始用户的基本使用支持。

⑥运行维护

                           (1)在数据仓库中建立起DSS应用
                           (2)刷新当前详细数据、清除过时数据和休眠数据、调整粒度级别、改进系统设计(2)刷新当前详细数据、清除过时数据和休眠数据、调整粒度级别、改进系统设计


4、数据仓库的维护

①数据周期

           从操作型环境中的数据发生变化到这种变化被反映到数据仓库中,需要一定的延迟时间,这个延迟时间就是“数据周期”

②参照完整性

           数据仓库中,参照关系随时间变化可能也会变化。
               (1)定期对参照数据进行快照
               (2)建立参照数据表,记录所有参照数据的修改

③数据环境信息

           数据环境信息是指与数据相关的背景信息。
           应当将分析的结果数据和产生该结果数据的环境信息一同存放进数据仓库。

④数据备份与恢复

   (1)当前数据和历史数据分开
   (2)数据量大:完全备份、日志备份、增量备份
   (3)周期性存档
   (4)备份时间:和增量装载协调进行
   (5)备份介质   

5、提高数据仓库性能

①提高I/O性能:合并表、建立数据序列、引入冗余、生成导出数据

②缩小查询范围:划分粒度、分割数据表、建立索引

③采取并优化技术:数据的抽取/综合、数据的写入、数据的查询(不同查询并行,查询内并行)

④选择适当的初始化参数:初始化参数(如并发用户数)、数据压缩、清除无用数据


6、数据仓库的安全性

①安全类型:个体、组、层次、集成

②安全方法:外部安全、内部安全(数据加密——结构化加密、分区加密、不同粒度级别的安全性)

相关文章
相关标签/搜索