2021 数据仓库与数据挖掘(郑州轻工业大学) 最新满分章节测试答案

2024年11月14日 分类:免费网课答案 作者:网课帮手

本答案对应课程为:点我自动跳转查看
本课程起止时间为:2021-03-01到2021-07-10
本篇答案更新状态:已完结

【作业】第1章 数据仓库的概念与体系结构 课后习题

1、 问题:什么是数据仓库?数据仓库的主要特点有哪些?
评分规则: 【 数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。数据仓库的特点包含以下几个方面:(1) 面向主题。操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各自分离;而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点领域,一个主题通常与多个操作型业务系统或外部档案数据相关。
(2)集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。
(3)相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。
(4)反映历史变化。操作型数据库(OLTP)主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含较久远的历史数据,因此总是包括一个时间维,以便可以研究趋势和变化。数据仓库系统通常记录了一个单位从过去某一时点(如开始启用数据仓库系统的时点)到目前的所有时期的信息,通过这些信息,可以对单位的发展历程和未来趋势做出定量分析和预测。

2、 问题:简述数据仓库的四种异同点及其适用性。
评分规则: 【 (1)两层架构(Generic Two-Level Architecture)。
(2)独立型数据集市(Independent Data Mart)。
(3)依赖型数据集市和操作型数据存储(Dependent Data Mart and Operational Data Store)。
(4)逻辑型数据集市和实时数据仓库(Logical Data Mart and Real-Time Data Warehouse)。

3、 问题:简述你对数据仓库未来发展趋势的看法。
评分规则: 【 数据仓库技术的发展包括数据抽取、存储管理、数据表现和方法论等方面。在数据抽取方面,未来的技术发展将集中在系统集成化方面。它将互连、转换、复制、调度、监控纳入标准化的统一管理,以适应数据仓库本身或数据源可能的变化,使系统更便于管理和维护。在数据管理方面,未来的发展将使数据库厂商明确推出数据仓库引擎,作为数据仓库服务器产品与数据库服务器并驾齐驱。在这一方面,带有决策支持扩展的并行关系数据库将最具发展潜力。在数据表现方面,数理统计的算法和功能将普遍集成到联机分析产品中,并与Internet/Web技术紧密结合。按行业应用特征细化的数据仓库用户前端软件将成为产品作为数据仓库解决方案的一部分。数据仓库实现过程的方法论将更加普及,将成为数据库设计的一个明确分支,成为管理信息系统设计的必备。

4、 问题:请列出3种数据库产品,并说明其优缺点。
评分规则: 【 (1)IBM公司提供了一套基于可视化数据仓库的商业智能(BI)解决方案,包括:Visual Warehouse(VW)、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及来自第三方的前端数据展现工具(如BO)和数据挖掘工具(如SAS)。其中,VW是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。Essbase/DB2 OLAP Server支持“维”的定义和数据装载。Essbase/DB2 OLAP Server不是ROLAP(Relational OLAP)服务器,而是一个(ROLAP和MOLAP)混合的HOLAP服务器,在Essbase完成数据装载后,数据存放在系统指定的DB2 UDB数据库中。
(2)Oracle数据仓库解决方案主要包括Oracle Express和Oracle Discoverer两个部分。Oracle Express由四个工具组成:Oracle Express Server是一个MOLAP(多维OLAP)服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时也能够访问多种关系数据库;Oracle Express Web Agent通过CGI或Web插件支持基于Web的动态多维数据展现;Oracle Express Objects前端数据分析工具(目前仅支持Windows平台)提供了图形化建模和假设分析功能,支持可视化开发和事件驱动编程技术,提供了兼容Visual Basic语法的语言,支持OCX和OLE;Oracle Express Analyzer是通用的、面向最终用户的报告和分析工具(目前仅支持Windows平台)。Oracle Discoverer即席查询工具是专门为最终用户设计的,分为最终用户版和管理员版。
(3)Microsoft将OLAP功能集成到SQL Server数据库中,其解决方案包括BI平台、BI终端工具、BI门户和BI应用四个部分。① BI平台是BI解决方案的基础,包括ETL平台SQL Server 2005 Integration Service(SSIS)、数据仓库引擎SQL Server 2005 RDBMS以及多维分析和数据挖掘引擎SQL Server 2005 Analysis Service、报表管理引擎SQL Server 2005 Reporting Service。② BI终端用户工具,用户通过终端用户工具和Analysis Service中的OLAP服务和数据挖掘服务进行交互来使用多维数据集和数据挖掘模型,终端用户通常可使用预定义报表、交互式多维分析、即席查询、数据可视化、数据挖掘等多种方法。③ BI门户提供了各种不同用户访问BI信息的统一入口。BI门户是一个数据的汇集地,集成了来自不同系统的相关信息。用户可以制定个性化的个人门户,选择和自己相关性最强的数据,提高信息访问和使用的效率。

【作业】第2章 数据仓库的数据存储与处理 课后习题

1、 问题:1.调和数据是存储在______和操作型数据存储中的数据。
评分规则: 【 企业级数据仓库(EDW)

2、 问题:2.抽取、转换、加载过程的目的是为决策支持应用提供一个__、权威数据源。因此,我们要求ETL过程产生的数据(即调和数据层)是____、历史的、规范化的、可理解的、即时的和质量可控制的。
评分规则: 【 单一的,详细的

3、 问题:3.数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于______,增量抽取用于进行数据仓库的维护。
评分规则: 【 最初填充数据仓库

4、 问题:4.粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度__,综合程度_,回答查询的种类___。
评分规则: 【 越高,越低,越多

5、 问题:5.使用星型模式可以从一定程度上__查询效率。因为星型模式中数据的组织已经经过_,主要数据都在庞大的___中。
评分规则: 【 提高,预处理,事实表

6、 问题:6.维度表一般由主键、分类层次和描述属性组成。对于主键可以选择两种方式:一种是采用__,另一种是采用____。
评分规则: 【 自然键(Natural Key),代理键(Surrogate Key)

7、 问题:7.雪花型模式是对______维表的进一步层次化和规范化来消除冗余的数据。
评分规则: 【 星型模式

8、 问题:8.数据仓库中存在不同综合级别的数据。一般把数据分成4个级别:__、当前细节级、____和高度综合级。
评分规则: 【 早期细节级,轻度综合级。

9、 问题:9.什么是数据仓库的三层数据结构?
评分规则: 【 简单地说,数据是从企业内外部的各业务处理系统(操作型数据)流向企业级数据仓库(EDW)或操作型数据存储区(ODS),在这个过程中,要根据企业(或其他组织)的数据模型和元数据库对数据进行调和处理,形成一个中间数据层,然后再根据分析需求,从调和数据层(EDW、ODS)将数据引入导出数据层,如形成满足各类分析需求的数据集市。

10、 问题:10.什么是数据仓库的数据ETL过程?
评分规则: 【 数据的ETL过程就是负责将操作型数据转换成调和数据的过程。如上面的2.3.1小节所述,这两种数据具有明显的区别,因此,数据调和是构建一个数据仓库中最难的和最具技术挑战性的部分。在为企业级数据仓库填充数据的过程中,数据调和可分为两个阶段:一是企业级数据仓库(EDW)首次创建时的原始加载;二是接下来的定期修改,以保持EDW的当前有效性和扩展性。

11、 问题:11.什么是星型模式?它的特征是什么?
评分规则: 【 在星模式中,事实表居中,多个维表呈辐射状分布于其四周,并与事实表连接。位于星形中心的实体是事实表,是用户最关心的基本实体和查询活动的中心,为数据仓库的查询活动提供定量数据。位于星模式四周的实体是维度实体,其作用是限制和过滤用户的查询结果,缩小访问范围。每个维表都有自己的属性,维表和事实表通过关键字相关联。

12、 问题:12.为什么时间总是数据仓库或数据集市的维?
评分规则: 【 因为数据仓库或数据集市的数据总是历史的数据,需要时间维来区别。

【作业】第3章 数据仓库系统的设计与开发 第三章课后作业

1、 问题:1.SQL Server SSAS 提供了所有业务数据的统一整合视图,可以作为传统报表、_____、关键性能指示器记分卡和数据挖掘的基础。
评分规则: 【 在线分析处理(OLAP) 分析。

2、 问题:2.数据仓库的概念模型通常采用__来进行设计,要求将其5个组成部分(包括名称、_、、层次和___)全面地描述出来。
评分规则: 【 信息包图法,维度,类别,度量。

3、 问题:3.数据仓库的______通常采用星型图法来进行设计,要求将星型图的各类逻辑实体完整地描述出来。
评分规则: 【 逻辑模型。

4、 问题:4.按照事实表中度量的可加性情况,可以把事实表对应的事实分为4种类型:__、_、___和事件事实。
评分规则: 【 事务事实,快照事实,线性项目事实。

5、 问题:5.确定了数据仓库的粒度模型以后,为提高数据仓库的使用性能,还需要根据用户需求设计______。
评分规则: 【 聚合。

6、 问题:6.在项目实施时,根据事实表的特点和用户的查询需求,可以选用__、业务类型、____和下属组织等多种数据分割类型。
评分规则: 【 时间,区域。

7、 问题:7.当维表中的主键在事实表中没有与外键关联时,这样的维称为______。它与事实表并无关系,但有时在查询限制条件(如订单号码、出货单编号等)中需要用到。
评分规则: 【 退化维

8、 问题:8.维度可以根据其变化快慢分为__维度、_维度和___维度三类。
评分规则: 【 无变化,缓慢变化,剧烈变化

9、 问题:9.数据仓库的数据量通常较大,且数据一般很少更新,可以通过设计和优化______结构来提高数据存取性能。
评分规则: 【 索引。

10、 问题:10.数据仓库数据库常见的存储优化方法包括表的归并与簇文件、______、表的物理分割(分区)。
评分规则: 【 反向规范化,引入冗余。

11、 问题:11.什么是信息包图法?它为什么适用于数据仓库的概念模型的设计?
评分规则: 【 信息包图法,也叫用户信息需求表,就是在一张平面表格上描述元素的多维性,其中的每一个维度用平面表格的一列表示,通常的维度如时间、地点、产品和顾客等;而细化本列的对象就是类别,例如时间维度的类别可以细化到年、月、日,甚至小时;平面表格的最后一行(代表超立方体中的单元格)即为指标度量值,例如,某年在某销售点的某类产品的实际销售额。创建信息包图时需要确定最高层和最低层的信息需求,以便最终设计出包含各个层次需要的数据仓库总之,信息包图法是一种自上而下的数据建模方法,即从用户的观点开始设计(用户的观点是通过与用户交流得到的),站在管理者的角度把焦点集中在企业的一个或几个主题上,着重分析主题所涉及数据的多维特性,这种自上而下的方法几乎考虑了所有的信息源,以及这些信息源影响业务活动的方式。

12、 问题:12.简述数据仓库系统设计过程。
评分规则: 【 收集、分析和确认业务分析需求,分析和理解主题和元数据、事实及其量度、粒度和维度的选择与设计、数据仓库的物理存储方式的设计等。

13、 问题:13.一个数据仓库系统的建立通常需要经过哪些步骤?
评分规则: 【 (1)收集和分析业务需求;(2)建立数据模型和数据仓库的物理设计;(3)定义数据源; (4)选择数据仓库技术和平台; (5)从操作型数据库中抽取、清洗及转换数据到数据仓库; (6)选择访问和报表工具,选择数据库连接软件,选择数据分析和数据展示软件;(7)更新数据仓库。

【作业】第4 章 关联规则 第四章 课后作业

1、 问题:1.关联规则的经典算法包括__和_,其中___的效率更高。
评分规则: 【 apriori,fp-growth,fp-growth。

2、 问题:2.如果L2={{a,b},{a,c},{a,d},{b,c},{b,d}},则连接产生的C3=__。再经过修剪,C3=____。
评分规则: 【 {{abc},{abd},{acd}},{{abc},{abd}}。

3、 问题:3.设定supmin=50%,交易集如表4.8所示。则L1=__。L2=____。表4.8 交易记录D交易号TID顾客购买商品ItemsT1A B CT2A CT3A DT4B E F
评分规则: 【 {{a},{b},{c}},{ac}。

4、 问题:4.什么是关联规则?关联规则的应用有哪些?
评分规则: 【 关联规则挖掘最初由R.Agrawal等人提出,用来发现超级市场中用户购买的商品之间的隐含关联关系,并用规则的形式表示出来,称为关联规则(Association Rule)。关联规则除了可以发现超市购物中隐含的关联关系之外,还可以应用于其他很多领域。关联规则的应用还包括文本挖掘、商品广告邮寄分析、网络故障分析等。

5、 问题:5.关联规则的分类有哪些?关联规则挖掘的步骤包括什么?
评分规则: 【 关联规则的分类: (1)基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。(2)基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。(3)基于规则中处理的变量的类型不同,关联规则可以分为布尔型和数值型。 关联规则挖掘的步骤:(1)找出交易数据库中所有大于或等于用户指定的最小支持度的频繁项集;(2)利用频繁项集生成所需要的关联规则,根据用户设定的最小可信度进行取舍,产生强关联规则。

6、 问题:6.设定 supmin=50%,confmin=50%,使用Apriori算法完成表4.8所示的数据集关联规则的挖掘。 表4.8 交易记录D交易号TID顾客购买商品ItemsT1A B CT2A CT3A DT4B E F
评分规则: 【 答:规则:c=>a,a=>c

7、 问题:7.设定supmin=50%,,confmin=50%,使用 FP-tree算法完成表4.9所示的数据集关联规则的挖掘。表4.9 交易记录D交易号TID顾客购买商品ItemsT1f,a,c,d,g,i,m,pT2a,b,c,f,l,m,oT3b,f,h,j,oT4b,c,k,s,pT5a,f,c,e,l,p,m,n
评分规则: 【

【作业】第5章 数据分类 第五章课后作业

1、 问题:分类的过程包含__、_、___。
评分规则: 【 获取数据,预处理,分类器设计,分类决策。

2、 问题:2.分类器设计阶段包含三个过程:__、_和___。
评分规则: 【 划分数据集,分类器构造,分类器测试。

3、 问题:分类问题中常用的评价准则有__、_和___。
评分规则: 【 精确度,查全率和查准率,F-measure,几何均值。

4、 问题:支持向量机中常用的核函数有__、_和___。
评分规则: 【 多项式核函数,径向基核函数,S型核函数。

5、 问题:5.什么是分类?分类的应用领域有哪些?
评分规则: 【 分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。分类问题是数据挖掘领域中研究和应用最为广泛的技术之一,许多分类算法被包含在统计分析工具的软件包中,作为专门的分类工具来使用。分类问题在商业、银行业、医疗诊断、生物学、文本挖掘、因特网筛选等领域都有广泛应用。例如,在银行业中,分类方法可以辅助工作人员将正常信用卡用户和欺诈信用卡用户进行分类,从而采取有效措施减小银行的损失;在医疗诊断中,分类方法可以帮助医疗人员将正常细胞和癌变细胞进行分类,从而及时制定救治方案,挽救病人的生命;在因特网筛选中,分类方法可以协助网络工作人员将正常邮件和垃圾邮件进行分类,从而制定有效的垃圾邮件过滤机制,防止垃圾邮件干扰人们的正常生活。

6、 问题:6.对于表5.7所示的数据集,利用决策树算法ID3构造决策树。表5.7 习题6数据集AgeSalaryClass≤40highC1≤40highC1≤40lowC241~50highC1≤40lowC2>50lowC1>50lowC1>50highC241~50highC1
评分规则: 【 答:求解过程请参考例5.1。

本门课程剩余章节答案为付费内容
本文章不含期末不含主观题!!
本文章不含期末不含主观题!!
支付后可长期查看
有疑问请添加客服QQ 2356025045反馈
如遇卡顿看不了请换个浏览器即可打开
请看清楚了再购买哦,电子资源购买后不支持退款哦
请输入手机号或商家订单号
打不开请联系客服QQ 2356025045 商家订单号在哪里?点此了解

商家订单号查看步骤

打开支付宝
方法一:我的 > 账单 > 账单详情 > 更多>复制商家订单号
方法二:我的 > 账单 >搜索关键字【网课小帮手】
> 账单详情 > 更多>复制商家订单号
方法三:联系客服QQ 2356025045
微信支付
我 > 支付 > 钱包 > 账单 > 账单详情

继续阅读