2020 数据挖掘原理及应用(太原理工大学) 最新满分章节测试答案
- 【作业】第一讲 机器学习简介 数据挖掘 第一次作业
- 第一讲 机器学习简介 第一讲测验
- 【作业】第二讲 数据预处理与评估方法 数据挖掘 第二次作业 预处理
- 第二讲 数据预处理与评估方法 第二讲测验
- 【作业】第十二讲 关联规则 数据挖掘 第三次作业
- 【作业】第三讲 回归分析 数据挖掘 第三次作业 线性回归
- 第三讲 回归分析 第三讲测验
- 第四讲 回归方法 第四讲测验
- 【作业】第四讲 回归方法 数据挖掘 第五次作业 判别分类
- 【作业】第十三讲 数据挖掘实验课 weka介绍 数据挖掘 第一次实验 数据预处理
- 第五讲 支持向量机 linear support vector machine 第五讲测验
- 【作业】第十四讲 dual support vector machine & 关联规则实验 数据挖掘第二次实验 关联规则
- 第六讲 决策树 第六讲测验
- 【作业】第六讲 决策树 数据挖掘 第六次作业 决策树
- 【作业】第六讲 决策树 数据挖掘 第三次实验 决策树
- 第七讲 集成学习:兼听则明,偏听则暗 第七讲测验
- 第八讲 正则化方法 第八讲测试
- 第九讲 人工神经网络 第九讲测试
- 【作业】第十一讲 聚类分析 数据挖掘 第四次实验 聚类
- 第十一讲 聚类分析 第十一讲测验
- 第十讲 深度学习 第十讲测验
本答案对应课程为:点我自动跳转查看
本课程起止时间为:2020-04-10到2020-06-20
本篇答案更新状态:已完结
【作业】第一讲 机器学习简介 数据挖掘 第一次作业
1、 问题:什么是数据挖掘
评分规则: 【 数据挖掘是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。
数据挖掘是从特定形式的数据集中提炼知识的过程。
】
2、 问题: 谈谈你对数据挖掘和机器学习的认识
评分规则: 【 数据挖掘涉及到机器学习、人工智能等多门学科
他们之间最大的不同是机器学习探索人的认知学习过程,并期望利用经验来改善自身的性能。
机器学习是数据挖掘的重要工具
数据挖掘不仅要研究一些机器学习方法,还要用非机器学习技术解决数据仓储、大规模数据、数据噪声等实际问题。
】
第一讲 机器学习简介 第一讲测验
1、 问题:机器学习可以用于哪些情形?
选项:
A:人类无法解释的专业知识
B:模型需要基于大量数据
C:当人类专业知识不存在
D:模型必须定制
答案: 【人类无法解释的专业知识;
模型需要基于大量数据;
当人类专业知识不存在;
模型必须定制】
2、 问题:以下哪些属于监督学习?
选项:
A:朴素贝叶斯
B:支持向量机
C:聚类
D:决策树
答案: 【朴素贝叶斯;
支持向量机;
决策树】
3、 问题:机器学习的类型有?
选项:
A:半监督学习
B:有监督学习
C:无监督学习
D:强化学习
答案: 【半监督学习;
有监督学习;
无监督学习;
强化学习】
4、 问题:有监督学习是分类同时定性的,而无监督学习是先聚类后定性的。
选项:
A:正确
B:错误
答案: 【正确】
5、 问题:半监督学习没标签数据的数量常常远大于有标签数据的数量。
选项:
A:正确
B:错误
答案: 【正确】
【作业】第二讲 数据预处理与评估方法 数据挖掘 第二次作业 预处理
1、 问题:描述处理空缺值问题的处理方法。
评分规则: 【 忽略元组: 当缺少类标号时通常这样做 (涉及分类时)—除非元组有多个属性缺失值,否则该方法不是很有效
人工填写缺失值: 费时 + 行不通(数据集大时)
自动填充,可以使用如一个全局常量,属性的均值,与给定元组属同一类的所有样本的属性均值,还可以用基于推理的工具或决策树归纳确定最可能的值。
】
2、 问题:假设数据元组age值(按递增序):14,16,17,17,18,19,19,21,21,23,25,25,27,27,29,32,33,35,36,37,39,39,40,43,47,56,68。用分箱中值光滑对以上数据进行光滑,箱深度为3。解释你的步骤,并评论对于给定的数据该技术的效果。
评分规则: 【 划分为等深为3的箱:箱1:14,16,17箱2:17,18,19箱3:19,21,21箱4:23,25,25箱5:27,27,29箱6:32,33,35箱7:36,37,39箱8:39,40,43箱9:47,56,68
采用中值平滑技术后得:箱1:16,16,16箱2:18,18,18箱3:21,21,21箱4:25,25,25箱5:27,27,27箱6:33,33,33箱7:37,37,37箱8:40,40,40箱9:56,56,56
通过分箱中值光滑考察周围数据进行局部平滑,首先age数据被划分并存入等深的箱中,箱中的每个值被该箱的中值替换,减少了每个属性不同值的数量。
】
3、 问题:如何识别数据中的孤立点?
评分规则: 【 首先可以似或相邻的数据聚合在一起,形成不同的聚类集合,这些孤立点就会被检测出来。
】
4、 问题:假设数据元组age值(按递增序):14,16,17,17,18,19,19,21,21,23,25,25,27,27,29,32,33,35,36,37,39,39,40,43,47,56,68。用最小-最大规范化法,将age值37变换到[0.0, 1.0]区间。
评分规则: 【 (37-14)×(1.0-0.0)/(68-14)=0.426
】
5、 问题:假设数据元组age值(按递增序):14,16,17,17,18,19,19,21,21,23,25,25,27,27,29,32,33,35,36,37,39,39,40,43,47,56,68。用z-score规范化法变换age值37,其中age标准误差为12.94岁。
评分规则: 【 计算age的平均值:30.481
(37-30.481)/12.94=0.504
】
6、 问题:假设数据元组age值(按递增序):14,16,17,17,18,19,19,21,21,23,25,25,27,27,29,32,33,35,36,37,39,39,40,43,47,56,68。用小数定标规范化法变换age值37
评分规则: 【 37/(10^2)=0.37
】
第二讲 数据预处理与评估方法 第二讲测验
1、 问题:不平衡问题的领域有?
选项:
A:医学诊断
B:预测罕见事件
C:检测欺诈
D:预测故障/失效
答案: 【医学诊断;
预测罕见事件;
检测欺诈;
预测故障/失效】
2、 问题:识别任务中,召回率是被预测为“正面”的测试数据中结果是正确的比例。
选项:
A:正确
B:错误
答案: 【错误】
分析:【识别任务中,精确度是被预测为“正面”的测试数据中结果是正确的比例,召回率是标签为“正面”的测试数据中预测正确的比例。】
【作业】第十二讲 关联规则 数据挖掘 第三次作业
1、 问题:数据库有5个事务。设 min_sup = 60%,min_conf = 80%。 TID | 购买的商品——————–T100 | {M, O, N, K, E, Y}T200 | {D, O, N, K, E, Y}T300 | {M, A, K, E}T400 | {M, U, C, K, Y}T500 | {C, O, K, I, E} 使用Apriori算法发现事务中的频繁项集。(可参照教材第32页例3.1完成)
评分规则: 【 由min_sup = 60%,得最小支持数为3
扫描事务项集对每一候选1项集计数,C1:项集 | 支持度计数——————–M | 3O | 3K | 5E | 4Y | 3D | 1A | 1U | 1C | 2I | 1
由min_sup = 60%,得最小支持数为3,则选取大于最小支持度的项目集候选1项集计数,L1:项集 | 支持度计数——————–M | 3O | 3N | 2K | 5E | 4Y | 3
由频繁1项目集L1生成候选2项目集C2,并统计它们的支持度:项集 | 支持度计数——————–MO | 1MK | 3ME | 2MY | 2OK | 3OE | 3OY | 2KE | 4KY | 3EY | 2
选取支持度不小于3的候选项目集作为2频繁项目集L2:项集 | 支持度计数——————–MK | 3OK | 3OE | 3KE | 4KY | 3
由频繁2项目集L2生成候选3项目集C3,并统计它们的支持度:项集 | 支持度计数——————–OKE | 3KEY | 2
选取支持度不小于3的候选项目集作为3频繁项目集L3:项集 | 支持度计数——————–OKE | 3
】
2、 问题:比较Apriori算法与FP增长算法过程的效率。
评分规则: 【 Apriori需多次扫描数据库
FP增长算法建立FP树只需一次的扫描
在Apriori算法中产生候选是昂贵的(由于联接),而FP增长不产生任何候选。
】
【作业】第三讲 回归分析 数据挖掘 第三次作业 线性回归
1、 问题:下表是学生的期中和期末考试成绩期中成绩x | 期末成绩y———————–72 | 8450 | 6381 | 7774 | 7894 | 9086 | 7559 | 4983 | 7965 | 7733 | 5288 | 7481 | 90绘制数据图,观察x和y是否具有线性关系。
评分规则: 【 从图中可以看出,尽管有些点不在一条直线上,但总体模式表现出期中成绩x和期末成绩y之间的线性关系。
】
2、 问题:使用最小二乘方法,由学生的期中成绩预测学生的期末成绩。
评分规则: 【 由以上数据得出,期中成绩均值x~= 866/12=72.167,期末成绩均值y~=888/12=74。
设回归系数b, w,则它们的线性关系可表示为y=b+wx,w=[Σ(xi-x~)×(yi-y~)]/[Σ(xi-x~)^2]=[(72-72.167) ×(84-74)+(50-72.167) ×(63-74)+(81-72.167) ×(77-74) +(74-72.167) ×(78-74) +(94-72.167) ×(90-74) +(86-72.167) ×(75-74)+(59-72.167) ×(49-74) +(83-72.167) ×(79-74)+(65-72.167) ×(77-74) +(33-72.167) ×(52-74) +(88-72.167) ×(74-74) +(81-72.167) ×(90-74)]/[ (72-72.167) ^2+(50-72.167) ^2+(81-72.167) ^2+(74-72.167) ^2+(94-72.167) ^2 +(86-72.167) ^2+(59-72.167) ^2+(83-72.167) ^2+(65-72.167) ^2+(33-72.167) ^2 +(88-72.167) ^2+(81-72.167) ^2]=2004/3445.667=0.5816
b=y~-wx~=74-0.5816×72.167=32.028
因此,最小二乘直线的方程估计为y=32.028+0.5816x
】
3、 问题:预测期中成绩为86分学生的期末成绩。
评分规则: 【 将x=86代入方程中,得y=32.028+0.5816×86=82.045因此,如果这位同学的期中成绩为86,我们预测他的期末成绩将为82分。
】
第三讲 回归分析 第三讲测验
1、 问题:已知变量x与y正相关,且由观测数据算得x的样本平均值为3,y的样本平均值为3.5,则由该观测数据算得的线性回归方程可能是
选项:
A:y=0.4x+2.3
B:y=2x-2.4
C:y=-2x+9.5
D:y=-0.3x+4.4
答案: 【y=0.4x+2.3】
2、 问题:在两个变量的回归分析中,作散点图是为了
选项:
A:直接求出回归直线方程
B:直接求出回归方程
C:根据经验选定回归方程的类型
D:估计回归方程的参数
答案: 【根据经验选定回归方程的类型】
3、 问题:下列两个变量之间的关系,哪个是函数关系
选项:
A:学生的性别与数学成绩
B:人的工作环境与健康状况
C:正方形的边长与面积
D:儿子的身高与父亲的身高
答案: 【正方形的边长与面积】
4、 问题:在线性回归方程y=a+bx中,回归系数b表示
选项:
A:当x=0时,y的平均值
B:x变动一个单位时,y的实际变动量
C:y变动一个单位时,x的平均变动量
D:x变动一个单位时,y的平均变动量
答案: 【x变动一个单位时,y的平均变动量】
5、 问题:若每一吨铸铁成本y(元)与铸件废品率x%建立的回归方程y=56+8x,下列说法正确的是
选项:
A:废品率每增加1%,成本每吨增加64元
本文章不含期末不含主观题!!
本文章不含期末不含主观题!!
支付后可长期查看
有疑问请添加客服QQ 2356025045反馈
如遇卡顿看不了请换个浏览器即可打开
请看清楚了再购买哦,电子资源购买后不支持退款哦