华为认证|HCIE-Big Data-Data Mining V2.0 模拟试卷

发布人:小e君 发布时间:2019-11-14 17:27:05
华为认证|HCIE-Big Data-Data Mining V2.0 模拟试卷


1.(多选) CRISP-DM(跨行业数据挖掘标准流程,Cross Industry Standard Process —Data Mining)模型的基本步骤除了商业理解和数据理解以外,还包含以下哪些步骤?
A. 数据准备
B. 建立模型
C. 模型评估
D. 模型实施

2.(单选) 以下哪个选项是求解等式约束最优化的常用方法?
A. 梯度下降法
B. 牛顿法
C. 拉格朗日乘法子
D. KKT条件

3.(单选) 以下哪个命令是用于在Python的Matplotlib模块中添加网格线?
A. plt.lengend()
B. plt.grid()
C. plt.xtickets()
D. plt.show()

4.(单选) “点击率问题”是这样一个预测问题, 99%的人不会点击, 而1%的人会点击, 所以这是一个非常不平衡的数据集。假设,现在我们已经建了一个模型来分类, 而且有了99%的预测准确率, 我们可以下的结论是?
A. 模型预测准确率已经很高了, 我们不需要做什么了。
B. 模型预测准确率不高, 我们需要做点什么改进模型。
C. 无法下结论
D. 以上都不对

5.(单选) 以下哪个选项不是连续变量的数值特征离散化方法?
A. OneR
B. 基于信息熵的方法
C. 独热编码
D. 分箱

6.(多选) 对于{优,良,中,差...}离散型数据类型可以使用以下什么特征处理方法?
A. 哑编码
B. 等距分箱
C. 等频分箱
D. One-Hot编码(独热编码)

7.(单选) 以下关于Wrapper(包装法)和Filter(过滤法)的描述不正确的是?
A. 相对于Filter(过滤法),Wrapper方法找到的特征子集分类性能通常更好。
B. Wrapper方法选出的特征通用性较强,当改变学习算法时,也不需要针对该学习算法重新进行特征选择。
C. Wrapper方法由于每次对子集的评价都要进行分类器的训练和测试,所以算法计算复杂度很高。
D. 对于大规模数据集来说,Wrapper算法的执行时间很长。

8.(多选) 机器学习的分类主要有哪些?
A. 监督学习
B. 无监督学习
C. 半监督学习
D. 强化学习

9.(单选) 在Logistic Regression 中,如果同时加入L1和L2范数,不会产生什么效果?
A. 以做特征选择,并在一定程度上防止过拟合
B. 能解决维度灾难问题
C. 能加快计算速度
D. 可以获得更准确的结果

10.(多选) 以下关于朴素贝叶斯分类方法 (Naive Bayes)的描述正确的是?
A. 各属性独立性假设不敏感
B. 对小规模的数据表现好
C. 对缺失数据不太敏感
D. 需要计算先验概率

11.(单选) 我们想在大数据集上训练决策树,为了使用较少时间,我们可以
A. 增加树的深度
B. 增加学习率(learning rate)
C. 减少树的深度
D. 减少树的数量

12.(单选) 以下关于Apriori算法的描述不正确的是?
A. Apriori算法是一个非常经典的频繁项集的挖掘算法,很多算法都是基于Apriori算法而产生的,包括FP-Tree,GSP, CBA等。
B. 使用先验原理,大大提高了频繁项集逐层产生的效率。
C. Apriori算法适用于非重复项集数元素较多的案例。
D. Python的工具库mlxtend目前提供实践Apriori算法的方法。

13.(单选) 如果没有特殊要求,尽量选择简单的模型,越简单的越合适。
A. TRUE
B. FALSE

14.(多选) 以下关于模型过拟合、欠拟合的理解正确的是?
A. 一般来说,模型过拟合容易出现高偏差,低方差
B. 一般来说,模型过拟合容易出现高方差,低偏差
C. 一般来说,模型欠拟合容易出现高方差,低偏差
D. 一般来说,模型欠拟合容易出现高偏差,低方差

15.(单选) 最小二乘法的基本原则是,最优拟合曲线应该使得所有点到回归直线的距离和最小。通常使用欧几里得距离进行距离的度量。
A. TRUE
B. FALSE

16.(多选) 以下关于Spark MLlib分类的说法正确的是?
A. MLlib支持两个线性方法:线性支持向量机(SVM)和逻辑回归。
B. MLlib线性支持向量机仅支持二元分类,而逻辑回归对二元分类和多元分类都支持。
C. MLlib中使用RDD代表训练数据集,其中标签索引从0开始,如0,1,2,...。对于二元标签γ使用-1表示负,使用+1表示正。
D. MLlib支持线性SVM使用L2正则化来进行训练,也支持使用L1正则化。

17.(单选) 以下关于Spark MLlib 中K-Means优化参数描述不正确的是?
A. maxIterations:要运行的最大迭代次数。
B. Runs:运行Kmeans算法的次数。
C. initialModel:指定随机初始化。
D. Epsilon:确定K-Means收敛的距离阈值。

18.(多选) MLS实例的管理界面中,以下操作描述正确的有?
A. “访问”:访问该实例。
B. “删除”:删除该实例。删除实例后不可恢复,请谨慎操作。
C. “更多>监控信息”:查看平台上所有实例的监控信息。
D. “更多>恢复新实例”:当用户所创建的实例发生故障而无法使用时,用户可以将该实例的所有数据(包括实例中创建的项目、工作流和交互式记事本等)迁移至一个新实例中,避免因实例故障导致用户数据丢失。

19.(多选) 如何选择合适的大数据架构平台,企业应该如何考虑如下哪些方面?
A. 企业应根据自己的实际业务情况选择相匹配的大数据架构平台和相应技术路线。
B. 所选大数据架构应具备多样化数据采集能力,可视化快速配置能力,具备统一调度管控能力。
C. 从平台的功能与性能方面考虑。
D. 从平台是否符合技术发展趋势的角度考虑。

20.(单选) 在“提升信用卡安全案例”中,其商业理解的阶段可以选择建立各类信用评分模型,其中不包括哪个类型?
A. 申请信用卡评分卡
B. 模式信用评分卡
C. 行为信用评分卡
D. 催收信用评分卡

华为认证模拟试卷参考答案:

1. ABCD 2. C 3. B 4. C 5. C 6. AD 7. B 8. ABCD 9. D 10. BCD 11. C 12. C 13. A 14. BD 15. A 16. ABD 17. C 18. ABD 19. ABCD 20. B

最新新闻资讯