大数据工具应用(广东金融学院)智慧树知到章节测试答案

第一章测试

1、2011年麦肯锡研究院提出的大数据定义是:大数据是指其大小超出了常规数据库工具获取、储存、管理和( )能力的数据集。
A、计算
B、访问
C、应用
D、分析
我的答案:D

2、用4V来概括大数据的特点的话,一般是指:Value、Velocity、Volume和( )。
A、Variety
B、Vainly
C、Vagary
D、Valley
我的答案:A

3、大数据分析四个方面的工作主要是:数据分类、( )、关联规则挖掘和时间序列预测。
A、数据统计
B、数据计算
C、数据聚类
D、数据清洗
我的答案:C

4、新浪和京东联合推出的大数据商品推荐,是由京东盲目推送到当前浏览新浪网站的用户的页面上的。
我的答案:X

5、目前的大数据处理技术只能处理结构化数据。
我的答案:X

第二章测试

1、我们常用的微软Office套件中的Access数据库软件的数据库文件格式后缀名是( )。
A、mdf
B、mdb
C、dbf
D、xls
我的答案:B

2、大多数日志文件的后缀名是( )。
A、txt
B、csv
C、xml
D、log
我的答案:D

3、本课程重点介绍的weka软件的专有文件格式是( )。
A、MongoDB
B、ARFF
C、value
D、key map
我的答案:B

4、数据清洗工作的目的主要是要解决数据的完整性、唯一性、合法性和( )。
A、专业性
B、排他性
C、一致性
D、共享性
我的答案:C

5、八爪鱼软件的“自定义采集”工作方式下,需要在软件里输入一个( )来作为采集的目标。
A、电话号码
B、关键词
C、网页地址
D、用户名
我的答案:C

6、八爪鱼软件的采集规则可以通过文件的形式来导入或者导出,这种文件的后缀名是( )。
A、otd
B、jpg
C、png
D、gif
我的答案:A

7、Excel可以通过“数据有效性”按钮操作来规范数据输入的范围。
我的答案:√

8、Excel不能导入txt或csv格式的文件。
我的答案:X

9、八爪鱼软件只能对软件内建了“简易采集”规则的网站采集数据。
我的答案:X

10、八爪鱼软件进行自定义采集时,需要了解对网页的页面结构。
我的答案:√

第三章测试

1、使用DBSCAN算法对鸢尾花数据集(Iris.arff)进行聚类,将epsilon参数设置为0.2, minPoints参数设置为5,忽略class属性,那么将形成( )个簇。
A、1
B、2
C、3
D、4
我的答案:C

2、使用EM算法对天气数据集(weather.numeric.arff)进行聚类,将numClusters设置为4,即簇数为4,其他参数保持默认值,忽略class属性,从结果中可知,下列选项中,( )是错误的。
A、模型的最大似然估计值是-7.18
B、这组数据用算法迭代15次
C、第四个簇的先验概率是0.14
D、第四个簇的实例数为4
我的答案:D

3、使用SimpleKMeans算法对天气数据集(weather.numeric.arff)进行聚类,保持默认参数,即3个簇以及欧氏距离。选择play属性为忽略属性,从结果中可知,下列选项中,( )是错误。
A、这组数据用算法迭代四次
B、产生了三个中心点
C、聚合为3个簇,分别有7,3,4个实例
D、平方和误差为8.928
我的答案:A

4、使用线性回归(LinearRegression)分类器和用M5P分类器对cpu.arff分别进行分类,由其输出的误差指标可知( )。
A、LinearRegression的标准误差比M5P的标准误差小
B、LinearRegression的平均绝对误差比M5P的平均绝对误差小
C、LinearRegression的相对误差比M5P的相对误差小
D、LinearRegression的平均方根误差比M5P的平均方根误差大
我的答案:D

5、删去cpu.arff数据文件中的CACH属性后,使用M5P分类器构建方案,在结果中,到达LM2的实例数有( )个。
A、165
B、21
C、23
D、30
我的答案:B

6、根据J48分类器训练weather.nominal.arff所生产的决策树,当outlook=sunny;temperature=cool;humidity =high;windy=TRUE时,分类的结果是( )。
A、Yes
B、No
C、没有结果
D、无法分类
我的答案:B

7、根据J48分类器训练iris.arff所生产的决策树,当sepallength=4.4;sepalwidth=3.0;petallength=1.3;petalwidth=0.2时,分类的结果是( )。
A、Iris-setosa
B、Iris-versicolor
C、Iris-virginica
D、无法分类
我的答案:A

8、关于Weka离散化说明正确的是( )。
A、离散化是将数值属性转换为字符串型属性
B、有监督离散化有两种等宽和等频方法
C、等宽离散化是使实例分布均匀的
D、离散化包括无监督离散化和有监督离散化
我的答案:D

9、以下( )不是Weka的数据类型。
A、numeric
B、nominal
C、string
D、decimal
我的答案:D

10、关于Weka的文件类型描述错误的是( )。
A、Weka可以打开文件格式有.arff、.csv、.xlsx
B、Weka处理的数据集类似于关系数据库横行实例,竖行属性
C、arff是ASCII文件,可以用Word等文本编辑器打开查看
D、@relation 定义数据集名称,@data之后呈现实例,每一行就是一个实例
我的答案:A

11、以下属于关联分析的是( )。
A、CPU性能预测
B、购物篮分析
C、自动判断鸢尾花类别
D、股票趋势建模
我的答案:B

12、大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下( )算法直接挖掘。
A、K-means
B、Bayes Network
C、C4.5
D、Apriori
我的答案:D

13、某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的( )问题。
A、关联规则发现
B、聚类
C、分类
D、自然语言处理
我的答案:A

14、在进行自动选择属性时,必须设立两个对象,其中确定使用什么方法为每个属性子集分配一个评估值的对象是下面的( )。
A、搜索方法
B、属性评估器
C、元分类器
D、规则挖掘
我的答案:B

15、以下属于属性空间的搜索方法的是( )。
A、GainRatioAttributeEval
B、BestFirst
C、PrincipalComponents
D、SymmetricalUncertAttributeEval
我的答案:B

16、在weka软件探索者界面中,利用Visualize标签页通过更改各个参数来进行数据集的可视化属性设置后,需要单击以下( )按钮,所有更改才会生效。
A、Select Attribute
B、SubSample
C、Update
D、Fast scrolling
我的答案:C

17、给定关联规则AB,意味着:若A发生,B也会发生。
我的答案:X

18、支持度是衡量关联规则重要性的一个指标。
我的答案:√

19、Ranker方法既可以用于单个属性评估器,又可以用于属性子集评估器。
我的答案:X

20、利用weka软件进行数据可视化时,用户可以选择类别属性对数据点着色,如果类别属性是标称型,则显示为彩色条。
我的答案:X

第四章测试

1、贝叶斯网络中的节点代表( )。
A、变量
B、随机过程
C、随机变量
D、随机函数
我的答案:B

2、贝叶斯网络中,节点需给出概率分布描述,对于离散型随机变量而言,可以用( )的形式表示。
A、条件概率密度函数
B、正态分布
C、条件概率表
D、均匀分布
我的答案:C

3、贝叶斯网络中节点之间的边代表( )。
A、随机关系
B、概率因果
C、组合关系
D、随机结果
我的答案:A

4、贝叶斯网络保存的文件格式是( )。
A、XML BIF
B、DOCX
C、TXT
D、XLS
我的答案:A

5、下面( )不是反向传播神经网络的结构。
A、输入层
B、隐含层
C、计算层
D、输出层
我的答案:C

6、神经网络中的节点代表( )。
A、激励变量
B、激励函数
C、随机变量
D、随机函数
我的答案:B

7、下列( )不是常见的激励函数。
A、线性函数
B、Sigmoid函数
C、阈值函数
D、正弦函数
我的答案:D

8、在贝叶斯网络编辑界面时,如果节点的名称没法完全显示,需要从( )菜单项进行调整。
A、Tools|SetData
B、View|Zoom Out
C、View|Zoom In
D、Tools|Layout
我的答案:D

9、WEKA中选择神经网络分类器操作时,应该选择( )。
A、rules条目下的PART
B、functions条目下的SGD分类器
C、functions条目下的MultilayerPerceptron分类器
D、默认的分类器
我的答案:C

10、下面关于Package Manager安装后的目录说明不正确的是( )。
A、doc子目录存放API文档
B、lib子目录存放包所需要的说明文件
C、sample-data子目录存放数据集文件
D、src子目录存放源代码文件
我的答案:B

第五章测试

1、Tableau是一款定位于数据可视化敏捷开发和实现()展现工具。Tableau 连续第 6 年在 Gartner 分析和商业智能魔力象限中蝉联领导者殊荣。
A、商务智能
B、商业行为
C、商务计算
D、商业统计
我的答案:A

2、以下()不是Tableau的数据类型?
A、Boolean
B、Date
C、String
D、Decimal
我的答案:D

3、Tableau可以用来实现交互的、()的分析和仪表板应用,从而帮助我们快速地认识和理解数据。
A、连续性
B、离散性
C、智能化
D、可视化
我的答案:D

4、下列说法错误的是()。
A、Tableau通过内存数据引擎,可以直接查询外部数据库同时动态的从数据仓库抽取实时数据,极大的提高了数据访问和查询效率
B、用户仅需要通过轻点鼠标和简单拖放就可以迅速创建出智能、精美、直观和具有强交互性的报表和仪表盘
C、Tableau允许从多个数据源访问数据,包括带分隔符的文本文件、Excel文件、SQL数据库、Oracle数据库和多维数据库等
D、Tableau不提供应用编程接口
我的答案:D

5、度量往往是()字段,度量是我们的指标。度量常常是连续的,连续的字段在图表中形成轴.将其拖放到功能区时,Tableau默认会进行()。
A、数值,聚合运算
B、数值,混合运算
C、分类,聚合运算
D、分类,混合运算
我的答案:A

6、关于数据分层描述错误的是()。
A、数据分层可以实现向上钻取
B、数据分层可以实现向下钻取
C、数据分层的层级结构由数据维度的上下顺序决定
D、数据分层的层次结构可以手工调整
我的答案:A

7、以下不属于集的创建方式的是()。
A、[常规]创建
B、[条件]创建
C、[顶部]创建
D、[分组]创建
我的答案:D

8、Tableau右边数据目录栏中,不能单击右键创建参数的纬度是()。
A、纬度
B、度量
C、集
D、参数
我的答案:C

9、以下不是创建计算字段时的运算逻辑的是()。
A、数字
B、日期
C、用户
D、表结构
我的答案:D

10、仪表板版面大小设计选项,()不属于大小设计选项。
A、固定大小
B、自动
C、范围
D、自定义
我的答案:D

第六章测试

1、Logistic函数的定义域是()。
A、(-INF, +INF)
B、[0, 1]
C、(0, +INF)
D、(-INF, 1)
我的答案:A

2、下列叙述错误的是()。
A、逻辑回归是一种监督机器学习算法
B、逻辑回归主要用于回归分析
C、逻辑回归采用Sigmoid函数对样本数据进行拟合,以构建回归模型
D、逻辑回归预测事件发生的概率并分析导致事件发生的因素
我的答案:B

3、使用IBk分类器和SMO分类器对vote.arff分别进行分类,由其输出的结果可知()。
A、IBk正确分类百分比比SMO大
B、IBk对republican的分类正确率比SMO大
C、SMO对democrat的分类正确率比IBk小
D、SMO对democrat和republican的分类正确率都比IBk大
我的答案:D

4、
A、0或1
B、0或-1
C、1或-1
D、true或false
我的答案:D

5、以下描述错误的是()。
A、SVM对噪声不具备鲁棒性
B、SVM寻找具有最小边缘的超平面,因此经常被称为最小边缘分类器
C、k-最近邻算法(K-NN)是一种消极学习器
D、聚类分析可以看作是一种非监督的分类
我的答案:B

6、线性支持向量机的最大化间隔正确的描述是()。
A、
B、
C、
D、
我的答案:

7、以下计算距离的公式中,计算欧氏距离的是()。
A、
B、
C、
D、
我的答案:

第七章测试

1、以下数据和信息的说法,不正确的是()。
A、信息是客观世界各种事物特征的反映
B、数据对用户来说是有价值的
C、数据的形式是多样化的
D、凡是可以电子化记录下来的都是数据
我的答案:B

2、以下关于数据分析的方法,正确的是()。
A、数据分析是信息到数据的转换过程
B、分析是一个过程,分析的对象是信息
C、所有的分析都是要从“过程”出发,没有结论的数字罗列并不是分析
D、数据分析的目的就是解决我们现实中的某个问题
我的答案:D

3、以下不属于数据分析的作用的是()。
A、数据分析有助于增加营销开支
B、数据分析有助于企业分析目标客户
C、数据分析有助于企业绩效分析与管理
D、数据分析有助于优化运营前线
我的答案:A

4、以下不属于问题的有效性检验的是()。
A、复杂性检验
B、必要性检验
C、有用性检验
D、可行性检验
我的答案:B

5、图a到图b的转变,属于数据分析思维中的哪一种思维()。 图a 图b
A、对照
B、拆分
C、降维
D、增维
我的答案:√

6、当我们当前的维度不能很好地解释我们的问题时,我们就需要对数据做一个运算,增加多一个指标。这属于以下哪种思维方式()。
A、对照
B、拆分
C、降维
D、增维
我的答案:A

7、对()的理解是数据分析的前提。
A、数据
B、信息
C、业务
D、结果
我的答案:C

8、以下不属于初级数据分析方法的是()。
A、回归分析法
B、平均分析法
C、对比分析法
D、交叉分析法
我的答案:A

9、对多种影响因素按其重要程度进行一定组合,先按第一组合选择出较大范围目标对象,再按第二组合对第一组合筛选出来的对象进一步缩小范围,以此类推,得出最终目标对象。该描述是以下哪种数据分析方法的思想()。
A、回归分析法
B、平均分析法
C、对比分析法
D、层层筛选法
我的答案:D

10、一个好的统计图需满足的标准,不包括以下()。
A、准确
B、有效
C、简洁
D、清楚
我的答案:D