admin 管理员组

文章数量: 1086019


2024年4月14日发(作者:编程教程视频教程)

一、单项选择题

_csv()的header=None表示源文件没有索引,read_csv会自动加上列索

1、影响数据质量问题的因素有哪些 ( D )

A、准确性、完整性、一致性

B、相关性、时效性

C、可信性、可解释性

D、以上都是

2、以下说法错误的是( B )

A、数据预处理的主要流程为数据清理、数据集成、数据变换与数据归约。

B、数据清理、数据集成、数据变换、数据归约这些步骤在数据预处理活动中必须

顺序使用。

C、冗余数据的删除既是一种数据清理形式,也是一种数据归约。

D、整个预处理过程要尽量人机结合,尤其要注重和客户以及专家多交流。

3、处理噪声的方法一般有( D )

A、分箱

B、回归。

C、聚类

D、以上都是

4、数据集成的过程中需要处理的问题有( D )

A、实体识别

B、冗余与相关性分析。

C、数据冲突和检测

D、以上都是

5、影响数据质量问题的因素有哪些( D )

A、准确性、完整性、一致性

8 页)

第 1 页 (共

B、相关性、时效性

C、可信性、可解释性

D、以上都是

6、数据归约的方法有( D )

A、维归约

B、数量归约

C、数据压缩

D、以上都是

7、以下说法错误的是( C )

A、主成分分析、属性子集选择为维归约方法.

B、直方图、聚类、抽样和数据立方体聚集为数量归约方法。

C、用于规约的时间可以超过或抵消在规约后的数据上挖掘节省的时间。

D、数据归约的目的用于帮助从原有庞大数据集中获得一个精简的数据集合,并

使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘

显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果是基本相同。

8、影响数据质量问题的因素有哪些( D )

A、准确性、完整性、一致性

B、相关性、时效性

C、可信性、可解释性

D、以上都是

9、下列关于为什么要做数据清理描述错误的是( D )

A、 数据有重复

B、数据有错误

C、数据有缺失

D、数据量太大

10、下列关于数据清理描述错误的是( A )

8 页)

第 2 页 (共

A、数据清理能完全解决数据质量差的问题

B、数据清理在数据分析过程中是不可或缺的一个环节

C、数据清理的目的是提高数据质量

D、可以借助Kettle来完成大量的数据清理工作

11、下列关于使用参照表清洗数据说法错误的是( B )

A、有些数据无法从内部发现错误,需要结合外部的数据进行参照

B、只要方法得当,数据内部是可以发现错误的,不需要借助参照表

C、使用参数表可以校验数据的准确性

D、使用参照表可以处理数据的一致性

12、下列说法错误的是( A )

A、数据仓库就是数据库。

B、业务键通常来源于业务系统

C、事实表加载前,先加载维表

D、星型模型的各个维表之间没有依赖关系

13、以下说法错误的是( C )

A、雪花模型有多个相互依赖的维表,加载时要注意先后顺序

B、雪花模型是在基于星型模型之上拓展来的,每一个维度可以再扩散出更多的

维度,根据维度的层级拆分成颗粒度不同的多张表

C、事实表和维表之间通过业务键关联

D、雪花模型的主维表和非维表之间是N对1的关系

14、以下说法错误的是( C )

A、时间、日期维属于生成维

B、混合维较少用,实现比缓慢变化维中的类型1、类型2、类型3三种类型复杂。

C、杂项维的属性通常可以分为特定的几个分类

D、类型2缓慢变化维,不会直接覆盖以前的版本,每次更新会生成新的记录

15、假定属性income的最小与最大值分别为25000和3000,根据最小—最大规

8 页)

第 3 页 (共

范化方法将income 10000映射到[0,1]范围内,值为( A )

A、0.318

B、0.3

C、1.68

D、3.43

16、转换创建并保存后的文件后缀名是( A )

A、ktr

B、kjb

C、kbj

D、krt

17、数据库通常可分为两大类型,一类是基于SQL的 型数据库,另一类

被称为NoSQL,属于 型数据库( C )

A、非关系、非关系

B、非关系、关系

C、关系、非关系

D、关系、关系

二、填空题

1、在下表中,用同类样本属性的中心度量方法填充空缺值,空缺值应

为 。

客户编号 客户名称

1 张三

2 李四

3 王五

4 赵六

5 李木

6 王权

风险等级

3

2

2

1

2

1

收入

5000

8000

10000

15000

16000

8 页)

第 4 页 (共

3、数列为[3,5,10,15,10,13],使用z-score方法映射后为[ -1.649 , -1.178 ,

0 , 1.178 , 0 , 0.707 ](注,均值为10,标准差为:4.243)

4、Kettle是一个 程序。

5、转换是ETL解决方案中最主要的部分,它负责处理 、 、

各阶段对数据行的各种操作。

6、转换里的步骤通过 来连接。

7、跳定义了一个 ,允许数据从一个步骤向另一个步骤流动。

8、在Kettle里,数据的单位是 ,数据流就是数据行从一个步骤到另一个

步骤的移动。

9、数据流的另一个同义词就是 。

10、 是转换里的基本组成部分。它是一个图形化的组件,可以通过配

置步骤的参数,使得它完成相应的功能。

11、 步骤可以从指定的数据库中读取指定关系表的数据。

12、步骤需要有一个 性的名字。

13、一个跳,相对于输出数据的步骤而言,为 跳;相对于输入数据的

步骤而言,为 跳。

14、一个步骤的数据发送可以被设置为 和 。

15、 是将数据行依次发给每一个输出跳, 是将全部数据行发送给所

有输出跳。

16、在运行转换时,一个线程运行一个步骤,所有步骤的线程几乎 运

行。

17、从程序执行的角度看, 实际上是两个步骤线程之间进行数据行传输

的缓存。这个缓存被称为 。

18、Kettle使用图形化的方式定义复杂的ETL程序和工作流,所以被归类为

编程语言。

19、Kettle的参数配置分为 和 两类。

8 页)

第 5 页 (共

20、环境变量具有 性质,配置后的环境变量对所有转换、作业都可

用、有效;命名参数具有 性质,仅对当前转换、作业有效。

21、文本文件主要分为 和 两大类。

22、CSV文件是一种用 分割的文本文件。

23、Excel的数据可分为 的表格数据和 的表格数

据。

24、Kettle提供了 和 步骤从Web上获取

数据。

25、查询类的步骤,需要一个 类的步骤来激活。

26、基本上CDC可以分为两种,一种是 的,另一种是

的。

27、基于源数据的CDC要求源数据中相关的属性列。最常见的两种属性列是

和 。

28、当INSERT、UPDATE、DELETE等SQL进行执行时,可以触发数据库自有的

,并执行某些动作。

29、Kettle里的 步骤就可以用来比较两个表的差异。

30、基于 的具有侵入性的CDC操作,可以实时监测到源数据的变化。

31、基于 的CDC操作是非侵入性的。

32、基于源数据的CDC操作,不能捕获 删除的数据,可以捕获

删除的数据。

33、基于源数据的CDC不适用于实时数据捕获,适用于 操作。

34、XML文件不是普通的文本文件,而是一种遵循规范的 的文

本文件。

35、对于JSON文件,Kettle可以用 和 步骤

完成文件的读取与输出。

36、重复数据分为哪两类: 、 。

8 页)

第 6 页 (共

37、Kettle目前的版本中提供了三个关于字符串清洗的步骤,分别是

步骤、 步骤和字符串剪切步骤。

38、Kettle提供的字符串替换步骤的功能非常强大,主要是因为该步骤支持

39、需要将一个行记录拆分成多行记录时,可以选择 步

骤;需要将一个字段拆分成多个字段时,可以选择 步骤。

40、在Kettle中,提供了两个可以比较相似度的步骤,它们分别是

、 。

41、作业有 作业项 、 跳 、 注释 组成。

42、作业创建并保存后的文件后缀名是 kjb 。

43、作业执行顺序由作业项之间的 跳 和每个作业项的 执行结果 来决

定。

44、作业的 跳 是作业之间的连接线,它定义了作业的 执行路径 。

45、跳的两种状态分别是 可用/Enabled 与 不可用/Disabled 。

46、kettle使用一种 回溯 算法来执行作业里的所有作业项。

47、会速算法的两个特征是:作业运行结果不是 唯一的 、运行结果保

存在 内存 里。

48、作业的并行执行是指:两组作业项几乎 同时启动 ,且每组作业项

独立运行在两个 线程 中,互不影响。

49、 START 作业项是一个作业的起点。它的作用是设置作业的 定

时调度 。

50、如果定义了变量“hostname”,那么在程序中引用的格式是

${hostname}/%%hostname%% 。

51、作业的监控有2种: 日志 和 邮件 。

52、pandas提供了两种主要的数据结构: Series 和 DataFrame 。

53、Series是一种类似于 数组 的一维数据结构,包含了一系列的 元

素 以及元素对应的 标签 。

8 页)

第 7 页 (共

54、Series对象没有指定index时,默认创建的index是从 0 到 N-

1的整数值,其中N是Series对象的元素个数。

55、获取Series对象s的index值的写法是 ,获取元素值的写

法是 。

56、s2 = Series([3, 8, -5, 1], index=['d', 'b', 'a', 'c']), s2[3]返回

的是 1 ,s2[‘a’]返回的值是 -5 ,s2>0返回的元素是 bool 类

型。

57、DataFrame是一种带标签的 二 维数据结构,其中各列可以存储

不同 的数据类型。

58、pandas提供了 read_csv 函数,用于导入csv文件,并得到一个

DataFrame 对象。

59、read_csv函数中参数names=['a', 'b', 'c', 'd'],表示指定DataFrame

对象的 列名 依次为a,b,c,d。

60、使用()函数判断DataFrame对象中的 空缺值 。

61、pandas的导出csv文件的函数是 to_csv ,其中指定分隔符的参数名

是 sep ,不希望输出索引是,可设置参数 index = False 。

62、json模块的 load 函数能够导入JSON数据,返回值是一个 字典 对

象。

63、pandas通过 ExcelFile 类提供了对Excel文件的基本支持。这个类

在内部使用 xlrd 和 openpyxl 包来操作Excel文件,因此需

要首先安装这两个包。

8 页)

第 8 页 (共

三、判断题

1、Kettle不是开源软件。( X )

2、Kettle使用Java编写的非可视化工具。( X )

3、Kettle中的步骤是顺序执行的。( X )

4、Kettle中的步骤是并行执行的。( √ )

5、步骤的名称具有唯一性。( √ )

6、在“数据库连接”窗口中,在一个作业或转换范围内连接名称不能重复。( √ )

7、查询类的步骤不需要激活,可以直接运行。( X )

8、触发器的CDC的可以实时监测到数据的所有变化。( √ )

9、在Kettle中,不存在单一的清洗步骤,清洗工作往往需要结合多个步骤才能

组合完成。( √ )

10、在使用表输入步骤进行数据抽取时,应尽量避免使用复杂的SQL语句进行数

据筛选。( √ )

11、由于大部分的数据都是准确无误的,存在问题的数据只占极少部分,只要数

据分析的方式 正确,是不需要进行数据清理的。( X )

12、 Kettle中,参照数据流到流查询步骤对应的跳上会出现一个“i"标识。( √ )

13、 Kettle提供了大量的数据清洗步骤,没有必要再使用脚本组件来做数据清

理。( X )

14、作业中的注释是可有可无的,因此它不重要。( X )

15、注释是为了增强程序的可读性,能大大减低维护成本。( √ )

16、在一个作业中,START作业项可以多次出现。( X )

17、变量是一个任意长度的字符串值,它有自己的作用范围。( √ )

18、在kettle中所有文本输入框都可以使用变量。( X )

19、Series对象的index可以通过赋值来改变。( √ )

8 页)

第 9 页 (共

20、在创建DataFrame时,如果columns参数中指定的列不存在,那么创建的

DataFrame对象中的对应列值均为NaN,表示一个不可用的值。( √ )

21、在读取csv文件时,read_csv函数中参数header=None表示让pandas不指

定列名。( X )

22、_csv('', skiprows=[0,2,3]),skiprows的作用是忽

略指定行。( √ )

23、与文件相比,使用数据库管理数据能够获得更快的访问速度,更方便的访问

接口,更可靠的数据完整性。( √ )

24、数据仓库主要有事实表和维度表组成,维表主要存放各类属性,事实表主要

存放业务数据。( √ )

25、业务键和代理键都通过ETL生成。项目中,我们要确保业务键的唯一性。

( X )

26、身份证号、手机号、学号等是常见的代理键。( X )

27、星型模型汇中,事实表是模型的中心,外围是若干张维表,每张维表都和事

实表直接连接。( √ )

28、缓慢变化维,主要分为三种,其中类型2当前最新数据会覆盖旧数据。( X )

29、缓慢变化维类型3:业务主体数据发生变化时,用当前最新数据生成新的记

录,并且在该行记录中记录上一个版本部分关键信息。( √ )

30、事务事实表记录的是事务层面的事实,保存的是最原子的数据,也称“原子

事实表”。( √ )

(共 8 第 10 页

四、简答题

1、什么是转换?

参考答案:转换是ETL解决方案中最主要的部分,它负责处理抽取、转换、加载

各阶段对数据行的各种操作。

2、什么是跳?

参考答案:转换里的步骤通过跳来连接,跳定义了一个单向通道,允许数据从一

个步骤向另一个步骤流动。

3、Kettle的参数配置分为哪两类,并简述每一类的作用范围。

参考答案:Kettle的参数配置分为环境变量配置和命名参数两类。环境变量具有

全局性质,配置后的环境变量对所有转换、作业都可用、有效;命名参数具有局

部性质,仅对当前转换、作业有效。

4、在ETL工作中,我们常常面临着处理各种类型的文件场景,请列举几个文件

类型。

参考答案:TXT、CSV、Excel、XML、JSON等

5、什么是CDC(变化数据捕获)?

参考答案:识别出变化的数据并只导入这部分数据被称为变化数据捕获(Change

Data Capture)即CDC

6、CDC操作分为哪四种,并标明是否是侵入性的。

参考答案:基于源数据的CDC,侵入性;基于触发器的CDC,侵入性;基于快照

的CDC,侵入性;基于日志的CDC,非侵入性

7、简述基于源数据的CDC操作的缺点。

参考答案:区分插入和更新操作;不能捕获到物理删除操作,但是可以捕获到逻

辑删除;如果在一个同步周期内,数据被更新了多次,那么只能同步最后一次的

更新操作,中间的更新操作都无法导入;时间戳和基于序列的CDC操作不适用于

(共 8 第 11 页

实时场景下的数据导入,一般只适用于批量操作。

8、简述基于触发器的CDC操作的优缺点。

参考答案:缺点:因为要变动源数据库,服务协议或者数据库管理员不允许,所

以在大多数情况下,不允许向数据添加触发器,而且这种方法还会降低系统的性

能。优点:可以实时监测到数据的所有变化

9、简述基于日志的CDC操作的优缺点。

参考答案:优点:基于日志的方式是最高级的、最没有侵入性的CDC方法;缺点:

只能用来处理一种特定的数据库

10、数据清理主要目的是什么?

参考答案:数据清理,就是试图检测和去除数据集中的噪声数据和无关数据,处

理遗漏数据,去除空白数据域和知识背景下的白噪声,解决数据的一致性、唯一

性问题,从而达到提高数据质量的目的。

11、请简单描述下如何去除不完全重复数据?

参考答案:第一步,选定一个或多个字段,使用模糊匹配步骤找出疑似重复数据

的记录

第二步,选定一个或多个字段做为参考字段,进一步检测数据的可能重复性

第三步,去除或者合并这些疑似重复的记录,这一步是非常关键的一步,需要结

合多方面的因素进行综合评估,最终才能确定一个合并/去除的方案。

12、作业项有哪些不同于转换步骤?

参考答案:可以影子拷贝;作业项之间传递一个结果对象;可以并行执行。

13、作业跳对作业项对运行结果的判断有哪三种方式?

参考答案:无条件的;当结果为真的时候继续下一步;当结果为假的时候继续下

一步。

14、写出下面这个作业的执行顺序。

(共 8 第 12 页

参考答案:

1、首先 “开始” 作业项搜索所有下一个节点作业项,找到了 “A” 和 “C”。

2、执行 “A”。

3、搜索 “A” 后面的作业项,发现了 “B”。

4、执行 “B”。

5、搜索 “B” 后面的作业项,没有找到任何作业项。

6、回到 “A”,也没发现其他作业项。

7、回到 “START”,发现另一个要执行的作业项 “C”。

8、执行 “C”。

9、搜索 “C” 后面的作业项,没有找到任何作业项。

10、回到 “START”,没有找到任何作业项。

11、作业结束。

15、请简要描述pandas库的DataFrame对象。

参考答案:DataFrame是一种表格型数据结构,它含有一组有序的列,每列可以

是不同的值。DataFrame既有行索引,也有列索引,这些索引可以看作是由Series

组成的字典。

(共 8 第 13 页


本文标签: 数据 步骤 作业 使用 操作