admin 管理员组

文章数量: 1184232


2023年12月16日发(作者:servletmvc项目实战)

2018

大数据元规范编写规则

1范围

本标准规定了深圳市龙岗区政务服务大数据数据元(以下简称数据元)的表示规范、提取、提交、维护、管理和使用要求。

本标准适用于深圳市龙岗区政务服务大数据数据元的编写、提交、注册、维护和管理。

2规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T2659世界各国和地区名称代码

GB/T7027信息分类和编码的基本原则与方法

GB/T7408数据元和交换格式信息交换日期和时间表示法

GB11643公民身份号码

GB13000信息技术通用多八位编码字符集(UCS)

GB/T17295国际贸易用计量单位代码

GB18030信息技术中文编码字符集

GB/T18391(所有部分)信息技术元数据注册系统(MDR)内容一致性的规程

GB/T19488.1-2004电子政务数据元第1部分:设计和管理规范

3术语和定义

下列术语和定义适用于本文件。

3.1

数据data

信息的可再解释的形式化表示,以适应于通信、解释或处理。

注:数据可以由人工或自动的方式加工、处理。

[GB/T18391.1-2009,定义3.2.6]

3.2

数据元dataelement

由一组属性规定其定义、标识、表示和允许值的数据单元。

[GB/T18391.1-2009,定义3.3.8]

3.3

值域valuedomain

允许值的集合。

[GB/T18391.1-2009,定义3.3.38]

1

2018

3.4

注册registration

一个管理项与其注册机构的关系。

[GB/T18391.1-2009,定义3.3.31]

3.5

注册机构registrationauthority

被授权注册龙岗区政务数据元或其他对象的机构。

3.6

管理机构responsibleorganization

对必选属性内容负责的机构或其所属部门。

3.7

提交机构submitauthority

对数据元提出新增、变更或废止的机构或个人。

3.8

提案proposal

提交注册机构讨论决定新增、变更或废止数据元的建议。

4数据元的表示规范

4.1数据元的属性概述

数据元的表示规范是通过对其一系列属性的描述来实现的。这些属性实际上是数据元的元数据。表1给出了数据元的六大类属性。

属性类别 属性名称

内部标识符

中文名称

标识类属性 英文名称

中文全拼

版本

定义

定义类属性 对象类词

特性词

表示词

数据类型

表示类属性 数据格式

值域

计量单位

管理类属性

状态

批准日期

备注

是否必选属性

管理类属性是描述数据元管理与控制方面的属性。

附加类属性是描述上述属性以外的其他属性。

表示类属性是描述数据元表示方面的一类属性。

定义类属性是描述数据元语义方面的一类属性。

标识类属性是用于标识数据元的一类属性。

说明

附加类属性

2

2018

4.2 数据元属性的描述方法

数据元属性应依照一种标准方式来描述。下面的描述符只对数据元属性的描述有效(对数据元的描述无效)。

1)名称

赋予元数据属性的标记。名称是唯一的。名称以字符串形式表示。

2)定义

属性的描述,可使一种属性与其他属性清晰地区别开来。定义以字符串形式表示。

3)约束

显示一个属性是始终还是有时出现的描述符。该描述符可以有两个取值:必选或可选,前者表示该属性必须出现,后者表示该属性可以出现,也可以不出现。

4)出现次数

显示一个属性出现多少次的描述符。该描述符有以下四种情况:0:1(表示不出现或出现1次),0:n(表示不出现或出现n次),1:1(表示出现且仅出现1次),1:n(表示出现1次或多次)。

5)类型

描述属性的所有取值的类型。属性值的示例有:“字符”、“数值”、“日期”、“时间”、“日期时间”和“二进制”。

6)命名规则

数据元属性的命名和分配规则。

7)备注

与属性应用有关的注释。

4.3标识类属性

4.3.1名称:中文名称

定义:在提供的共享数据中对应的字段名称。

约束:必选。

出现次数:1:1。

类型:字符串。

命名规则:

1)在一定语境下数据元的名称应唯一;

2)中文名称由一个对象类词、一个特性词和一个表示词组成,其顺序如下:

中文名称=对象类词+特性词+表示词;

3)中文名称中应有且只有一个对象类词、特性词和表示词;

4)表示词应尽量选用表3所列出的词语;

5)当表示词与特性词有重复或部分重复时,可将名称中冗余词省略。

备注:无。

4.3.2名称:英文名称

定义:赋予数据元的单个或多个英文字词的指称。

约束:必选。

3

2018

出现次数:1:1。

类型:字符串。

命名规则:

1)英文名称中的名词使用单数形式,动词使用现在时;

2)英文名称的各个成分之间用一个空格分隔,不允许使用特殊字符;

3)允许使用缩写词、首字母缩略词和大写首字母。

备注:无

4.3.3名称:中文全拼

定义:数据元中文名称的汉语拼音。

约束:必选。

出现次数:1:1。

类型:字符串。

命名规则:

1) 数据元的中文全拼由其中文名称中的每一个汉字的拼音组成;

2) 拼音中间用连字符“-”连接,并全部使用小写。

备注:无

4.3.4 名称:内部标识符

定义:在一个注册机构内由注册机构自行分配的,与语言无关的数据元的唯一标识符。

约束:必选。

出现次数:1:1。

类型:字符串。

命名规则:

1) 内部标识符由2位阿拉伯数字组成;

2) 内部标识符可按照数据元第一次提交的时间顺序由小到大编号;

3) 内部标识符一旦赋予,将不被复用。

备注:具体编码规则见第2部分-第4部分的《数据元分类》章节。

示例:010001

01:人口业务数据元0001:姓名

4.3.5 名称:版本

定义:在一个注册机构内的一系列逐渐完善的数据元规范中,某个数据元规范发布的标识。约束:必选。

出现次数:1:1。

4

2018

类型:字符串。

命名规则:

1) 版本是由阿拉伯数字字符和小数点字符组成的字符串。

2) 数据元的版本号表示为m.n,其中“m”、“n”为阿拉伯数字字符,数据元的初始版本号为1.0。版本号的赋予原则为:

• 若数据元的必选属性发生变化时,无论非必选属性是否变化,则小数点字符前的数字字符加1,小数点字符后的数字归0;

• 若数据元的必选属性不变而非必选属性发生变化时,则小数点字符前的数字字符不变,小数点字符后的数字加1。

备注:无

示例:某数据元的版本号为1.0,当数据元第一次修订时,其必选属性发生变化而非必选属性不变,则该数据元的版本为2.0;当该数据元第二次修订时,其必选属性不变而非必选属性发生变化,则该数据元的版本为2.1;当数据元第三次修订时,其必选属性和非必选属性同时发生变化,则该数据元的版本为3.0。

4.3.6 名称:注册机构

定义:广东标准化行政主管部门授权对政务服务数据元实施注册、维护和管理功能的组织。

约束:必选。

出现次数:1:1。

类型:字符串。

命名规则:

1) 注册机构应使用全称。

备注:无

4.3.7 名称:同义名称

定义:一个数据元在不同应用环境下的不同称谓。

约束:可选。

出现次数:0:n。

类型:字符串。

命名规则:

备注:一个数据元可以有多个同义名称。

4.4 定义类属性

4.4.1 名称:定义

定义是用描述性的短语或句子对一个数据元所作的解释。

4.4.2 名称:对象类词

对象类词表示数据元所属的事物或概念的集合,表示某一语境下的一个活动或对象。

对象类词是数据元名称的成分之一(见4.2.1)并在数据元名称中占支配地位。

标识出数据元的对象类词有助于实现对数据元的规范化命名、分析、类比和查询。

4.4.3 名称:特性词

特性词用以表达数据元所属的对象类的某个显著的、有区别的特征。它是数据元名称的成分之一(见5

2018

4.2.1)。

标识出数据元的特性词有助于对数据元的规范化命名、分析、类比和查询。

4.5 关系类属性

4.5.1 名称:分类方案

分类方案的属性描述如下:

a) 分类方案是根据数据元的来源、组成、结构、应用、功能等共同特性,将数据元排列或划分成组的模式;

b) 数据元可使用多种分类方案进行描述,以便于使用者从不同的角度进行查询和使用。每种分类方案有一个标识符,不同的标识符代表不同的分类方案;数据元的分类原则和方法见GB/T7027;

c) 数据元的分类方案由数据元注册机构进行统一的维护管理。

4.5.2 名称:分类方案值

分类方案值是指某个数据元在一个分类方案中所处的位置,用该数据元在此分类方案中的分类代码表示。有几个分类方案就有几个分类方案值即分类方案和分类方案值之间存在一一对应关系。

4.5.3 名称:关系

关系用以描述当前数据元与其他相关数据元之间的关系。表2给出了数据元之间基本关系的数据格式。

为更加通俗准确表示数据元的基本关系,其关系数据格式采用中文描述和表2中的关系表示符共同表示。

示例:数据元“案件编号”与“案件名称”有连用关系,则“案件编号”的关系属性表示为:与数据元DE0094“案件名称”连用(link-withDE0094)。

表2数据元基本关系的数据格式

关系

派生关系

关系表示符 关系描述

描述了数据元之间的继承关系,一个较为专用的数据元是由一个较为通用的数Derive-from

据元加上某些限定词派生而来,例如“Derive-fromB”(B是数据元的标识符,下同),表明当前数据元由数据元B派生而来

组成关系

替代关系

连用关系

Compose-of

Replace-of

Link-with

描述了整体和部分的关系,一个数据元由另外若干个数据元组成,例如:“Compose-ofB,C,D”,表示当前数据元是由数据元B,C,D共同组成

描述了数据元之间的替代关系,例如:“Replace-ofB”表明当前数据元替代了数据元B

描述了一个数据元与另外若干数据元一起使用的情况,例如:“Link-withB,C,D”,表明当前数据元需要和数据元B,C,D一起使用

4.6 表示类属性

4.6.1 名称:表示词

6

2018

表示词用于描述数据元值域的表示形式。表示词是数据元名称的组成成分之一。

标识出数据元的表示词有助于实现数据元的规范化命名、分析、类比和查询。

国际范围内认可的表示词见表3。

表3国际范围内认可的表示词

表示词

金额

日期

日期时间

代码

描述

名称

号码

百分比

比率

指示符

货币单位的数量,通常与货币类型有关

特定的年月日,格式参照GB/T7408

特定的年月日中的特定时间点,格式参照GB/T7408

表示一组值中的一个值的字符串(字母、数字、符号)

表示一个人、客体、地点、事件或概念一系列句子,即可用于定义(通常用一两个句子),也可用于较长文本。在数据元的中文名称中通常使用“说明”、“备注”、“意见”等词

表示一个人、客体、地点、事件或概念指定的一个词或短语。该词或短语是该人、客体、地点、事件或概念的称谓

一个特定的值的数字表示,它通常暗示了顺序或一系列中的一个

具有相同计量单位的两个值之间的百分数形式的比率

非货币单位数量,通常与计量单位有关

一个计量的量或金额与另一个计量的量或金额的比

两个且只有两个表明条件的值,如on/off、true/false,又称标志

含义

4.6.2 名称:数据类型

数据类型指数据元的表示方法。数据类型的可能取值见表4。表4 数据类型的取值

数据元值的类型

字符型(string)

数值型(numeric)

年(year)

年月(month)

日期型(date)

说明

以字符包括字母、数字、汉字和其他字符形式表达的数据元值的类型

用任意实数表达的数据元值的类型

通过YYYY的形式表达的值的类型,符合GB/T7408

通过YYYYMM的形式表达的值的类型,符合GB/T7408

通过YYYYMMDD的形式表达的值的类型,符合GB/T7408

日期时间型(datetime) 通过YYYYMMDDhhmmss的形式表达的值的类型,符合GB/T7408

时间型(time)

时间间隔型

布尔型(boolean)

二进制型(binary)

通过hhmmss的形式表达的值的类型,符合GB/T7408

通过PnYnMnDnTnHnMns的形式表达的值的类型,符合GB/T7408

两个且只有两个表明条件的值,如on/off、true/false

上述无法表示的其他数据类型,比如图像、音频等

注:字符型采用GB13000中规定的字符,其中每个汉字用2个字节表示,其余每个字符用1个字节表示。

4.6.3 名称:数据格式

7

2018

本标准中数据格式中使用的字符含义如下:

a=字母字符

n=数字字符

an=字母数字字符

m(m为自然数)=定长m个字符(字符集默认为GB2312)

..ul=长度不确定的文本

..p,q(p,q均为自然数)=最长p个数字字符,小数点后q位

..=从最小长度到最大长度,前面附加最小长度,后面附加最大长度

YYYYMMDDhhmmss=“YYYY”表示年份,“MM”表示月份,“DD”表示日期,“hh”表示小时,“mm”表示分钟,“ss”表示秒,可以视实际情况组合使用。

示例1:an5(aannn)表示定长5个字母数字字符,前2个为字母字符,后三个为数字字符;

示例2:n..17,2表示最长17个数字字符,小数点后两位。

示例3:an3..8表示最大长度为8,最小长度为3的不定长的字母数字字符。

4.6.4 名称:值域

值域是根据相应属性中规定的数据类型、数据格式而决定的数据元的允许值的集合。该集合可通过以下方式给出:

——通过名称给出,即直接指出值域的名称,比如数据元“两字母国家代码”的值域是GB/T2659中的全部两字母代码;

——通过参考资料给出,比如数据元“产品条码”的值域是已经在物品编码中心注册的所有产品的条形码;

——通过一一列举的方式给出所有可能的取值以及每一个值对应的实例或含义;

——通过规则间接给出;

——无要求。

4.6.5 名称:计量单位

计量单位为数值型数据元的一个属性。计量单位的名称应符合GB/T17295中的计量单位名称。

4.7 管理类属性

4.7.1 名称:状态

状态指数据元在其注册的全生存期(即生命周期)内所处的状态。数据元在其注册的全部生存期内存在七种状态:

a) 原始——已经创建数据元并提交。提交新的数据需求和对现行数据元的修改建议都从本状态开始。

b) 草案——经过数据元注册机构形式审查后,等待技术审查。

c) 征求意见——经过技术初审后,正在征求意见中。

d) 报批——经过技术终审后,等待审批。

e) 标准——新增或变更的数据元,经过标准化过程的协调和审查,已得到数据元管理机构批准。

f) 未批准——在新增或变更数据元的流程中,在任何一个阶段未能通过审查或批准。

g) 废止——不再需要其支持信息需求,经数据元管理机构批准,该数据元的内容即将从标准中删8

2018

去。

4.7.2 名称:提交机构

提出对数据元注册系统中的数据元新增、变更或废止的机构或所属部门。

4.7.3 名称:批准日期

批准日期指数据元进入“标准”状态的日期。日期的表示采用YYYYMMDD的格式。

4.8 附加类属性

4.8.1 名称:备注

备注用以描述数据元的附加注释,即上述五类属性未能描述的其他注释。

5 数据元的提取

数据元的提取包括两大步骤:一是数据元的提取,二是对每个数据元属性的描述和提取。

数据元提取应采用面向对象的方法,通过分析研究各领域的业务流程,建立相应的信息模型。从信息模型中提取其对象类和特性,再结合实际业务需求细化其表示,以构成完整的数据元。数据元的提取步骤见GB/T19488.1-2004中6.1.1。

数据元的提交者应保证在属性中最大程度和最准确地体现业务需求。数据元属性的提取见GB/T19488.1-2004中6.1.2。数据元应提取的属性和提取者见表6。

表6数据元应提取的属性和提取者

序号

1

2

3

5

6

7

8

9

10

11

12

13

14

15

16

17

19

20

属性

内部标识符

中文名称

中文全拼

版本

同义名称

说明

对象类词

特性词

表示词

数据类型

数据格式

值域

关系

计量单位

状态

提交机构

批准日期

备注

提交机构提取 注册机构提取

9

2018

注:“√”表示应提取的属性。

6 数据元的注册和管理

政务服务大数据数据元的注册和管理工作建议成立专门的机构来负责。相关行业或领域也可以成立专门的机构对本领域的数据元实施注册和管理功能。数据元的注册和管理见GB/T19488.1-2004中7。

10


本文标签: 数据 属性 表示 名称 描述