admin 管理员组文章数量: 1087649
2024年12月29日发(作者:直流与交流三相异步电机)
人工智能数据处理
职业技能等级标准
(2021年1.0版)
科大讯飞股份有限公司制定
2021年4月发布
目次
1范围
...................................................................................................................................................
1
2规范性引用文件
...............................................................................................................................
1
3术语和定义
.......................................................................................................................................
2
4适用院校专业
...................................................................................................................................
3
5面向职业岗位(群)
.......................................................................................................................
4
6职业技能要求
...................................................................................................................................
4
参考文献
.................................................................................................................................................
14
I
前言
本标准按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构
和起草规则》的规定起草。
本标准起草单位:科大讯飞股份有限公司、南京信息工程大学、安徽信息工
程学院、深圳职业技术学院、常州信息职业技术学院、重庆电子工程职业学院、
深圳信息职业技术学院、淄博职业学院、武汉职业技术学院、襄阳职业技术学院、
重庆工商职业学院、广东水利电力职业技术学院、湖北职业技术学院、贵州交通
职业技术学院、徐州工业职业技术学院、广西经贸职业技术学院、广西理工职业
技术学院、广东科学职业技术学院、安徽林业职业技术学院、广东理工职业学院、
苏州信息职业技术学院、云南交通职业技术学院、湖南软件职业学院、苏州市职
业大学、重庆财经学院、广西科技师范学院、广东财经大学、广东技术师范大学、
广东开放大学、广西大学行健文理学院、广西外国语学院、南宁师范大学、南宁
学院、四川大学锦江学院、淮阴工学院。
本标准主要起草人:陈涛、周佳峰、吴华安、李栋学、莫少林、吴有富、蔡
铁、武春岭、胡方霞、魏本征、贺敏伟、曾文权、孙宾、张卫东、杨勇、钱银中、
凌明胜、刘小华、李粤平、王宝成、胡昌杰、肖政宏、吴砥、刘晓、桂诚、丁德
成、胡江院、崔小蕾、马季、雷大正、殷振华、张涛、张进兵、于俊、李雅洁、
丁辉、程礼磊、陈小贝
声明:本标准的知识产权归属于科大讯飞股份有限公司,未经科大讯飞股份
有限公司同意,不得印刷、销售。
II
1范围
本标准规定了人工智能数据处理职业技能等级对应的工作领域、工作任务及
职业技能要求。
本标准适用于人工智能数据处理职业技能培训、考核与评价,相关用人单位
的人员聘用、培训与考核可参照使用。
2规范性引用文件
下列文件对于本标准的应用是必不可少的。凡是注日期的引用文件,仅注日
期的版本适用于本标准。凡是不注日期的引用文件,其最新版本适用于本标准。
国家、行业、团体有关标准如下:
GB/T36625.1-2018智慧城市数据融合第1部分:概念模型
GB/T36625.2-2018智慧城市数据融合第2部分:数据编码规范
GB/T36339-2018智能客服语义库技术要求
GB/T37721-2019信息技术大数据分析系统功能要求
GB/T35295-2017信息技术大数据术语
GB/T35589-2017信息技术大数据技术参考模型
T/CESA1040—2019《信息技术人工智能面向机器学习的数据标注规程》
1
T/CESA1039-2019信息技术人工智能机器翻译能力等级评估
T/CESA1034-2019
求
信息技术人工智能小样本机器学习样本量和算法要
3术语和定义
国家、行业标准界定的以及下列术语和定义适用于本文件。
3.1.数据采集(datacollection)
从数据源中选择和收集针对某种特定需要的数据。
3.2.数据存储(datastorage)
使用计算机或其他设备通过记录介质来保存数据。
3.3.数据清洗(datacleaning)
检测和修正数据集合中错误数据项以及对数据进行平滑处理等操作的数据
预处理过程。
3.4.数据补全(datacompletion)
在含有遗失值的数据集上通过补全策略进行有效的数据填补过程。
3.5.数据标注(dataannotation)
对文本、图像、语音、视频等待标注数据进行归类、整理、编辑、纠错、标
记和批注等操作,为待标注数据增加标签,生成满足机器学习训练要求的机器可
读数据编码。
3.6.数据分析(dataanalysis)
用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理
解并消化,以求最大化地开发数据的功能,发挥数据的作用;或对已存在的或计
划的系统中的数据及其流程系统性的调查研究。
2
3.7.数据建模(datamodeling)
用于定义和分析数据的要求和其需要的相应支持的信息系统的过程,将分散
多样的数据规则化、标准化,持续提升数据质量。
3.8.数据治理(datagovernance)
组织中涉及数据使用的一整套管理行为,对数据进行处置、格式化和规范化
的过程。
3.9.特征工程(featureengineering)
利用领域知识和现有数据,确定哪些特征可能在机器学习训练模型中使用,
然后将日志文件及其他来源的原始数据转换为所需特征的过程。
3.10.数据降维(datadimensionalityreduction)
在某些限定条件下,降低随机变量个数,得到一组“不相关”主变量的过程。
3.11.特征学习(featurelearning)
利用技术自动提取数据特征的过程,允许计算机学习使用特征的同时,也学
习如何提取特征。
3.12.数据生成(datageneration)
根据实际业务数据分布规律来生成满足实际业务需要的数据,通过生成数据
来模拟真实数据集在业务中的作用。
4
适用院校专业
中等职业学校:计算机应用、软件与信息服务、数字媒体技术应用、电子与
信息技术、林业信息技术与管理、数字媒体技术应用、统计事务、电子商务等专
业。
3
高等职业学校:人工智能技术服务、计算机应用技术、软件技术、软件与
信息服务、计算机应用技术、计算机信息管理、计算机系统与维护、智能产品开
发、智能控制技术、卫生信息管理、信息统计与分析、数字媒体应用技术、大数
据技术与应用、商务数据分析与应用等专业。
应用型本科学校:人工智能、计算机应用工程、软件工程、计算机科学与技
术、电子与计算机工程、计算机应用工程、智能科学与技术、智能控制技术、信
息与计算科学、信息工程、信息管理与信息系统、数字媒体技术、数据计算及应
用、数据科学与大数据技术、大数据管理与应用、大数据技术与应用等专业。
5
面向职业岗位(群)
主要面向人工智能、大数据、互联网、软件开发等IT类公司,以及政府机关、
企事业单位的信息管理与服务部门,从事人工智能数据收集、处理、维护,人工
智能数据建模、分析,人工智能数据治理、生成,人工智能算法应用等工作任务。
面向的主要岗位包括数据标注员、人工智能数据分析师、人工智能数据训练师、
数据建模工程师、人工智能算法工程师等。
6职业技能要求
6.1职业技能等级划分
人工智能应用服务开发职业技能等级分为三个等级:初级、中级、高级,依
次递进,高级别涵盖低级别技能要求。
【人工智能数据处理】(初级):主要面向岗位为在人工智能、大数据、互
联网、软件开发等IT类相关公司中,以及政府机关、企事业单位的信息管理与服
务部门,从事人工智能数据收集、人工智能数据处理、人工智能数据标注岗位。
4
可以对一些基本的结构化和半结构化数据进行基础数据库操作,完成结构化、机
械化的数据采集、数据存储、数据清洗、数据补全、数据标注工作,可以使用excel
等通用软件完成一些简单的数据分析和数据可视化等工作。
【人工智能数据处理】(中级):主要面向岗位为在人工智能、大数据、互
联网、软件开发等IT类相关公司中,以及政府机关、企事业单位的信息管理与服
务部门,从事人工智能数据维护、人工智能数据建模、人工智能数据分析岗位。
可对非结构化数据进行数据采集、数据清洗等工作,能够完成一定的数据智能分
析及可视化、数据仓库、人工智能数据建模与数据治理以及特征工程等工作。
【人工智能数据处理】(高级):主要在人工智能、大数据、互联网、软件
开发等IT类相关公司中,以及政府机关、企事业单位的信息管理与服务部门,面
向人工智能算法工程师、大数据工程师、系统架构师等岗位。可以辅助进行人工
智能算法的应用,熟悉各类业务数据,可完成高阶完整的数据建模以及数据治理、
完整的特征工程,为各类算法的成功落地完成特征工程、数据降维、数据生成等
工作。
6.2职业技能等级标准描述
表1
工作领域
1.数据获取与储
存
人工智能数据处理职业技能等级要求(初级)
工作任务
1.1基础软件功
能使用与基本数
据结构操作
职业技能
1.1.1能够在Windows、Linux系统上安
装Python以及人工智能常用集成软件
(Spyder,Pycharm,anaconda等),
并且能够使用conda或pip包管理工
具,在命令行配置和管理需要的Python
库。
1.1.2能够完成相应软件编译环境的配
置,能够在脚本和控制台两种模式下编
译程序。
1.1.3能够对基本的数据类型,例如字
符串、整型、浮点型、布尔类型等,完
成数据生成和类型转换等操作。
1.1.4能够对基本数据结构,例如列表、
5
元组、字典、字符串等,完成增删改查、
数据存储等操作。
1.1.5能够使用Python条件控制和循
环控制实现逻辑处理功能。
1.1.6能够使用Python模块调用和自定
义的方法实现模块化设计。
1.2互联网数据
常规工具获取
1.2.1能够按需求在互联网中搜索并下
载公开数据集。
1.2.2能够熟悉HTML原理和HTML结构。
1.2.3能够遵守网络爬虫相应的法律规
制,使用爬虫技术实现文本数据、图片、
音频和视频的爬取。
1.2.4能够使用正则表达式、XPath、
beautifulSoup完成HTML文本解析。
1.2.5能够通过模拟登陆的方式爬取需
要登陆才能访问的页面数据,能够爬取
Ajax技术传输的网站数据。
1.2.6能够将数据持久化到MongoDB、
Redis和MySQL等数据库中。
1.3数据存储常
规工具使用
1.3.1能够完成常用的数据库以及数据
管理工具的安装配置。
1.3.2能够使用基本的数据库语言完成
数据的删除和存储。
1.3.3能够将Python等编译工具与数
据库连接,完成数据存储。
1.3.4能够将获取的外部数据在数据库
中存储。
1.3.5能够使用数据存储工具,实现结
构化数据、半结构化数据、非结构化数
据的存储。
2.数据预处理与
数据标注
2.1数据预处理
常规工具使用
2.1.1能够完成数据预处理相关常用工
具的安装以及调试使用;
6
2.1.2能够使用sql和excel完成数据
基本的清洗、补全等操作。
2.1.3能够使用常规工具读取多种存储
类型的数据(csv,json,xlsx等),
并进行基础的数据预处理工作。
2.1.4能够使用常见平台对数据进行基
础的预处理工作。
2.2常规数据预
处理编程
2.2.1能够使用Python读取数据,能够
使用os、Numpy、Pandas等模块实现文
件存储路径的读取以及文件的读写。
2.2.2能够对Pandas基本数据结构,例
如Series、DataFrame,以及NumPy的
数组、矩阵等结构实现基本的操作。
2.2.3能够使用NumPy、Pandas等模块
进行数据的简单处理,包括数据的清洗
补全和转换,以及分组和聚合。
2.2.4能够使用os、Pandas完成文件操
作(创建、复制、删除、读写、更改文
件名等)。
2.2.5能够使用cv2,PIL等模块完成图
像数据的预处理操作(读取、保存、去
重、裁剪、修改尺寸等)。
2.2.6能够使用wave等模块完成语音
数据的预处理操作(读取、播放、录音、
清洗、加窗等)。
2.3数据标注2.3.1能够按标注规范和要求,使用人
工智能标注平台对文本、图片数据进行
标注。
2.3.2能够根据特定的需求场景,通过
人工智能标注平台制定标注模板以及标
注任务。
2.3.3能够对使用人工智能标注平台过
7
程中产生的数据进行收集和分析。
2.3.4能够整理、反馈数据标注质量并
输出相应的报告。
2.3.5能够使用Python等工具编写脚
本实现不同类型的数据批量化标注。
3.基础数据分析
与可视化
3.1数学计算3.1.1能够使用常用工具计算数据的基
本数字特征(总和、均值、众数、中位
数等)。
3.1.2能够使用常用工具计算数据的进
阶数字特征(方差、标准差等)。
3.1.3能够使用常用工具完成数据与数
据之前的数学计算(差值等)
3.2基础数据分
析
3.2.1能够使用excel中的常用函数
(SUM,AVERAGE等)对使用excel存储
的数据进行简单分析。
3.2.2能够使用NumPy、Pandas等模块
的常用函数(sum,max,mean,median
等)对使用python读取的数据进行简单
分析。
3.2.3能够使用sql中的常用聚合函数
(MAX(),SUM()等)对使用数据库存储的
数据进行简单分析。
3.2.4能够对数值型数据的统计结果进
行分析解释,说明统计结果反映数据的
情况。
3.3数据可视化
工具(平台)使
用
3.3.1能够将结构化的数据与图表进行
连接,使用excel、word、ppt等常用工
具或平台输出图表。
3.3.2能够根据数据输出可视化图像,
如柱状图、饼图、折线图、散点图、雷
达图等。
3.3.3能够对数据分析的结果选择合适
8
的可视化形式。
3.3.4能够在各类可视化图表中合理添
加数据的数字特征。
表2
工作领域
1.进阶数据分
析可视化与数
据仓库搭建使
用
人工智能数据处理职业技能等级要求(中级)
工作任务
1.1人工智能数
职业技能
1.1.1能够针对多个业务的源数据进行价
据分析工具使用值信息的提取和进一步的分析挖掘。
1.1.2能够根据业务场景和数据类型选择
数据分析工具(R,sys,Python等),并完
成工具的安装以及调试使用。
1.1.3能够使用人工智能统计类数据分析
工具进行数据分析工作,包括数据的离散
程度,异常值检测等。
1.2人工智能可
视化工具使用
1.2.1能够使用较为专业的可视化工具(R
语言的ggplot2或Python的matplotlib
等)完成数据可视化工作。
1.2.2能够使用可视化程序画出多种类型
(直方图、3D图像、等高线、各种条形图、
动画等)展示数据集。
1.2.3能够根据一些高阶的数据关系选择
合适的图表类型展示,例如展示多项式函
数,使用散点图展示数据集中的两个变量
之间的关系。
1.2.4能够根据语音数据绘制音频信号。
1.2.5能够使用PowerBI的PowerQuery
实现数据清洗,能够使用PowerBI的
PowerPivot实现数据模型搭建,能够使
用PowerBI的PowerView实现数据的可
视化。
9
1.3数据仓库搭
建使用
1.3.1能够使用数据库进行数据的基本操
作,包括增删改查等,能够说明数据库的
存储和操作机理。
1.3.2能够完成数据抽取、转换、加载等
阶段等数据仓库搭建工作。
1.3.3能够通过SQL编程对数据仓库进行
访问和相关的操作。
1.3.4能够使用通用工具(OLAP/Bi等)
对数据仓库进行取数并分析。
1.3.5能够根据业务需求,对数据仓库的
数据进行整理、分析等操作,为业务需求
提供支撑。
2.基础数据建
模与数据治理
2.1人工智能数2.1.1能够使用各类数据建模工具实现数
据建模工具使用据建模方法。
2.1.2能够选择合适的变量或者重构变量
来建立模型。
2.1.3能够使用通用sklearn模块建立分
类、回归、聚类等模型。
2.1.4能够对模型效果进行评估。
2.2进行基础的
数据治理工作
2.2.1能够识别并构建数据资源目录,包
括识别元数据、构建数据字典等。
2.2.2能够基于数据资源目录对数据进行
数据规整管理。
2.2.3能够对数据进行数据质量管理等处
理。
3.基础特征工
程
3.1基础特征处
理
3.1.1能够对数据标准化。
3.1.2能够对数据归一化。
3.1.3能够对定量特征进行离散化。
3.1.4能够对定性特征哑编码。
3.1.5能够对定性特征独热编码。
3.1.6能对数据进行对数、指数变化。
3.2基础特征选3.2.1能够使用
择e_selection中
10
VarianceThreshold类移除低方差的特征。
3.2.2能够使用
e_selection中卡方
(chi2)类检验定性自变量对定性因变量
的相关性。
3.2.3能够使用minepy包中Mine模块计算
互信息和最大信息系数(MIC)来选择特征。
3.2.4能够根据业务场景和数据类型使用
特征选择工具包实现特征选择。
表3
工作领域
1.进阶数据建模
与数据治理
人工智能数据处理职业技能等级要求(高级)
工作任务
1.1进阶数据
建模
职业技能
1.1.1能够完成深度学习开发环境(GPU
加速模块cuda、cudnn)以及深度学习开
发框架(tensorflow、pytorch、keras
等)的配置。
1.1.2能够使用人工智能学习平台完成
CNN、RNN模型构建。
1.1.3能够基于Transformer模型完成
数据建模。
1.1.4能够选择两个或以上的模型对比,
并通过调整参数迭代优化模型效果。
1.1.5能够进行模型部署及运行。
1.2数据治理1.2.1能够建立数据治理体系。
体系规划1.2.2能够建立数据质量评估框架。
1.2.3能够使用定性法、统计分析法、
层
次分析
法进行质量评估。
1.2.4能够使用人工智能工具治理元数
据,编写并优化数据资源目录。
2.特征工程2.1进阶特征2.1.1能够实现连续特征离散化,离散特
处理征的连续化。
11
2.1.2能够根据文本构建词袋模型、词
频、文档频次、TF-IDF特征。
2.1.3能够使用人工智能学习平台构建
文本word2vec特征。
2.1.4能够用人工智能学习平台提取图
像特征并进行数据增强。
2.2进阶特征2.2.1能够使用
选择e_selection中
SelectFromModel类结合L1、Tree、
stability进行特征选择。
2.2.2能够使用人工智能学习平台进行
特征选择。
2.2.3能够使用各类高阶的特征选择法
完成特征选择,例如方差选择法、相关系
数法、卡方检验、互信息法、基于惩罚项
的特征选择法等。
2.2.4能够根据业务场景和数据类型,对
数据进行预处理、特征处理等操作后完成
特征选择。
3.数据降维与数3.1数据降维
据生成
3.1.1能够使用Scikit-learn
decomposition模块中主成分分析(PCA)
算法实现数据降维。
3.1.2能够使用Scikit-learn
decomposition模块中线性判别式分析
(LDA)算法实现数据降维。
3.1.3能够根据业务场景和数据类型使
用特征降维工具包实现特征降维。
3.2数据生成3.2.1能够设计数据生成策略。
策略制定3.2.2能够根据数据生成策略设计合理
的步骤,包括模型训练、特征工程、特征
学习等结果。
3.2.3能够根据业务场景和需求分析,综
12
合条件来制定数据生成策略。
3.3数据生成3.3.1
工具使用
能够使用sklearn中的
_regression类进行回归数
据生成。
3.3.2能够使用sklearn中的
_classification类进行分
类数据生成。
3.3.3能够使用sklearn中的
_blobs类进行聚类数据生
成。
3.3.4能够使用random模块完成符合正
态、伯努利、均匀分布等随机数据的生成。
13
参考文献
[1]
中等职业学校专业目录
[2]普通高等学校高等职业教育(专科)专业目录
[3]普通高等学校本科专业目录
[4]GB/T36625.1-2018
智慧城市数据融合第
1
部分:概念模型
[5]GB/T36625.2-2018
智慧城市数据融合第
2
部分:数据编码规范
[6]GB/T36339-2018
[7]GB/T37721-2019
智能客服语义库技术要求
信息技术大数据分析系统功能要求
[8]GB/T35295-2017
信息技术大数据术语
[9]GB/T35589-2017
信息技术大数据技术参考模型
[10]T/CESA1040—2019《信息技术人工智能面向机器学习的数据标注规程》
[11]T/CESA1039-2019
[12]T/CESA1034-2019
要求
信息技术人工智能机器翻译能力等级评估
信息技术人工智能小样本机器学习样本量和算法
14
版权声明:本文标题:人工智能数据处理职业技能等级标准(2021年版) 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/p/1735554019a1676419.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论