admin 管理员组文章数量: 1184232
新冠疫情期间基于自适应窗口的学习参与度概念漂移感知分析
1. 引言
在当今时代,由机器生成数据的普遍性驱动的大数据技术,与因数据可用性推动的人工智能(AI)和机器学习(ML)研究相互促进,共同引领着各工业领域的技术发展。在数据驱动的商业智能背景下,AI和ML被视为当今企业成功的关键因素。
传统的基于静态数据事后学习的ML模型占据主导地位,但随着大数据的“V”特性(如速度等)不断增加,以及计算能力的限制,新的挑战也随之出现。其中,将ML算法应用于产生连续数据流的应用场景尤为困难。因为流数据与静态数据库有着本质区别,它具有时间变化性。
许多现实案例都体现了这类问题,例如:
- 客户流失
- 股票市场
- 安全日志
- 交通地理定位日志
- 一段时间内的虚拟机负载
- 电子邮件垃圾邮件
对这些动态用例的详细分析表明,输入数据的分布可能会随时间变化,这一现象被称为概念漂移。概念漂移可正式定义为预测/输出变量与特征/输入变量之间的关系随时间的变化。借助贝叶斯决策理论,我们可以用联合概率关系来表示这种变化。对于静态数据集,时间T是恒定的;而对于流数据集,在时间T和时间偏移T + S时,联合概率分布可能出现两种情况:
- (P_T(X, y) = P_{T + S}(X, y)):数据集中的“概念”或特征在统计上是稳定的。
- (P_T(X, y) \neq P_{T + S}(X, y)):发生了概念漂移。
此外,还有基于概念漂移的发生频率、影响严重程度、持久性和可预测性等方面的分类研究。需要注意的是,时间序列数据集中的周期性变化通常不被视为漂移。
2
版权声明:本文标题:9、新冠疫情期间基于自适应窗口的学习参与度概念漂移感知分析 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1765549512a3391730.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论