admin 管理员组

文章数量: 1087652


2024年3月10日发(作者:txt转xml文件)

文本数据处理教学设计

文本数据处理

教材内容:

第四章 4.2.3 文本数据处理

适应的课程标准:

1.4通过典型的应用实例,了解数据采集、分析和可视化表达的基本方法。

1.5根据任务需求,选用恰当的软件工具或平台处理数据。

课程标准

教学目标:

教学目标

●了解文本数据处理目的、应用、一般过程和方法。

●了解中文分词常见算法及特征提取方式。

●了解标签云、文本情感分析及应用。

指向的核心素养:

●计算思维:了解数据采集、分析和可视化表达的基本方法,

能够利用软件工具或平台对数据进行整理、组织、计算与呈

现。

●数字化学习与创新:掌握数字化学习系统、学习资源与学

习工具的操作技能,用于开展自主学习、协同工作、知识分享

与创新创造。

教学环境:有教学控制软件的多媒体机房。

建议课时:1课时

教学环节

新课导入

教学过程

我们经常使用百度搜索引擎检索信息,每次搜索返回的

使用百度搜索“春节”,如图1所示,找到相关结果约

100,000,000个,这些返回的结果数据对“春节”的关键特

征描述是什么?

设计意图

引导学生从数据分析的视角思考问题,在

方法,探究问题答案,导入新课。

结果数据对于搜索关键词的描述主要在哪些方面呢,例如:数据分析实践中能根据数据分析的过程和

教学活动

设计

图1 百度搜索“春节”

百度为您找到相关结果约100,000,000个

图2 百度索索“春节”的部分结果

1 / 5

以百度搜索“春节”为例,分析问题:

解决这个问题,需要收集哪些数据? --百度搜索“春节”

返回结果页面中的数据,如图2所示。

这些数据是什么类型的? --主要为非结构化文本数据。

如何处理这些数据才能获得答案? --要提炼对“春节”的

关键特征描述,需要采集返回结果页面中的文本数据进行

分析,下面请同学们通过实践与体验,探究这个问题。

自主学习

布置任务:自主阅读并实践教材第132页“实践与体验--中

文分词与标签云”。

学生具备图表数据处理、Python编程处理

数据的前知识和学习策略,带着问题、跟着

实践内容:使用“搜索抓取、中文分词与标签云生成”软件,

教材进行实践探究,体验文本处理的基本

收集感兴趣的数据,如春节、家乡的旅游景点、美食等,进

过程:收集数据、分词、特征提取、数据分

行分词、词频统计并以标签云方式展现结果。

问题与思考:辨析该实践与体验中,文本数据处理的步骤及

基本过程。

析、结果呈现等,解答导入问题,发展学生

计算思维。同时,从全局上感受文本数据处

理的过程和方法,为下面的聚焦研究“分

词”“特征提取”“标签云”“情感分析”等

做好铺垫。

学习评价

通过过程观察、个别指导、适时干预,推进实践进程。

交流导入问题的探究过程和结论,以搜索“春节”为例,如

图4所示。

通过过程观察和适时干预,保障实践活动

顺利开展;通过交流、总结,促进学生对文

本数据处理基本过程和主要步骤的理解,

发展计算思维。

图4 百度搜索“春节”结果数据标签云

总结文本数据处理的基本过程和主要步骤:

设计意图:通过过程观察和适时干预,保障实践活动顺利开

展;通过交流、总结,促进学生对文本数据处理基本过程和

主要步骤的理解,发展计算思维。

“特征提取”“标签云”“情感分析”

自主学习

布置任务:聚焦 “分词”

内容,开展分组探究。

在宏观上感受文本数据处理的过程和

方法后,学生对“分词”“特征提取”“文本

数据分析及应用-标签云、情感分析”有了

2 / 5

第一组任务

基本任务(必做):

1.自主阅读教材第128页“(1)中文分词”部分,领会

中文分词及中文分词的常见算法:基于词典的分词方

法、基于统计的分词方法、基于规则的分词方法。

2.获取一段文本,存为UTF-8编码格式的文件

“test_”,使用“搜索抓取、中文分词与标签

云生成”软件打开并进行分词,感悟分词的过程及方法。

拓展任务(选做):

通过互联网,对中文分词的算法进行拓展性学习,使用

PPT整理归纳后进行分享。拓展性学习重点放在“基于

词典的分词方法、基于统计的分词方法、基于规则的分

词方法”。

第二组任务

基本任务(必做):

1.自主阅读教材第129页“(2)特征提取”部分,学习

“特征词”“特征提取”“特征提取方式”等内容。

2.再次实践“中文分词与标签云”,感悟并思考以下问

题:

(1)在中文文本分析中可以采用字、词或短语作为表示

文本的特征项。本次实践活动中,是采用什么作为特征

项的?

(2)本次实践活动中,是如何进行特征提取的?

(3)分析本次实践活动中的词频统计结果,去除高频出

现词语中的无关项,描述本次实践提取来的最具代表

性、最有效的文本特征。

拓展任务(选做):

通过互联网,对特征提取方式进行拓展性学习,使用PPT

整理归纳后进行分享。拓展性学习重点放在“根据专家

的知识挑选有价值的特征、用数学建模的方法构造评估

函数自动选取特征。”。

第三组任务

基本任务(必做):

1.自主阅读教材第130页“文本数据分析与应用-(1)

标签云”部分,理解“文本数据分析的目的”“文本可视

化”“标签云”等内容。

2.分析“中文分词与标签云”实践活动中生成的标签云,

说说你从标签云中发现“获取的文本数据中所蕴含了哪

些关键信息”?你对文本数据增加了哪些理解?

一定的感官认知,在此基础上再聚焦研究

更容易入手。

任务设计上,自主阅读教材后,为进一

步增加理解的深度,或设计问题引导下的

实践研究、或设计问题引导下分析思考。这

样的设计促进学生分析问题、解决问题能

力提升同时,感悟文本数据分析的意义与

价值,发展学生计算思维。

这部分内容教学要求较低,但却是文

本数据分析的核心和重点。鉴于文本数据

分析在实践生活中应用广泛、实用性强,在

此处适度进行拓展学习,增加文本数据处

理学习的深度和广度,很有必要。

“应用‘中文分词与标签云’软件开展

聚焦研究”、“借助互联网进行拓展性学

习”、“使用PPT整理、归纳、分享”,促使

学生进一步增强PPT、浏览器等软件的操作

技能,丰富数字化学习经验,提升数字化学

习能力。

3 / 5

拓展任务(选做):

通过互联网,对标签云进行拓展性学习,使用PPT整理

归纳后进行分享。拓展性学习重点放在“文本可视化”

“标签云”。

第四组任务

基本任务(必做):

1.自主阅读教材第130页“文本数据分析与应用-(2)

文本情感分析”部分,学习“文本情感分析”“文本情感

分析的基本方法及应用”等内容。

2.观察教材第130页图4.2.16 城市心情,讨论并回答

以下问题:

(1)同样是传统节日,北京的人们在“中秋节”的情绪

比南方的人们在“端午节”的心情好,可能的原因是什

么?

(2)新年北京站附近的人们心情全城最差,除夕的时候

全城最好,可能的原因是什么?

拓展任务(选做):

通过互联网,对文本情感分析进行拓展性学习,使用PPT

整理归纳后进行分享。拓展性学习重点放在“文本情感

分析”。

学习评价

学生分组探究过程中,教师通过观察、个别指导、适时

干预等方式推进节奏与合作成效。

通过小组内讨论和教师的指导,确定小组研讨内容的正确

性、合理性。

通过小组分享交流,完成“分词”“特征提取”“标签云”

“情感分析”内容的全面学习。

通过教师点评、小结,增强“分词”“特征提取”“标签

云”“情感分析”知识的理解与建构。

教师通过观察、个别指导、适时干预确

保活动进程;通过小组分享、交流实现“分

词”“特征提取”“标签云”“情感分析”内

容的全面学习;通过通过教师点评、小结,

增强整体知识的建构。

小结

教师和学生共同回顾、总结本节学习主要内容。 本节教学过程中采用了小组分工研讨

学习内容,学生在本节整体知识结构上可

能有欠缺,本环节设计意图弥补和解决这

一问题。

作业布置

基础作业(面向所有学生)通读教材是对课堂上分组分工学习的

促使每生通读教材;绘制思维导图是

通读教材,利用思维导图软件绘制本节课知识的思维导图,

补充,

为了增强整体知识结构的构建。其他作业

包括在拓展性学习中的收获。

完成教材第138页“思考与练习”第4题。

完成教材第143页“巩固与提高”第5题。

完成本条目课后练习的1-6题。

提升作业(面向学有余力学生):

4 / 5

是为了巩固学习效果和满足不同层次的学

生需求。

完成教材第132页“实践与体验-结果呈现”第2题。

按本章第一节课前对全章的整体规划和设计,本条目1课时,内容主要包括文本数据处理。

这节课我主要采用了问题引导法、小组学习法、实践法。

教学时,首先设计真实问题情境,导入新课:我们经常使用百度搜索引擎检索信息,每次搜索返回的结果数据对于

搜索关键词的描述主要在哪些方面呢,例如:使用百度搜索“春节”,如图1所示,找到相关结果约100,000,000个,

这些返回的结果数据对“春节”的关键特征描述是什么?

然后,用问题引导学生自主阅读教材的“实践与体验”,并进行实践探究,体验文本数据的收集、分词、特征提取、

数据分析、结果呈现等,从全局上感受文本数据处理的过程和方法。

接下来,按小组分工聚焦研究“分词”“特征提取”“标签云”“情感分析”等。这部分内容教学要求较低,但却是文

本数据分析的核心和重点。在此处适度进行拓展学习,增加文本数据处理学习的深度和广度。

最后,为确保小组分工研讨的内容,每同学都能完全掌握,在小组分享交流、教师点评、小结基础上,可以布置作

业,要求通读教材,利用思维导图软件绘制本节课知识的思维导图,帮扶学生顺利完成本节的知识建构。

教学设计

思路

本条目核心素养的具体落点如下:

计算思维:主要落点在“了解数据采集、分析和可视化表达的基本方法,能够利用软件工具或平

台对数据进行整理、组织、计算与呈现。”

本节课的教学设计中,按文本数据处理的主要过程,结合教材本条目内容和学生生活实际,设计了真

实问题情境:我们经常使用百度搜索引擎检索信息,每次搜索返回的结果数据对于搜索关键词的描述

主要在哪些方面呢,例如:使用百度搜索“春节”,如图1所示,找到相关结果约100,000,000个,这

些返回的结果数据对“春节”的关键特征描述是什么?

针对

核心素养

培养的

设计考虑

学生在这个问题情境中,应用 “中文分词与标签云”软件进行“文本数据处理的过程和方法”探

究、开展“分词”“特征提取”“文本数据分析及应用-标签云、情感分析”的聚焦研究”。促使学生在解

决问题的过程中不断经历分析思考、实践求证、反馈调适,从而发展计算思维。

数字化学习与创新:主要落点在“掌握数字化学习系统、学习资源与学习工具的操作技能,用于

开展自主学习、协同工作、知识分享与创新创造。”

本节课的教学设计中,“文本数据处理的过程和方法”的学习方法设计为:问题引领学生使用“中

文分词与标签云”软件自主实践探究;“分词”“特征提取”“文本数据分析及应用-标签云、情感分析”

的聚焦研究设计为:按组分工使用“中文分词与标签云”软件自主实践研讨,并借助互联网进行拓展

性学习,使用PPT整理、归纳、分享;课后作业设计为:通读教材,利用思维导图软件绘制本节课知

识的思维导图,包括在拓展性学习中的收获;学习方式的目标均指向“数字化学习与创新”。

学习过程中,“中文分词与标签云”软件、PPT软件、思维导图绘制软件的应用,进一步促进了学

生数字化学习与创新能力的发展。

5 / 5


本文标签: 学习 文本 数据 学生 分词