admin 管理员组文章数量: 1184232
2024年4月12日发(作者:零基础电脑初学者入门教程)
课程编号: S0300010Q
课程名称:自然语言处理
开课院系:计算机科学与技术学院 任课教师:关毅 刘秉权
先修课程:概率论与数理统计 适用学科范围:计算机科学与技术
学时:40 学分:2
开课学期:秋季 开课形式:课堂讲授
课程目的和基本要求:
本课程属于计算机科学与技术学科硕士研究生学科专业课。计算机自然语言处理是用
计算机通过可计算的方法对自然语言的各级语言单位进行转换、传输、存贮、分析等加工
处理的科学。是一门与语言学、计算机科学、数学、心理学、信息论、声学相联系的交叉
性学科。通过本课程的学习,使学生掌握自然语言(特别是中文语言)处理技术(特别是
基于统计的语言处理技术)的基本概念、基本原理和主要方法,了解当前国际国内语言处
理技术的发展概貌,接触语言处理技术的前沿课题,具备运用基本原理和主要方法解决科
研工作中出现的实际问题的能力。为学生开展相关领域(如网络信息处理、机器翻译、语
音识别)的研究奠定基础。
课程主要内容:
本课程全面阐述了自然语言处理技术的基本原理、实用方法和主要应用,在课程内容
1
的安排上,既借鉴了国外学者在计算语言学领域里的最新成就,又阐明了中文语言处理技
术的特殊规律,还包括了授课人的实践经验和体会。
1 自然语言处理技术概论(2学时)
自然语言处理技术理性主义和经验主义的技术路线;自然语言处理技术的发展概况及
主要困难;本学科主要科目;本课程的重点与难点。
2 自然语言处理技术的数学基础(4学时)
基于统计的自然语言处理技术的数学基础:概率论和信息论的基本概念及其在语言处
理技术中的应用。如何处理文本文件和二进制文件,包括如何对文本形式的语料文件进行
属性标注;如何处理成批的文件等实践内容
3 自然语言处理技术的语言学基础(4学时)
汉语的基本特点;汉语的语法功能分类体系;汉语句法分析的特殊性;基于规则的语
言处理方法。ASCII字符集、ASCII扩展集、汉字字符集、汉字编码等基础知识。
4 分词与频度统计(4学时)
中文分词技术的发展概貌;主要的分词算法;中文分词技术的主要难点:切分歧义的
基本概念与处理方法和未登录词的处理方法;中外人名、地名、机构名的自动识别方法;
词汇的频度统计及统计分布规律。以及词频统计、排序输出;二元对频度统计,统计结果
浏览等实践内容。
2
版权声明:本文标题:自然语言处理大纲 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/p/1712896226a611328.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论