admin 管理员组

文章数量: 1184232


2024年4月12日发(作者:零基础电脑初学者入门教程)

课程编号: S0300010Q

课程名称:自然语言处理

开课院系:计算机科学与技术学院 任课教师:关毅 刘秉权

先修课程:概率论与数理统计 适用学科范围:计算机科学与技术

学时:40 学分:2

开课学期:秋季 开课形式:课堂讲授

课程目的和基本要求:

本课程属于计算机科学与技术学科硕士研究生学科专业课。计算机自然语言处理是用

计算机通过可计算的方法对自然语言的各级语言单位进行转换、传输、存贮、分析等加工

处理的科学。是一门与语言学、计算机科学、数学、心理学、信息论、声学相联系的交叉

性学科。通过本课程的学习,使学生掌握自然语言(特别是中文语言)处理技术(特别是

基于统计的语言处理技术)的基本概念、基本原理和主要方法,了解当前国际国内语言处

理技术的发展概貌,接触语言处理技术的前沿课题,具备运用基本原理和主要方法解决科

研工作中出现的实际问题的能力。为学生开展相关领域(如网络信息处理、机器翻译、语

音识别)的研究奠定基础。

课程主要内容:

本课程全面阐述了自然语言处理技术的基本原理、实用方法和主要应用,在课程内容

1

的安排上,既借鉴了国外学者在计算语言学领域里的最新成就,又阐明了中文语言处理技

术的特殊规律,还包括了授课人的实践经验和体会。

1 自然语言处理技术概论(2学时)

自然语言处理技术理性主义和经验主义的技术路线;自然语言处理技术的发展概况及

主要困难;本学科主要科目;本课程的重点与难点。

2 自然语言处理技术的数学基础(4学时)

基于统计的自然语言处理技术的数学基础:概率论和信息论的基本概念及其在语言处

理技术中的应用。如何处理文本文件和二进制文件,包括如何对文本形式的语料文件进行

属性标注;如何处理成批的文件等实践内容

3 自然语言处理技术的语言学基础(4学时)

汉语的基本特点;汉语的语法功能分类体系;汉语句法分析的特殊性;基于规则的语

言处理方法。ASCII字符集、ASCII扩展集、汉字字符集、汉字编码等基础知识。

4 分词与频度统计(4学时)

中文分词技术的发展概貌;主要的分词算法;中文分词技术的主要难点:切分歧义的

基本概念与处理方法和未登录词的处理方法;中外人名、地名、机构名的自动识别方法;

词汇的频度统计及统计分布规律。以及词频统计、排序输出;二元对频度统计,统计结果

浏览等实践内容。

2


本文标签: 处理 技术 统计 课程