学知桥一-交互式，可运行的数字教材支撑平台

自然语言处理

自然语言处理入门

1 第1章基础知识

基础知识

实验1 实验1：基础知识

NLP（Natural Language Processing，自然语言处理）是计算机科学、人工智能和语言学的交叉领域。目的是让计算机处理或“理解”自然语言，以执行诸如语言翻译和问题回答等任务。在本实验中，你将学到与自然语言处理（NLP）相关的基础知识。

2 第2章正则表达式的使用

正则表达式的使用

实验1 实验2：正则表达式的使用

正则表达式是一种定义了搜索模式的特征序列，主要是用于字符串的模式匹配，或者是字符的匹配。随着计算机的普及以及互联网的发展，NLP通常所需要处理的语料一部分来自于网页的信息抽取和文本格式的文档。这些信息通常为人为编写或系统生成，其中包含了非结构化文本。半结构化文本以及结构化文本。正则表达式的作用之一就是将这些文档内容从非结构化转为结构化以便后续的文本挖掘。

3 第3章中文分词技术（HMM）

中文分词技术（HMM）

实验1 实验3：中文分词技术（HMM）

在本实验中我们将会学习到自然语言处理的一项核心技术：中文分词技术。在语言理解中，词语是最小的能够独立活动的有意义的语言成分。将词确定下来是理解自然语言的第一步，只有跨越了这一步，中文才能像英文那样过渡到短语划分、概念抽取以及主题分析、自然语言理解，最终达到只能计算的境界。

4 第4章词性标注技术

词性标注技术

实验1 实验4：词性标注技术

词性是词汇的基本的语法属性，通常也称为词类。词性标注是在给定的句子中判定每个词的语法范畴，确定其词性并加以标注的过程。

5 第5章词义消歧

词义消歧

实验1 实验5：词义消歧

词义消歧(WSD)是一个自然语言处理和本体论的开放问题。歧义与消歧是自然语言理解中最核心的问题，在词义、句义、篇章含义层次都会出现语言根据上下文语义不同的现象，消歧即指根据上下文确定对象语义的过程。词义消歧即在词语层次上的语义消歧。

6 第6章文本分类技术

文本分类技术

实验1 实验6：文本分类技术

文本分类技术在NLP领域有着举足轻重的地位。文本分类是指在给定的分类体系，根据文本内容自动确定文本类别的过程。20世纪90年代以来，文本分类已经出现了很多应用，比如信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻、文本过滤、单词语义辨析、情感分析等。

7 第7章基于朴素贝叶斯的言论过滤器

基于朴素贝叶斯的言论过滤器

实验1 实验7：基于朴素贝叶斯的言论过滤器

以在线社区留言为例。为了不影响社区的发展，我们要屏蔽侮辱性的言论，所以要构建一个快速过滤器，如果某条留言使用了负面或者侮辱性的语言，那么就将该留言标志为内容不当。过滤这类内容是一个很常见的需求。对此问题建立两个类型：侮辱类和非侮辱类，使用1和0分别表示。

自然语言处理

课程内容

1 第1章 基础知识

2 第2章 正则表达式的使用

3 第3章 中文分词技术（HMM）

4 第4章 词性标注技术

5 第5章 词义消歧

6 第6章 文本分类技术

7 第7章 基于朴素贝叶斯的言论过滤器