CS224N自然语言处理1：导论+词向量

这个专题的笔记是我在学习斯坦福大学的公开课程CS224N:Deep Learning For Nature Language Processing时所做的一些课程笔记，同时我也完成了一些课程的assignments，在仔细整理之后也会写在博客上。

自然语言处理简介

自然语言处理是对人类语言的分析和处理，人类的语言(也就是自然语言)是一种专门为传达意思而构建的系统，并不是任何物理设备生成的，因此自然语言和图像或者其他一些机器学习任务有很大的不同。不管是什么自然语言，总是由一系列单词组成的，而这些单词中的大部分仅仅代表的是一种语言以外的实体，也就是说单词是一种能指(signifier，即单词本身)到所指(signified，单词所代表的含义)的映射。

自然语言处理建模的对象可以包括单词，句子，文章，文档等一系列包含自然语言的对象。

自然语言处理的任务

自然语言处理中有很多种不能难度等级的任务，但总的来说自然语言处理的目标是让计算机可以"理解"人类的语言，这些任务可以根据难度分成这样几个等级：

Easy：拼写检查，关键词检索，找同义词
Medium：解析复杂文档，包括web文档和其他结构化的文档
Hard：机器翻译，语义分析，引用推断(Coreference)和自动问答

后面的内容将主要围绕基于深度学习方法来完成自然语言处理的各项任务。

如何表示单词

所有的自然语言都是由若干的单词或者说词汇组成的，NLP的建模最重要的一个任务就是对单词进行建模，采用一定的方式来表示各种单词，因为后面介绍的大部分NLP任务都将单词看成一种atomic symbols，也就是原子符号，即不可拆分的最基本单位，我们的首要任务就是完成对单词的建模。

我们可以使用向量来表示一个单词，将单词的特征编码到向量的一系列维度中，这也就是词向量(Word Vector)

词向量也就是用向量来表示一个单词，但是语言的单词数量可能是非常庞大的，比如英语就有各类单词词组约1300万个，我们需要将这些单词全部编码到一个N维度的向量中去，向量的每个维度可以编码一些语义或者单词的特征。词向量也可以叫做词嵌入Word Embedding

one-hot词向量

一种非常不负责任的编码方式就是one-hot向量，这种方法根据当前样本数据的词汇表的大小，用一系列维度为的0-1向量来代表单词，词汇表中出现的每个单词有一个对应的维度，每个单词对应的词向量中，该维度的值是1，其他的维度都是0，这种方式非常简单粗暴，但是问题也很明显，这样的编码是非常稀疏的，词向量中的大部分内容都是无效信息0，并且词向量的规模也非常大，是对计算资源的严重浪费。

基于奇异值分解SVD的词向量

奇异值分解SVD

根据我们仅存的一点线性代数的知识，我们知道矩阵可以分解成一系列特征向量和特征值，但是除此之外矩阵还可以进行奇异值分解(Singular Value Decomposition, SVD)是将矩阵分解成一系列奇异向量和奇异值

这种方法可以使我们得到一些和特征分解类似的信息，但是相比于特征分解，奇异分解适用范围更广，所有的实矩阵都有一个奇异值分解但不一定有特征分解(特征分解必须要是方阵)。在特征分解中我们可以求出一系列特征向量使其构成一个矩阵和一系列特征值构成对角矩阵，这样一来一个矩阵就可以分解成：而在奇异值分解中我们可以类似地将矩阵分解成三个矩阵的乘积：这里我们可以假设A是一个维的矩阵那么U是一个的矩阵，D是一个的矩阵，V是一个的矩阵并且U和V都是正交矩阵，而D是一个对角矩阵。