word2Vec的CBOW，SKIP-gram为什么有2组词向量

Word2Vec的CBOW和SKIP-gram模型之所以有两组词向量，是因为模型的架构设计、语义丰富性、计算的高效性。两组词向量通常被称为输入词向量和输出词向量。这两组向量分别代表了词在不同上下文中的表示和意义，有助于捕捉单词之间的复杂关系以及更丰富的语义信息。

在CBOW模型中，我们通过上下文词汇的向量来预测当前词汇；而在SKIP-gram模型中，我们用当前词汇的代表向量来预测周围的上下文。虽然在训练结束后，往往只保留输入词向量用于后续任务，但在训练过程中两组向量都是必要的，它们互相作用以更好地训练模型。这种机制有效提升了词向量在表达语义和语法信息方面的能力。

接下来，我们将详细探讨CBOW和SKIP-gram模型的工作机理，并解释为什么会有两组词向量。

一、CBOW与SKIP-GRAM模型概述

CBOW模型原理：

CBOW（Continuous Bag-of-Words）模型的核心思想是通过上下文（即周围的单词）来预测当前词。在这个模型中，每个词汇都被表示为一个固定尺寸的向量，且模型会尝试通过对上下文词汇的向量求和或者平均来预测目标词汇。

SKIP-GRAM模型原理：

SKIP-GRAM模型与CBOW模型相反，其目标是通过当前的词汇来预测其上下文。对于每一个训练对（目标词汇、上下文词汇），模型会尽量调整词向量，使得目标词汇的向量能够预测其上下文词汇。

二、两组词向量的意义与作用

在训练Word2Vec的CBOW和SKIP-GRAM模型时，每个单词都会被赋予一个作为模型输入的向量（输入词向量），和一个作为模型输出目标进行预测的向量（输出词向量）。输入词向量通常是词的主要表达，而输出词向量则帮助模型在训练时更好地理解上下文。

提升语义丰富性：

两组向量允许模型分别学习到词在语言中作为观测点和上下文环境时的特性。这种差异性允许模型更全面地捕捉词义，并允许词在不同的语言环境中呈现不同的特性。

计算效率：

词的输入和输出向量在训练过程中进行了优化，这种结构使得模型能够更高效地学习单词的语义。在实际应用中，通常只保留输入词向量作为每个词的特征表达，而输出词向量在完成训练任务后可以被丢弃。

三、CBOW与SKIP-GRAM模型的训练机制

CBOW训练过程：

在CBOW模型的训练过程中，我们通常使用一个称为"one-hot"的向量来表示词。模型的任务是将多个上下文词的"one-hot"向量作为输入，并最大化目标词的条件概率。

SKIP-GRAM训练过程：

对于SKIP-GRAM模型，训练过程恰好相反。每一个"one-hot"表示的目标词作为输入，模型需要根据该词汇的输入向量来最大化周围上下文词汇的条件概率。这种策略使得词向量能够获得更加准确的上下文信息。

四、两组词向量如何互动

在Word2Vec训练开始时，所有词的输入向量和输出向量都是随机初始化的。训练过程则通过不断调整这些向量，以提升它们对语言模型的预测能力。例如, 在SKIP-GRAM模型中，优化流程旨在使得给定一个词作为输入后，模型所输出的向量能够最大化地与该词的上下文词汇的输出向量相匹配。这种互动确保了模型不仅要考虑单词本身的语义，而且还要考虑词周围的语境，从而在两组词向量间形成有用的语义和语境关系。

五、词向量退化问题

尽管有两组词向量的存在，但在某些情况下，经过足够长时间的训练，两组词向量可能会呈现出相似的特征——这种现象被称为向量退化。向量退化可能减弱模型捕获复杂语言模式的能力。为了避免这个问题，研究者们开发了多种技术，例如负采样和层次化softmax，来保持两组向量的特性区分，并优化模型的整体性能。

相关问答FAQs：

1. 为什么word2Vec的CBOW和SKIP-gram模型有两组词向量？

CBOW和SKIP-gram是word2Vec模型中两个常用的训练算法。它们之所以具有两组词向量，是因为它们的训练目标和应用场景不同。

CBOW（Continuous Bag of Words）模型的训练目标是根据上下文中的词预测目标词，因此CBOW模型的输入是上下文词向量的加和。CBOW模型中的两组词向量分别是输入词向量和输出词向量。输入词向量是上下文中的词向量加和，用于预测目标词。输出词向量则是目标词的词向量，用于计算损失函数并调整模型参数。CBOW模型适用于数据较多的情况，而且能够更好地处理生僻词。

SKIP-gram模型的训练目标是根据目标词预测上下文中的词，因此SKIP-gram模型的输入是目标词向量。SKIP-gram模型中的两组词向量分别是输入词向量和输出词向量。输入词向量是目标词的词向量，用于预测上下文词。输出词向量则是上下文词的词向量，用于计算损失函数并调整模型参数。SKIP-gram模型适用于数据较少的情况，而且能够更好地处理多义词。

2. CBOW和SKIP-gram模型在word2Vec中有何区别？

CBOW模型和SKIP-gram模型在训练过程中有一些关键区别。

CBOW模型的训练目标是根据上下文中的词预测目标词。在训练时，CBOW模型会将上下文中的词向量加和得到输入词向量，然后使用输入词向量预测目标词。这种方式可以提高训练效率，因为只需计算一次输入词向量的反向传播。CBOW模型适用于数据较多的情况，且对于生僻词的处理效果较好。

SKIP-gram模型的训练目标是根据目标词预测上下文中的词。在训练时，SKIP-gram模型会使用目标词的词向量预测上下文词的词向量。这种方式虽然计算复杂度较高，但能够更好地处理多义词，并且适用于数据较少的情况。

3. CBOW和SKIP-gram模型分别在哪些应用场景中比较适用？

由于CBOW和SKIP-gram模型的训练目标和特点不同，它们在不同的应用场景中有所优势。

CBOW模型适用于以下情况：

数据较多：由于CBOW模型的输入是上下文词向量的加和，因此当数据量较大时，CBOW模型可以更好地捕捉上下文词的共现信息。
处理生僻词：CBOW模型能够更好地处理生僻词，因为生僻词在上下文中出现的频率较低，而CBOW模型的输入是上下文词向量的加和，可以平滑地表达上下文信息。

SKIP-gram模型适用于以下情况：

数据较少：由于SKIP-gram模型的输入是目标词向量，因此当数据量较少时，SKIP-gram模型可以更好地捕捉目标词的特征。
处理多义词：SKIP-gram模型能够更好地处理多义词，因为多义词在不同的上下文中可能有不同的含义，而SKIP-gram模型的输入是目标词向量，可以灵活地表达不同的上下文信息。