Word2vec

机器学习与数据挖掘

范式监督学习無監督學習線上機器學習元学习（英语：Meta-learning (computer science)）半监督学习自监督学习强化学习基于规则的机器学习（英语：Rule-based machine learning）量子機器學習
问题统计分类生成模型迴歸分析聚类分析降维密度估计（英语：density estimation）异常检测数据清洗自动机器学习关联规则学习語意分析结构预测（英语：Structured prediction）特征工程表征学习排序学习（英语：Learning to rank）语法归纳（英语：Grammar induction）本体学习（英语：Ontology learning）多模态学习（英语：Multimodal learning）
监督学习 (分类 · 回归) 学徒学习（英语：Apprenticeship learning）决策树学习集成学习 Bagging 提升方法随机森林 k-NN 線性回歸朴素贝叶斯人工神经网络邏輯斯諦迴歸感知器相关向量机（RVM）支持向量机（SVM）迁移学习微调
聚类分析 BIRCH CURE算法（英语：CURE algorithm）层次 k-平均 Fuzzy 期望最大化（EM） DBSCAN OPTICS 均值飘移（英语：Mean shift）
降维因素分析 CCA ICA LDA NMF（英语：Non-negative matrix factorization） PCA PGD（英语：Proper generalized decomposition） t-SNE（英语：t-distributed stochastic neighbor embedding） SDL
结构预测（英语：Structured prediction）圖模式貝氏網路條件隨機域隐马尔可夫模型
异常检测 RANSAC k-NN 局部异常因子（英语：Local outlier factor）孤立森林（英语：Isolation forest）
人工神经网络自编码器認知計算深度学习 DeepDream（英语：DeepDream）多层感知器 RNN LSTM GRU（英语：Gated recurrent unit） ESN（英语：Echo state network）储备池计算（英语：reservoir computing）受限玻尔兹曼机 GAN SOM CNN U-Net Transformer Vision transformer（英语：Vision transformer）脉冲神经网络（英语：Spiking neural network） Memtransistor（英语：Memtransistor）电化学RAM（英语：Electrochemical RAM）（ECRAM）
强化学习 Q学习 SARSA 时序差分（TD）多智能体（英语：Multi-agent reinforcement learning） Self-play（英语：Self-play (reinforcement learning technique)） RLHF
与人类学习主动学习（英语：Active learning (machine learning)）众包 Human-in-the-loop（英语：Human-in-the-loop）
模型诊断学习曲线（英语：Learning curve (machine learning)）
数学基础内核机器（英语：Kernel machines）偏差–方差困境（英语：Bias–variance tradeoff）计算学习理论（英语：Computational learning theory）经验风险最小化奥卡姆学习（英语：Occam learning） PAC学习（英语：Probably approximately correct learning）统计学习 VC理论
大会与出版物 NeurIPS ICML（英语：International Conference on Machine Learning） ICLR ML（英语：Machine Learning (journal)） JMLR（英语：Journal of Machine Learning Research）
相关条目人工智能术语（英语：Glossary of artificial intelligence）机器学习研究数据集列表（英语：List of datasets for machine-learning research）机器学习概要（英语：Outline of machine learning）
查论编

Word2vec是一群用來產生詞向量的相關模型。這些模型為淺层雙層的神經網路，用來訓練以重新建構語言學之詞文本。網路以詞表現，並且需猜測相鄰位置的輸入詞，在word2vec中词袋模型假設下，詞的順序是不重要的。

訓練完成之後，word2vec模型可以把每個詞映射到一個向量，來表示詞与詞之間的關係。該向量為神經網路的隱藏層^[1]。

Word2vec依賴skip-grams或連續詞袋（CBOW）來建立神經詞嵌入。Word2vec為托馬斯·米科洛夫（Tomas Mikolov）在Google帶領的研究團隊創造。該演算法漸漸被其他人所分析和解釋^[2]^[3]。

Skip-grams和CBOW

CBOW把一個詞從詞窗剔除。在CBOW下給定n詞圍繞著詞w，word2vec預測一個句子中其中一個缺漏的詞c，即以機率 $p(c|w)$ 來表示。相反地，Skip-gram給定詞窗中的文本，預測當前的詞 $p(w|c)$ 。

延伸

Word2vec用來建構整份文件（而分獨立的詞）的延伸應用已被提出^[4]，該延伸稱為paragraph2vec或doc2vec，並且用C、Python^[5]^[6]和 Java/Scala^[7]實做成工具（參考下方）。Java和Python也支援推斷文件嵌入於未觀測的文件。

分析

對word2vec框架為何做词嵌入如此成功知之甚少，約阿夫·哥德堡（Yoav Goldberg）和歐莫·列維（Omer Levy）指出word2vec的功能導致相似文本擁有相似的嵌入（用余弦相似性計算）並且和約翰·魯伯特·弗斯的分佈假說（英语：Distributional semantics）有關。

實作

C （页面存档备份，存于互联网档案馆）
Java/Scala
Python （页面存档备份，存于互联网档案馆）
Python （页面存档备份，存于互联网档案馆）

參見

向量空間模型

参考文献

^ Mikolov, Tomas; et al. Efficient Estimation of Word Representations in Vector Space (PDF). [2015-08-14]. （原始内容 (PDF)存档于2022-05-09）.
^ Goldberg, Yoav; Levy, Omar. word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method (PDF). [2015-08-14]. （原始内容 (PDF)存档于2022-01-22）.
^ Řehůřek, Radim. Word2vec and friends (Youtube video). [2015-08-14]. （原始内容存档于2020-05-22）.
^ Le, Quoc; et al. Distributed Representations of Sentences and Documents. (PDF). [2016-02-18]. （原始内容 (PDF)存档于2021-11-23）.
^ Doc2Vec tutorial using Gensim. [2015-08-02]. （原始内容存档于2021-01-23）.
^ Doc2vec for IMDB sentiment analysis. [2016-02-18]. （原始内容存档于2020-01-07）.
^ Doc2Vec and Paragraph Vectors for Classification. [2016-01-13]. （原始内容存档于2015-12-31）.

查论编自然语言处理

一般术语	语料库口语语料库停用词词袋完全人工智慧（英语：AI-complete） n元语法（双字母组、三元语法（英语：Trigrams））

文本挖掘	文本分割词性标注（英语：Part-of-speech tagging）拆句处理（英语：Shallow parsing）复合词处理（英语：Compound term processing）搭配提取（英语：Collocation extraction）词干提取词形还原命名实体识别指代文本情感分析概念挖掘（英语：Concept mining）语法分析词义消歧术语提取（英语：Terminology extraction）真实大小写处理（英语：Truecasing）

自动摘要（英语：Automatic summarization）	多文档摘要（英语：Multi-document summarization）句子抽取（英语：Sentence extraction）文本简化（英语：Text simplification）

分佈語義（英语：Distributional semantics）模型	潜在语义学 Seq2Seq模型 Word2vec 語言模型大型语言模型基础模型 LLaMA ChatGPT GPT-4 文心一言词嵌入

机器翻译	電腦輔助翻譯基于实例（英语：Example-based machine translation）基于规则（英语：Rule-based machine translation）

自动识别与数据采集	语音识别语音合成光学字符识别自然语言生成提示工程

主题模型	弹珠分布（英语：Pachinko allocation）隐含狄利克雷分布潜在语义索引

计算机辅助审查（英语：Computer-assisted reviewing）	自动作文评分（英语：Automated essay scoring）语料库检索工具（英语：Concordancer）文法检查器（英语：Grammar checker）预测文本（英语：Predictive text）拼寫檢查语法猜测（英语：Syntax guessing）

自然语言用户界面（英语：Natural language user interface）	自动在线助手聊天機器人文字冒险游戏問答系統

可微分计算

概论

可微分编程
自動微分
张量微积分（英语：Tensor calculus）
信息几何
统计流形
神经形态工程（英语：Neuromorphic engineering）
模式识别
运算学习理论（英语：Computational learning theory）
归纳偏置

概念

梯度下降
- SGD（英语：Stochastic gradient descent）
聚类
回归
- 过拟合
幻觉
对抗（英语：Adversarial machine learning）
注意力
卷积
損失函數
反向传播
激活函数
- softmax
- sigmoid
- ReLU
正则化
数据集
扩散（英语：Diffusion process）
自回归

应用

硬件

TPU
VPU
IPU（英语：Graphcore）
憶阻器
SpiNNaker（英语：SpiNNaker）

软件库

Theano
TensorFlow
- Keras
PyTorch
JAX
Flux.jl（英语：Flux (machine-learning framework)）

实现

视觉·语音	AlexNet WaveNet 人像合成手寫识别 OCR 语音合成语音识别人脸识别 AlphaFold DALL-E Midjourney Stable Diffusion Sora Whisper（英语：Whisper (speech recognition system)）

自然语言	Word2vec Seq2seq BERT LaMDA Bard NMT 辩手项目（英语：Project Debater）沃森 GPT GPT-1 GPT-2 GPT-3 GPT-4 GPT-J（英语：GPT-J） ChatGPT 文心一言 Chinchilla AI（英语：Chinchilla AI） PaLM（英语：PaLM） BLOOM（英语：BLOOM (language model)） LLaMA TAIDE

决策	AlphaGo Q学习 SARSA OpenAI Five（英语：OpenAI Five）自动驾驶 MuZero 行动选择（英语：Action selection） Auto-GPT 机器人控制（英语：Robot control）