机器学习与数据挖掘 |
---|
|
|
|
|
|
- 因素分析
- CCA
- ICA
- LDA
- NMF(英语:Non-negative matrix factorization)
- PCA
- PGD(英语:Proper generalized decomposition)
- t-SNE(英语:t-distributed stochastic neighbor embedding)
- SDL
|
结构预测(英语:Structured prediction) |
- RANSAC
- k-NN
- 局部异常因子(英语:Local outlier factor)
- 孤立森林(英语:Isolation forest)
|
- 自编码器
- 認知計算
- 深度学习
- DeepDream(英语:DeepDream)
- 多层感知器
- RNN
- LSTM
- GRU(英语:Gated recurrent unit)
- ESN(英语:Echo state network)
- 储备池计算(英语:reservoir computing)
- 受限玻尔兹曼机
- GAN
- SOM
- CNN
- Transformer
- Vision transformer(英语:Vision transformer)
- 脉冲神经网络(英语:Spiking neural network)
- Memtransistor(英语:Memtransistor)
- 电化学RAM(英语:Electrochemical RAM)(ECRAM)
|
- Q学习
- SARSA
- 时序差分(TD)
- 多智能体(英语:Multi-agent reinforcement learning)
- Self-play(英语:Self-play (reinforcement learning technique))
- RLHF
|
与人类学习 - 主动学习(英语:Active learning (machine learning))
- 众包
- Human-in-the-loop(英语:Human-in-the-loop)
|
模型诊断 - 学习曲线(英语:Learning curve (machine learning))
|
数学基础 - 内核机器(英语:Kernel machines)
- 偏差–方差困境(英语:Bias–variance tradeoff)
- 计算学习理论(英语:Computational learning theory)
- 经验风险最小化
- 奥卡姆学习(英语:Occam learning)
- PAC学习(英语:Probably approximately correct learning)
- 统计学习
- VC理论
|
大会与出版物 - NeurIPS
- ICML(英语:International Conference on Machine Learning)
- ICLR
- ML(英语:Machine Learning (journal))
- JMLR(英语:Journal of Machine Learning Research)
|
相关条目 - 人工智能术语(英语:Glossary of artificial intelligence)
- 机器学习研究数据集列表(英语:List of datasets for machine-learning research)
- 机器学习概要(英语:Outline of machine learning)
|
|
Word2vec是一群用來產生詞向量的相關模型。這些模型為淺层雙層的神經網路,用來訓練以重新建構語言學之詞文本。網路以詞表現,並且需猜測相鄰位置的輸入詞,在word2vec中词袋模型假設下,詞的順序是不重要的。
訓練完成之後,word2vec模型可以把每個詞映射到一個向量,來表示詞与詞之間的關係。該向量為神經網路的隱藏層[1]。
Word2vec依賴skip-grams或連續詞袋(CBOW)來建立神經詞嵌入。Word2vec為托馬斯·米科洛夫(Tomas Mikolov)在Google帶領的研究團隊創造。該演算法漸漸被其他人所分析和解釋[2][3]。
Skip-grams和CBOW
CBOW把一個詞從詞窗剔除。在CBOW下給定n詞圍繞著詞w,word2vec預測一個句子中其中一個缺漏的詞c,即以機率來表示。相反地,Skip-gram給定詞窗中的文本,預測當前的詞。
延伸
Word2vec用來建構整份文件(而分獨立的詞)的延伸應用已被提出[4], 該延伸稱為paragraph2vec或doc2vec,並且用C、Python[5][6]和 Java/Scala[7]實做成工具(參考下方)。Java和Python也支援推斷文件嵌入於未觀測的文件。
分析
對word2vec框架為何做词嵌入如此成功知之甚少,約阿夫·哥德堡(Yoav Goldberg)和歐莫·列維(Omer Levy)指出word2vec的功能導致相似文本擁有相似的嵌入(用余弦相似性計算)並且和約翰·魯伯特·弗斯的分佈假說(英语:Distributional semantics)有關。
實作
參見
参考文献
- ^ Mikolov, Tomas; et al. Efficient Estimation of Word Representations in Vector Space (PDF). [2015-08-14]. (原始内容 (PDF)存档于2022-05-09).
- ^ Goldberg, Yoav; Levy, Omar. word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method (PDF). [2015-08-14]. (原始内容 (PDF)存档于2022-01-22).
- ^ Řehůřek, Radim. Word2vec and friends (Youtube video). [2015-08-14]. (原始内容存档于2020-05-22).
- ^ Le, Quoc; et al. Distributed Representations of Sentences and Documents. (PDF). [2016-02-18]. (原始内容 (PDF)存档于2021-11-23).
- ^ Doc2Vec tutorial using Gensim. [2015-08-02]. (原始内容存档于2021-01-23).
- ^ Doc2vec for IMDB sentiment analysis. [2016-02-18]. (原始内容存档于2020-01-07).
- ^ Doc2Vec and Paragraph Vectors for Classification. [2016-01-13]. (原始内容存档于2015-12-31).
|
---|
| 一般术语 | |
---|
| 文本挖掘 | - 文本分割
- 词性标注(英语:Part-of-speech tagging)
- 拆句处理(英语:Shallow parsing)
- 复合词处理(英语:Compound term processing)
- 搭配提取(英语:Collocation extraction)
- 词干提取
- 词形还原
- 命名实体识别
- 指代
- 文本情感分析
- 概念挖掘(英语:Concept mining)
- 语法分析
- 词义消歧
- 术语提取(英语:Terminology extraction)
- 真实大小写处理(英语:Truecasing)
|
---|
| 自动摘要(英语:Automatic summarization) | - 多文档摘要(英语:Multi-document summarization)
- 句子抽取(英语:Sentence extraction)
- 文本简化(英语:Text simplification)
|
---|
| 分佈語義(英语:Distributional semantics)模型 | |
---|
| 机器翻译 | - 電腦輔助翻譯
- 基于实例(英语:Example-based machine translation)
- 基于规则(英语:Rule-based machine translation)
|
---|
| 自动识别 与数据采集 | |
---|
| 主题模型 | |
---|
| 计算机辅助 审查(英语:Computer-assisted reviewing) | - 自动作文评分(英语:Automated essay scoring)
- 语料库检索工具(英语:Concordancer)
- 文法检查器(英语:Grammar checker)
- 预测文本(英语:Predictive text)
- 拼寫檢查
- 语法猜测(英语:Syntax guessing)
|
---|
| 自然语言 用户界面(英语:Natural language user interface) | |
---|
|
可微分计算 |
---|
| 概论 | |
---|
| 概念 | |
---|
| 应用 | |
---|
| 硬件 | - TPU
- VPU
- IPU(英语:Graphcore)
- 憶阻器
- SpiNNaker(英语:SpiNNaker)
|
---|
| 软件库 | |
---|
| 实现 | |
---|
| 人物 | |
---|
| 组织 | |
---|
| 架构 | - 多层感知器(MLP)
- 循环神经网络(RNN)
- 長短期記憶(LSTM)
- 门控循环单元(英语:Gated recurrent unit)(GRU)
- 卷积神经网络(CNN)
- 残差神经网络(ResNet)
- 变换器
- 自编码器
- 变分自编码器(VAE)
- 生成对抗网络(GAN)
- 图神经网络(英语:Graph neural network)(GNN)
- 回响状态网络(英语:Echo state network)(ESN)
- 神经图灵机(NTM)
- 可微分神经计算机(英语:Differentiable neural computer)(DNC)
|
---|
| - 主题
- 分类
|
|