机器学习与数据挖掘 |
---|
|
|
|
|
|
- 因素分析
- CCA
- ICA
- LDA
- NMF(英语:Non-negative matrix factorization)
- PCA
- PGD(英语:Proper generalized decomposition)
- t-SNE(英语:t-distributed stochastic neighbor embedding)
- SDL
|
结构预测(英语:Structured prediction) |
- RANSAC
- k-NN
- 局部异常因子(英语:Local outlier factor)
- 孤立森林(英语:Isolation forest)
|
- 自编码器
- 認知計算
- 深度学习
- DeepDream(英语:DeepDream)
- 多层感知器
- RNN
- LSTM
- GRU(英语:Gated recurrent unit)
- ESN(英语:Echo state network)
- 储备池计算(英语:reservoir computing)
- 受限玻尔兹曼机
- GAN
- SOM
- CNN
- Transformer
- Vision transformer(英语:Vision transformer)
- 脉冲神经网络(英语:Spiking neural network)
- Memtransistor(英语:Memtransistor)
- 电化学RAM(英语:Electrochemical RAM)(ECRAM)
|
- Q学习
- SARSA
- 时序差分(TD)
- 多智能体(英语:Multi-agent reinforcement learning)
- Self-play(英语:Self-play (reinforcement learning technique))
- RLHF
|
与人类学习 - 主动学习(英语:Active learning (machine learning))
- 众包
- Human-in-the-loop(英语:Human-in-the-loop)
|
模型诊断 - 学习曲线(英语:Learning curve (machine learning))
|
数学基础 - 内核机器(英语:Kernel machines)
- 偏差–方差困境(英语:Bias–variance tradeoff)
- 计算学习理论(英语:Computational learning theory)
- 经验风险最小化
- 奥卡姆学习(英语:Occam learning)
- PAC学习(英语:Probably approximately correct learning)
- 统计学习
- VC理论
|
大会与出版物 - NeurIPS
- ICML(英语:International Conference on Machine Learning)
- ICLR
- ML(英语:Machine Learning (journal))
- JMLR(英语:Journal of Machine Learning Research)
|
相关条目 - 人工智能术语(英语:Glossary of artificial intelligence)
- 机器学习研究数据集列表(英语:List of datasets for machine-learning research)
- 机器学习概要(英语:Outline of machine learning)
|
|
SARSA算法是机器学习领域的一种强化学习算法,得名于“状态-动作-奖励-状态-动作”(State–Action–Reward–State–Action)的英文首字母缩写。
SARSA算法最早是由G.A. Rummery, M. Niranjan在1994年提出的,当时称为“改进型联结主义Q学习”(Modified Connectionist Q-Learning)。[1]Richard S. Sutton(英语:Richard S. Sutton)提出了使用替代名SARSA。[2]
SARSA算法和Q学习算法的区别主要在期望奖励Q值的更新方法上。SARSA算法使用五元组(st, at, rt, st+1, at+1)来进行更新,其中s、a、r分别为马可夫决策过程(MDP)中的状态、动作、奖励,t和t+1分别为当前步和下一步。[3]
算法
for each step in episode
执行动作 ,观察奖励 和下一步状态
基于当前的 和 ,根据特定策略(如ε-greedy)选择
;
until 状态 终止
在选择下一步动作时,采用ε-greedy策略,即:
- 以 ε 的概率随机选择下一个动作
- 以 1-ε 的概率选择可以最大化的下一个动作
在该算法中,超参数 为学习速率, 为折扣因子。
在更新时,对比Q学习使用 作为预估,SARSA则使用 作为预估。[4]一些针对Q学习的提出优化方法也可以应用于SARSA上。[5]
相关条目
参考文献
- ^ Online Q-Learning using Connectionist Systems" by Rummery & Niranjan (1994). [2022-07-14]. (原始内容存档于2013-06-08).
- ^ Jeevanandam, Nivash. Underrated But Fascinating ML Concepts #5 – CST, PBWM, SARSA, & Sammon Mapping. Analytics India Magazine. 2021-09-13 [2021-12-05]. (原始内容存档于2021-12-05) (英语).
- ^ Richard S. Sutton and Andrew G. Barto. Sarsa: On-Policy TD Control. Reinforcement Learning: An Introduction. [2022-07-14]. (原始内容存档于2020-07-05).
- ^ TINGWU WANG. Tutorial of Reinforcement: A Special Focus on Q-Learning (PDF). cs.toronto. [2022-07-14]. (原始内容存档 (PDF)于2022-07-14).
- ^ Wiering, Marco; Schmidhuber, Jürgen. Fast Online Q(λ) (PDF). Machine Learning. 1998-10-01, 33 (1): 105–115 [2022-07-14]. ISSN 0885-6125. S2CID 8358530. doi:10.1023/A:1007562800292 . (原始内容存档 (PDF)于2018-10-30) (英语).
可微分计算 |
---|
| 概论 | |
---|
| 概念 | |
---|
| 应用 | |
---|
| 硬件 | - TPU
- VPU
- IPU(英语:Graphcore)
- 憶阻器
- SpiNNaker(英语:SpiNNaker)
|
---|
| 软件库 | |
---|
| 实现 | 视觉·语音 | |
---|
| 自然语言 | |
---|
| 决策 | - AlphaGo
- Q学习
- SARSA
- OpenAI Five(英语:OpenAI Five)
- 自动驾驶
- MuZero
- 行动选择(英语:Action selection)
- 机器人控制(英语:Robot control)
|
---|
|
---|
| 人物 | |
---|
| 组织 | |
---|
| 架构 | - 多层感知器(MLP)
- 循环神经网络(RNN)
- 長短期記憶(LSTM)
- 门控循环单元(英语:Gated recurrent unit)(GRU)
- 卷积神经网络(CNN)
- 残差神经网络(ResNet)
- 变换器
- 自编码器
- 变分自编码器(VAE)
- 生成对抗网络(GAN)
- 图神经网络(英语:Graph neural network)(GNN)
- 回响状态网络(英语:Echo state network)(ESN)
- 神经图灵机(NTM)
- 可微分神经计算机(英语:Differentiable neural computer)(DNC)
|
---|
| - 主题
- 分类
|
|