【环球快播报】RL 的探索策略 | Exploration for RL

博客园 2023-04-06 22:28:00

(资料图)

最近在草率地调研 RL 的 exploration。这篇文章也比较草率，仅能起到辅助作用，不能代替读 review 或更精细的读 paper。

目录

1 主要参考资料
2 RL 的主流 exploration 方法
- 2.1 经典 exploration 方法
- 2.2 prediction-based method：
  - 学习 env 的 dynamics
  - 不学 env dynamics 了
- 2.3 memory-based method
- 2.4 其他

1 主要参考资料

https://www.sciencedirect.com/science/article/pii/S1566253522000288
- 一篇 review，感觉不太好读。
https://lilianweng.github.io/posts/2020-06-07-exploration-drl/
- 很好的博客，主要参考它。
https://journals.sagepub.com/doi/10.1177/1729881418775849
- 18 年的 review，关于 memory-based exploration，还没读。
一些可爱的 new bing。

2 RL 的主流 exploration 方法

在 review（第一个参考资料）中，exploration 的研究有两种动机：效率动机与安全动机。前者希望 exploration 能帮助 RL 尽快学会，而后者希望 RL 试错学习的过程中保证安全性。

安全动机的 exploration 的主要方法：
- 罚函数（给非常大的负 reward）；
- 基于一些先验知识强行限制（如强行改不安全的 action）。

对于效率动机的 exploration，这是 lilian weng 博客（第二个参考资料）的目录：

我们的重点放在 1 prediction-based，2 memory-based。其他感觉都不是主流方法。

2.1 经典 exploration 方法

ε-greedy：随机探索的概率是 ε。
Upper Confidence Bound：最大化 \(\hat Q(a)+\hat U(a)\)，其中 U 与 action 次数成反比。
Boltzmann exploration，Thompson sampling：
- bing：玻尔兹曼探索是不确定性下 sequential decision 的经典策略，是强化学习（RL）中最标准的工具之一。它从玻尔兹曼分布（softmax）中获取的 Q value 上的 action，由温度参数 τ 调节.
  汤普森采样以威廉·R·汤普森（William R. Thompson）的名字命名，是一种启发式方法，用于选择解决 multi-armed bandit problem 中 exploration-exploitation 困境的 action。它包括选择最大化随机抽取信念（randomly drawn belief）的预期 reward 的 action.
添加一个 entropy loss \(H(\pi(a|s))\)，鼓励 action diversity。
noise-based exploration：在 obs action 甚至 parameter space 里面掺 noise。
count-based exploration：用密度模型（或者某些哈希）来近似 state 访问的频率，然后用 \(1/\sqrt{N(s,a)}\) 之类作为 intrinsic reward，N 越小，reward 越大。

2.2 prediction-based method：

学习 env 的 dynamics

Intelligent Adaptive Curiosity（IAC）：
Intrinsic Curiosity Module（ICM）：
Variational information maximizing exploration（VIME）：

不学 env dynamics 了

Directed Outreaching Reinforcement Action-Selection（DORA）：
- https://zhuanlan.zhihu.com/p/78709539
Random Network Distillation（RND）：
- https://blog.csdn.net/qq_43703185/article/details/122718999
Never Give Up（NGU）：
- https://zhuanlan.zhihu.com/p/551992517
- agent57

2.3 memory-based method

Episodic Curiosity：
Go-Explore：
policy-based Go-Explore
DTSIL（Diverse Trajectory-conditioned Self-Imitation Learning）

2.4 其他

Q exploration，Q 值近似，Bootstrapped DQN：
- https://www.cnblogs.com/initial-h/p/16350230.html
- https://zhuanlan.zhihu.com/p/192484077
Variational Options
- Variational Intrinsic Control：训一堆能在不同 state 下终止的 policy，然后看哪个最好？？
- Variational Auto-encoding Learning of Options by Reinforcement（VALOR）：没看。

X 关闭

相关文章

【环球快播报】RL 的探索策略 | Exploration for RL

【环球快播报】RL 的探索策略 | Exploration for RL

博客园 04-06

每日快看：法院认定谢娜张杰购房不存在“跳单”，中介公司一审败诉

每日快看：法院认定谢娜张杰购房不存在“跳单”，中介公司一审败诉

潇湘晨报 04-06

到2025年，高校20%左右学科专业布点将被优化调整

到2025年，高校20%左右学科专业布点将被优化调整

上海黄浦 04-06

焦点日报：提升消费者获得感满意度，他们这样做……

焦点日报：提升消费者获得感满意度，他们这样做……

文汇报 04-06

用镜头记录下瞬间用画笔勾勒成永恒

用镜头记录下瞬间用画笔勾勒成永恒

上海奉贤 04-06

弘阳地产：前3月累计合约销售金额为73.13亿元-世界即时看

弘阳地产：前3月累计合约销售金额为73.13亿元-世界即时看

和讯刘海美 04-06

当前热门：【英雄之光】寄一封跨越时空的信

当前热门：【英雄之光】寄一封跨越时空的信

文汇网 04-06

小孩练轻功1天学会_小孩七天内如何练轻功

小孩练轻功1天学会_小孩七天内如何练轻功

互联网 04-06

【聚看点】剪映模板收益怎么计算？如何获得收益？

【聚看点】剪映模板收益怎么计算？如何获得收益？

红神网 04-06

虎豹集团

虎豹集团

互联网 04-06

小型uv打印机什么牌子好_uv平板打印机哪个牌子好

小型uv打印机什么牌子好_uv平板打印机哪个牌子好

互联网 04-06

天天信息:中国卫生人才网卫生资格考试打印准考证

天天信息:中国卫生人才网卫生资格考试打印准考证

教育联展网 04-06

CBA联赛，浙江队夺得队史首个常规赛冠军

CBA联赛，浙江队夺得队史首个常规赛冠军

环球时报 04-06

【环球新要闻】怀柔发放2023年第一季度保障性住房补贴618.21万元

【环球新要闻】怀柔发放2023年第一季度保障性住房补贴618.21万元

迈点网 04-06

天天百事通！随着英国房地产市场放缓伦敦的购房者被迫等待

天天百事通！随着英国房地产市场放缓伦敦的购房者被迫等待

互联网 04-06

当前要闻：新城控股(601155)：商业表现韧性融资成本下降

当前要闻：新城控股(601155)：商业表现韧性融资成本下降

天风证券股份有限公司 04-06

焦点要闻：过年玩些什么礼物好

焦点要闻：过年玩些什么礼物好

太平洋礼物网 04-06

环球今头条！鹌鹑蛋羹和鸡蛋羹的区别?

环球今头条！鹌鹑蛋羹和鸡蛋羹的区别?

南方养生网 04-06

间接胆红素偏高的原因和危害_直接胆红素偏高的原因和危害-今热点

间接胆红素偏高的原因和危害_直接胆红素偏高的原因和危害-今热点

互联网 04-06

【微视频】最后一刻，同样的抉择

【微视频】最后一刻，同样的抉择

新华网 04-05

被老鼠抓了一下轻微破皮要打针吗_老鼠咬了要打针吗-环球焦点

被老鼠抓了一下轻微破皮要打针吗_老鼠咬了要打针吗-环球焦点

互联网 04-05

世界要闻：爱奇艺片段保存到本地在哪里找_爱奇艺片段保存到本地

世界要闻：爱奇艺片段保存到本地在哪里找_爱奇艺片段保存到本地

互联网 04-05

热门：《生化危机4重制版》酒窖怎么过？红衣教主打法技巧

热门：《生化危机4重制版》酒窖怎么过？红衣教主打法技巧

游侠网 04-05

超氧化钾和水反应的化学方程式_超氧化钾

超氧化钾和水反应的化学方程式_超氧化钾

互联网 04-05

做任务赚零花钱？男子陷刷单骗局幸遇民警上门劝阻全球播报

做任务赚零花钱？男子陷刷单骗局幸遇民警上门劝阻全球播报

紫牛新闻 04-05

积玉桥街道人大：深化代表建议跟踪督办，“五方共议”激活基层治理“神经末梢”

积玉桥街道人大：深化代表建议跟踪督办，“五方共议”激活基层治理“神经末梢”

荆楚网 04-05

动态：凡尔赛和约对德国疆界的划分（凡尔赛和约）

动态：凡尔赛和约对德国疆界的划分（凡尔赛和约）

互联网 04-05

每日信息：热搜第一！“宿舍被雷劈了”？华中科技大学回应

每日信息：热搜第一！“宿舍被雷劈了”？华中科技大学回应

环球时报新媒体 04-05

杜兰特：过去俩赛季看太阳季后赛能明显感觉到他们的主场优势|即时

杜兰特：过去俩赛季看太阳季后赛能明显感觉到他们的主场优势|即时

手机网易网 04-05

女性朋友之间七夕送什么礼物热资讯

女性朋友之间七夕送什么礼物热资讯

太平洋礼物网 04-05

比亚迪和吉利，中间隔着两个长城

比亚迪和吉利，中间隔着两个长城

搜狐科技 04-05

潜龙勿用什么意思网络用语_潜龙勿用什么意思每日看点

潜龙勿用什么意思网络用语_潜龙勿用什么意思每日看点

互联网 04-05

JUMPSTARTER 2023环球创业比赛启动报名深圳站吸引百余位初创者

JUMPSTARTER 2023环球创业比赛启动报名深圳站吸引百余位初创者

深圳新闻网 04-04

凌玮科技：成立新材料研究有限公司

凌玮科技：成立新材料研究有限公司

证券时报网 04-04

今天最新消息台北故宫博物院南院：500架无人机将挑战“翠玉白菜”_天天时讯

今天最新消息台北故宫博物院南院：500架无人机将挑战“翠玉白菜”_天天时讯

互联网 04-04

MLB 2023赛季新规启用赛事推广助燃中国市场

MLB 2023赛季新规启用赛事推广助燃中国市场

中国经营网 04-04

头条：迎来“双创”新赛季浦东分赛点助推镇域经济转型发展

头条：迎来“双创”新赛季浦东分赛点助推镇域经济转型发展

科技日报 04-04

当前焦点!珍宝岛：截至3月31日，累计以2999.13万元回购255.97万股公司股份

当前焦点!珍宝岛：截至3月31日，累计以2999.13万元回购255.97万股公司股份

互联网 04-04

环球通讯！长江航运公共服务初步实现“一网整合”

环球通讯！长江航运公共服务初步实现“一网整合”

中评网 04-04

全球今日报丨缅怀先烈致敬英雄

全球今日报丨缅怀先烈致敬英雄

新华社 04-04

保利和颂——价格，户型丨楼盘测评

保利和颂——价格，户型丨楼盘测评

乐居君 04-04

俄方：更多产油国或加入石油减产行列以应对美经济危机影响全球聚焦

俄方：更多产油国或加入石油减产行列以应对美经济危机影响全球聚焦

百度新闻 04-04

ChatGPT陷入安全危机，成也数据伤也数据_全球今亮点

ChatGPT陷入安全危机，成也数据伤也数据_全球今亮点

钛媒体APP 04-04

文博日历丨“笑脸”青铜钺证明一个部族的存在天天观天下

文博日历丨“笑脸”青铜钺证明一个部族的存在天天观天下

央视新闻 04-04

环球观速讯丨深化普法形式　实现效能提升——咸宁市市场监管局2022年度普法责任制履职报告

环球观速讯丨深化普法形式　实现效能提升——咸宁市市场监管局2022年度普法责任制履职报告

咸宁网 04-04

每日动态!三利好助A股四月开门红 “小阳春”行情值得期待

每日动态!三利好助A股四月开门红 “小阳春”行情值得期待

证券日报 04-04

环球最资讯丨江西定南：缅怀革命先烈传承红色基因

环球最资讯丨江西定南：缅怀革命先烈传承红色基因

人民融媒体 04-04

看完2024“大选”民调，吴子嘉断言结局：选民有定见了全球实时

看完2024“大选”民调，吴子嘉断言结局：选民有定见了全球实时

星岛环球网 04-04

低压电工操作证查询官网_低压电工证查询官网

低压电工操作证查询官网_低压电工证查询官网

互联网 04-04

渝农商行（601077）：4月3日北向资金增持351.19万股当前热闻

渝农商行（601077）：4月3日北向资金增持351.19万股当前热闻

证券之星 04-04

重氮盐反应注意事项_重氮盐

重氮盐反应注意事项_重氮盐

互联网 04-04

学习贯彻习近平新时代中国特色社会主义思想主题教育工作会议在京召开习近平发表重要讲话

学习贯彻习近平新时代中国特色社会主义思想主题教育工作会议在京召开习近平发表重要讲话

中国基金报 04-03

指南金师：4.3今日黄金走势分析，欧佩克引爆疯狂四月环球要闻

指南金师：4.3今日黄金走势分析，欧佩克引爆疯狂四月环球要闻

K线指南 04-03

英雄联盟商城点不开_英雄联盟商城打不开焦点热讯

英雄联盟商城点不开_英雄联盟商城打不开焦点热讯

互联网 04-03

今日报丨2023北京怀柔区公租房租金补贴要求和补贴标准

今日报丨2023北京怀柔区公租房租金补贴要求和补贴标准

互联网 04-03

每日热文：林家成最好看的小说_林家成

每日热文：林家成最好看的小说_林家成

互联网 04-03

合景泰富集团(01813.HK)3月预售额38.5亿元同比减少15.1%_天天最新

合景泰富集团(01813.HK)3月预售额38.5亿元同比减少15.1%_天天最新

智通财经网 04-03

环球快播：大宗交易：荣科科技成交266.07万元，折价9.93%（04-03）

环球快播：大宗交易：荣科科技成交266.07万元，折价9.93%（04-03）

东方财富Choice数据 04-03

短讯！天津和平区随迁子女申请入学登记通知2023

短讯！天津和平区随迁子女申请入学登记通知2023

本地宝 04-03

血清低密度脂蛋白胆固醇3.52严重吗_血清低密度脂蛋白胆固醇_天天新要闻

血清低密度脂蛋白胆固醇3.52严重吗_血清低密度脂蛋白胆固醇_天天新要闻

互联网 04-03

当前信息：女子10元擒大乐透778万大奖：可给我整蒙圈了

当前信息：女子10元擒大乐透778万大奖：可给我整蒙圈了

新浪彩票 04-03

世界球精选！秃头怎么办才能长头发

世界球精选！秃头怎么办才能长头发

互联网 04-03

专家共聚海南热议种质资源创新利用夯实种业振兴基础|全球今热点

专家共聚海南热议种质资源创新利用夯实种业振兴基础|全球今热点

北青网 04-03

视点！美媒：日本突破西方价格上限购买俄罗斯石油与美国盟友闹分裂

视点！美媒：日本突破西方价格上限购买俄罗斯石油与美国盟友闹分裂

环球网 04-03

魅族 PANDAER PASA 游戏耳机上架众筹：独特信标造型，269 元

魅族 PANDAER PASA 游戏耳机上架众筹：独特信标造型，269 元

搜狐号-IT之家 04-03

【新要闻】韦布望远镜发现迄今最古老黑洞

【新要闻】韦布望远镜发现迄今最古老黑洞

广州日报 04-03

当前热讯：雄安新区建设稳步推进 “未来之城”雏形显现

当前热讯：雄安新区建设稳步推进 “未来之城”雏形显现

新华社 04-03

零基础如何备考中级会计师-世界视讯

零基础如何备考中级会计师-世界视讯

会计网 04-03

德展健康：东方略是公司参股公司

德展健康：东方略是公司参股公司

每日经济新闻 04-01

世界视点！时隔三年！日本外相今起访华，外交部：中方重视林芳正外相此访

世界视点！时隔三年！日本外相今起访华，外交部：中方重视林芳正外相此访

第一财经 04-01

火星人：截止到2023年3月31日，公司现有股东户数12713户|热点聚焦

火星人：截止到2023年3月31日，公司现有股东户数12713户|热点聚焦

证券之星 04-01

每日讯息!毛头鬼伞最简单的做法_毛头鬼伞

每日讯息!毛头鬼伞最简单的做法_毛头鬼伞

互联网 04-01

天天最新：刘涛在街头被围观，穿普通衣服五五身材，引起网友热议

天天最新：刘涛在街头被围观，穿普通衣服五五身材，引起网友热议

新浪娱乐 04-01

失眠是寒，脸长斑是寒，关节痛还是寒，一盒中成药散尽一身寒湿环球今头条

失眠是寒，脸长斑是寒，关节痛还是寒，一盒中成药散尽一身寒湿环球今头条

药都和旭升 04-01

股票行情快报：新世界（600628）3月31日主力资金净卖出45.88万元|当前观察

股票行情快报：新世界（600628）3月31日主力资金净卖出45.88万元|当前观察

证券之星 04-01

中金公司：2022年净利75.98亿元同比降29.51%

中金公司：2022年净利75.98亿元同比降29.51%

证券时报·e公司 03-31

法媒：法比安-鲁伊斯没能拿出令巴黎信服的表现，有可能今夏离队|环球热点

法媒：法比安-鲁伊斯没能拿出令巴黎信服的表现，有可能今夏离队|环球热点

直播吧 03-31

微速讯：看·见｜石家庄不限号之后……

微速讯：看·见｜石家庄不限号之后……

长城网 03-31

世体：无论法国媒体怎么报道，巴黎仍会尽全力和梅西续约

世体：无论法国媒体怎么报道，巴黎仍会尽全力和梅西续约

直播吧 03-31

强降温、小雨或雨夹雪、沙尘要来了！请注意出行安全｜天气预警|百事通

强降温、小雨或雨夹雪、沙尘要来了！请注意出行安全｜天气预警|百事通

二三里资讯 03-31

华润燃气(01193)发布2022年业绩拥有人应占溢利47.33亿港元同比减少25.99% 末期息每股90港仙

华润燃气(01193)发布2022年业绩拥有人应占溢利47.33亿港元同比减少25.99% 末期息每股90港仙

智通财经 03-31

天天视讯！当“微度假”胜地遇上全国登山赛，精彩不止一点点！

天天视讯！当“微度假”胜地遇上全国登山赛，精彩不止一点点！

象山发布 03-31

【河南试验自贸区6周年•探访郑汴洛】开封片区：挡不住的文化范

【河南试验自贸区6周年•探访郑汴洛】开封片区：挡不住的文化范

大象新闻 03-31

世界微资讯！官方回应女孩被母亲强行送戒网学校是什么情况

世界微资讯！官方回应女孩被母亲强行送戒网学校是什么情况

互联网 03-31

制造业采购经理指数连续3个月运行在扩张区间，我国经济企稳回升-世界快看点

制造业采购经理指数连续3个月运行在扩张区间，我国经济企稳回升-世界快看点

新京报 03-31

子宫息肉吃什么食物好_子宫肌瘤不能吃什么东西当前速看

子宫息肉吃什么食物好_子宫肌瘤不能吃什么东西当前速看

互联网 03-31

少女送什么花最好|今日聚焦

少女送什么花最好|今日聚焦

太平洋礼物网 03-31

聚焦大健康与生物技术武汉今年第二场大型科技成果转化对接活动于光谷举行|短讯

聚焦大健康与生物技术武汉今年第二场大型科技成果转化对接活动于光谷举行|短讯

荆楚网 03-31

环球信息:港股异动 | 安徽皖通高速公路(00995)升6% 22年归母净利减4.4% 末期息每股0.55元、较上年持平

环球信息:港股异动 | 安徽皖通高速公路(00995)升6% 22年归母净利减4.4% 末期息每股0.55元、较上年持平

智通财经网 03-31

117只个股突破年线|天天视点

117只个股突破年线|天天视点

证券时报网 03-31

邮惠万家银行开业半年：资产增至70亿元，实现营收1亿元当前头条

邮惠万家银行开业半年：资产增至70亿元，实现营收1亿元当前头条

券中社 03-31

3月31日生意社甲酸基准价为3875.00元/吨天天观焦点

3月31日生意社甲酸基准价为3875.00元/吨天天观焦点

生意社 03-31

世界观天下！售价27.78-35.28万元 2023款皇冠陆放上市

世界观天下！售价27.78-35.28万元 2023款皇冠陆放上市

搜狐科技 03-31

全球快报:DNF的附魔卡是如何附着在武器上的？

全球快报:DNF的附魔卡是如何附着在武器上的？

互联网 03-31

1000日币等于多少人民币(合兴证券)-新动态

1000日币等于多少人民币(合兴证券)-新动态

投股 03-31

全球动态:君实生物(01877.HK)公布业绩：2022年研发开支总额达23.84亿元同比增长15%

全球动态:君实生物(01877.HK)公布业绩：2022年研发开支总额达23.84亿元同比增长15%

格隆汇 03-30

天天热推荐：蒲公英花有什么功效能治什么病_蒲公英花有什么功效

天天热推荐：蒲公英花有什么功效能治什么病_蒲公英花有什么功效

互联网 03-30

今日讯！辽宁省葫芦岛市2023-03-30 17:22发布大风蓝色预警

今日讯！辽宁省葫芦岛市2023-03-30 17:22发布大风蓝色预警

互联网 03-30

广期所：免收工业硅期货、期权日内平今仓交易手续费-播资讯

广期所：免收工业硅期货、期权日内平今仓交易手续费-播资讯

广州期货交易所 03-30

数字认证2022年度拟10派0.35元世界视讯

数字认证2022年度拟10派0.35元世界视讯

东方财富Choice数据 03-30

© 2021 华西医疗器械网版权所有

备案号：京ICP备2022016840号-35

邮箱： 920 891 263@qq.com