Skip to content
2 changes: 1 addition & 1 deletion .github/workflows/compile_with_latex_2020.yml
Original file line number Diff line number Diff line change
Expand Up @@ -7,7 +7,7 @@ on: [push, pull_request]

jobs:
build_latex:
runs-on: ${{ matrix.os }}
runs-on: ubuntu-latest
strategy:
matrix:
os: [ubuntu-latest]
Expand Down
5 changes: 4 additions & 1 deletion .github/workflows/compileandrelease.yml
Original file line number Diff line number Diff line change
@@ -1,7 +1,10 @@

name: Compile Latex

on: [push]
on:
push:
branches: ['**']
tags: ['v*']

jobs:
build_latex:
Expand Down
12 changes: 6 additions & 6 deletions chap0/preface.tex
Original file line number Diff line number Diff line change
Expand Up @@ -15,9 +15,9 @@
Actor-Critic (AC) && 行动者-评论家 \\

\midrule
boold oxygen-level dependent [singal](BOLD) &&血氧水平依赖 \\
blood oxygen-level dependent [singal](BOLD) &&血氧水平依赖 \\
\midrule
rostral cingulate motor area(CAMr) &&头侧扣带运动区 \\
rostral cingulate motor area(CMAr) &&头侧扣带运动区 \\
\midrule
cinggulate motor areas(CAMs) &&扣带运动区 \\
\midrule
Expand All @@ -27,13 +27,13 @@
\midrule
frontal eye field(FEF) &&额叶视区 \\
\midrule
funtional magnetic resonace imaging(fMRI) &&功能性核磁共振成像 \\
functional magnetic resonance imaging(fMRI) &&功能性核磁共振成像 \\
\midrule
antero-dorsal granular area(GrAD) &&前背颗粒区 \\
\midrule
antero-lateral granular area(GrAL) &&前外侧颗粒区 \\
\midrule
dorsal granlar area(GrD) &&背侧颗粒区 \\
dorsal granular area(GrD) &&背侧颗粒区 \\
\midrule
medial granular area &&内侧颗粒区 \\
\midrule
Expand All @@ -43,7 +43,7 @@
\midrule
poster-medial granular area(GrPM) &&后内侧颗粒区 \\
\midrule
ventral granular area(CrV) &&腹侧颗粒区 \\
ventral granular area(GrV) &&腹侧颗粒区 \\
\midrule
thousand years ago(Ka) &&千年前 \\
\midrule
Expand All @@ -61,7 +61,7 @@
\midrule
orbital frontal cortex(OFC) &&眶额皮层 \\
\midrule
positron emission tomography(PEF) &&正电子发射断层扫描 \\
positron emission tomography(PET) &&正电子发射断层扫描 \\
\midrule
prefrontal cortex(PF) &&前额叶皮层 \\
\midrule
Expand Down
14 changes: 7 additions & 7 deletions chap12/chap12.tex
Original file line number Diff line number Diff line change
@@ -1,24 +1,24 @@
\chapter{强化学习的神经科学} \label{chap:chap12}


神经科学是对神经系统的多学科研究:它们如何调节身体功能;控制行为;随着时间的推移,由于发展、学习和衰老而发生的变化;以及细胞和分子机制如何使这些功能成为可能
神经科学是研究神经系统的多学科领域,探索其如何调节生理功能、控制行为,以及随发育、学习和衰老发生的变化,并阐明实现这些过程的细胞与分子机制
强化学习最令人兴奋的方面之一是来自神经科学的越来越多的证据,证明人类和许多其他动物的神经系统实现的算法与强化学习算法惊人地对应。
本章的主要目的是解释这些相似之处,以及它们对动物奖励相关学习的神经基础的建议
本章的主要目的是解释这些相似之处,以及给动物奖励相关学习的神经基础提出一些建议


强化学习和神经科学之间最显著的联系点涉及多巴胺,这是一种深入参与哺乳动物大脑奖励处理的化学物质。
多巴胺似乎会将\textit{时间差分误差}传递给进行学习和决策的大脑结构。
\textit{多巴胺神经元活动的奖赏预测误差假说}表达了这种平行性,该假说是由计算强化学习和神经科学实验结果的汇聚引起的。
在本章中,我们讨论了这一假设,导致这一假设的神经科学发现,以及为什么它对理解大脑奖励系统有重要贡献
在本章中,我们将讨论这一假设、催生该假设的神经科学发现,以及该假设对理解大脑奖励系统的重要意义
我们还讨论了强化学习和神经科学之间的相似之处,这些相似之处不如\textit{多巴胺和时序差分误差}的相似之处引人注目,但为思考动物基于回报的学习提供了有用的概念工具。
强化学习的其他元素有可能影响神经系统的研究,但它们与神经科学的联系仍相对未开发。
我们讨论了其中几个不断发展的联系,我们认为这些联系将随着时间的推移而变得越来越重要。


正如强化学习的早期历史所概述的,强化学习的许多方面都受到了神经科学的影响
本章的第二个目标是让读者了解对我们贡献的强化学习方法关于大脑功能的想法
从大脑功能的理论来看,强化学习的一些元素更容易理解
\textit{资格迹}是强化学习的基本机制之一,它起源于突触的一种推测性质,突触是神经细胞(神经元)相互交流的结构
正如强化学习发展历程所示,其许多核心思想都受到了神经科学的启发
本章的第二个目标,是向读者介绍我们基于强化学习方法提出的大脑功能相关观点
从大脑功能的理论视角出发,强化学习的部分核心机制也能得到更清晰的解释
\textit{资格迹}是强化学习的核心机制之一,它源于对突触特性的一种推测——突触正是神经元之间传递信息的关键结构


在本章中,我们没有深入研究动物基于奖励的学习背后的神经系统的巨大复杂性:本章太短,我们不是神经科学家。
Expand Down
Loading