问题描述 给定一个4×12的网格环境,如下图所示,其中黄色区域表示悬崖,我们不能经过,蓝色是我们的目标区域,我们希望能求出每个状态如何利用最少
基本概念: 对于强化学习,我们一般会分成智能体(agent),环境(通过智能体的状态和动作反馈信息)两大部分,我们现在介绍一些名词,从而有利于
安装pytorch 我们以英伟达显卡为例,我们需要知道自己电脑对应cuda版本信息: 在控制台输入nvidia-smi我们可以看到对应cuda版
二十二画生
published on 这是我的第一份博客,用于测试 1 2 3 4 5 6 7 package main import "fmt" func main(){ fmt.Println("Hello World") } $$ \sum_{i=0}^{100}i = 5050 $$