<no title>

class mindspore_rl.utils.VanillaFunc(env)[源代码]

这是Vanilla MCTS的自定义传入算法。每个动作的先验概率是一个均匀分布。simulation中会进行随机选择动作从而获得结果。

参数：

样例：

>>> env = TicTacToeEnvironment(None)
>>> vanilla_func = VanillaFunc(env)

calculate_prior(new_state, legal_action)[源代码]

calculate_prior的功能是计算输入合法动作的先验概率

参数：

返回：

simulation(new_state)[源代码]

simulation的功能是计算输入状态的奖励（评估价值）

参数：

返回：