- class mindspore_rl.policy.GreedyPolicy(input_network)[源代码]
基于给定的贪婪策略生成采样动作。
- 参数:
input_network (Cell) - 用于按输入状态产生动作的网络。
样例:
>>> state_dim, hidden_dim, action_dim = 4, 10, 2 >>> input_net = FullyConnectedNet(state_dim, hidden_dim, action_dim) >>> policy = GreedyPolicy(input_net) >>> state = Tensor(np.ones([2, 4]).astype(np.float32)) >>> output = policy(state) >>> print(output.shape) (2,)