You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
对$\hat Q(s,a) - \hat Q(s,b) > 0$有$\Delta_F^\pi(s, a, b)$,进一步
$\hat Q(s,a) - \hat Q(s,b) = \Delta_F^\pi(s, a, b) \cdot W(s,a,b)$
其中$W(s, a, b) \in \mathbb{R}^n$是轨迹状态广义价值函数差对应的权重。
线性
当在简单的线性情况下,当且仅当$\Delta_F^\pi(s, a, b) \cdot W(s,a,b) > 0$
有$\hat Q(s,a) - \hat Q(s,b) > 0$。
这便是控制在人设计的轨迹特征偏好下,选择更有利于reward的轨迹。两条轨迹的差别可以用
$\Delta_F^\pi(s,a,b)$,其对结果的影响则是权重W。
非线性
对非线性的情况采用积分梯度(Integrated Gradient)的方式计算两个不同轨迹特征之间差异在最后Q值上的表现如下
$$\theta_i(s, a, b) = \int_{0}^{1} \frac{\partial \hat C(\hat Q_F^\pi(s, b)-\alpha \cdot (\hat Q_F^\pi(s, a) - \hat Q_F^\pi(s, b)))}{\partial [\hat Q_F^\pi(s, a)]_i} d\alpha$$
便可以得到不同特征在Q函数不同动作上的表现如下
$$\hat Q(s,a) - \hat Q(s,b) = \theta (s, a, b) \cdot \Delta_F(s, a, b)$$
可以得到和线性情况相同的解释。
Minimal Sufficient Explanations
在手工特征改变使得最后$Q$函数变大的下标集合为$P={i|\Delta_{F, i}(s, a, b) \cdot \theta_i(s, a, b)>0}$,相对的$N = \bar P$
$MSX$表示使得轨迹变化带来正收益的最小手工特征集合(也即对当前影响最关键的几个特征)。
$$MSX = \mathop{\arg\min}\limits_{E} {|E|:E \subset P \ and\ \sum_{i \in E}{|\Delta_{F, i}(s, a, b) \cdot \theta_i(s, a, b)|} > \sum_{i \in N}{|\Delta_{F, i}(s, a, b) \cdot \theta_i(s, a, b)|}}$$