在[reward_trainer.py](https://github.com/OpenLMLab/MOSS-RLHF/blob/main/rm/reward_trainer.py#L147)这里,删除了lm_logits中最后一个token的概率分布,但是在下面的label里面是删除了第一个词,想问下这里是怎么对应的呢 