博文 offline RL · PbRL | LiRE:构造 A>B>C 的 RLT 列表,得到更多 preference 数据 从 RLT 里推导出 \((\sigma_0, \sigma_1, p)\) 的 prefe...