ステップ1:教師あり学習で既存の言語モデルをfine-tuning
ステップ2:出力のパターンの収集と “報酬モデルのトレーニング”
報酬モデルの学習。contextが入力プロンプトであり、それがPolicyに渡され応答文が生成される。これが、その時点での報酬モデルと応答文を評価する人間に渡される。両者の報酬の差分をフィードバックとして報酬モデルが更新される