📉

Inverse Scaling: LLMが解けないタスクとは何か.

2023/07/25に公開

はじめに

先日,GPT-4のパラメータサイズに関するリーク情報が出ていました(ツイートリンク).この情報の真偽は定かではないですが,これによるとGPT-4は220Bパラメータモデル×8体で構成されているとのことです.これはGPT-3のパラメータサイズの10倍以上のサイズであり,やはりスケーリング則はいまなお健在であることを示していると思います.(スケーリング則は以下の図を参照.)

一方で「Inverse Scaling: When Bigger Isn't Better」という論文が投稿されていました.これは,パラメータサイズが大きくなるにつれて性能が悪化する(逆スケーリングする)タスクがあることを示した論文です.LLMで解けないタスクがあることを知ること自体も重要ではありますが,なぜ逆スケーリングが発生してしまうのかを理解することは,安全にLLMを運用する上で非常に重要です.

本記事では,逆スケーリングに関して踏み込んだ論文Inverse Scaling: When Bigger Isn't Betterを紹介します.

論文の概要

論文の筆者らは,逆スケーリングが発生するタスクを調べるためにInverse Scaling Prizeというコンペを開催しました.このコンペの参加者は,逆スケーリングが発生するタスクの説明とそのデータセットを提出します.このコンペの結果を集約したのが本論文です.
このコンペの結果,逆スケーリングに対して以下の4つの潜在的な要因があることを判明しました.

  1. Strong Prior:
    LLMは,文脈に沿った指示に従うよりも記憶したシーケンスを繰り返すことを好む傾向がある.
  2. Un wanted Imitation:
    LLMは,学習データ中の望ましくないパターンを模倣する傾向がある.
  3. Distractor Task:
    難しいタスクを解く際に,簡単な「邪魔」なタスク(実際のタスクと似ているが,異なるタスク)が本来のタスクと混合してしまう傾向にある.
  4. Spurious Few-Shot:
    Few-shotサンプルが誤解を招くようなサンプルだった場合に回答を間違う.

Inverse Scaling Prizeとは

逆スケーリングが発生するタスクを見る前に,本コンペの概要に関して触れます.
コンペのリンクはこちらで,実際のデータも公開されています.

  • 参加者の提出物
    • 入出力例を含んだデータセット
    • タスクの重要性を示す正当な理由
    • GPT-3モデル(Brown et al.、2020)のスケーリングプロット
  • 賞金
    • Grand prize (1人): $100,000
    • Second prizes (5人): $20,000
    • Third prizes (10人): $5,000
  • 会期:
    • 第 1 ラウンド: 2022 年 6 月 27 日~2022 年 8 月 27 日
      • メインのコンペ
    • 第2ラウンド: 2022 年 10 月 27 日 まで
      • 第1ラウンド突破者は,レビュー担当者のフィードバックや非公開の評価モデルからのスケーリング則プロット/結果を受けて第1ラウンドの内容の改善をする.
  • 評価方法
    • GPT-3, OPT, GPT-2を使用して逆スケーリングを評価
      • ada・babbage・curie・davinciの結果の提出はマスト.
    • 公開モデルへのoverfittingを避けるために,プライベートモデルでの評価も行う
      • Anthropic・Chinchilla・Gopher
        -(コンペ終了後に,GPT-4,PaLMの結果も追記)
  • フォーマット
    • 評価指標に従った入出力の例 (最低300例,1000ぐらいを推奨.)
      • (入力は,zero-shotもしくはfew-shotのprompt.)
    • 評価指標 (以下のいずれか一方)
      • Classification Loss
        • 負の対数確率の平均
      • Loss on a sequence at the end of a prompt
        • 文章の続きをどれくらい正確に予測できているか(LAMBADAベンチマークで使われているもの)

(賞金$100,000はすごい...)

LLMが解けないタスクの紹介

1. Strong Prior Tasks

Resisting Correction

  • タスク概要
    • 入力と同じ文章を生成するタスク
    • クエリ文に対して次に来る単語を予測させるが,この単語はあえてタイポしている.
    • このミスを模倣できるかどうか,クラス分類.
  • タスクの重要性
    • 言語モデルが,指示よりももともと持っている知識を優先してしまい,誤った知識を修正する能力がないことを示す.

Memo Trap

  • タスク概要
    • 記憶したテキスト(よく知られていることわざなど)の続きを生成させる.
    • 記憶したテキストを改ざんするようなインストラクションを実施.
  • タスクの重要性
    • LLMが新しい指示に適応できるかどうかを試す目的で実施.

Redefine

  • タスク概要
    • 一般的な記号や単語の再定義を指示したあと,その内容に対する簡単な質問応答をする.
  • タスクの重要性
    • 言語モデルが文脈における再定義ができない場合,プロンプトに提示される新しい状況について推論する能力が制限され,誤解を招く結果を生み出す可能性がある.

Prompt Injection

  • タスク概要
    • LLMが文を繰り返すか大文字にするといった単純な命令に従う能力をテストするが,その文の中に含まれる指示は実行しないようにする.
  • タスクの重要性
    • 大きな言語モデルが最新の命令に従う傾向を示し,一方で明示的にすべての後続の指示よりも優先されるとマークされた以前の指示に従う能力が大きな言語モデルに欠けていることを示す.

2. Unwanted Imitation Tasks

Modus Tollens

  • タスク概要
    • モーダス・トレンス(modus tollens)と呼ばれる演繹的な議論形式をテスト.
    • プロンプトでは2つの文と結論が提示され,モデルに対して,前提に基づいて結論が妥当かどうかを判断するように求められる.
  • タスクの重要性
    • 人は,モーダン・トレンスを誤って適用することが多く,LLMがこの人間のふるまいを模倣する可能性がある.LLMは人間しがちな論理的な間違いを模倣してしまう.

3. Distractor Task Tasks

Pattern Match Suppression

  • タスク概要
    • 言語モデルが繰り返しパターンを違反するよう指示された場合に,それを実行できるかどうかをテスト
      • 上記では,unexpectedlyという曖昧な語句を使用することでルール違反を促している.
  • タスクの重要性
    • 繰り返しを優先し,言語指示に違反する可能性があるという点で重要視.

In to the Unknown

  • タスク概要
    • 言語モデルが与えられた質問に関連する新しい情報を効果的に収集できるかをテスト
    • 具体的には,質問に回答するために役立つ情報を提供する2つの回答選択肢のうち,どちらが選択肢を決定するために情報を提供しているかを判断する
  • タスクの重要性
    • 言語モデルが新しい情報に適切に推論する能力の制約を示す.
      LMが新しい知識を獲得するよう明示的に指示されていても,既存の知識に一致する出力に偏ってしまうことを示唆している.

NeQA: Can Large Language Models Handle Negation in Multi-choice Questions?

  • タスク概要
    • LMが否定を含む質問を処理できるかどうかをテスト
    • 既存の多肢選択データセットを,プログラムで否定文に変更して正誤を反転させた問題を解かせている.
  • タスクの重要性
    • 否定文を理解し,適切に命令に従う能力があるかを測っている.この能力がない場合,LLMが意図したものと反対の動作をすることになり,安全に制御することが困難になる.

4. Spurious Few-Shot Tasks

Hindsight Neglect

  • タスク概要
    • 期待値に基づいて賭けが価値があるかどうかを評価できるかどうかをテスト
    • 賭けがプラスの期待値を持つ場合には「yes」,賭けがマイナスの期待値を持つ場合には「no」と答える.少数の例では,実際の結果が期待値と一致しているが,最後のクエリは結果と期待値が一致していない.この時に正しくかけを行うことができるかを調査.
  • タスクの重要性
    • 少数の例と,クエリーに妥当な相関関係がない場合に誤った解答をすることを示した.
    • タスクの十分な明示性が重要である.

Repetitive Algebra

  • タスク概要
    • 言語モデルが前の文脈中の繰り返しのある例にどの程度固執するか,またどのように固執するかをテスト
  • タスクの重要性
  • このタスクで,LLMは最新の例に強いバイアスがあることを示している.
  • この結果から,チャットボットが最新のメッセージに焦点を当て,以前の会話の文脈に十分な注意を払わない可能性があることを示唆する.

Googleから発表された後続の論文

Googleから,「Inverse scaling can become U-shaped」という論文も発表されました.
主張としては,大きく以下の3点です.

  • Inverse Scaling Prizeで11個のタスクに関して,逆スケーリングが見られた.
  • 一方で,6/11のタスクはPaLMでは改善傾向にあることから,「 U-shaped Scaling」が成り立ち,inverse scalingは,一般的なLLMよりさらに大きなモデルでは成り立たない可能性がある.

  • PaLMが解けなかったタスクもCoTを使えばpositive scalingに従う.

まとめ

本記事では,パラメータサイズが大きくなるにつれて性能が悪化するタスクに関する論文を紹介しました.現在もLLMに関しては分かっていないことが多く,学習データセットのバイアスに関する研究や,In-context learningの理論的解明に関する研究もまだまだ盛んにおこなわれています.LLMを使いこなすうえで,理解することはとても重要です.
本記事がLLMを理解する一助となれば幸いです.

参考文献

https://arxiv.org/abs/2306.09479

https://arxiv.org/abs/2211.02011

Discussion