May 16, 2023
CMU 研究者が GILL を提案:LLM と画像エンコーダおよびデコーダ モデルを融合する AI 手法
OpenAI の新しい GPT 4 のリリースにより、大規模言語モデルのマルチモーダリティが導入されました。 以前のバージョンの GPT 3.5 とは異なり、よく知られている ChatGPT にテキストを渡すためにのみ使用されます。
OpenAI の新しい GPT 4 のリリースにより、大規模言語モデルのマルチモーダリティが導入されました。 有名な ChatGPT にテキスト入力を許可するためだけに使用されていた以前のバージョンの GPT 3.5 とは異なり、最新の GPT-4 はテキストだけでなく画像も入力として受け入れます。 最近、カーネギー メロン大学の研究者チームは、マルチモーダル言語モデルを拡張して優れた独自の画像を生成することに焦点を当てた、大規模言語モデルによる画像の生成 (GILL) と呼ばれるアプローチを提案しました。
GILL メソッドを使用すると、画像とテキストが混在する入力を処理して、テキストの生成、画像の取得、新しい画像の作成を行うことができます。 GILL は、フリーズされたテキスト専用 LLM の出力埋め込み空間をフリーズされた画像生成モデルの出力埋め込み空間に転送することで、モデルが別個のテキスト エンコーダを利用しているにもかかわらず、これを実現します。 インターリーブされた画像とテキストのデータを必要とする他の方法とは異なり、マッピングは画像とキャプションのペアを利用して少数のパラメータを微調整することによって実現されます。
研究チームは、この方法では、フリーズされたテキストの大規模な言語モデルと、すでにトレーニングされている画像のエンコードおよびデコードのモデルを組み合わせると述べています。 画像検索、独自の画像生成、マルチモーダルダイアログなど、幅広いマルチモーダル機能を提供できます。 これは、モダリティの埋め込み空間をマッピングして融合することによって行われています。 GILL は、画像とテキストの混合入力を調整して動作し、一貫性と読みやすさの両方を備えた出力を生成します。
この方法は、画像生成で優れたパフォーマンスを得るために、LLM をテキストから画像への生成モデルに基づいた効果的なマッピング ネットワークを提供します。 このマッピング ネットワークは、非表示のテキスト表現をビジュアル モデルの埋め込み空間に変換します。 その際、LLM の強力なテキスト表現を使用して、見た目の一貫した出力を生成します。
このアプローチを使用すると、モデルは新しい画像を作成するだけでなく、指定されたデータセットから画像を取得できます。 モデルは、推論時に画像を生成するか取得するかを選択します。 この選択を行うには、LLM の隠れた表現を条件とする学習済みの決定モジュールが使用されます。 このアプローチは、トレーニング時に画像生成モデルを実行する必要がなく動作するため、計算効率が高くなります。
この方法は、特に長くて洗練された言語を必要とするタスクの場合、ベースライン生成モデルよりも優れたパフォーマンスを発揮します。 比較すると、GILL は対話や談話を含む長文テキストの処理において安定拡散法よりも優れています。 GILL は、非 LLM ベースの生成モデルよりも対話条件付きの画像生成で優れたパフォーマンスを発揮し、マルチモーダル コンテキストの恩恵を受け、指定されたテキストによりよく一致する画像を生成します。 テキスト入力のみを処理する従来のテキストから画像へのモデルとは異なり、GILL は任意にインターリーブされた画像とテキストの入力も処理できます。
結論として、GILL (Generating Images with Large Language Models) は、以前のマルチモーダル言語モデルと比較して幅広い機能を描写できるため、有望であると思われます。 コンテキスト依存性を測定するさまざまなテキストから画像へのタスクにおいて、非 LLM ベースの生成モデルよりも優れたパフォーマンスを発揮する機能により、マルチモーダル タスクに対する強力なソリューションになります。
をチェックしてください紙そしてプロジェクトページ。忘れずに参加してください26,000 以上の ML SubReddit、Discordチャンネル、 そしてメールニュースレターでは、最新の AI 研究ニュースやクールな AI プロジェクトなどを共有します。 上記の記事に関してご質問がある場合、または何か見逃した場合は、お気軽にメールでお問い合わせください。[email protected]
🚀 AI Tools Club で 100 年代の AI ツールをチェックしてください
Tanya Malhotra は、デラドゥンの石油エネルギー研究大学の最終学年で、人工知能と機械学習を専門とするコンピューター サイエンス エンジニアリングの学士号を取得しています。彼女は、優れた分析的思考と批判的思考を備えたデータ サイエンスの愛好家であり、新しいスキルの習得、グループの指導、組織的な方法での仕事の管理に強い関心を持っています。