小型デバイス上で大規模なニューラルネットワークをトレーニングできるようになりました

私たちの周りの機器は常に私たちの生活について学習しています。スマートウォッチはバイタルサインを検知して健康状態を追跡します。ホームスピーカーは私たちの会話を聞いて私たちの声を認識します。

私たちの周りの機器は常に私たちの生活について学習しています。スマートウォッチはバイタルサインを検知して健康状態を追跡します。ホームスピーカーは私たちの会話を聞いて私たちの声を認識します。スマートフォンは文法学者の役割を果たし、私たちの特異なタイプミスを修正するために私たちが書く内容を監視しています。私たちはこれらの便利さに感謝していますが、ガジェットで共有する情報は、常に私たちと電子管理者の間で保持されているわけではありません。機械学習には重いハードウェアが必要になる場合があるため、電話などの「エッジ」デバイスは生データを中央サーバーに送信し、訓練されたアルゴリズムを返します。その研修を地元で実施したいと考えている人もいます。新しい AI トレーニング方法により、小型デバイスのトレーニング機能が拡張され、プライバシーの保護に役立つ可能性があります。

最も強力な機械学習システムは、調整可能なパラメーターで満たされた複雑な関数であるニューラルネットワークを使用します。トレーニング中、ネットワークは入力 (ピクセルのセットなど) を受け取り、出力 (ラベル「猫」など) を生成し、その出力を正解と比較して、次回のパフォーマンスが向上するようにパラメーターを調整します。これらの内部ノブのそれぞれを調整する方法を知るために、ネットワークはそれぞれのノブの効果を記憶する必要がありますが、その数は通常、数百万、場合によっては数十億に達します。それには大量のメモリが必要です。ニューラルネットワークをトレーニングするには、単にネットワークを使用する (「推論」とも呼ばれる) 場合の数百倍のメモリが必要になる場合があります。後者の場合、メモリは、情報を次の層に渡すとすぐに、ネットワークの各層が行ったことを忘れることができます。

トレーニング段階で必要な記憶を減らすために、研究者たちはいくつかのトリックを採用しました。ページングまたはオフロードと呼ばれる 1 つは、マシンがこれらのアクティベーションを短期メモリからフラッシュや SD カードなどの低速だが豊富なタイプのメモリに移動し、必要に応じてそれを戻します。再実体化と呼ばれる別の方法では、マシンはアクティベーションを削除し、後でそれらを再度計算します。以前のメモリ削減システムは、これら 2 つのトリックのいずれかを使用するか、カリフォルニア大学バークレー校のコンピューター科学者であり、このイノベーションを説明する論文の筆頭著者であるシシール・パティル氏によれば、次のような「ヒューリスティック」を使用してそれらを組み合わせていました。最適ではありません」、多くの場合、多くのエネルギーを必要とします。 Patil と彼の共同研究者によって報告されたイノベーションは、ページングと再実体化の組み合わせを形式化したものです。

「これら 2 つの手法を採用し、この最適化問題にうまく組み合わせて、それを解決するのは、本当に素晴らしいことです」と、カリフォルニア大学リバーサイド校のコンピューター科学者である Jiasi Chen 氏は言います。彼はエッジコンピューティングに取り組んでいますが、この最適化問題には関与していませんでした。仕事。

7月にパティル氏は、ボルチモアで開催された機械学習に関する国際会議で、POET（プライベート最適エネルギートレーニング）と呼ばれる自身のシステムを発表した。彼はまず POET に、デバイスの技術的な詳細と、トレーニングさせたいニューラルネットワークのアーキテクチャに関する情報を与えます。彼はメモリの予算と時間の予算を指定します。次に、エネルギー使用量を最小限に抑えるトレーニングプロセスを作成するように要求します。プロセスは、再計算が非効率である特定のアクティベーションをページ化することを決定する場合がありますが、再実行は簡単だが保存するために大量のメモリを必要とするその他のアクティベーションは再実体化します。

画期的な鍵の 1 つは、問題を混合整数線形計画法 (MILP) パズル、つまり一連の制約と変数間の関係として定義することでした。 POET は、デバイスとネットワークアーキテクチャごとに、その変数を Patil の手作りの MILP プログラムに組み込み、最適なソリューションを見つけます。「主な課題は、実際にその問題を適切な方法で定式化して、ソルバーに入力できるようにすることです」とチェン氏は言います。「つまり、エネルギー、レイテンシ、メモリなどの現実的なシステムダイナミクスをすべて捉えることができます。」

チームは、RAM が 32 KB ～ 8 GB の 4 つの異なるプロセッサで POET をテストしました。研究者らはそれぞれについて、画像認識で一般的な 2 つのタイプ (VGG16 と ResNet-18) と、一般的な言語処理ネットワーク (BERT) の 3 つの異なるニューラルネットワークアーキテクチャをトレーニングしました。多くのテストでは、システムはエネルギー使用量を大幅に増加させることなく、メモリ使用量を約 80% 削減できました。同等の方法では両方を同時に実行できませんでした。パティル氏によると、この研究により、以前は不可能だった最小のデバイスで BERT をトレーニングできることが示されました。

私たちが夢中になっていた時代遅れのガジェット

ニュース

小型デバイス上で大規模なニューラル ネットワークをトレーニングできるようになりました

小型デバイス上で大規模なニューラルネットワークをトレーニングできるようになりました