連合学習とは、データサンプルを保持する複数の分散型デバイス(またはサーバー)にまたがって、それらを交換することなくモデルを学習させる機械学習アプローチです。
すべてのデータを中央サーバーに送信する代わりに、各デバイスはローカルでモデルの更新(勾配など)を計算し、この更新のみが中央サーバーに送信され、そこで他のデバイスからの更新と平均化され、それに応じてグローバルモデルが更新されます。すべてのトレーニングデータは元のデバイスに残り、更新結果のみが中央サーバーに送信されることになります。
何百万人もの人々がスマートフォンを使っていて、それぞれのデバイスが、一般的なフレーズ、新しいスラング、第二言語など、どのようにタイプするかを学習していることを想像してみましょう。
各スマートフォンは、ユーザーが入力したすべてのテキストデータを中央サーバーに送信して分析する代わりに、ユーザーの入力の小さなモデルをローカルで学習します。
各スマートフォンは定期的に、学習した内容の要約(実際のデータではない)を中央サーバーに送信します。中央サーバーは、これらの更新をすべて組み合わせてグローバルなキーボード予測モデルを改善し、この更新されたモデルをすべてのユーザーに送り返すことで精度を向上させます。
誰もがより良い予測から使いやすさ向上という恩恵を受け、個人的なテキストデータは各個人のデバイスにプライベートな状態で残ることになります。
異なる地域の病院が、病気の発生を予測するモデルを開発しようとしているとします。
各病院は独自の患者データセットを持っています。すべての病院が中央研究センターに機密性の高い患者データを送信する代わりに、各病院はローカルで独自のモデルを訓練するために独自のデータを使用します。
その後、各病院は更新されたデータ(患者データではなく、モデルのWeightのような)を中央研究センターに送り、中央研究センターはこれらの更新を集約してグローバルモデルを作成し、全病院に送り返します。
こうすることで、各病院は機密性の高い患者データを共有することなく互いの知見から恩恵を受けることができます。
世界中の農家がセンサーを使って作物の状態、土壌の質、天候をモニターし、農作業を最適化しています。
これらのデータをすべて中央の農業研究機関に送る代わりに、各農業用機器は、その地域のデータに基づいて独自のモデル更新を計算します。これらの更新結果は研究所に送られ、そこで集計されてグローバルモデルが改良され、参加している農家すべてに送り返されます。
このようにして、すべての農家は集合的な作物や土壌の知見・経験の恩恵を受け、農作業を最適化できます。
つまり、連合学習は、よりスマートなモデル、より低いレイテンシー、より少ない消費電力を可能にし、同時にユーザーデータのプライベート性と安全性を保証できる画期的な技術です。