「DeepSeek V3」のMulti-Token Prediction(MTP)の具体的な仕組みは?

DeepSeek V3のMulti-Token Prediction(MTP)は、従来の言語モデルとは異なる革新的なアプローチを採用しています。その具体的な仕組みは以下の通りです。

MTPの基本構造

  1. 主モデルに加えて、複数のMTPモジュールを導入
  2. 各MTPモジュルは、線形投影層、1つのトランスフォーマーブロック、出力ヘッドで構成

予測プロセス

  1. 主モデルが次のトークンを予測
  2. MTPモジュールが複数の未来トークンを同時に予測
  3. 各予測深度で完全な因果連鎖を維持

情報処理の流れ

  1. MTPモジュールは2つの入力を受け取る。
    ⇒ 次のトークンの埋め込み
    ⇒ 前の深度からの隠れ状態
  2. 両入力をRMSNormで正規化
  3. 正規化された入力を連結し、線形投影層で処理
  4. トランスフォーマーブロックで処理
  5. 出力ヘッドで未来トークンの予測を生成

学習目標

  1. 各予測深度で独自のクロスエントロピー損失を生成
  2. 重み付け係数λを用いて損失を組み合わせ、最終的なMTP損失を計算

推論時の利点

  1. 第2予測トークンで85-90%の受入率を達成
  2. テキスト生成速度が大幅に向上
  3. モデルのテキスト生成における計画能力が向上

効率性

  1. 学習時のオーバーヘッドを最小限に抑えつつ、モデル性能を向上
  2. 埋め込み層を主モデルと共有し、計算コストを抑制

このMTP技術により、DeepSeek V3は高速かつ効率的なテキスト生成を実現し、コーディングや数学的推論などの複雑なタスクにおいても優れた性能を発揮しています[1][3][5]。

参考文献

[1] https://community.aws/content/2rJj1WkztSfYwVfsIibhWxeqMf1/four-unique-takeaways-from-deepseek-v3
[2] https://huggingface.co/deepseek-ai/DeepSeek-V3/blob/9672b384bf8a07c8968cf874cde35020f146fc64/README.md
[3] https://www.youtube.com/watch?v=jL49fLOJYNg
[4] https://rohanpaul.substack.com/p/deepseek-v3-technical-report-they
[5] https://ithy.com/article/deepseek-v3-advancements-language-models-choc2c7g
[6] https://www.kaggle.com/discussions/general/555872
[7] https://arxiv.org/html/2412.19437v1
[8] https://www.maginative.com/article/deepseek-v3-achieves-frontier-ai-performance-at-a-fraction-of-the-cost/
[9] https://rozetta-square.jp/knowledge/9964/

投資の話題

Posted by Triligy ONE