DeepSeek-R1がOpenAIの出力を不正に蒸留したというのは本当ですか?

DeepSeek-R1は、中国のAI企業であるDeepSeekが開発した大規模言語モデル(LLM)です。その優れたベンチマーク結果から注目を集めており、OpenAIのモデルと肩を並べるほどの性能を発揮していると言われています。しかし、一部では、DeepSeek-R1がトレーニング過程でOpenAIのモデル出力を利用した、いわゆる「蒸留(distillation)」を行ったのではないかという疑惑が持ち上がっています。


蒸留(Distillation)とは何か

LLMの分野における「蒸留」とは、より大きく強力なモデルの知識や出力を活用しながら、小型で効率的なモデルを学習させる技術を指します。一般的に、強力なモデルが出力した結果をトレーニングデータの一部として利用することで、小型モデルでも高い性能を得ることが可能となります。蒸留そのものは機械学習の分野でよく行われる手法ですが、適切な許可や帰属表示が行われず、著作権や専有情報が含まれるデータを利用している場合には問題が指摘されることがあります。

蒸留は通常個別のAI(大規模言語モデル)の小型版を作るために一般的に使用される技術です。例えば、DeepSeek-R1はオープンソースのLLMであり、一般に公開されていますが、これを使用するためには非常に大規模なハードウェアが必要です。(私が自分の実験用用にPC上で走らせようとすれば数百万円。)しかし、これを蒸留(distill)してコンパクト版にしたモデルがGitHubで公開されており、PCにLM Studioという無料アプリをインストールすればだれでも簡単に動かすことができます。小さい順に:

  • DeepSeek-R1-Distill-Qwen-1.5B-GGUF
  • DeepSeek-R1-Distill-Qwen-7B-GGUF
  • DeepSeek-R1-Distill-Qwen-14B-GGUF
  • DeepSeek-R1-Distill-Qwen-32B-GGUF
  • DeepSeek-R1-Distill-Llama-70B-GGUF

ちゃちなノートPCでも1.5Bなら楽に動かせるし、まあまあの一般用PCなら7Bも動きます。私は一応ハイエンドのビジネスPC(10万円強で買えるが、DRAMが64GB)に14Bと32Bをインストールして使っています。70Bを走らせるには多分128GBのDRAMが必要で、できれば数十万円のGPUが載ったPCが欲しい。蒸留技術の発達のお陰で、2年ほど前にはクラウド(つまりスパコンに近い大規模コンピューターの間借り)でしか出せなかったAI(LLM)性能が、一般のPCでもまがりなりに出るようになったのは驚くべき進歩と言えます。なお、日本語で使い物になるのは14B以上とお考え下さい。


DeepSeek-R1に対する疑惑

DeepSeek-R1に関する疑惑は、特にOpenAIのモデルと同様の分野で際立った成果を示している点が発端です。専門家の中には、特定の出力やパターンが酷似していることから、DeepSeek-R1がOpenAIの出力を無断でトレーニングに用いた可能性を指摘する声があります。十分な証拠もなしに週刊誌的なやり方で批判を受けるのは、DeepSeek-R1がそれほど優秀、というよりは、OpenAIのo1に匹敵・肉薄するAPIが超低価格でオファーされたからだと私は思います。例えばiPhone並みの性能のスマホが数千円で発売されたみたいな。


DeepSeekの主張と証拠

DeepSeek社はこれらの疑惑を否定し、DeepSeek-R1は公開データと独自の厳選データセット、そして強化学習を組み合わせて学習させたと説明しています。また、同社はトレーニングプロセスに関する技術報告書や詳細を提示し、正当性を主張しています。しかしながら、提示された証拠だけでは決定的な結論を下すには至っておらず、専門家の中には依然としてDeepSeek-R1の出力や学習方法を精査する動きがあります。大規模言語モデルのトレーニングデータやその方法論を検証することの難しさ、そして他社モデルの出力を使用する際の倫理的・法的な問題が今回の議論をさらに複雑にしています。


注目すべきポイント

  1. 蒸留は一般的な手法
    大規模モデルを使用して小型モデルを訓練することは、機械学習において広く行われています。
  2. 透明性の欠如が懸念点
    問題となるのは蒸留手法そのものではなく、著作権や専有情報を含むデータを無断で利用しつつ、適切な帰属表示などが行われていない可能性がある点です。
  3. DeepSeek側の否定
    同社はさまざまなデータソースや学習方法を組み合わせて開発したとし、疑惑を全面的に否定しています。
  4. 証拠は不十分
    専門家の間でも議論が続いており、現時点では決定的な証拠がないまま、多方面からの検証が続いています。
  5. 透明性の重要性
    本件は、大規模言語モデルを開発するうえでの透明性と知的財産権への配慮がいかに重要であるかを改めて浮き彫りにしています。

結論

DeepSeek-R1のトレーニング方法を巡る疑惑は、大規模言語モデルの開発に伴う複雑さや倫理的課題を象徴しています。蒸留は正当な手法ではあるものの、透明性や知的財産権の尊重が不可欠です。今後さらにLLMが高性能化し普及していく中で、大規模言語モデルの開発・学習プロセスに関するガイドラインやベストプラクティスを確立する必要があるでしょう。私はもともとバイオ・創薬との関わりが長いので、研究者が自分の開発の疑惑を晴らすには実験ノート(改ざん不可能な手書きの記録)の開示が最短距離だと感じます。AIの開発の場合、開発手法自体がノウハウの根幹という側面があるため、そうはいかないのでしょうが、それにしても、潔白を晴らすつもりがあれば、単に疑惑を否定するだけでなく、開発の手法を含め全面開示すれば、(とにかくオープンソースですから)世界中から喝さいを浴びることでしょう。

 

コメントする