話題沸騰のClaude 3 Opusを実際に使ってみました。Anthropicが3月4日にClaude 3を正式発表し、世界中のtech sitesで評価結果が掲載されて、その秀逸さが驚きを持って迎えられました。それに先立って発表されて話題を集めたGemini 1.5が完全に霞んでしまった感があります。Gemini 1.5が一般人に使用可能になるのは相当先の話であり(Googleらしい広報姿勢ですが)Claude 3の方は何と発表の翌日にはHaiku(最速で一面は下位バージョン)を除いて一般人が使用できるようになったので、更に驚きました。
Claude 3には料金の高い順に3つのバージョンがあります。
- Claude 3 Opus Claude Pro ($20/月)に含まれる
- Claude 3 Sonnet Claude 無料版に含まれる
- Claude 3 Haiku (2024.3.6時点では未公開)
GPT-4 (Turboではない)、Gemini 1.0 Ultraも含む比較データですが、Opusの全項目がGPT-4を上回っているのは脅威で、またSonnet(2024.3.6時点では無料)でさえ、用途によってはGPT-4と同等(codingは上)なのも驚きです。実際の使用感について海外で日常的にAIを使うエキスパートユーザーが非常に好感をしめしているのが特徴的です。これは、AIの実用度を評価するにあたって最も重要なポイントだと思います。Anthropicが発表したデータに、その一端が示されています。
これはrefusal rateの比較グラフです。Chat AI各社は回答の精度、コンプライアンス、ハルシネーションの低さを競っていますが、それらを向上するために最も安易で効果的な方法は、質問をふるいにかけて、低下させるリスクのある質問を積極的に拒否することです。Claude 2.1は用途によってはGPT-4 Turboを凌駕する非常に優秀なChat AIなのですが「答えられません」という回答を頻発するので、サブとしてしか使えませんでした。(といってもほぼ毎日使っていましたが。)
このグラフによるとClaude 2.1のincorrect refusalはClaude 3の3倍近くであり、使っていてがっかりする(せっかくプロンプトを工夫して質問したのに答えてくれない)ことが多かった理由が実感できました。この点でClaude 2.1よりもフラストレーションをもたらすのはGemini(旧Bard)だけです。Geminiは気分次第で全面拒否する感があり、他のAIに質問した上で third opinion, fourth opinionを求める以外には使っていません。(失敗するリスクがある手術は全部拒否して「私は失敗しないので」と威張る名医みたいな。)私はAIの回答をうのみにして使ったりはしないので、AIがユーザーのためにベストを尽くして回答してくれれば、間違いがあっても全然かまわないのですが……。(ChatGPTはそんな姿勢でベストを尽くした回答を返してくれる傾向にあるので使用感が非常に良い。)ChatGPT Plusのrefusal rateについてはデータを持っていませんが、体感的にClaude 3と同等レベルなのではないかと推測します。
実際にClaude 3 Opus、Claude 3 Sonnet、GPT-4 Turboを使って比較した結果の使用感をシェアさせていただきます。前述の通り、Claude 3 Sonnetは(GPT-3.5と同様)無料で使用できます。Claude 3 OpusはClaude Pro (US$20)なら使用できますが、もうひとつの方法として、Perplexity Proなら5 queries/dayまで使えます。Perplexity Proは月額US$20(初回半額$10クーポン)でGPT-4 TurboとClaude 2.1が実用上無制限に使えたのですが、Claude 2.1の選択肢が無くなり、Claude 3 Opus(但し5 answers/day)に置き換わりました。
質問:添付したテキストがpublic domainかどうかを解析し、public domainと判断した場合、第1幕から第5幕までの各々の幕の概要を日本語で説明してください。
(Gutenberg ProjectのサイトでPeter Pan劇作版の全文約17万文字をコピーし、Ctrl-vでテキストプロンプト枠に貼り付けた)
Claude 3 Opus:添付されたテキストは、J.M.バリーの戯曲「ピーター・パン」の一部であり、パブリックドメインの作品です。以下は、各幕の概要です。
第1幕:
ダーリング家の子供部屋が舞台。ウェンディ、ジョン、マイケルの3人の子供たちがいます。ある夜、ピーター・パンが子供部屋に現れ、ウェンディを連れてネバーランドへ飛び立ちます。
第2幕:
ネバーランドが舞台。ピーターとウェンディは、迷子の子供たち(ロスト・ボーイズ)と出会います。一方、フック船長率いる海賊たちがピーターを捕まえようとします。ティンカー・ベルがピーターを助けようとしますが、毒を飲んでしまいます。
第3幕:
マーメイド・ラグーンが舞台。ウェンディとロスト・ボーイズは人魚に出会います。その後、ティンカー・ベルを救うため、観客に手をたたいてもらいます。フック船長はピーターを罠にかけようとしますが、ワニに食べられそうになります。
第4幕:
海賊船が舞台。フック船長はウェンディ、ジョン、マイケル、ロスト・ボーイズを人質に取ります。ピーターは彼らを助けるために船長と戦います。最後は、ピーターが勝利を収めます。
第5幕:
再びダーリング家の子供部屋が舞台。ウェンディ、ジョン、マイケルが帰宅し、ダーリング夫妻と再会します。ピーターは子供たちを連れてネバーランドに戻ります。大人になることを拒否したピーターは、永遠の子供のままネバーランドで暮らすのでした。
以上が、「ピーター・パン」各幕の概要です。子供の頃の冒険心や想像力の大切さを描いた作品であり、今なお世界中で愛されている名作です。
Claude 3 Sonnet:Message is 83% over the length limit. Try replacing the attached 1 file with smaller excerpts.
GPT-4 Turbo:手を変え品を変えて3回挑んでみましたが上手く行きませんでした。Perplexity Proで使えるのはGPT-4 Turboの32k token版かもしれませんが、仮に128k版が使えたにしても英文17万文字だと、input/outputの合計でほぼ限界に達するので難しいと思います。
テキストサイズのせいでClaude 3 Opusが圧勝となりましたが、今後さまざまな用途に使ってみて、そのうちに結果をご報告したいと思います。