Google Bardの新視覚機能の計り知れない実力にChatGPTは対抗できるか?

ChatGPTの最大のライバルであるGoogleのBardが2023年7月13日にアップデートされて、Googleレンズの機能がBardで使えるようになりました。ChatGPTの有料版であるChatGPT PlusもCode Interpreter機能をオンにすれば画像をアップロードすることができますが、BardとChatGPTの視覚機能・画像解析機能はどのような差があるのでしょうか? BardとChatGPTに同じ質問を入力して比較してみました。

アップロードした画像 ➡

入力した質問(ChatGPT/Bard共通):
このウィスキーについて専門家の立場で詳しい記事を書いてください。

ChatGPTの回答:
申し訳ありませんが、このセッションではインターネットアクセスが無効化されているため、アップロードされた画像の中身を直接確認することはできません。画像に関する情報(例えば、ウィスキーの名前やブランド、その他の詳細な情報)を教えていただけますか?それに基づいてウィスキーについての専門的な記事を書くことが可能です。

Bardの回答:
はい、喜んで。以下のウィスキーについて専門家の立場で詳しい記事を書きました。

ザ・グレンリベット 12年 シングルモルト スコッチ ウイスキー

ザ・グレンリベット 12年 シングルモルト スコッチ ウイスキーは、スコットランドのハイランド地方にあるグレンリベット蒸溜所で製造されているシングルモルト スコッチ ウイスキーです。1824年に設立されたグレンリベット蒸溜所は、スコットランドで最も古い蒸溜所の1つであり、ザ・グレンリベット 12年は同蒸溜所のフラッグシップ銘柄となっています。

ザ・グレンリベット 12年は、ピート香が少なく、フルーティーでバランスの取れた味わいが特徴です。香りにはリンゴ、オレンジ、バニラ、蜂蜜などの香りが、味わいにはフルーツ、スパイス、ハチミツなどの風味が感じられます。飲み方はストレート、ロック、ハイボール、水割りなど、様々な飲み方を楽しむことができます。

ザ・グレンリベット 12年は、世界中のウイスキー愛好家から高い評価を得ており、数々の受賞歴を誇っています。2015年には、サンフランシスコ・ワールド・スピリッツ・コンペティションで金賞を受賞しています。

ザ・グレンリベット 12年は、初めてシングルモルト スコッチ ウイスキーを飲む方におすすめの銘柄です。フルーティーでバランスの取れた味わいは、幅広い層に好まれることでしょう。

【考察】
Bardの新しい視覚能力は、一見するとさほどメジャーではないアップデートのように見えるかもしれませんが、実際にはAIチャットボットにとって大きな進歩です。

今、Bardは本質的に目を持つに至りました。携帯電話のカメラを使った人間の助けを借りて、Bardは世界を見ることができ、テキストで理解するだけでなくなりました。

私が見てきた限りでは、その視覚理解はかなり複雑でニュアンスがあります。私がアップロードした画像から単純なキーワードやオブジェクトタグを導き出し、それらをテキストとして処理しているだけのようには見えません。確認することはできませんが、Bardは今、本当にマルチモーダルになってきたように見えます。

これはGoogleにとって大きな一歩と言えます。OpenAIとは異なり、GoogleはGoogle Mapsプラットフォームやその他の視覚ツールのためにユーザーがアップロードしたタグ付けされた写真の数十年分の蓄積を保有しています。また、GoogleはGoogle Image Searchの数十億の画像をBardの訓練のために使用しているかどうかについて言及していません。

GoogleはOpenAIよりもはるかに多くの処理能力を持っています。マルチモーダルAIは一般的にテキストベースのAIよりも多くのパワーを必要とします。それがOpenAIがまだGPT-4のマルチモーダルバージョンをオンにしていない大きな理由の一つと言われています。将来OpenAIが巨大なマルチモーダル・システムをスケールで実行するために必要なリソースを手に入れることができるかどうかは未知数です。

要するに、Googleはデータとコンピュータパワーの両方で優位性を持っています。そして新たに視覚化されたBardを見る限り、その優位性を見事に活用しているようです。

Bardはすでに広範囲の視覚機能を果たしています。その能力は時間と訓練とともにさらに増すでしょう。それにより、AIチャットボットが今、見ることができることが公然の事実となったわけです。

しかし、一方でOpenAIのChatGPTもまた進化を遂げています。特に注目すべきは、ChatGPT Plusが画像ファイルを取り扱う能力です。これにより、ユーザーは画像を直接ChatGPT Plusに提供し、その画像に基づいた情報や分析を得ることができます。Code Interpreterモードが有効になっている場合、ChatGPT Plusは、画像の内容を分析し、特定の情報を抽出するためのコードを生成することができます。

たとえば、ユーザーがある地域の気象データのグラフをアップロードした場合、ChatGPT Plusはそのグラフを解析し、特定のパターンや傾向を説明することができます。これは、気象予報や気候変動の研究など、様々な用途に役立ちます。

また、ChatGPT Plusは、ユーザーがアップロードした画像に基づいて新しいアイデアを生成することも可能です。たとえば、ユーザーが新しい製品の設計図をアップロードした場合、ChatGPT Plusはその設計図を解析し、製品の改良や新たな応用分野についての提案を行うことができます。

さらに、ChatGPT Plusは教育分野でも役立ちます。例えば、生徒が数学の問題に関する画像をアップロードした場合、ChatGPT Plusはその問題を解析し、解答方法を説明することができます。これにより、生徒は自分の理解を深め、学習効果を高めることができます。

これらの機能は、Bardの新機能と同じくらい強力で、AIチャットボットの新たな可能性を示しています。しかし、それぞれの機能がユーザーにどのように利益をもたらすかは、ユーザー自身のニーズと目的によるところが大きいと言えます。

BardとChatGPT Plusを比較する際、それぞれのユニークな機能と利点を理解し、どちらが自分の目的に最も適しているかを判断することが重要です。まず自分が何を達成したいのかを明確にし、それに基づいて最適なツールを選択することをお勧めします。

コメントする