ChatGPT以外にも、生成AIやLLMを用いたツールは多くあります。この記事では、ChatGPT以外の生成AIやLLMを用いたツールをご紹介します。

※本記事は「生成AIの基礎知識」の第3回です。初回の「(1)生成AIとは」(公式web動的コンテンツ_1. 生成AIとは)、続く「(2) ChatGPTとは」(公式web動的コンテンツ_2. ChatGPTとは)を読んだ上でこちらの記事に目を通していただくとより理解が深まります。

ChatGPT以外の生成AI・LLM

生成AIや大規模言語モデル(LLM)は、ChatGPTだけに留まらず、様々なモデルが開発されており、各々が特有の特徴を持ち、多様なアプリケーションで利用されています。ChatGPT以外の生成AIを一覧にしてまとめると、次の通りです。

引用元: https://lmsys.org/blog/2023-05-10-leaderboard/

また、ChatGPT以外にも多数のLLMが存在しています。ChatGPT以外のLLMを一覧にしてまとめると、次の通りです。

Claude

「Claude」は、Anthropic社が開発したAIモデルです。OpenAIの元社員たちによって設立されたこの企業は、Googleから3億ドルの投資を受け、OpenAIの主要なライバルとして注目を集めました。Claudeは、Notion, DuckDuckGo, Quoraなどの有名なプラットフォームで採用されています。

Claudeは、要約・検索・創造的な共同執筆・Q&A・コーディングといったタスクを実行することが可能です。これらの機能は、ビジネスから教育、個人のプロダクティビティ向上に至るまで、幅広い用途で活用できるものです。特に、要約機能は情報を迅速に凝縮することで理解を助け、検索機能は正確かつ関連性の高い情報を提供します。共同執筆機能はユーザーのアイデアを形にし、Q&Aでは疑問に対する明確な回答を提供し、コーディングではプログラマーをサポートするなど、その用途は多岐にわたります。

さらに、Claudeは有害な出力の可能性を低減するための工夫が施されています。これにより、ユーザーが安心して利用できるAIツールとしてのポテンシャルを高めています。Anthropic社は、AIの倫理的側面に対する考慮とユーザーの安全を重視しており、Claudeの開発においてもそれが反映されています。

Vicuna-13B

Vicuna-13Bは、オープンソースのAIモデルで、LLaMaベースの構造を持っています。このモデルは、ChatGPT(GPT-4)やGoogleのBardといった最先端のAIモデルに比べて、約90%の能力を持つと評価されています。13Bというパラメータ数は、GPT-4の350Bには及ばないものの、それでも高度な自然言語処理のタスクをこなす能力を備えています。

現時点で、Vicuna-13Bはまだ一般には公開されていませんが、https://chat.lmsys.org/ でこのモデルの性能を試すことができます。オープンソースであるため、ソースコードを入手してローカル環境で動かすことが可能です。これにより、開発者は自らのシステムに組み込むためのカスタマイズや、さらなる改良を行うことができます。

Koala-13B

Koala-13Bは、オープンソースのフレームワークを使用して開発されたAI言語モデルです。ChatGPTと比較しても同等以上の性能を持つと評されており、特に会話型AIの領域でその力を発揮します。

このモデルは、主に研究目的でのプロトタイプとして使用されています。開発者はKoala-13Bが研究段階にあることを明確にし、その信頼性にはまだ問題があるため、研究目的以外での使用は避けるべきだと言われています。このような透明性は、ユーザーや開発者がモデルを利用する際の期待を適切に管理する上で重要です。

Koala-13Bの開発においては、Webから収集された対話データを用いてLLaMaモデルをファインチューニングするアプローチが採用されています。このプロセスにより、日常会話のニュアンスを反映した応答能力や、より実用的な対話の生成が期待されます。

RWKV-4-Raven-14B

現代の機械学習アーキテクチャの中ではTransformerが主流となっていますが、RWKV-4-Raven-14Bはリカレントニューラルネットワーク(RNN)を用いた構造を採用しています。RNNを使用したこのモデルの利点は、必要とされる計算リソースが比較的少ないため、一般のユーザーでも、自身のパソコンで容易に動かすことができる点です。

RWKV-4-Raven-14BはDiscordのbotとして使われています。Discordはる多くのオンラインコミュニティで広く使われており、RWKV-4-Raven-14Bを活用したbotは、リアルタイムでの対話応答や、ユーザーの命令に応じた機能を提供することが可能です

 

Oaast-Pythia-12B

Oaast-Pythia-12Bは、LAIONおよびOpen-Assistantのプロジェクトによって開発されたAIモデルです。Open-Assistantのウェブページでは、このモデルを直接試すことができいます。

 

ChatGLM-6B

ChatGLM-6Bは、精華大学によって開発された、ChatGPTの設計思想を基にした大規模言語モデルです。このモデルは、100Bのベースモデルを事前学習させることで、高度な自然言語処理を実行できます。

ChatGLM-6Bは中国語に対応しています。中国語のニュアンスと文脈を理解し、自然な会話を生成する能力は、他の中国語対応のLLMと比較しても高い精度を誇ります。このモデルの開発により、中国語話者がAIとの対話を通じてより自然なユーザーエクスペリエンスを享受することが可能になります。ChatGLM-6Bは英語においても優れた性能を示しており、GPT-3を上回る精度で英語のテキストを生成します。

 

StableLM-Tuned-Alpha-7B

StableLM-Tuned-Alpha-7Bは、Stability AI社が開発した先進的なAIモデルです。この会社は、画像生成に関する注目のプロダクト「Stable Diffusion」を開発したことでも知られています。

StableLM-Tuned-Alpha-7Bの開発では、Vicuna-13B v0という既存のモデルをベースに、Reinforcement Learning from Human Feedback(RLHF)という手法でファインチューニングが施されています。この手法は、人間のフィードバックを利用してモデルの学習を行い、人間の意図により適合した応答を生成するように調整するものです。

モデルは、デコーダのみの構造を持ち、言語生成の精度と効率性を高めるために特化されています。また、「The pile」という、広範なテキストデータセットを基盤として利用しています。これにより、多様なジャンルやテーマに対する理解と表現の能力が強化されています。

StableLM-Tuned-Alpha-7Bは、次に説明するAlpacaモデルと同様の手順でファインチューニングが行われています。この手法により、さらに精緻なテキスト応答や内容生成できるようになるでしょう。

Alpaca-13B

Alpaca-13Bは、スタンフォード大学から生まれたオープンソースのAIモデルです。このモデルは、大規模な事前学習済みモデルであるLLaMaを基盤としており、それを応用して特定のタスクにモデルを適応させるためのファインチューニングが行われています。

Alpaca-13Bのトレーニングには、OpenAIのtext-davinci-003が使用されています。text-davinci-003は、高度な言語理解と生成能力を持つことで知られており、Alpaca-13Bはこのモデルを用いて、言語タスクにおける優れたパフォーマンスを目指しています。

サイズは小さいながらも、Alpaca-13Bはtext-davinci-003と似た挙動を示すと評価されています。これは、Alpaca-13Bが比較的小規模なリソースで動作しながらも、大規模な言語モデルの柔軟性と複雑な言語タスクへの適応能力を維持できることを意味しています。

 

FastChat-T5-3B

FastChat-T5-3Bは、lmsysが提供するオープンソースのAI言語モデルです。このモデルは、Googleの研究成果であるFlan-T5をベースとしています。Flan-T5はText-to-Text Transfer Transformer (T5) のフレームワークを利用し、様々な言語タスクで柔軟に機能するよう設計されたモデルです。

FastChat-T5-3Bは、その名前が示すように、高速な対話応答を目的としており、特に会話型アプリケーションで利用できます。FastChat-T5-3Bはオープンソースとして提供されているため、開発者や研究者はこのモデルを学術研究だけでなく、商用目的でも使用できます。

<画像>

Dolly-V2-12B

Dolly-V2-12BはDatabricks社によって開発されたAIモデルです。Databricksは、Apache Sparkの生みの親としても知られるエンジニアたちによって立ち上げられた企業で、ビッグデータ処理と分析の分野で革新的な技術を提供しています。

Dolly-V2-12Bモデルは、「商用利用可能なデータセットを」というコンセプトのもとに開発されており、ビジネスで利用できる高品質なデータセットに基づいた学習が行われています。そのため、商業的なプロジェクトや製品開発に応用でき、ビジネスインテリジェンス、顧客分析、市場予測など、様々なビジネスニーズに対応しています。

LLaMa-13B

LLaMa-13Bは、Meta社(以前のFacebookおよびInstagramの親会社)によって開発された先進的な大規模言語モデルです。Meta社は、LLaMa-13Bに関して、商用利用を明確に禁止しています。これは、LLaMa-13B自体だけでなく、LLaMaを基礎として開発された他のモデルにも適用されるため、研究目的以外での使用には制限があります。

 

LLM以外のAI

生成AIは、テキスト生成に限定されず、画像や音声などの様々なメディアにわたってその技術が展開されています。特に画像生成や音声処理の分野では、多数の革新的なモデルが開発されています。

画像系

  • Stable Diffusion: Stability AI社によって開発されたこのモデルは、テキストや画像入力に基づいて高品質な画像を生成することができます。Stable Diffusionをベースとした様々な派生モデルが存在し、特定のスタイルやテーマに特化した画像生成が可能になっています。
  • Midjourney: Midjourney社が開発したこのモデルも、ユーザーが指定したテキストに応じた画像を生成します。その独特なアートスタイルと表現力で、クリエイティブな分野での利用が期待されています。
  • DALL-E 2: OpenAI社によるこのモデルは、テキスト入力から想像力豊かな画像を生成する能力を持ち、AI技術の可能性を広げることに貢献しています。

音声文字起こし系

  • Whisper: OpenAI社が開発したWhisperは、音声を高精度に認識し、テキストに変換することができます。このモデルは、多言語対応や様々なアクセントの理解が可能です。
  • Otter.ai: Otter.ai社によるこのツールは、英語の音声をリアルタイムで文字起こしすることができ、会議やインタビューの記録に便利です。
  • Notta.ai: Notta社が開発したNotta.aiは、特に日本語の音声認識に特化しており、高精度な文字起こしサービスを提供しています。

音声生成

  • VALL-E: Microsoft社によるVALL-Eは、たった3秒の音声サンプルからその人の声を模倣する合成音声を生成することが可能です。これにより、パーソナライズされた音声コンテンツの制作が容易になります。

シリーズ第3回として、ChatGPT以外の生成AIやLLMの説明は以上です。次の第4回では、生成AI・LLMがビジネスに与える影響や、実際の応用事例について解説していきます。


 

アンド・ディでは生成AIの技術を用いたマーケティングリサーチに役立つサービスを開発しています。

アイディエータ

OpenAI社のChatGPTにも使われる大規模言語モデルのGPTを用いて、商品開発時に必要となる新しい切り口のアイデアを短時間で多数生成するAIです。

 

コーディスト

GPTモデルの活用で、アンケートの自由回答(テキスト回答)のコード化(アフターコーディング)が数分で可能です。また、集計結果はAIを用いた「まとめマップ」機能で簡単に二軸グラフに整理可能となっています。

アンド・ディは「IT導入補助金2024」の支援事業者に認定され、アンケート自由回答の分類ツール「コーディスト」が同補助金の[通常枠] ITツールに認定されています。詳しくはコチラから。