Stability AIが新たに画像言語モデルをリリース
#生活 #AI,言語モデル,チャット 2023.12.11

Stability AIは、商用利用可能な日本語画像言語モデル「Japanese Stable VLM」をリリースした。このモデルは、入力された画像を文字で説明するキャプショニング機能と画像に関する質問に答える能力を持っている。 ベースモデルは「Japanese Stable LM Gamma 7B」で、このモデルは商用ライセンスとして提供されている。さらに、このモデルは最新の手法「LLaVA-1.5」のモデル構造と学習手法を採用している。また、Stability AIが開発した「タグ条件付きキャプショニング」という機能も含まれている。これは、出力キャプションで使いたい単語を入力できる機能である。これらの機能の利用により、画像についてチャット形式で応答するチャットボットが利用可能となり、動画のフレームからのキャプション付けも可能となった。社内評価によれば、この新モデルは最初のバージョン「Japanese InstructBLIP Alpha」と同等の性能を達成しており、その点で初期バージョンとは異なっていた。