Microsoft GPT-4V、ビデオ解析の新たな可能性
#生活 #Microsoft,テクノロジー,言語モデル,動画 2023.12.7

Microsoftは、ビデオの理解を強化させるために大規模言語モデル(LLM)の研究を進めており、その一環として新たな技術GPT-4V(ision)が開発された。 この研究の結果生まれた製品は、Microsoft Azure AIの最新ツールであるMM-VIDである。ASRツールやPySceneDetectツールを使用してビデオの視覚情報と音声要素を同時に解析し、ビデオの内容を詳細に認識し、それをプログラミング言語に変換する。GPT-4V技術を利用することで、MM-VIDはキャラクターの動き、アクション、表情、対話などビデオフレームごとの詳細な説明を生成した。この技術により、長時間にわたるビデオ全体の構成やテーマ、意図などを全面的に把握することが可能となった。異なる話者やキャラクターを識別し、それぞれの発言や行動を追跡することができた。これはドキュメンタリーやニュース放送、教育ビデオなどで特に有用だ。