infomation

あなたの周りのお役立ち情報

米アップル、既存のMLLMよりも20.4%高い性能「Ferret」を開発

米アップルが開発し、GitHubで公開している「Ferret(フェレット)」は、Multimodal Large Language Model(MLLM)を基盤としたモデルで、画像と言語を組み合わせて理解する能力を持ってる。 このモデルの主な特徴は、画像内の特定の部分や領域を自然言語で表現することができることだ。ただし、単純な四角や点だけではなく、複雑な形状や線も正確に表現することが求められる。Ferretは、画像内の指定されたオブジェクトの領域を組み合わせて理解し、どんな形状でも正確に捉えることができる。このために、General Robust Image Task (GRIT)という評価専用ベンチマークを用意した。GRITは、110万のサンプルで成り、物体や場所の関係性などの情報を含んでいる。また、文章から位置を決定するタスクや、位置から文章を生成するタスクのデータも含まれている。同社は、Ferretの性能を評価するために、「Ferret-Bench」というアセスメントツールを開発した。過去の研究やタスクから得られたデータを使用して、Ferret-Benchで既存のMLLMと比較した結果、Ferretは20.4%高い性能を示した。さらに、Ferretは物体の誤認を減らすという興味深い特性も持ってる。このような新しい技術の登場により、画像と言語を組み合わせた多様な応用が期待される。

戻る 続きを読む

天気

周辺の天気をお届けします

TOPへ