超碰国产精品久久国产精品99,苍井空一区二区波多野结衣av

ホームページ

テクノロジー周辺機器

実踐的な実験を使用したディープダイブモルモとPIXMO

Lisa Kudrow

Mar 19, 2025 am 09:41 AM

Molmo：高品質(zhì)のオープンデータセットに基づいて構(gòu)築されたオープンビジョン言語モデル

獨自の大規(guī)模な視覚言語モデル（VLM）の優(yōu)位性は、オープンな研究を妨げます。オープンソースの代替品は、多くの場合、獨自のモデルによって生成された合成データに依存し、真の開放性を制限します。洗練されたVLMであるMolmoは、オープンデータセットと獨立したトレーニング方法論でのみ訓(xùn)練された高品質(zhì)のマルチモーダル機能を活用することにより、これに対処します。

付隨するPIXMOデータセットは、Molmoの成功に不可欠です。人間の音聲注釈を使用して詳細(xì)な畫像キャプションペアを作成することにより、データアクセシビリティの制限を克服します。このアプローチは、合成データセットに固有の制限を回避し、豊富で高密度のキャプションを生成します。

Molmoのアーキテクチャは、標(biāo)準(zhǔn)的なマルチモーダルデザインです。言語モデルと組み合わせたビジョンエンコーダーです。

実踐的な実験を使用したディープダイブモルモとPIXMO

主な機能：

PIXMOデータセット： Molmoのパフォーマンスの基礎(chǔ)。
建築：
- 畫像プレプロセッサ：マルチスケールのマルチクラップ畫像セクションを生成します。
- Vision Encoder： OpenaiのVIT-L/14 336PXクリップモデル（優(yōu)れたマルチクラップ処理のためにSiglipよりも選択）。
- コネクタ： MLPベースの投影は、畫像の埋め込みを言語モデルの寸法に合わせます。
- デコーダーのみのトランスLLM：さまざまなLLM（Olmo、Olmoe、QWen2、Mistral）で柔軟性を提供します。
トレーニング： 2段階のプロセス：
- マルチモーダルプリトレーニング： PIXMO-CAPを使用したキャプション生成に焦點を當(dāng)てています。単一段階のアプローチは、マルチステージ法の複雑さを回避します。
- 監(jiān)視された微調(diào)整：多様なタスクとデータセット（pixmo-as??kmodelanything、pixmo-pointsなど）を利用します。高品質(zhì)のデータに依存して、RLHFの必要性を排除します。
評価： 11のベンチマークデータセットと人間の好みの研究にわたる?yún)椕埭圣匹攻?。結(jié)果は、Molmoが獨自のモデルと競爭力があり、時にはそれを超えることを示しています。

データセットの詳細(xì)：

PIXMO-CAP： 60?90秒の音聲説明から詳細(xì)なキャプションを備えた712Kを超える畫像。
pixmo-as??kmodelanything：畫像ベースの質(zhì)問回答ペア。
Pixmo-Points：空間理解のためのポイントベースの注釈。
その他のデータセット： pixmo-crocks、pixmo-docs、pixmo-capqa。

実踐的な実験を使用したディープダイブモルモとPIXMO

建築のディープダイブ：

実踐的な実験を使用したディープダイブモルモとPIXMO

マルチスケールのマルチクラップ畫像処理により、モデルの畫像コンテキストの理解が向上します。 Siglipを介したクリップの選択は、高解像度のマルチクラップデータの優(yōu)れた性能によって正當(dāng)化されます。 MLPコネクタとプーリング層は、次元を効率的に管理し、ビジョンコンポーネントと言語コンポーネント間の効果的なコミュニケーションを確保します。デコーダーのみのトランスLLMは、適応可能なモデルサイズとパフォーマンスを可能にします。

実踐的な実験を使用したディープダイブモルモとPIXMO

高品質(zhì)のデータに燃料を供給された単一ステージの事前トレーニングは、効率的かつ効果的であることが証明されています。その後の多様なタスクに関する監(jiān)視された微調(diào)整は、モデルの機能をさらに洗練します。 RLHFの欠如は、PIXMOデータセットの豊かさを活用する意図的な選択です。

ベンチマークの比較は、Llava、QWEN2-VL、Paligemmaを含む他のVLMに対するMolmoのパフォーマンスを強調(diào)し、競爭力を示しています。人間の好みテストは、ユーザーフレンドリーをさらに検証します。

実踐的な実験を使用したディープダイブモルモとPIXMO

実踐的な例（省略）：

Colab Notebookを使用したコード例を含む詳細(xì)な実踐ガイドは、モデルをロードし、畫像を処理し、出力を生成する方法を示しています。この例は、Molmoの適応性を紹介し、畫像から構(gòu)造化された情報を抽出する方法を示しています。パッチに分割して、大規(guī)模で複雑な畫像を処理するための手法も検討されています。

実踐的な実験を使用したディープダイブモルモとPIXMO

結(jié)論：

Molmoは、オープンソースVLMの大きな進歩を表しています。高品質(zhì)のオープンデータセット、効率的なトレーニング、柔軟なアーキテクチャへのコミットメントは、幅広いビジョン言語タスクの強力で多用途のツールとして位置づけています。詳細(xì)な説明と実踐的な例は、その能力の包括的な理解を提供します。

よくある質(zhì)問（省略）：