Foundation Models Are Going Multimodal

You’re in!

ウェビナー

基盤モデルはマルチモーダル化している

Transcript

本日は、今日のセッション「foundation Modal are Going Multimodal」と、ゲストスピーカーのJames Layをご紹介できることを嬉しく思います。Jamesは現在、動画理解のための基盤モデルを構築するスタートアップである12 Labsで開発者体験を率いています。以前は、Superb AIやSnorkelaiなどのMLインフラストラクチャ系スタートアップで働きながら、よく知られたフルスタック・ディープラーニング講座にも貢献していました。また、AIデータおよびAIインフラストラクチャ領域の創業者、投資家、オペレーターとの対話を特集し、彼らのキャリアにおける物語の旅路を紐解くData Castポッドキャストのホストも務めています。Jamesには、ZillsのMLアーキテクトである同僚のFrank Liuも参加しています。

ようこそ、James、Frank。素晴らしいです。ええ、Emily、ご紹介ありがとうございます。ええ、そして本日のウェビナーに招いてくださったlistenチームにも感謝します。ええと、Frankやチームの皆さんとは、もうしばらく前から知り合いです。

実は、Emilyの紹介にもあったように、私は自分のポッドキャストでFrankにインタビューしたばかりで、zlaの初期のストーリーや、Vector database baseの進化について多くを学びました。ですので、こうしてそのことを知り、この流れの中で、私たちがlabsで取り組むべき仕事について、より広範な言語モデル、つまりIan model領域の進化、そしてこの業界を前進させるためのC Xやその他のfactor database企業の重要な取り組みに関連してお話しできるのは、私にとって間違いなく光栄です。では、私のトークのタイトルは「Ian Model, going Model Model」です。まず簡単な導入から始めます。このスライドにあるように、GT four、Dali、GitHub copilotといった多くのモデルの成功は、image captioningからcode generations、visual reasoningに至るまで、幅広いタスクを実行できるtitle modelsに大きな関心を生み出しています。

それでは本日のプレゼンテーションでは、基本的に最初から始めて、これらのpublishing modelsのアーキテクチャ、トレーニングとファインチューニングのパラダイム、そして重要なscaling lossについてお話しします。次に、vision language modelがどのように登場し、Competi visionとN L Pの力を組み合わせられるのか、そして今日の時代に多くの異なる複雑な問題を解決するためにどのように使えるのかについて議論します。そして最後に、video farish modelという新しいパラダイムについてお話しします。これは本質的に、異なるモダリティを組み合わせるmulti-model farish modelの一種であり、動画データの理解と分析のやり方を変えつつあるものです。では、heart is issue modelとは何かについて話しましょう。スタンフォードによるこの定義によれば、ちょうどおよそ2年前、彼らはモデルを、cellsupervision scaleを用いてoir issue dataから学習できるmachining modelの一種として定義しました。

ここでの考え方は、大量のデータでトレーニングすることによって、多くの異なるタスクに使用できるモデルを作成することです。このモデルはデータ内の一般的なパターンを学習できます。そのため、特定のタスクに使用される際には、その知識を使って新しいタスクに素早く適応できます。そしてこの概念、ion modelは、現代のAI領域における、よく知られたイデオロギーを一つ活用しています。最初のものはdeep new networksで、これは2012年以降人気があります。

そして2つ目は自己教師あり学習で、これはほぼ同じくらい前から存在していると思います。そして、これら両方の分野における最近の改善の一部によって、さらに大規模で複雑なモデルの作成が可能になりました。そしてそれらは多くの場合、明示的なラベルなしに、大量のデータで訓練されます。その結果、つまり、この種のモデルは多数のパターンや関係性を学習でき、それによって、ええ、 N L p、あー、ビジョン、オーディオ、音声処理、さらにはマルチモーダル ai においても大きな性能向上につながります。そして、あー、開発者や、つまり研究者の視点から見ると、このモデルは時間とリソースを節約し、進歩を加速できますよね？ですから、つまり、この一部を理解するためには、あー、バックボーンの基盤モデルについて、この転移学習と呼ばれる概念に馴染んでいることが重要です。

つまり、ええと、従来の機械モデルはゼロから訓練され、それが、つまり、うまく機能するためのものです。はい。しかし、少量のデータしかない場合には、転移学習の利点を活用できます。ここでの考え方は、あるタスクから学んだ知識を取り出し、それを別のタスクに適用することで、ゼロから訓練する場合ほど多くのラベル付きデータを必要としないようにする、というものです。ええと、初期のニューラルネットワークにおける多くのアーキテクチャでは、あー、事前学習が転移学習の支配的なアプローチです。

そして基本的には、そのタスクでモデルを事前学習し、それから関心のある別の産業タスクに向けて微調整します。あー、コンピュータビジョンの分野では、私たちはこれを、ええと、2014年から行ってきましたよね？ええと、通常はよく知られた ImageNet データセットでモデルを訓練し、そのネットワークの層の大部分を保持して、おそらく一番上、上位2層または上位3層程度を新しく学習した重みに置き換えます。あー、それは産業テスト向けに微調整できます。あるいは、モデル全体をエンドツーエンドで微調整することもできます。そして、コンピュータビジョンタスクで最も人気のある訓練済みモデルには、ANet resnet mobile net, inception, efficien net, ええと、そしてこの分野の Jolo が含まれます。

あー、 n l p では、つまり、訓練は当初、単語埋め込みと呼ばれる最初のステップにのみ限定されていました。ええと、ご存じのとおり、言語モデルへの入力は単語です。そのため、それらを符号化する1つの方法、単語ではなくベクトルとして符号化する方法は、one-hot エンコーディングによるものです。大きな単語行列があるとすると、埋め込み行列を作り、短いものを実数値ベクトル空間に埋め込むことができます。そしてこの新しい行列は、数千のオーダーの次元に関連しています。

そして、おそらくこの次元の一部は、その単語に伴う、ええと、意味的な概念に対応しているのかもしれませんよね？ですから、ええと、ve と呼ばれるモデルは2013年にこのような類似の概念を訓練し、どの単語が頻繁に一緒に共起するかを見ました。学習目的 k p は、この単語埋め込み間の共類似性を最大化することでした。その結果として、これらの埋め込み上でベクトル演算のかなり面白いデモを実行できます。たとえば、king、man、woman という単語を一緒に埋め込むと、この埋め込み空間において queen という単語に近いベクトルを得るために、ある種のベクトル演算を行うことができます。そしてこの概念を理解した後、多くの人が、つまり、単語を素早く埋め込むために、より多くの文脈を見ることは非常に有用だと気づき始めました。なぜなら、つまり、この単語は文脈に応じて文の中で異なる役割を果たすことができるからです。そして、これを、あー、つまり、効果的に行うことができれば、多くの異なる産業タスクにおける精度を向上させることができます。

そこで2018年には、いくつかの、ええと、n o pモデルにはElmo、O ml fit、そして元のshipモデルが含まれ、言語モデリングがこれら3つの手法すべての事前学習にどのように使えるかを、言語モデルを訓練することで実証的に示しました。そしてそれらは、ええ、ご存じのように、さまざまな、うーん、いわゆるn L Bタスクで当時の結果を達成しました。これには、ええと、テスト分類、質問応答、自然言語推論シーケンス、ラベリング、そして、その他多くの小規模なものが含まれます。つまり、その元のG B Tモデルは、うーん、現在では非常に有名な、ええと、transformerアーキテクチャのバックボーンの上に構築されました。ですから、注目すべきなのは、ええと、transformer以前には、多くの最先端のN l P手法は、リカレントニューラルネットワーク系の手法、たとえばnon shortterm memoryや広く使われていたsequence to sequenceアーキテクチャに基づいていたということです。そしてそれらは、ええと、実質的にデータを、ええと、逐次的に処理していました。つまり、単語が現れる順序で、その時点のh whatを見ていたということです。

さて、transformアーキテクチャでは、ええと、ご存じのように、ある本文内のトークンをシーケンスとしてではなく同時に分析できるようにすることで、言語処理を並列化、並列化できます。うーん、それらはこの並列化を支えるためにattentionとして知られるメカニズムに依存しています。うーん、非常に簡単に言えば、attentionはモデルが単語間の関係を考慮できるようにします。たとえそれらがテキスト中で離れていても、ある文章の中でどの単語やフレーズに注目することが最も重要かを判断します。そして、ええと、ご存じのように、この優先順位付けのプロセスを持つtransformでは、それらは、ええと、以前のいくつかの、ええと、学習手法よりもはるかに計算効率が高いことがわかり、このtransformerアーキテクチャをnational datasetで訓練し、より多くのパラメータを持たせることが可能になりました。そして、このtransformerに基づく3つのアーキテクチャの多くには、ええと、ご存じのように、巨大なサイズという共通の特徴があります。それについては数枚のスライドで話します。

Competi visionの領域では、伝統的に多くの研究が、ご存じのように、あの、有名なconvolution networksアーキテクチャに依存してきましたよね？それはこの分野で、何十年もの間、支配的なアーキテクチャでした。うーん、しかし、N L Pにおけるtransformerの成功を受けて、多くの研究者が、そのようなアーキテクチャを視覚データに適応させるさまざまな方法を探り始めました。そして2021年に、Googleの一部の人々が、ええと、an image for 16 by 16 wordsと呼ばれるこの研究を発表し、Vis vision transformerと呼ばれる概念を導入しました。そしてこのアーキテクチャは、Tアーキテクチャのencode blockを画像分類問題に実質的に適用します。うーん、要するに、彼らは画像を異なるパッチに分割し、そのパッチのシーケンス線形埋め込みをtransformerへの入力として提供します。

つまり、ええと、N R B設定におけるトークンの概念と同様に、この画像パッチを入力として共有できます。そして、あなたが見たアーキテクチャには、画像に触れるstemが含まれ、その後にmultilayer transform encoderに基づくbodyがあります。そしてさらに、multilayer perception headがあり、ええと、グローバルなrep表現を何らかの出力ラベルへ変換することを目的としています。ええと、経験的に言えばvision transformerは、うーん、ええと、多くの画像分類データセットで、かなり多くの、代わりに、その結果を設定するか上回りました。事前学習が比較的安価である一方でです。さて、ええと、vision transformersは大きな可能性を示していますが、実際には確かにいくつかの技術的な問題も抱えています。

そしてここでの重要な問題の一つは、ええと、高解像度の画像の一部を扱うのが難しいということです。なぜなら、それらは多くの計算能力を必要とし、その必要量は画像サイズとともに急速に増加するからです。さらに、ええと、ture におけるトークンは固定されたスケールサイズを持っています。その結果、動画を含む、さまざまなサイズの視覚要素を伴うタスクの一部には、あまり有用ではありません。そこで AFL の研究は、元の trans Mark Fisher に続く形で行われ、その多くは、ええと、私が今述べた欠点の一部に対処するために、標準的なアーキテクチャに何らかの、ええと、拡張を加えました。このスライドでは、ええと、Transformer の二つの、ええと、ええと、より、より、ええと、人気のあるバリアントについて簡単に話したいと思います。

一つ目は Microsoft から出たもので、suite transformer と呼ばれています。これでは、ええと、二つの重要な概念、階層的 co 特徴マップと shifted window attention が導入されました。このモデルは、密な予測のための高度な手法の一部を可能にするために階層的 co 特徴マップを使用します。画像を分割する重なり合わないウィンドウ内で自己注意機構を局所的に計算することによって、ええと、線形の計算複雑性を実現します。その結果、ええと、screen transformer はさまざまな種類の計算タスクにとって非常に優れたバックボーンになり得ます。そして shifted windows、つまり、シフトされたウィンドウを使用することで、アーキテクチャの先行する層の一部のウィンドウを橋渡しすることにより、モデリング能力を強化、強化できます。

その結果、この戦略は、現実世界の ency に関する懸念の一部という点でかなり効率的です。もし、たとえば、現実世界のエンジニアリング問題を構築しているなら、そうですよね？あるいは、ウィンドウ内のクエリパッチが同じキーセットを共有し、ええと、ハードウェアにおけるメモリへの act アクセスのプロセスをはるかに容易にします。そして二つ目の、ええと、話したいバリアントは、deep Mind のチームによる perceive と呼ばれるものです。そして、ええと、perceiver は、生物学的システムから多くの着想を得た acre です。それは、ええと、その特定の、ええと、モダリティについての特定の仮定に依存することなく、さまざまなモダリティの組み合わせを扱うことができます。

そしてこの acre は、注意のボトルネックを形成するために、blade units の小さな集合を導入し、それが完全な全体注意の問題を排除し、ええと、非常に大きく、そして深いモデルの作成を可能にします。また、前のステップによって得られた情報に基づいて、最も関連性の高い入力にも注目します。そして第二に、ええと、マルチモーダル ai に取り組んでいるなら、そうですよね、あるモダリティから別のモダリティへの入力を区別することが非常に重要です。したがって receiver では、auto が位置固有およびモダリティ固有の特徴をすべての入力要素に関連付けるため、つまり、それが、ええと、それが、ええと、画像なのかテキストなのか、あるいは、ええと、別の種類のモダリティなのかを区別できます。はい、なので、ええと、皆さんに、ええと、publishing model の進化と、それが trans architecture、computer scenes においてどのようなものか、そしてそれがさまざまな、ええと、モダリティにどのように組み込まれてきたのかについて、少しでも学んでもらえたらと思います。

では、ええと、今日私たちが知っている blast language models につながった研究の一部について簡単に話しましょう。つまり、元の G P T は 2018 年に登場し、その後すぐに 2019 年に G P two が登場しました。そしてその名前は generative bridge transformer を表しています。これらはデコード初期モデルであり、ええと、mass self tension と呼ばれる概念を使用しました。それはつまり、出力文の任意の時点で、そのシーケンス内のその時点より前に来た二つの入力シーケンスベクトルにのみ注意を向けることができる、という意味です。そしてこのアプローチは、今日最もよく知られている大規模言語モデルの一部、たとえば、G B T や bar、そして最近見たことのある非常に多くの、ええと、モデルの中核にあります。

ええと、この最初の G P T モデルは800万のウェブページで訓練されました。最大のモデルは約150万個のパラメータを持っています。GT two モデルが訓練されたタスクは、訓練データ上の800万のウェブページにあるすべてのテキストにおいて次の単語を予測することであり、そしてオートファイルは、パラメータ数が増えるにつれてうまく機能するようになっています。そして2018年には、ええと、T-Mobile、Google が Bert と呼ばれるモデルをリリースしました。これは bidirectional encoder representation for transformer の略です。

Bert は約1億1000万個のパラメータを持っています。これはエンコーダのみであり、同じく予測モデリングタスク向けに設計されています。そして mass language modeling と呼ばれるこの概念を導入しました。これは、訓練パラダイムの間、シーケンス内のランダムな単語をマスクし、その目的は、その、そのマスクされた単語が何であるかを予測することだという意味です。そして2020年には、ええと、TFI が登場しました。これは text to text transformer の略でした。

入力と出力はどちらもテキスト文字列なので、私たちが実行することになっているタスクを提供できます。そして、あの、他の2つとは異なり、TFI は図の中にエンコーダとデコーダの両方を持っており、ええと、よく知られた C four データセットで訓練されました。これは約100倍で weak barrier です。そして、あの、TFI は約、ええと、100億個のパラメータを持っており、あの、他のいくつかのものと比べてそうです。ですので、このような実証的な研究がたくさん出てきた後、ええと、このモデルを訓練し構築するような体系的なプロセスについて考えることが重要です。ですので、ええと、今日ではこれを Scaling Law Equation と呼ばれるものとして知られています。

ですので、ええと、非常に簡単に言えば、スケーリング則は、競争予算を拡大し続けるにつれて、モデル品質が継続的に改善することを予測します。OpenAI のチームは当初、2020年ごろに transformlanguage model のスケーリング則を調査し、スケーリング損失が将来の性能を予測することを示しました。そして私はここにスライドの方程式を載せています。あの、性能 = データサイズ × primary サイズ × コンピュータサイズ、そしてより具体的には、ええと、この研究の実験は、あの、モデルのテスト損失が、あの、モーターサイズ、データサイエンス、そして訓練のための計算に関して平行に従うことを示しています。そしてこれは、これら3つの変数すべての関係をこの方程式で表せることを示唆しています。そして、その含意、意味、ここでの含意は、あの、言語モデルのさまざまな訓練設定を最適化するのに非常に役立ち得るということです。

ええと、それに加えて、あの、ええと、この、この研究では他にもいくつかの、ええと、実験を行いました。そして彼らは、他のアーキテクチャ上の詳細、たとえば、あの、ネットワークの深さの幅を調整することは、実際には最終的な結果において、非常に最小限の、最小限の影響しかないことを、あの、広い範囲内で発見しました。そして、この論文のいくつかの実験と方程式に基づいて、ええと、あの、昨年のモデルは、ええと、サンプル効率が大幅に高いと結論づけることができます。言い換えれば、最適な計算効率のよい訓練とは、比較的控えめな量のデータで非常に大きなモデルを訓練し、収束よりもかなり前に停止することを含みます。ですので、そのスケーリング損失の論文が発表されて以来、どのモデルを拡大し続けるかに多くの関心が集まってきましたよね？そしておそらく約2年、ええと、2、3年になりますよね？その、その、ええと、ある、その研究から。

そして、ええと、G P T T は2020年の広告モデルを研究したものの一つで、G B T や G P two よりも Azure まで約100倍で、1750億のパラメータを持っていました。そしてこれらは、つまり、その、そのモデルのサイズが、ええと、G B T theory は、さまざまな few shot や zeroshot 学習タスクにおいて、ええと、これまでにない es のいくつかを示しています。そして、ええと、モデルに読む例が多ければ多いほど性能は良くなり、モデルが大きければ大きいほど性能は良くなる、という事実が、Google のチームによって示されました。つまり、この経験的分析は2022年に immersion Abilities という研究で行われ、どのモデルか、そして目的は、これらの、つまり、大きなモデルには存在するが小さなモデルには存在しない emission abilities のいくつかを探索することです。ええと、読むことを強くおすすめします、見てみてください、ただ、ええと、要するに、それは規模の影響を分析するさまざまな研究を意味しており、異なるサイズのモデルを比較し、さまざまな計算リソースでトレンドしています。

そして彼らは、つまり、多くの異なる few short および zero short 学習タスクにおいて、モデルの挙動が、ランダムな性能から、非常に特定のスケールしきい値で OBO random のようなものへと、予測不能に変化することを発見しました。ええと、そして、例えば、つまり、もしモーターサイズにおいて70 billion パラメータを超えると、性能が、ええと、現れるのです。ええと、予測不能に。ええと、こうした経験的分析のいくつかを続けて、2022年に DeepMind は compute opt モデルを作成するために score, code scaling loss を提案しました。そしてこれは、open ai によって提案された元のものよりも、少し正確な scaling loss です。

それで、この研究で auto が行った分析について話すと、彼らは70 million から60 billion までの wiring ship パラメータを持つ400以上の last and wish モデルを、5 billion から hundredmillion tokens までの wiring ship token で訓練しました。そして、モーターパラメータの数が与えられたときに最適なデータ量を予測することで、auto は、ええと、モデルと chain set size のための異なる形式の公式を導き出し、そして彼らは、当時の大きな and which モデルのほとんどが、つまり、ええと、understand であること、つまりこれを検証するのに十分なデータを見ていなかったことを発見しました。これを検証するために、彼らは gofer と呼ばれる別の大規模モデルを chain しました。gofer は約280 billion パラメータと200 billion token を持っていて、そして、つまり、そこで彼らはパラメータ数を70 billions に減らしながら、データを4倍の 1. 4 shills tokens に増やしました。そして、より少ないパラメータにもかかわらず、chinchilla は、つまり、実際に、つまり、golf の性能を上回りました。

そしてこれは、つまり、motorized と chain chain tokens の両方が同じように重要であり、これらの、つまり、ええと、変数のどちらか一方だけではないことを示唆しています。そして、ええと、scaling laws の以前の経験的分析のいくつか以来、ええと、つまり、私たちは、さらに多くの、つまり、and which model がリリースされるのを見てきました。そしてスライドに載せたもののいくつかは、academia から来たものだけについて話しており、当然ながら最近は多くの commercial models も出てきています、ええと、それらはこのスライドでは、ええと、カバーできていません。しかし、ええと、一般的に言えば、これらのモデルのいくつかは、つまり、多くの異なる、ええと、リリース当時の artificial results の代わりに達成し、ええと、そして単純に、つまり、モーターサイエンスをスケールさせ、より多くのデータソースからのより大きなデータセットで shooting することによってです。いくつかの例には、ええと、megatron, lmm, glam Lambda, ええと、Megatron Touring energy、ええと、そして Palm が含まれます、つまり、私は N L P の scaling loss についてたくさん話しましたが、ええと、結局のところ、つまり、この、この概念は Competi vision にも適用されます。

これは2022年のGoogleのチームによる研究で、ええと、彼らはさまざまな異なるvision transf fromarchitectureに対して実験を行い、そして同じようなタイプの実験を、ほら、primary sizeを変化させることで行いました、そう、500万から200万へ、range datasetを100万から30億の訓練画像へと変化させ、さらにcompute budgetも、ええと、1 T P U code A未満から10,000を超える、ほら、T P U code Aまで変化させました。そして彼らは最終的に、total computeとmotor scienceを同時にスケーリングすることが非常に効果的であることを示しました。そしてここで最も最適な戦略は、ほら、より利用可能な、追加のcompeteに伴って、modelwithのサイズも増やすことです、そうですね？ええと、そして最終的に彼らは、十分なtwin dataを持つこのモデルの一部であるvision customersが、性能において突然power lawに従うこと、そしてより大きなモデルは、多くの異なる、ほら、future learning、ええ、実験においてより良い性能を示す傾向があることを発見しました。なので、ほら、ええと、私はそのvision transf market architectureについて話していますよね？そして、ほら、その概念のおかげで、visionと言語、より多くのモダリティを同じ、ええと、ほら、tradingと、そして、そして学習パラダイムの中で組み合わせることができるsort architectureを構築することへの関心が大きく高まっています。そして、そして、そして簡単に言えば、このハイブリッドなvisionと言語モデルは、画像のキャプショニング、ゼロから新しい画像をgenerateする、あるいはvisual question answeringを行うといった、さまざまなタスクにおいて非常に印象的なIESを示すことができます。

そして一般的に言えば、このstartup vision language modelは3つの主要な要素から成り立っています。image encoder、text encoder、そしてこれら2つのencoderからの情報を融合するための戦略です。そこで次の数枚のスライドでは、過去2年間のvisionおよびwhich modelresearchにおける最もquantum modelsのレビューを置きたいと思います。2021年に、open eyeは、ええ、clip、ほら、met contrast language image pre-trainingを導入しました。clipへの入力は、internetからcrawlされた400 and millions image to expressであり、textをvanilla transformerを使ってencodeします。imageは、ええ、vision transformerを使ってencodeします。

そしてそれは、ほら、contrastive learningと呼ばれる学習パラダイムを適用してこのモデルを訓練します。ええ、非常に簡単に言うと、contrastive learningは、何らかの、ええと、ほら、similarity、ええ、scoreを使って、courage、ええ、imageとtaxpayersを対応付けます。ほら、それは何でもよいのです、そうですよね？しかしco s asimがおそらく、最も、ええと、関連するものです。ええと、この強力なtrade modelを使うと、未見のデータに対してさえ、embeddingsを使ってimageとtextをマッピングできます。そしてこれを行う方法は2つあります。

1つ目の方法は、clipが出力するfeaturesの上に単純な、ええ、logistic、ええ、regression classifierを訓練することでlinear probeを使用し、output performing inferenceすることです。あるいは、ほら、すべてのdetect labelsをencodeし、それらをencode imagesと比較できるzero shot techniqueを使うこともできます。どちらのapproachも同じくらいうまく機能しました。ええ、そして、ええ、論文では、彼らは、ほら、実際には、ええ、linear customerを作成する方がstudy betterに機能する傾向があることを発見しました。ええと、これを明確にするために、ええ、私はあなたに、clipが直接to textから、あるいはその逆へ変換するわけではないことを理解してほしいです。彼らは、彼らは、彼らは、彼らは、この、ええ、ええ、transformationを実行するためにembeddingsを使っています。

そして、この埋め込み空間は、スライドでなんとなく見えるように、異なる画像とテキストの概念、画像テキストの意味的概念のようなもの、あるいはほとんど同じ、ええと、埋め込み空間で構成されています。そして、その結果として、その結果として、ええと、この埋め込み空間は、異なる、ええと、モダリティ間で検索を行うのに非常に有用です。ですから、私はCLIPについて多くの時間を割いて話しました。なぜなら、それはその後に登場した多くの、あの、視覚言語モデルの基盤となる、ええと、ご存じのように、思想として機能しているからです。なので、ええと、ちょうどその頃、GoogleがCocaという、Contrastive Captionerを表す研究を発表しました。これは、対照学習と、ええと、一般的な深層学習によって実現できる、もう一つの基盤モデルです。

そしてそれは、ええと、ENCコードデコードアプリのアーキテクチャであり、対照、血の対照損失、およびキャプション損失の両方で修正され、学習されています。そして、ええと、ご存じのように、その学習プログラムによって、モデルはユニークなモデル画像・テキスト埋め込みからのグローバル表現と、同時に、2022年後半のモデルモデル埋め込みからのいくつかの細粒度な、ええと、領域レベルの特徴の両方を学習できるようになります。ええと、DeepMindは、Flamingoと呼ばれる視覚言語モデルのグループを発表しました。そしてこのモデルは、ええと、多くの異なることができます。ご存じのように、入出力データのサンプルが非常に少なくても可能です。そして、これらのFlamingoモデルには、ええと、2つの重要な構成要素があります。1つ目は視覚シーンを理解できるビジョンモデルで、2つ目は推論を支援できる言語モデルです。

ええと、そしてモデルは仮想知識を使って協調します。ええと、そして重要なのは、ええと、Flamingoは、スライドで見られるような、ええと、perceiverアーキテクチャのおかげで、非常に高品質な画像や動画を入力として取り込むことができる、という点です。これは前のスライドで少し話しました、ええと、あの、あの、ええと、スライド上の、バリアンスのところですね？そして、そのアーキテクチャの結果として、多数の視覚入力特徴を分析し、少数の視覚トークンを生成できます。ですので、はい、これらの、ええと、アーキテクチャ上の革新のおかげで、ええと、このモデルファミリーは、視覚と言語のための強力な視覚モデルを接続でき、視覚データとテキストデータの間で、混合モダリティのシーケンスを扱うことができます。ええと、この研究では、最大のバージョンはFlamingo、a d Bと呼ばれ、800億のパラメータを持っていますよね？そしてそれは、ええと、Red Cross上で、言語、画像、そして動画の理解を含む、さまざまなフューショット学習タスクにおいて、そうです。なお、ご存じのように、実際、ここ数か月で、学界や産業界から、より多くの研究が出てきており、多くの革新があります。

ですので、このスライドでは、2つについて簡単に話したいと思います。ええと、それらはおそらく、一般の人々から、もう少し関心を集めているものです。そうですよね？左側のものはMicrosoftから来たものです。Cosmos oneと呼ばれており、異なるモダリティを知覚し、モダリティの固有の文脈を学習し、またプロンプターによって与えられた指示に従うことができるマルチモーダル言語モデルです。そのため、このモデルは、以前の文脈に基づいてテキストを生成し、transformerベースの因果言語モデルを使用して、テキストやその他のモダリティを扱うことができます。ええと、Cosmos oneはさまざまな種類のデータを使って学習されており、言語の理解と生成、画像の認識、画像に基づく質問への回答を含む、さまざまなシナリオで良好に機能できます。左側のものはGoogleから来たもので、pmeと呼ばれ、インターネット規模、言語、視覚、視覚言語ドメインを含むさまざまな具現化を用い、異なるソースからの観察に基づくさまざまな推論タスクを扱うことができるcsna bodyマルチモーダル言語モデルです。

ええと、つまりこの研究では、ええと、データでさまざまな、ええと、アーキテクチャ開発も試しています。そして最大のものは、えー、5 6 2 Bで、約5,620億のパラメータを持っており、さまざまなことについて推論できます。事前に訓練されており、画像に基づいて、知覚、会話、計画のようなさまざまなロボットタスクを実行するジョブさえ判断できます。それは間違いなく非常に印象的で、そして、この研究を視聴者の方々に確認してみることを強くおすすめします。

素晴らしいです。はい。では、私の発表の最後の、えー、セグメントでは、えー、video foundation modelsのこの新しいパラダイムについて話します。なので、ええと、ご存じのように、えー、私、私は、動画理解のこれらのタスクのいくつかは、今日の社会でますます重要になってきていると思いますよね？たくさんの、えー、その、動画コンテンツがソーシャルメディアで発生しており、また公共空間での一般の車の利用さえ増えています。その結果、えー、高度な動画理解システムを得るためのニーズが高まっています。

しかし、この問題の重要性のいくつかにもかかわらず、実際には、前のスライドで話したテキストや画像理解タスクのいくつかと比べて、えー、注目は少なく受けてきました。そしてこれは、いくつかの主要な技術的課題によるものです。まず1つ目は、ええと、ご存じのように、動画処理は、えー、非常に高い計算負荷を伴うということです。動画はサイズの点ではるかに大きく、えー、テキストモダリティや画像モダリティのようなものと比べてです。そして動画はまた、えー、分析を行うために大幅に多くの処理能力を必要とします。

そしてこの問題は、えー、トークン数に対して二次の複雑性を持つtransfアーキテクチャを採用すると、さらに顕著になります。ええと、そうですね、計算について少し話しましたが、同時に、実際のモデリングの側面もありますよね？つまり動画の中を考えると、ある種の、えー、ええと、画像、または、または、またはテキストが時間の中を動いているようなものを扱っているわけですよね？えー、技術的な言い方をすると、それは、つまり、そうした時間的モデリングのようなものを行わなければならないということです。そしてこの時間次元は、分析を行う際に間違いなく考慮に入れなければなりません。その結果、えー、動画を扱うときには、テキストなど他のモダリティのいくつかと比べてあまり一般的に使われていない、えー、特定の専門的な技術やモデルが必要になります。そして最後に、ええと、動画クリップに提示される視覚情報のいくつかに加えて、追加の処理を必要とする同期された音声手がかりもあります。

つまり、その、動画フレームの中では、会話のセルのようなものが、ええと、動画フレームの中で起きています。ですから、分析を行うときには、これらの音声手がかりを考慮に入れたいわけです。ええと、そして重要なのは、これらの音声手がかりは、動画に存在する視覚情報と同じくらい重要であることがしばしばあるということです。そして、音声手がかりを視覚要素と併せて処理するようにしなければなりませんよね？つまり、どうやって、ええと、おそらく、音声モダリティを視覚モダリティと同じ、その、えー、潜在空間に合わせるのかということは、実際、えー、かなり、かなり、ええと、過去、えー、数年にわたって進んできた、ユニークで、そして変化しつつある研究方向なのです、よね？なので、はい、これらが、動画モデリングに向けた主要な3つの課題で、取り上げたいものです。ええと、とはいえ、ご存じのように、これらはいくつかの重要な課題ですが、実際には動画理解研究においてかなり多くの進展が、進展が見られています。

それでは次の数枚のスライドで、いくつかの、ええと、課題に取り組むために設計された、ええと、最も重要な種類のビデオ・フェローシップ・モデルの研究について、手短に、ええと、見ていきたいと思います。まず1つ目、ええと、実際には最も初期のものですが、はい、2019年の scope video birth で、これは Google から出たもので、サブ監督をビデオに適用しています。つまり、既存の3つの手法、自動空間認識、空間時間的視覚特徴のための同期のようなもの、そしてトークン列のための、ええと、シーケンス用の bird モデルを使用しました。そして、ええと、これら3つのコンポーネントが連携して、視覚と言語、そしてそのドメインとの関係をモデル化します。つまり、bot、その、bot アーキテクチャがビデオで機能するようにするために、著者たちは、生のビデオデータをベクトル化、ええと、パラダイムを用いて visual works に変換しました。

そしてこれにより、モデルはビデオの重要な部分だけに集中し、また、これらの部分が時間とともにどのように、ええ、変化するかに集中できるようになりますよね。ええと、Berkeley speaking では、彼らは video birth を、ええと、彼らは、さまざまなビデオキャプション生成タスクでモデルを評価しました。そして実際に、当時の多くの既存の、ええと、手作業で設計されたアーキテクチャを上回りました。そしてここでの研究は All In One と呼ばれ、チームは、ええと、シンガポール国立大学の AC Academia から来ています。これは、生の視覚的・テキスト的信号からビデオ言語表現を、ええと、ファイア・バックボーン・アーキテクチャで捉えられる学習用に設計されたビデオ言語モデルです。ここでスライドを見ると、ええと、時間的表現を捉えるために temporal token rolling operation、ここにあるこれを使用しています。ええと、追加のパラメータを加えたり、時間計算量を増やしたりすることなく、フレームを sly sample します。ご存じのように、これが、前の、ええと、2枚のスライドで述べたような時間次元を捉えるために彼らが用いた方法です。ええ、そしてそれは4つの別々のデータストリームのビデオ言語タスク、ビデオ質問応答、テキストからビデオへの検索、多肢選択式 Q&A、そして、ええと、視覚的常識推論でかなり良い性能を示しました。

Microsoft もこの分野に参入し、X clip を導入しました。これは、言語画像モデルを一般的なビデオ認識に適応させるフレームワークです。そしてそれには、ええと、2つの別々の、ええと、コンポーネントがあります。cross frame communication transformer と multi frame integration transformer があります。つまり前者は、ええと、message tokens を使ってフレーム同士が情報を交換できるようにします。一方、後者は、ええと、フレームレベルの表現を、ええと、ビデオレベルへ転送しますよね。そして、ええと、X clips は、ビデオ固有のプロンプティング・スキームを使って、ええと、テキストプロンプティングを強化するためにビデオコンテンツ情報を使用します。

つまり、さまざまな完全教師あり、ゼロショット、そしてフィッシュショットの実験において、この、この xcl、ええと、フレームワークがかなり良い性能を示すという事実は、ええと、限られたラベルデータによるものです。ええ、そしてこの研究には intern video があり、実際に、ええと、最も性能の高い美しい footage, shoe モデルの1つであり、最も印象的なものです。ええと、これは2つの人気のある自己教師ありパラダイム、mass video modeling と multi multi-model contrastive learning を組み合わせています。これは、これら2つの別々の transformer から新しい特徴を実行するための学習可能な相互作用であり、生成タスクと congestive learning タスクの両方の利点を組み合わせています。そして、ええと、私が、私が触れたい印象的な点は、この、この論文では、ええと、評価、ええと、スキームとして、action understanding、video language alignment、そして open world video application task のようなタスクを含むビデオ理解ベンチマークを使用していることです、そうですよね？そして inter video は最近、これらの、ええと、さまざまなタスクのほとんどで非常に良い性能を示しました。

そして、ご存じのように、それらは汎用的な動画認識における病的なものの一部を表しています。ええ、そうです、だからこそかなり印象的なのです。というのも、ええと、aversion paradigm は範囲の面で、たぶん、より広く、ええと、それによって、私たちは汎用的な動画理解に近づくわけですよね？たとえば、私が言及したもう一つのものとは異なり、それは非常に特定の、ええと、評価パラダイムにのみパーソナライズされています。ええと、これは Nvidia の、me Lab Reserve と呼ばれる研究で、Jo によって、動画フレーム、テキスト、音声にわたって推論を行うことで、動画のマルチモーダルな neuro script knowledge,ation を学習できるモデルです。このモデルは、時間の経過に沿って、また異なるモダリティ間で動画を表現する、表現するように設計されています。これは、新しい congestive mass spanlearning objective を通じて 2,000 万本以上の YouTube 動画で学習されており、ご存じのように、テキストと音声の両方の自己教師ありから学習するのですよね？そしてその結果として、動画の異なる要素内にある意味的および時間的関係の一部を捉えることができ、それによって、ship のために使用できる非常に豊かな、ええと、動画コンテンツの you 表現、つまり動画理解タスクを学習できるのです。

ここで分かるように、これの、その、そのユニークな点は、彼らが話している音声コンポーネントをカバーしていることです。ご存じのように、以前のスライドのいくつかでの、ですよね？それは同期された音声キューです。ええと、ここでは、かなり、ええと、かなり関連していますよね？ Video coca は、ええと、動画テキストモデリングへのアプローチで、私が言及した coca の研究を活用しています。ええと、たしか、以前、vision language model のセクションで、そして coca は contrastive caption の略です。つまり video coca は本質的に、ご存じのように、contrast captioning models を使って、動画キャプション用の候補文を生成します。そしてその後、ええと、文は別の transformer ベースのモデルによって、ええと、対象動画との関連性、ええと、に基づいてスコア付けされます。

そしてそれは動画キャプションタスクでかなり良い性能を示しました。V two SEC は別の動画キャプションモデルです。そしてこれは、ええと、単一段階です。これは、ええと、ナラティブ動画で事前学習されています。それは、ええと、数分の長さがある entry media から、テキスト、ええと、フレーム、そして書き起こされた音声を入力として受け取ります。

その後、単一のトークン列を予測することで、動画内の時間的位置特定とともにイベントキャプションを出力します。そしてここでのアーキテクチャは、特別な時間トークンを使用する DT file language model に依存しており、同じ出力シーケンス内でイベント batteries とテスト説明をシームレスに予測できるようにしています。ええと、tion は、ええと、ええと、how to 110 millions narrative videos を使用しています。そしてこのナラティブ動画が与えられると、ええと、彼らは文 batteries を書き起こし音声として、ええと、連続したイベント batteries として再構成し、音声文の書き起こしを連続したイベントキャプションとして使用します。ええ、そうです、ここに、動画フレームから最終的な、ええと、音声キャプションまで executive がどのように機能するかを示すものを入れました。ここで唯一の点は、つまり、それは、彼らは、ええ、彼らは、彼らは、彼らは、ええと、その時間的位置特定を、その、その学習パラダイムを使ってかなりうまく捉えることができるということです。それは、ええ、私が今言ったように、以前のいくつかの他のアーキテクチャの次元と比べてかなりユニークです。

そして、このプレゼンテーションで話す最後の研究は TrackAnything と呼ばれるものです。そしてこれは動画オブジェクト、オブジェクト追跡とセグメンテーションのために設計されています。ええと、つまり track anything は、ええと、Segment Anything model、略して Sam に基づいて開発されています。そして、Sam は Meta から来た、登場したもので、たしか 3 月か 4 月のどちらかだったと思います。ええと、そして Sam は画像セグメンテーション用の公開モデルで、promptable segmentation tasks に焦点を当てています。つまり、あなたは、あなたは、問題エンジニアリングを行うことができ、あなたは、たとえば「ええと、segment はこのシーンを意味しますよね？」のようにプロンプトできるということです。そして Sam は、ええ、ええと、そのシーンに対してセグメント、ええと、セグメンテーション、ええと、目的を、ええと、実行します。

それで、ええ、そう、何でもチェックする。基本的にはそれを、その同じ、ええ、パラダイム、ええ、動画セグメンテーション向けのプロンプトエンジニアリングに適応させるだけです。トラッキング中に、ユーザーは対象物を変更できます。彼らは追跡したい、あるいはもし何らかの曖昧さがあるなら、元の関心対象を修正したい、うーん、修正したいと思うわけです。なので、そのチェックの結果として、何でもチェックすることは、短いチェーンを伴うセグメンテーションとしてのさまざまな動画トラッキングにかなり適していますよね？たとえば、複雑な動画では、たくさんの、ほら、ズームイン、ズームアウト、うーん、列から始まって、下から撮影する、といったことがあります。

そして構造チェーンがあると、それはとても、うーん、有用ですよね？こうした動画オブジェクトの、ほら、シミュレーションをチェックするために。そしてそれはまた、ええ、可視化された開発や、この作業のためのデータアノテーションにもかなり有用です、よね？ええ、データのラベリングをしたいわけですよね？動画の、ええ、モデリング作業のためにトラック学習データセットを構築するために。そして最後に、それは、ええ、オブジェクトに本当に焦点を当てる一部の、ええ、下流の動画タスクにも適している可能性があります。たとえば動画編集や動画インペインティングです。なので、うーん、そうですね、動画編集者としては、おそらく、うーん、操作する必要があったでしょう？その、そのオブジェクトを何らかの形で、ですよね？そしてこれらのオブジェクトをピンポイントで指定することで、それを、ええ、はるかに柔軟に、そして、ええ、熟考しながら行うことができますよね？素晴らしい。では、はい、これは、私が話したい、ええ、結論のスライドです。

うーん、では、私たちは、うーん、はい、モデルの入門を見てきました。ええ、概念学習と、埋め込みとは何かに触れ、元のtransplant特徴と、ええ、異なるモダリティにおける分散について話しました。それから私は損失について話し、open AIの元々の、元々の、ええ、ええ、G btt、G B Tファミリーから、Google T five、Bird oneのようなものまで、どのモデルかについて話しましたよね？そしてスキン損失方程式について話し、それがどのように、ええ、経験的な概念として基礎的なものになりつつあり、ええ、研究者や、そして、ほら、エンジニアが、画像能力のために、より大きな、そしてどのモデルのためのトラック統合を最適化するのを助けているかについて話しました。私たちは、大きな領域のどのモデルのいくつかの台頭について話しました。それらは、ほら、うーん、複数の、ええ、1つ以上のモダリティを組み合わせることができ、視覚とテキストの両方のモードが同じ、ええ、学習パターンで取り込まれています。そしてこれはすべて、the open side clipのおかげです。

ええ、ええ、ほら、2021年当時、画像なしトレーニングのための対照、ええ、学習であり、clipは、ほら、GoogleのCoca Flamingo、Microsoft customers one、そしてGoogleのpalmのような異なる研究によるものです。そして最後に、動画向けエディションモデルの新しい製品について話しました。基本的には、ええ、動画モデリングの固有の課題について話しましたよね？ハックビューの負担から、時間的モデリング、ええ、音声と、そして視覚を一緒に整合させることまで。そしてそれから私は、ええ、ほら、ええ、この過去2年間の動画公開モデルのポートフォリオについて話しました。Video Birdからowning one、internet video、modies video、Coca Video electricのようなものまで。うーん、そして、それで、つまり、ちょっと一つ簡単な、ええ、ええ、12 appsについてのメモですが、ほら、私たちがどこから来て、なぜこの全体の、うーん、ほら、進化にこれほど関心を持つようになったのかというと、ええ、私たちは、より大きな理解のためにマルチモデルpolishモデルを構築していて、ここにあるこれらの、うーん、ほら、基礎的な研究の多くを活用したからです。

私たちは、Transformer cliffや、トレーニングデータセットですよね？そういったものすべてを活用して、動画理解のための私たち自身の、ええと、ionであるmarengoを構築しています。ええと、それはさまざまな、ええと、さまざまなタスクを実行でき、テキストや音声、そして、そして、そして、ええと、ビジョンを同じ、ええと、学習パラダイムの中で学習できます。はい、実はこのトピックについて、私たちのウェブサイトにかなり完全なブログ記事を書きましたし、ここに画面で表示しています。ですので、もっと深く掘り下げたい、そして言及したポイントのいくつかをズームインして詳しく見たい場合は、ぜひそのブログ記事をチェックしてみてください。ええと、スライドに載せてあります。

ええと、私はmulti modernizedというDiscordコミュニティも運営しています。ええと、それは、ええと、マルチモーダル研究アプリケーションに関心のあるいじる人たち、つまり、研究者、開発者の間の交流を、ええと、促進する場として機能しています。このEspeciは非常に新しく、少なくとも、Gen AIやlmsと比べると、かなり研究段階にあると思いますが、将来的には非常に重要になり得ると思います。なので、このトピックについて話したり、他の人たちと非常に関心を共有したりすることに興味があります。ええ、はい。ええと、ぜひ私たちのDiscordに参加してみてください。

このスライドにKioを載せています。ええと、私たちは、ええと、毎週ウェビナーも開催しており、ええと、multi researchについての議論を共有しています。その中で、ええと、Frankがちょうど2週間前に登壇者として、ええと、embeddingのマルチモーダルな、ええと、進化のようなことについて話してくれました。これはかなり面白いです。ただ、どうやって、どうやって、その、nervousで、空間内で1つのモデルを協調させることについて考えているのかを見る必要があります。なので、もし何かを作っている、あるいは新しいことを始めようとしている、または単にこの分野で研究しているなら、参加して、おそらく私たちの、私たちのコミュニティに自分たちの仕事を発表すべきです。ええと、それでは、はい、発表はここで、ここで終わりにして、聴衆からの質問を歓迎します。

ありがとうございます。素晴らしいプレゼンテーションをありがとうございました、James。ええと、そして聴衆の皆さん、ええと、このウェビナーの参加者、出席者の皆さんは、質問をQ&Aかチャットに貼り付けていただければ、ええと、次の10〜15分でそれらのいくつかに対応していきます。でもその前に、James、ええと、もう少し話していただけますか。おそらく2、3分ほど、12 LabsがAPIの観点から、あるいはSaaSやその他のサービスの観点から何を提供しているのかについて話していただけますか？はい、もちろんです。ええと、12 Labsは、ええと、会社としては、ええと、たしか約2年前に設立され始めました。

そして、そしてR M Uは、ええと、本当に研究者のようなグループとして始まり、ええと、動画を理解するためのモデルを構築していましたよね？なので、私は、その会社を、ええと、先ほど言ったように、視覚理解のための基盤モデルを構築している会社と呼びます。ええと、それは研究の観点からです。そして、プロダクトの、ええと、観点からは、ええと、私たちは、ええと、現時点で2つの別々のAPIを提供しています。ええと、1つ目はvideo searchと呼ばれ、2つ目はvideo classificationと呼ばれます。Video searchとは、特定の、ええと、人、物体、モード、活動が、動画クリップの中で起きているものを、自然言語クエリとvideo classificationを使って検索できるという意味です。

分類API、動画APIとは、ええと、特定のカテゴリに動画を分類できるということです。つまり、ええと、たとえば、整理されたクラウドソースのラベルを使うだけで、動画を分類できるわけですよね。あるいは、分類器を実行するときに新しいラベルを入れるだけで、ゼロショット分類を行うこともできます。ええ、つまり、これらが私たちが提供している2つの主要なAPIです。そしてお気づきかもしれませんが、これらのAPIはいずれも、ええと、識別タスクに焦点を当てています。つまり、検索や分類を行うために埋め込みを活用しているということです。そして私たちは、ええと、生成タスクのいくつかにも懸命に取り組んでおり、それらは今後数か月以内にリリースされる予定です。私たちは、動画キャプション生成、ええと、動画の質問応答といったさまざまなタスクを検討しています。つまり、動画を入力として与えたときに、その動画のキャプションを生成できるか、ということですよね。あるいは、質問をすることで動画とやり取りできるか、ということです。ですので、ええと、私が表現についての話で触れたスライドの多くは、そのためのこうしたユニークなモデルのいくつかについて述べています。

そして私たちは、ええと、つまり、この研究から着想を得て、それをプロダクトに取り込もうとしているのだと思います。つまり、これらが私たちの主要なAPIです。ええと、それから最後に一つお話ししたいユニークな点として、私たちはかなり、ええと、業界に依存しない立場を取っているということです。つまり、ええと、私たちは内部で単一のモデルを構築し、横断的な立ち位置を維持しようとしています。そしてそれは、さまざまな下流の動画ドメインに適応できます。ですので、私たちはスポーツ動画、ええと、セキュリティ動画、ええと、Eコマース動画などに取り組んでいます。ええと、ですので、特定のドメインに自分たちを位置づけるようなことはしていません。ええ、質問への回答になっていれば幸いです。はい、まったくです。素晴らしかったです。

ええと、こちらに質問が1つ来ています。ええと、それから、ほかの質問が入ってきたら、それについても議論できると思います。私自身もいくつかお聞きしたいことがあります。最初の質問はSiddharthさんからで、彼はこう尋ねています。私はZillowで類似検索プラットフォームに取り組んでいます。12 Labsの適切なモデルを使って画像や動画をベクトル化する適切な方法はありますか？彼は現在、テキスト埋め込みの作成にBERTとMini Lmmを使用しています。

Jamesさん、彼に何かアドバイスはありますか？はい。ええと、見てみましょう。画像や動画を適切なモデルでベクトル化するにはどうするのがよいか、ということですね。ええと、できるのであれば、まず最初のステップとして、利用できるオープンソースのソリューションを探してみるのがよいと思います。つまり、前述のように画像や動画に対して埋め込みを行うためのものです。ええと、Open Optimized CLIPは非常に人気のあるものですし、そのモデルにはGitHub上で利用可能なさまざまなバージョンがあります。Open CLIPもその一つだと思います。ですので、それをフォークして、ローカルにダウンロードし、試してみることができます。

ええと、それから、もしパフォーマンスを改善したい、あるいは何かを変更したいのであれば、そのための修正を加えて、さらに多くのオープンソースソリューションを探すことができます。ええと、12 Labsの観点から言うと、私たちはまもなく動画埋め込みAPIをリリースする予定です。つまり、私たちのモデルをAPI経由で利用可能にするということです。より技術的なユーザーが使えるようにするためですね。おそらく今年の終わり頃になると思います。ええと、今年の終わりではなく、おそらく、そうですね、9月か10月かそのあたりです。ですので、APIを使って私たちのモデルを呼び出し、そのうえで、それぞれの画像や動画に対してさらにモデリングを行うことができます。

ええと、そうですね、それは、それは、えー、IHave a、それ、それはそこからのものです。はい。はい。いえ、それは素晴らしい回答です。それについて少しフォローアップの質問があるのですが、えー、James、つまり、12 Labs にとって今後出てくる embedding API は、制限されるのでしょうか？それは、例えば動画のクリップを取り込んで、そこで何が起きているのかを理解したい、という場合に限られるのでしょうか、それとも、えー、embed できるのか、動画内のフレーム数に embedding のための制限があるのでしょうか、それとも、つまり、1時間半の長さの動画を渡して、それに対して複数の embeddings を出力してもらえる、そういうものになるのでしょうか？はい。

ええと、私は、私たちは現時点ではまださまざまなものを試している段階だと思います。私は、私は、私は、つまり、現時点で私たちのモデルの制限の一つは、間違いなくその種の長い、長いコンテキストですよね？ええと、入力ですよね？ええと、あなたはおそらくそれについて非常によくご存じだと思います。最近取り組まれていたような、長い、えー、その、ええと、その、その、その token size を予測しようとするものを考えても、そうですよね？ですから動画では、当然、つまり、動画の入力が長ければ長いほど、私たちがそれを、ええと、処理するための複雑さは増しますよね？そして、現時点では1時間というのは、私たちにとって扱うにはおそらく非常に長い、という感じだと思います。ですので、現時点では、30分未満くらいのものなら、おそらく、ええと、理想的です。まず indexing process を実行し、ええと、その後で search と conservation を実行できるようにするためには、ですね。えー、私たちは間違いなく、パフォーマンスを改善し、より長い、ええと、より長い video size を入力として取り込むためのさまざまな方法を検討していますよね？ええと、そしてそれは実際、つまり、さまざまな、ええと、基準を含みます。私たちはその compute の側面に懸命に取り組んでいます。より効率的に長い入力を考慮できるようにモデルをどう訓練するか、ということです。しかし modelings の面からも同様で、先ほども言ったように、visual と、そして audio の間の alignment をどのように行えるか、ということです。なぜなら動画が長ければ長いほど、モデルはより、えー、つまり、より具体的な部分に注意を向けられるだけの知能を持っていなければならないからです。そうですよね？ここでの attention とは本当に、すべてのフレームを見るわけではない、という意味です。そうですよね？これが saw change なのか、あるいは sequence なのか、あるいは battery change track なのかを検出し、その時点でそこに attend して取り出す必要があります。ええと、ですから動画を長くすることだけでなく、その tar video も同様です。そうですよね？例えば educational video のように、一人が話しているだけなら、長くても多くの compute はかからないと思います。しかし、action movie のようなものですよね？たくさんの、たくさんの、たくさんの tructure chains があるなら、それを処理するには間違いなく多くの ask が必要になります。

はい。はい、はい。いえ、まったくその通りです。そして、それについても少しフォローアップの質問があります。えー、つまり、私たちは scaling laws について話していましたし、あなたは以前のスライドの一つで話していましたよね、mm-hmm。

特に、これは動画にとって非常に、非常に関連性が高いと思います。動画に関しては、本当に大量のデータが存在するからです。そうですよね？同時に、必ずしも公開された研究成果ではありませんが、私たちは多くのものを見てきたと思います。えー、例えば G P T four は、確か8-way mixture of experts であることが知られていると思います。ええと、そして各 expert は確か2200億 parameters、そんな感じで、つまり2000億 parameters ではない。少なくとも language models に関しては、私たちはその、えー、それらの scaling laws の限界に達したと思いますか？そして動画に関しては、私たちはそれにすら近づいていると思いますか？はい。ええと、質問です。ここでもやり取りしながら進められれば嬉しいです。

ええ。ですので、ええと、データサイズの限界について、すみません、あの、言語に対するTuringデータの限界についてですね。うんうん。ええ、そうですね、あの、私は、私は、私は思うんですが、つまり、かなり多くの取り組みというか、日々かなり多くの議論が、たとえば合成データのようなものについて行われていますよね？テキスト向けとか、そういった範囲のものについてです。たぶん、あなたは、テキスト向けのベクトルに関する取り組みを通じて、他のものについて、より広い視野をお持ちだと思いますよね？ええ、あの、でも、もし私が動画の観点から話すなら、私は、動画データという点では、活用できる未開拓の可能性がまだたくさんあると思っていますよね？たとえば、ソーシャル、TikTok、YouTubeなどのコンテンツです。私は間違いなく、存在しているだけでなく、さらに多く生成されてもいると思います。つまり、その内部分析と比べても、桁違いの規模で、ですよね？なので、それが一つ目のポイントです。

つまり私のポイントは、既存のデータ、データには大きな可能性があるということです。そして第二に、runwayやsynthesiaなどの企業は、実際に動画生成を行っています。つまり、ゼロから新しい動画を生成しているということで、ということは、さらに多くの動画があるということですよね？処理し、学習データとして使うための、ですよね？ですから、私たちがモデルを訓練し、適用するための動画は、まだまだたくさん存在していると思います。ええ、ですので、当面のところ、動画データが不足して学習できなくなることについて、私たちはそれほど心配していません。あの、問題はただ、どうやってそれらを見つけ、どうやって効率的に活用するか、ということです。ええ、そうですね。はい、はい。いや、ええ、まったくその通りです。もちろんです。

それはとても納得できます。そろそろ時間が迫ってきていると思います。ええ、ですので皆さん、他に何かあれば、Jamesに答えてほしい他の質問があれば、Q&Aかチャットに追加してください。どちらでも大丈夫です。それから、James、最後に一つ付け加えたいのですが、その埋め込み、その動画埋め込みエンドポイントが利用可能になったら、ぜひ私たちのmiddle Slackチャンネルに投稿していただきたいです。あの、より広いコミュニティに知らせるために、そして皆さんに「これで動画も埋め込める方法ができました」と知らせるためにですね。

それでは、ここでEmilyに戻したいと思います。ええ、はい。ありがとうございました、James。はい、Frankのポイントについて、ちょっと一言だけ。ええ、あの、そうですね、簡単なお知らせとして、あの、それがすべて利用可能になったとき、私たちの主な目標の一つは、これはxxにも関係しますが、まず最初に、さまざまなベクトルデータベースベンダーと統合し、提携することです。なぜなら、たとえばuniverseのユーザーは、私たちのモデルから埋め込みを抽出し、それから、たとえばBUを使ってそれらを保存し、検索などを行うことができるからです。ですよね？なので、ええ、今後そうした種類の会話を進めていけることを本当に楽しみにしていますし、願わくば、もしユーザーがそこから恩恵を受けられるなら、まもなく、まもなくリリースされる予定です。

はい。はい、私たちもそれを楽しみにしています。ありがとうございました、James。もちろんです。本当にありがとうございました、James。

素晴らしいプレゼンテーションでした。私たちの聴衆も、ええ、多くのことを学んだと思います。ええ、ですので、ご参加いただいた皆さま、本当にありがとうございました。今後のこのようなセッションについては、zillows. com/eventのカレンダーをぜひご確認ください。そして、今後のウェビナーでまたお会いできることを願っています。

ありがとうございました。