フランク・リュー:私がベクター・データベース会社に入った理由

「機械学習モデルはコンピュータの言語のようなもので、エンベッディングは言葉のようなものだ。私は、1対1の会話であれ基調講演であれ、機械学習(ML)モデルとそれに対応する埋め込みを説明するのに、よくこの例えを使います。私は新卒以来10年近く、機械学習(主にコンピュータ・ビジョンのサブ分野)とその周辺に携わってきた。この例えは、エンベッディングの重要性をより多くの聴衆に説明する簡潔な方法です。
人間の脳に記憶や感情のための専用領域(海馬)があるように、機械にも、機械の言葉や思考を保存しインデックスを付けるための恒久的なソリューションが必要です。ベクター・データベースの出番である。まさに私たちがZillizで構築しているものだ。
エンベッディングの力を理解していなければ、Zillizのミッションは私の心に響かなかっただろう。このブログでは、私がどのようにZillizに辿り着いたのか、この空間での私の旅をご紹介します。
エンベッディングの入門書
何十年もの間、私たちはコンピュータに私たちと同じように世界を理解することを「教え」ようとしてきました。例えば、チャットボットを作成する初期の試みは、キーワードやフレーズを認識することを中心に行われ、一般的な理解をしているかのような錯覚を生み出していた。最近まで、クロード、バルド、ChatGPTのようなLLMによって汎用チャットボットに向けて信じられないほどの進歩を遂げ、複雑なタスクを計画・実行できる知的「エージェント」の可能性を生み出した。これらのチャットボットの核となるのは、特殊化されたニューラルネットワーク、つまり確率的勾配降下法(stochastic gradient descent)を用いて学習されたMLモデルだ。ニューラルネットワークに馴染みがない方は、手作りのアルゴリズムでは不可能な強力な表現を構築するために、連続した「層」を使用する大規模なコンピュータモデルと考えることができる。
すべてのMLモデルの核となるのは、高次元ベクトルである埋め込みとして知られる概念です。エンベッディングは、入力データをモデルで表現するための抽象的だが説得力のある方法を提供する。これらのエンベッディングはユニークな性質を持っていますが、この記事では取り上げません。もっと詳しく知りたい方は、私のベクトル探索に関する投稿をお読みください。基本的なことはほとんど網羅されています。
ベクトル探索との(多くの)出会い
私がエンベッディングの可能性に初めて出会ったのは、Yahooでニューラルネットワークを扱い始めた2014年のことだった。当時、機械学習はまだ "ワイルドウエスト "で、ニューラルネットワーク用のツールはなかった。コンテナベースのオーケストレーション・プラットフォームが人気を集め始めたばかりだった(Dockerの最初のバージョンは2013年にリリースされた)。コンピュータ・ビジョンと機械学習に携わるには、信じられないほどエキサイティングな時代だった。
ヤフーのプラットフォームとサービスを機械学習機能で強化する取り組みの一環として、私たちはベクトル検索をいち早く採用した。この決定は、当時ヤフーが所有していた大規模セマンティック検索をFlickrに導入する数ヶ月に及ぶプロジェクトにつながった。私はこのプロジェクトに直接は関与していなかったが、密接にフォローしていた。このベクトル検索の初期のイテレーションは、ベクトルデータベース分野のもう一つのプレーヤーであるVespaに組み込まれた。
同じ頃、多くの大企業がベクトル検索の可能性を認識し始め、特に画像認識などのコンピュータ・ビジョン分野での応用が注目され始めた。私はニューラルネットワークや埋め込み表現の力を高く評価していましたが、大学で電気工学を専攻していたこともあり、もっとハードウェアの仕事がしたくてたまりませんでした。その結果、私はその分野を離れ、上海を拠点とする屋内ローカリゼーション会社を設立しました。その後2~3年の間に、私は大きな教訓を得ました。ハードウェアの会社を立ち上げるのは難しいということです。
2019年、私たちは機械学習と慣性計測ユニット(IMU)からのストリーミング・データの利用に軸足を移しました。Embeddingsは私たちの成功に重要な役割を果たし、フォーチュン500社の多くの企業を含む様々な顧客に私たちのソリューションを展開する契約を確保しました。私は、最終的に収支が黒字になるまで、さらに2年間スタートアップの仕事を続けました。その時点で、私は新たな冒険の時が来たと思った。
そして2021年、私はチャールズ(CEO)とロバート(製品責任者)と話をする機会を得た。長年にわたり、エンベッディングとベクトル検索は、私のアイデンティティと、より広いML空間での成功の中心となってきました。ですから、Zillizのミッションはすぐに私の心に響きました。広範なベクトル・データベース分野を検討した結果、よく知られた強力なツールであるにもかかわらず、市場には手頃な価格でスケーラブルなベクトル検索ソリューションが欠けていることに驚きました。ベクター・データベースがAI/ML時代の事実上のストレージ・ソリューションとして機能する能力は、私にとって明らかでした。そこで、私はここに飛びついた。
エンタープライズAIインフラの民主化
Zillizでは、スケーラブルでクラウドネイティブなベクターデータベースを採用する際、いくつかの課題に遭遇した。エンベッディングは強力かもしれないが、MLエンジニアは(私も含めて)インフラとツールの重要性を過小評価しがちだ。私たちは根っからのビルダーであり、アプリケーションを本番環境にどのようにデプロイするかを心配するよりも、学習データの扱いやモデル・アーキテクチャの完成に時間を費やすことを好む。エンベッディングの領域では、ZillizはエンタープライズAIインフラを民主化するための幅広い取り組みの中心に位置している。
ご参加を歓迎します!
このメッセージに共感された方は、ぜひご一報ください!GTM、プロダクト、エンジニアリングなど、様々な職種を募集しています。レコメンダーシステム、セマンティック検索、そしてコンピュータをより「人間的」なものにすることに情熱を持っている方は、お気軽に採用情報ページをご覧ください。
読み続けて

Zilliz Cloud BYOC Upgrades: Bring Enterprise-Grade Security, Networking Isolation, and More
Discover how Zilliz Cloud BYOC brings enterprise-grade security, networking isolation, and infrastructure automation to vector database deployments in AWS

Enhancing AI Reliability Through Fine-Grained Hallucination Detection and Correction with FAVA
In this blog, we will explore the nature of hallucinations, the taxonomy that provides a framework for categorizing them, the FAVABENCH dataset designed for evaluation, and how FAVA detects and corrects errors.

Producing Structured Outputs from LLMs with Constrained Sampling
Discuss the role of semantic search in processing unstructured data, how finite state machines enable reliable generation, and practical implementations using modern tools for structured outputs from LLMs.
