ストーリア・ラボを活用したクリエイティブ・アプリケーションのためのジェネレーティブAI

先日のZilliz Unstructured Data Meetupでのプレゼンテーションで、Storia AIの創設者であるミハイル・エリックは、高度な画像編集機能をアプリケーションに統合するために設計されたAPI群であるStoria Labを紹介した。
Mihail's meetup talkのリプレイを見る_。
この講演では、ジェネレーティブなAI画像を強化することに焦点を当て、元の画像の完全性を維持しながらニュアンスのある編集を行う方法について詳しく説明した。Mihailは、背景の除去、テキストの修正、画像のスタイル調整など、画像編集のニーズに対する実用的なソリューションについて説明し、さまざまなプラットフォームのAPIを介して開発者が高度な画像編集にアクセスできるようにする。
それぞれのソリューションと、マルチモーダル検索拡張世代(RAG)のような高度なGenAIアプリケーションを構築するためのMilvusベクトルデータベースとStoria Lab APIをどのように統合できるかについて、一度に説明しよう。
テキスト補正のためのTextify API
Textify APIは、オリジナルのフォントとスタイルを維持したまま、既存のテキストを修正または変更します。AIが生成したビジュアルでよくある、テキストがちんぷんかんぷんだったり、エラーが含まれていたりする問題を解決します。次の例を見てみましょう。下の画像はMidJourneyを使って生成されたもので、Happy Birthdayという単語のHappyというスペルを間違えています。
図1- Midjourneyで生成された入力画像](https://assets.zilliz.com/Fig_1_Input_image_Generated_via_Midjourney_a9b17f50cb.png)
この画像を修正するには、修正する画像の領域と置換が必要なテキストを指定するパラメータを指定してTextify APIを呼び出します。Textifyは、元のフォントとスタイルを維持したまま、意味のあるテキストに文字列を置き換えます。下の出力を見てください:
図2- Textify APIによって文字化けが修正された出力画像](https://assets.zilliz.com/Fig_2_Output_image_showing_gibberish_corrected_by_Textify_API_c5b6e10497.png)
画像に正しいハッピーバースデーメッセージが含まれていることがわかります。それでは、Storia Labがどのように画像の背景を修正するのか見てみましょう。
背景の削除と置換API
背景除去APIは、背景除去モデルを使用して画像の背景を除去します。Storia Labは、API経由で画像を送信すると自動的にこのタスクを実行します。この機能は、ニュートラルな背景や邪魔にならない背景を背景に画像を表示する際に、視認性を高めるのに便利です。背景除去APIを使用して背景を除去した結果を示す以下の画像を並べてご覧ください。
図3- Storia labで背景を除去した結果の比較](https://assets.zilliz.com/Fig_3_Side_by_side_comparison_showing_the_results_of_removing_an_image_background_using_Storia_lab_cbdb1da440.jpg)
Storia Labは、背景除去API以外にも背景置換APIを提供している。こちらはプロンプトが必要なため、仕組みが異なる。AIが生成した画像や自分の画像の背景を変更するには、入力画像と、出力画像に持たせたい背景を記述したプロンプトを渡します。Storia Labの背景置換モデルは、プロンプトの条件を満たすように画像の背景を再構成します。結果を見てみましょう:
図4- 左- Midjourneyで生成された入力、右- プロンプト "modern motion graphics, squares, Gen Z "を使って置換された出力背景](https://assets.zilliz.com/Fig_4_Left_Input_Generated_via_Midjourney_Right_Output_Background_replaced_using_the_prompt_modern_motion_graphics_squares_Gen_Z_4fb601023f.jpg)
このモデルは、要求されたモダン・モーション・グラフィックス、正方形、およびGen Zプロンプトで背景を置き換える素晴らしい仕事をしてくれます。背景とは別に、画像内の不要な要素を削除する必要がある場合もあります。Storia Labがこの要求にどのように対処するか見てみましょう。
クリーンアップAPIを使った不要要素の削除
Defect Cleanup APIは、オブジェクト、欠陥、テキストなど、画像から不要な要素を削除します。その後、クリーンアップモデルが画像を処理し、手動で編集することなくこれらの要素を削除します。例えば、この画像を見てください。
図5- 左- 元の写真の入力 右- 背景の人物を除去した出力](https://assets.zilliz.com/Fig_5_Left_Input_of_the_original_photograph_Right_Output_with_the_people_in_the_background_removed_f95a4dccd6.jpg)
背景には無造作に人が写っているが、我々は子供に焦点を当てたい。ランダムな人物を削除するには、人物を含む部分をマークする必要がある。そして、ストーリア・ラボのクリーンアップ・モデルは、マークされた要素を削除し、それらの領域を画像の残りの部分と一致するように再作成する。
ここまでは、ストーリアラボがオリジナル画像やAI生成画像に対してどのようにニュアンス編集を行うかを見てきた。ここでギアを変えて、スケッチをリアルな画像に変換するストーリアラボのもう一つのジェネレーティブ機能を見てみましょう。
スケッチから画像への変換API
スケッチから画像への変換APIは、基本的なスケッチを詳細なデジタルアートやフォトリアリスティックな画像に変換する。スケッチを入力とし、どのように出力するかを記述するプロンプトを受け取ります。プロンプトがクリエイティブであればあるほど、より良い結果が得られます。リビングルームのスケッチをリアルな画像に変換した結果を見てみましょう。
図6- 左-元のスケッチの入力 右-プロンプトに対する出力 "緑、バーントオレンジとゴールドのアクセントの写実的なリビングルーム"](https://assets.zilliz.com/Fig_6_Left_Input_of_the_original_sketch_Right_Output_Output_for_prompt_photorealistic_living_room_in_green_burnt_orange_and_gold_accents_b52405378b.jpg)
上の画像は、スケッチから生成されたリアルなリビングルームを示しています。プロンプトで指定されたすべての色が含まれています。ご覧いただいたように、生成モデルに関しては、プロンプトで指定したものが出力として得られる。プロンプトについてもっと学ぶには、このプロンプトエンジニアリングガイドを読んで、プロンプトに関係するさまざまな方法に慣れよう。
上記のAPIソリューションとは別に、Mihailは講演の中で、Storia Labがマルチモーダル・アプリケーションと統合する可能性をさらりと説明している。ゆっくり話そう。
高度なマルチモーダルRAGアプリケーションのためのMilvusとStoria Labの統合
Milvusは、10億スケールのベクトルを効率的に扱うために設計されたオープンソースのベクトルデータベースです。ベクトル検索を活用して様々なデータタイプを検索することができます。ベクトル検索は、類似検索または最近傍検索としても知られ、埋め込みモデルを使用してデータを高次元ベクトルに変換し、ベクトル空間における近接性に基づいて最も類似したベクトルを見つけます。
マルチモーダルRAGアプリケーションは、検索と世代拡張タスクのために複数のデータタイプを処理する。Milvusのベクトル検索機能を利用することで、その効率性とロバスト性が向上する。
MilvusとStoria LabのAPIを組み合わせることで、マルチモーダルRAGアプリケーションをさらに強化することができ、カスタマイズされたコンテンツ作成、自動化されたワークフロー、パーソナライズされたレコメンデーションが可能になる。
Storia AIとMilvusの相乗効果を示す実用的な使用例をいくつかご紹介します:
マルチモーダルコンテンツ作成:このアプリケーションは、ユーザーがテキストプロンプトやスケッチに基づいて画像を生成・編集できるようにする。Milvusを使用して、アプリはユーザーの説明やスケッチに一致する画像をベクターデータベースから検索する。その後、Storia LabのAPIにより、ユーザーはこれらの画像を修正・強化することができ、テキストとビジュアルの創造性がシームレスに統合される。
画像検索と推薦**:動的なユーザーがテキストやサンプル画像を使って画像を照会できる画像検索エンジンを作成する。Milvusは効率的な類似検索のためにベクトル表現を管理し、Storia Labの編集機能は出力を洗練させ、テーラーメイドの推奨画像や機能強化を提供する。
ビジュアルコンテンツキュレーション**:このアプリケーションは、ユーザーの好みやテーマに基づいて、複数のソースからビジュアルコンテンツ(画像/動画)をキュレーションし、カスタマイズします。Milvusが類似コンテンツを検索し、Storia Labのツールが背景除去やスタイル編集などの最終調整を行い、ユーザーのキュレーションプロセスを強化します。
マルチモーダルEコマース:顧客がテキストとビジュアル入力を使って商品を検索できるようにすることで、Eコマースプラットフォームを強化します。Milvusは商品画像の類似検索をサポートし、Storia LabのAPIはこれらの画像を美的に強調したり、視覚的なエラーを修正することで、ショッピング体験を向上させます。
クリエイティブ・デザイン・ツールこれらの包括的なツールはデザイナーをサポートし、画像生成、操作、ベクター検索を組み込んでいる。デザイナーはスケッチやテキストプロンプトに基づいてプロジェクトを開始し、Milvusで類似の既存画像を検索、Storia LabのAPIを使用してデザインを洗練させ、パーソナライズすることで、創造的で効率的なデザインプロセスを促進する。
ビジュアルコンテンツのモデレーション**:ユーザー生成コンテンツをホストするプラットフォームでは、Milvusを類似検索に使用して不適切な画像を特定し、フラグを立てるシステムを開発する。Storia Labの編集ツールは、問題のある要素を自動的に調整または削除し、効果的かつ効率的なコンテンツモデレーションを実現する。
上記のユースケースは、画像とテキストを使用するマルチモーダルアプリケーションのみを対象としている。しかし、Milvusはビデオやオーディオなど、より多くのデータタイプをサポートしていることに留意する必要があります。お客様のニーズ次第です。
結論
Storia AIはAIを搭載した画像エディタで、簡単なテキスト入力やクリック操作で画像を生成・編集できる様々なツールを提供している。高度なスキルを必要とせず、画像編集作業を簡素化することを目的としている。
ジェネレーティブAIが進化を続け、マルチモーダルアプリケーションがますます普及する中、Storia LabとMilvusの相乗効果により、開発者は創造性、機能性、ユーザー体験の新たな領域を切り開くことができる。
このトピックの詳細については、YouTubeでミハイルの講演のリプレイを見る
読み続けて

Demystifying the Milvus Sizing Tool
Explore how to use the Sizing Tool to select the optimal configuration for your Milvus deployment.

Enhancing AI Reliability Through Fine-Grained Hallucination Detection and Correction with FAVA
In this blog, we will explore the nature of hallucinations, the taxonomy that provides a framework for categorizing them, the FAVABENCH dataset designed for evaluation, and how FAVA detects and corrects errors.

Building RAG Applications with Milvus, Qwen, and vLLM
In this blog, we will explore Qwen and vLLM and how combining both with the Milvus vector database can be used to build a robust RAG system.