ティム・スパン:私がZillizに入社した理由
#はじめに
私の名前はTim Spannで、Zillizで素晴らしいオープンソースプロジェクトであるMilvusの開発者支援に取り組んでいます。Hadoop、Spark、Kafka、NiFi、Flink、Iceberg、Kudu、HBase、Hive、Springなどのオープンソースや、開発者、エンジニア、クールなプロジェクトを支援することが、私の長年にわたる情熱です。
私のMedium投稿https://medium.com/@tspann
YouTubeチャンネルhttps://www.youtube.com/@FLaNK-Stack ;
新たな挑戦
この2年間、私はストリーミングとAIの交差点に取り組んできたが、そこで初めて、必要とされるあらゆる種類のデータをあらゆるモードで保存し、照会できるAIのためのデータベースの重要性を知った。
私はジェネレーティブAIに取り組んできましたが、未来がどこに向かっているのか、新しいデータ処理がどこで行われているのかを知る必要がありました。非構造化データ処理が今必要であり、私はそのことを広める必要がある。ここがその場所だ。Milvus](https://github.com/milvus-io/milvus)、Towhee、Attu、Kafkaとの統合、そしてすべてのクールなLlamaXフレームワークがある。私たちは、非構造化データ・エンジニアとデータ・スーパースターのグローバル・グループを構築する必要がある。この加速する旅を続けられることに、とても興奮しています。私は10年近く機械学習、自然言語処理、エッジAIに興味を持ってきました。
- https://community.cloudera.com/t5/Community-Articles/Using-Sentiment-Analysis-and-NLP-Tools-With-HDP-2-x-and-HDF/ta-p/249102
- https://community.cloudera.com/t5/Community-Articles/Open-NLP-Example-Apache-NiFi-Processor/ta-p/249293
- https://community.cloudera.com/t5/Community-Articles/Creating-HTML-from-PDF-Excel-and-Word-Documents-using-Apache/ta-p/247968
ベクター以上のデータベース
Milvusだけでも強力なデータストアであり、Zillizで働きたいと思う理由だ。これは、次のジェネレーティブAIによるデータ革命のための新しいパラダイムシフトの始まりに過ぎない。非構造化データ処理とベクトルETLを行うための強力で高速な方法に対するニーズはすでに明白であり、高まっている。今後数年のうちに、構造化データや半構造化データに対するSpark、Flink、Kafkaのように、非構造化データのエンジニアリングや処理が台頭してくるでしょう。
ログ、電子メール、文書、スラック・メッセージ、写真、画像、動画、音声ファイル、さらに多くのバイナリ・フォーマットを読み込む必要性が、業界を一変させるだろう。私がビッグデータに携わり始めた頃は、JSON、CSV、XML、リレーショナル・テーブル、構造化データを大量に移動させる必要があった。しかし、類似検索が可能で、高速アクセスのためにベクトル化されたデータが必要なのです。
SQLステートメントを作成するのと同じくらい多くのプロンプトを作成することになります。これらのデータフォーマットの多くは、同じアプリケーションで使用する必要がある。 モデルやプロンプトが特にライブユース・ケースのためにデータのフェデレーション・ビューを必要とするので、非構造化データと構造化データの境界線は曖昧になる。
私はすでに大量輸送アプリケーションでこれを目にしており、これはIoTや不正分析を含むすべてのエンタープライズ・アプリケーションに移行していくだろう。
将来は、より多くのデータ、非構造化データ処理の膨大なニーズ、新しいデータを処理できるスケーラブルなオープンソースのAIデータベース、そして増え続けるAIモデルの多様性が待っている。
チームが必要だ
私は非常に幸運なことに、以前に何人もの同僚と共同作業をしたことがあり、彼らと一緒に仕事をすることを熱望していた。また、入社前に話をした全員に、信じられないほど感銘を受けました。このチームは、革新的なテクノロジーを主流にするために必要なことを深く理解している、信じられないほど熟練した知的なチームです。未来は今から始まる。
コミュニティ
ニューヨーク近郊でミートアップやその他のイベントに参加しませんか?
また、プリンストンで開催されるAIのイベントも多数お手伝いしており、StartupGrind Princeton and Trenton、Applied Generative AI、NJ GAI Meetupなどで活動しています。
読み続けて

Announcing VDBBench 1.0: Open-Source VectorDB Benchmarking with Your Real-World Production Workloads
VDBBench 1.0 offers an open-source benchmarking solution for vector databases, emphasizing real-world production conditions, including streaming data and concurrent workloads.

Balancing Precision and Performance: How Zilliz Cloud's New Parameters Help You Optimize Vector Search
Optimize vector search with Zilliz Cloud’s level and recall features to tune accuracy, balance performance, and power AI applications.

DeepRAG: Thinking to Retrieval Step by Step for Large Language Models
In this article, we’ll explore how DeepRAG works, unpack its key components, and show how vector databases like Milvus and Zilliz Cloud can further enhance its retrieval capabilities.
