AIにおけるオープンソースライセンスの状況:LLMとベクターデータベースの入門書

オープンソースソフトウェアという概念は、テクノロジー業界では何十年も前から一般的なものだ。しかし、開発者や企業にとって、様々なライセンスの意味合いや制限について、より明確にする必要がある。このガイドは、ベクトルデータベースや大規模言語モデル(LLMsのようなAI技術に明確に関連するオープンソースライセンスを解明する。)
オープンソースとは、作成者がソフトウェア、ハードウェア、あるいは大規模な言語モデルを無料でコミュニティに提供することを意味する。これらのプロジェクトは、コミュニティの努力によって開発・保守されることが多く、多くの異なる企業の開発者が協力しているのが一般的である。製品やソフトウェアが提供されるライセンスの種類によって、さまざまなオープンソース製品をどのように使用できるかが決まります。
ソフトウェアプロジェクトのオープンソースライセンスに予期せぬ変更が加えられると、オープンソースソフトウェアを中心に製品を構築してきた企業やビジネスに大きな損害を与えかねません。この力学は、さらなる複雑さを追加し、オープンソースライセンスを理解することの重要性を強調しています。
オープンソースのベクターDBとLLMの利点
ベクターデータベース
Milvus](https://zilliz.com/what-is-milvus)(Apache License 2.0の下で提供される)のようなオープンソースのベクトルデータベースは、AIのエコシステムに利益をもたらす。自由に利用できるため、開発者は新しいアプリケーションを構築するコストを最小限に抑えながら、迅速にソリューションのプロトタイプを作成することができる。コードベースがオープンでアクセスしやすいため、開発者や企業は、それがどのように動作するかを詳細にレビューし、自社の計画や標準に合致していることを確認することができる。これは信頼と信用を高め、ユーザーが他のアプリケーション内または他のアプリケーションと並行してどのように実装するかを決定するのに役立つ。最後に、Milvusは、他のオープンソース・ベクターデータベースと同様に、作成者Zillizと、より広範なMilvusユーザーコミュニティとのパートナーシップにより開発されました。これにより、NVIDIA、IBM、SalesForceなどの他の組織が共有する開発と専門知識から、誰もが恩恵を受けることができました。
大規模言語モデル
オープンソースの大規模言語モデル(LLM)は、昨年、利用可能性と採用が劇的に増加した。一方、プロプライエタリなLLMは、企業が独占的に所有しており、OpenAIのGPTのようなライセンスを購入した顧客のみがアクセスできます。このようなライセンスは、LLMの使用に制限を課すことが多い。対照的に、オープンソースのLLMは、すべての人が自由にアクセスでき、どのような目的にも無制限にアクセスし、利用し、変更し、配布することができます。
LLMでは、オープンソースの要素は、LLMのコードと基礎構造へのアクセスのしやすさに関係します。このアクセシビリティは、いかなる開発者や研究者にも、モデルを利用、強化、修正する自由を与える。このオープン性は、LLMのパワーを活用したソリューションを構築しようとする開発者の長期的なコストを削減することで、アクセスを増加させます。これは、社内にモデル開発や機械学習の人材がいない組織にとって特に当てはまります。また、オープンソースの大規模言語モデルは、企業のデータ・インフラストラクチャ内に導入することができるため、外部企業や競合企業が管理するモデルのように、プライベートなデータを外部に公開するリスクを低減することができます。最後に、オープンソースのLLMは修正可能であるため、アプリケーションの特定のユースケースに合わせてチューニング、最適化、拡張することができる。オープンなコードベースは、開発者とデータサイエンティストがモデルの構築とトレーニングを詳細にレビューできるようにすることで、信頼性と透明性を高めます。
オープンソースライセンスのスペクトラム
オープンソースライセンスには様々な種類があり、それぞれに許可、制限、要件があります。開発者とユーザは、ライセンスが定める条件を確実に遵守するために、それぞれのタイプのライセンスの意味を理解することが重要です。
ここでは、一般的なタイプのいくつかを紹介します:
許可型ライセンス
パーミッシブ・ライセンスは、多くの制限なしにソフトウェアを使用、変更、配布するための広範な自由をユーザーに与えます。例えば、以下のようなものがあります:
MIT ライセンス:MITライセンス: 最小限の要求で、ほとんど無制限の使用、変更、配布を許可します。
BSDライセンス:MITライセンスと同様、ほとんど無制限の利用を許可しますが、要求事項が少し異なります。
Apacheライセンス:特定の条件下でソフトウェアの使用、改変、配布を許可する。
コピーレフト・ライセンス
コピーレフト・ライセンスとは、改変したり派生させたりした著作物も、元のソフトウェアと同じライセンス条項の下で頒布することを要求するライセンスです。例えば、以下のようなものがあります:
GNU一般公衆ライセンス(GPL):あらゆる派生作品が同じGPL条項の下で配布されることを要求し、改変がオープンソースのままであることを保証する。
GNU劣等一般公衆ライセンス (LGPL):GPLの修正版で、ある条件下でGPLでないソフトウェアとのリンクを認めています。
Mozillaパブリック・ライセンス (MPL):MPLもしくは両立するライセンスのもとでの改変と配布を許可します。
弱いコピーレフトのライセンス
これらのライセンスは、ソフトウェアの改変された部分のみを元のソフトウェアと同じライセンス条項で配布することを要求します。例えば、以下のようなものがあります:
- GNUアフェロ一般公衆ライセンス (AGPL):ネットワーク/サーバソフトウェアのために設計されたGPLの拡張で、ネットワークを介してソフトウェアとやりとりするユーザにソースコードの配布を要求する。
非商用ライセンス
このライセンスは、商用目的でのソフトウェアの使用を制限します。例えば、以下のようなものがあります:
- クリエイティブ・コモンズ非商用ライセンス:クリエイティブな作品の非商用利用、改変、配布を許可する。
パブリックドメイン
開発者の中には、自分の作品をパブリックドメインとして公開し、事実上その作品に対するすべての権利を放棄することを選択する人もいます。ユーザは、何の制限もなく、そのソフトウェアを自由に使用、変更、配布することができます。
統治団体とコミュニティ
いくつかの重要な組織が、オープンソースのライセンシング標準を管理する上で重要な役割を果たしており、オープン性、透明性、および協調の原則の遵守を保証しています。この領域における2つの著名な団体は、オープンソースイニシアティブ(OSI)とフリーソフトウェアファウンデーション(FSF)です。
OSIは、オープンソースとみなされるためにソフトウェアライセンスが満たすべき一連の基準であるオープンソース定義を維持している。OSI は、これらの基準を満たすライセンスを評価および承認し、オープンソースコミュニティ内の一貫性と明瞭性の維持に貢献しています。
一方、FSF はフリーソフトウェアを提唱し、ソフトウェアの自由を保証する GNU 一般公有使用許諾 (GPL) などのライセンスの使用を推進している。
Apache Software Foundation (ASF)もまた、オープンソースのライセンス標準のガバナンスにおいて重要な役割を果たしている重要な組織である。主に Apache Hadoop や Apache Kafka など、広く利用されているソフトウェアプロジェクトの開発で知られる ASF は、オープンで分散型の開発のためのフレームワークを提供し、寛容なライセンスモデルを採用している。アパッチ・ライセンスは、派生作品がオープンソースのままであることを保証しながら、商業的な使用を柔軟に許可している。
さらに、コミュニティのガバナンスは、ライセンシングポリシーと実践を形成する上で極めて重要である。オープンソースプロジェクトには、しばしばコミュニティ主導の意思決定プロセスがあり、そこでは、貢献者と利害関係者がライセンシングの問題について議論し、決定します。コミュニティの関与は、オープンソースソフトウェアの完全性を維持しながら、イノベーションと成長を促進し、オープンソースエコシステム内の信頼性、透明性、およびコンセンサスを維持するのに役立ちます。
オープンの度合い
異なるライセンシングモデルに内在する開放性の度合いは、AI開発におけるコラボレーション、イノベーション、そして透明性に影響を与えます。寛容なライセンスは、貢献者の幅広いコミュニティを奨励し、迅速な反復と実験を促進する。対照的に、コピーレフト・ライセンスは、オープンソースの理想を維持することを優先し、より広範な採用を犠牲にして商業的利用から保護する。
最近のライセンスの変遷と論争
Redis](https://arstechnica.com/information-technology/2024/04/redis-license-change-and-forking-are-a-mess-that-everybody-can-feel-bad-about/#:~:text=Redis%2C%20a%20tremendously%20popular%20tool,in%20why%20they%20did%20this)やHashiCorpのようなAI技術プロバイダによるライセンスモデルの顕著な移行は、持続可能性と倫理をめぐる議論に火をつけた。その動機は、収益源の保護から、貢献に対する公正な報酬に関する懸念への対処まで多岐にわたる。これらの変遷は、イノベーションの育成とオープンソースコラボレーションの原則の保護との間の微妙なバランスを強調している。
企業がオープンソース・プロジェクトのライセンスを変更する場合、そのオープンソース・コードに基づいて製品を構築したユーザーや企業にとっては、特に気になることでしょう。オープンソースソフトウェアを提供している企業が、突然ソースを閉鎖したり、より制限の厳しいライセンスを使用したとします。その場合、最後のオープンソースバージョンのコードを利用していた他の企業が、コードの保守や新しい機能セットの開発の負担をすべて引き受けなければならなくなる可能性がある。
AIでライセンスが重要な理由
ライセンスは単なる法的形式的なものではなく、AI技術の軌跡を決定する可能性がある。ライセンシングは、アクセシビリティ、適応性、公平な流通を管理し、AIのエコシステムを形成する。イノベーションを促進し、包括性を確保するためには、知的財産(IP)の保護とAIにおける協力環境の育成のバランスをとることが重要である。
現在、AI産業は驚くべきスピードで拡大している。新しいテクノロジー、ユースケース、そして企業までもが日々誕生し、誰もがこの熱狂に乗り遅れまいと躍起になっている。この速いペースのイノベーションと市場競争により、開発努力を加速し、幅広いコラボレーションを通じてイノベーションを拡大するために、企業がオープンソースコードを採用することが予想される。
結論
オープンソースライセンシングは、AI における共同開発とイノベーションの要であり、アクセス、使用、および配布の境界を定義する。複雑なライセンシングモデルをナビゲートしながら、AIテクノロジーが集団的利益に貢献する未来を形成するために、私たちは情報を得、積極的であり続けましょう。オープン・コラボレーションの精神を受け入れることで、私たちはより包括的で持続可能なAIの展望を創造する機会を得ることができる。オープンソースライセンスの制限と我々のオープンソースアプローチに関するZillizの考えをもっと読むにはここを読む.
リソース
オープンソースのMilvusベクトルデータベースを始めよう](https://milvus.io/blog/how-to-get-started-with-milvus.md)
HuggingFaceリーダーボードでトップオープンソースLLMを見る](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)
読み続けて

Vector Databases vs. Spatial Databases
Use a vector database for AI-powered similarity search; use a spatial database for geographic and geometric data analysis and querying.

Semantic Search vs. Lexical Search vs. Full-text Search
Lexical search offers exact term matching; full-text search allows for fuzzy matching; semantic search understands context and intent.

GLiNER: Generalist Model for Named Entity Recognition Using Bidirectional Transformer
GLiNER is an open-source NER model using a bidirectional transformer encoder.