2023年AI界目前最大收購案件13億美金,Databricks 收購專門給中小企業訓練大模型的公司 MosaicML。

2023年8月5日

近期,AI界瀰漫著一股投資與收購的熱潮。全球知名企業 Salesforce 對 Anthropic 投資 4.5 億美元,同時 Runway 成功籌集 1.41 億美元的資金。Snowflake也宣布完成對 Neeva 的收購,而中國的巨頭企業美團以 20.65 億美元的價格收購了 AI 公司光年之外。

然而,引人矚目的交易莫過於創業公司 MosaicML 的收購案。據了解,MosaicML 以約 13 億美元的價格被大數據巨頭 Databricks 收購,其估值在本次交易中翻了六倍,成為了今年上半年最大的收購案。只成立 2 年時間,僅擁有 60 多名員工,究竟是什麼支撐起了 MosaicML 的高估值呢?

Databricks 收購 MosaicML,為生成式 AI 技術的普及化加速

Databricks 近期正式宣布,以約 13 億美元(約 930 億元人民幣)收購生成式人工智能初創公司 MosaicML,以提供企業建立類似 ChatGPT 工具的服務。該收購完成後,MosaicML 將成為 Databricks Lakehouse 平台的一部分,MosaicML 的整個團隊和技術都將納入 Databricks 旗下,為企業提供一個統一的平台來管理數據資產,同時能夠使用自己的專有數據來建立、擁有並保護自己的生成式 AI 模型。

MosaicML 是一家極年輕的生成式 AI 公司,2021 年在舊金山成立,目前只公開披露過一輪融資,員工僅 62 人。在上一輪的融資中,其估值為 2.2 億美元,也就是說,此次收購 MosaicML 的估值直接翻升了 6 倍。此筆交易是截至目前今年生成式 AI 領域內所公布的最大一筆收購案。就在不久前,雲計算巨頭 Snowflake 剛剛宣布收購了另一家生成式 AI 公司 Neeva。在經歷了幾個月的投資熱之後,大型企業對生成式 AI 初創公司的大規模並購潮似乎正在開啟。

Databricks 起源於 UC 伯克利,曾參與 Apache Spark 項目開發。作為數據存儲和分析巨頭,截至 2022 年估值 310 億美元,幫助 AT&T、壳牌、Walgreens 等大型公司處理數據。前段時間,剛開源了自己的大模型 Dolly,目的是要以更少的參數實現與 ChatGPT 類似的效果。而在雲計算更加普及後,Spark 提出的「湖倉一體」理念,深深影響了一批大數據初創企業。自 2013 年成立後,Databricks 快速成長為全球最熱門的 Data Infra 公司。去年,Databricks 公布的年收入超過 10 億美元,而在 2021 年 8 月完成最新一輪融資後,其最新估值達到 380 億美金。

MosaicML MPT 系列模型的優勢

MosaicML 的 MPT 系列模型是從 HuggingFace PretrainedModel 基類中子類化的,與 HuggingFace 生態系統完全兼容。MPT-7B 模型是 MosaicML 最受歡迎的模型之一,擁有數十億個參數,可以處理超過 2,000 種自然語言處理任務。其中,MPT-7B 的優化層包括 FlashAttention 和低精度層範數等,可以讓該模型比傳統訓練方法快 2-7 倍,資源的近線性可伸縮性確保了具有數十億參數的模型可以在幾小時內訓練,而不是過去的幾天。MosaicML 還發布了新的可商用的開源大語言模型 MPT-30B,擁有 300 億參數,並且性能優於 GPT-3。

MPT 系列模型的優勢在於它們的高效性和低成本。使用大量數據進行「訓練」的人工智能模型的複雜度急劇上升,訓練一個模型現在至少要花費數百萬美元,除了大公司之外,其他中小型企業普遍都無法承受。而 MosaicML 的 MPT 系列模型可以讓企業以更低的成本和更高的效率訓練自己的語言模型,從而可以更輕鬆地應用生成式 AI 技術,實現更好的業務表現。大多數開源語言模型只能處理最多具有幾千個 tokens 的序列(參見圖 1)。但是,借助 MosaicML 平台和 8xA100-40GB 的單個節點,用戶可以輕鬆微調 MPT-7B 以處理高達 65k 的上下文長度。處理這種極端上下文長度適應的能力來自 ALiBi,這是 MPT-7B 中的關鍵架構選擇之一。

例如,《了不起的蓋茨比》的全文不到 68k 個 Token。在一個測試中,模型 StoryWriter 閱讀了《了不起的蓋茨比》並生成了一個尾聲。模型生成的尾聲之一如圖 2 所示。StoryWriter 在大約 20 秒內(每分鐘約 15 萬字)讀完了《了不起的蓋茨比》。由於序列長度較長,其「打字」速度比其他 MPT-7B 型號慢,每分鐘約 105 個單詞。儘管 StoryWriter 的上下文長度為 65k 進行了微調,但 ALiBi 使模型能夠推斷出比訓練更長的輸入:在《了不起的蓋茨比》的情況下為 68k 個 Token,在測試中高達 84k 個標記。

生成式 AI 技術的普及

生成式 AI 技術是人工智能的一種分支,它利用大量的數據和深度學習算法,能夠自動生成原始文本、圖像和計算機代碼等內容。這種技術的出現,讓人們可以更加便捷地處理數據、分析數據,更好地服務於人類的需求。隨著大數據和人工智能技術的快速發展,生成式 AI 技術已經被廣泛應用於自然語言處理、圖像識別和虛擬現實等領域。例如,在自然語言處理領域中,GPT-4 已經成為了最受歡迎的生成式 AI 模型之一,可以用於生成文章、翻譯語言和回答問題等任務。在圖像識別領域,StyleGAN2 能夠生成高質量的圖像,可以用於遊戲開發、影視製作和虛擬現實等領域。

MosaicML 的 CEO Naveen Rao 曾表示,自 2018 年以來,使用大量數據進行「訓練」的人工智能模型的複雜度急劇上升,訓練一個模型現在至少要花費數百萬美元,除了大公司之外,其他中小型企業普遍都無法承受。然而,此次收購後,Databricks 的 Lakehouse 平台和 MosaicML 技術的聯合產品將能讓企業可以使用自己的專有數據來簡單、快速、低成本進行生成式 AI 模型的訓練和建立,在讓用戶擁有數據的控制權和所有權的情況下,可以進行自定義 AI 模型開發。根據 Databricks 的相關說法,在 Databricks 和 MosaicML 的平台和技術支持下,企業訓練和使用 LLMs 的成本將顯著降低,預計可以降至數千美元左右。這為生成式 AI 的普及提供了便利。

Databricks 收購 MosaicML 的意義

Databricks 收購 MosaicML 的主要目的是加速生成式 AI 技術的發展和民主化。透過將兩家公司的技術和資源整合起來,Databricks 可以更好地滿足客戶的需求,提供更高效、更便捷的解決方案。具體而言,該收購將帶來以下幾個方面的改變:

  1. 更高效的大語言模型:Databricks 收購 MosaicML後,可以將 MPT 系列模型集成到其 Lakehouse 平台中,為客戶提供更高效、更低成本的大語言模型。這將有助於企業更好地處理自然語言處理任務,提高業務效率和準確性。

  2. 更快的模型訓練速度:MosaicML 的 MPT 系列模型具有快速訓練的特點,這將有助於 Databricks 提供更快速的模型訓練服務。這對於需要快速響應市場需求的企業來說尤其重要,可以幫助他們更好地滿足客戶的需求。

  3. 更高的民主化程度:Databricks 收購 MosaicML 也意味著生成式 AI 技術的民主化程度將會進一步提高。MosaicML 的 MPT 系列模型可以讓中小型企業更輕鬆地訓練自己的語言模型,從而可以更好地應用生成式 AI 技術,實現更好的業務表現。這將有助於推動生成式 AI 技術的發展和應用,促進人工智能技術的普及和發展。

總結

生成式人工智能應用程序旨在根據用戶的自然語言提示生成原始文本、圖像和計算機代碼。自去年 11 月人工智能初創公司 OpenAI 推出線上生成 AI 聊天機器人 ChatGPT 以來,人們對這項技術的興趣大增。「每個組織都應該能夠從人工智能革命中受益,並對其數據的使用方式有更多的控制。Databricks 和 MosaicML 有一個難以置信的機會來實現人工智能的民主化,並使 Lakehouse 成為建立生成式人工智能的最佳場所。」Databricks 聯合創始人兼首席執行官 Ali Ghodsi 表示。

Databricks 收購 MosaicML 的意義不僅在於加速生成式 AI 技術的發展和民主化,更在於將兩家公司的技術和資源整合起來,為客戶提供更高效、更便捷的解決方案。隨著人工智能技術的快速發展和應用,生成式 AI 技術將扮演越來越重要的角色,Databricks 收購 MosaicML 的舉動也體現了各企業對於這個方向的重視和投資。像 Anthropic 和 OpenAI 這樣的公司將現成的語言模型授權給企業,然後企業在其上建立生成 AI 應用程序。在對這些模型的強勁商業需求的推動下,為像 MosaicML 這樣的初創公司創造了機會。從 Snowflake 和 Databricks 接連的收購步伐中我們可以看到,大型科技公司對於生成式 AI 技術正在從自主研發、戰略投資逐步遷向兼並收購階段。