中国妞xxxhd露脸偷拍视频_亚洲一区在线视频观看_97在线看_国产精品欧美久久久久一区二区_亚洲网在线_免费观看一级淫片

大模型落地需要“記憶力”,這家公司想為向量數據庫正名 | 把脈大模型

2023-08-07 11:23:36

現實生活中若兩人進行對話,大致需要三步流程:一方首先拋出話題作引子;另一方會先調動記憶判斷自己是否了解這個話題,然后再分析給出應該做出何種回答。如此循環往復直到互動結束,而此次對話又會作為一種新的“記憶”被雙方吸收。

為讓計算機完成這樣的互動過程,并持續在一對一或一對多的情況下變成日常,AI科學家提出了CVP結構,即“ChatGPT(以ChatGPT為代表的大模型)+Vector Database(向量數據庫)+Prompt(提示詞)”,分別承擔計算機分析、記憶、引子的功能。


(相關資料圖)

向量數據庫作為計算機記憶體一般的存在,正吸引著大批投資人和創業者的關注。向量數據庫創業公司Zilliz的創始人兼CEO謝超告訴界面新聞,大模型落地,從數據的角度要面對的重要現實就是計算同存儲的分離,即大模型屬于廠商,而數據屬于用戶。“國內幾乎所有主流的大模型廠商上半年上門找我們聊合作,都迫切想知道一件事——大模型如何跟向量數據庫配套使用,或者說計算和存儲如何結合并實現低成本的重復使用。”

向量數據庫是一種專門處理(主要包括存儲和檢索)非結構化數據的新型數據庫。傳統的數據庫主要處理由行、列二維表格方式存儲的結構化數據,這類數據具有標準化的格式,較為容易做量化分析。而非結構化數據是指那些高維度、難以量化的抽象數據,通常需要特定的數據結構來組織,且不易分析。現實生活中,非結構化數據以各種形式出現,包括文本、圖像、音視頻以及未來多模態呈現更為復雜多元的表情、體態等數據。

結構化數據,一本書的信息按照ISBN碼、年份、署名、作者就可轉化為二維表格

非結構化數據,一個完整句子需要結合上下文語境,按語義分割將每個單詞轉化為三維乃至更高維的向量矩陣

以OpenAI背后的GPT模型預訓練所用的數據為例,GPT-3.5的“知識庫”共包含3000億單詞的數據,匯聚了來自開源語料庫、維基百科、各類圖書與新聞報道、Reddit與Twitter平臺文章等大量互聯網文本數據。GPT-4在此基礎上體量更大,且為了支持多模態專門收集各類圖像、視頻素材,這其中非結構化數據應占有極大比重。同時,隨著大模型朝著多模態趨勢的迭代,非結構數據的數量勢必將呈指數級增長。

根據IDC、Gartner等市場調研機構的估算,真實世界中絕大多數數據(約80%)都為非結構化數據,只有少量(約20%)為結構化數據。然而正如冰山效應所喻示的“巨大的冰山往往是八分之一浮在水面上,八分之七沉沒在水面之下”,非結構化數據結構復雜且難處理,反而導致有效利用率遠低于結構化數據。因此,打造面向非結構化數據的向量數據庫也變成了一場從0到1的拓荒。

Zilliz成立于2017年,總部位于硅谷,是最早一批探索向量數據庫的先行者。以大模型誕生為分水嶺,公司的成長歷程可分為“前大模型時期”和“后大模型時期”。

在前大模型時期,向量數據庫的技術理念并未有統一的定義,市場上也未有同類產品模式可作參照。Zilliz起步只能在無人區中開拓新賽道,客戶、投資、應用場景都是未知數。“我們做向量數據庫的前幾年幾乎沒有任何收入,全靠融資生存,但那時候說服投資人是一件很困難的事情。招聘工程師、找客戶、拉投資,不確定性幾乎來自方方面面,這也成為Zilliz的常態。”

2019年,Zilliz開源了全球首個向量數據庫產品Milvus,目前在GitHub上獲得了超過2.1萬顆Star,是開源圈內的明星項目,也給公司帶來了第一批用戶。同時,團隊發表的向量數據庫相關的兩篇論文,也在2021和2022連續兩年入選了數據庫領域國際頂級會議SIGMOD和VLDB。在創始人眼中,Zilliz前幾年所做的工作都在一步步將向量數據庫推向主流視野的關注范圍內。

后大模型時期,ChatGPT的爆發則徹底改變了向量數據庫的發展速度。2023年3月,在英偉達全球開發者大會上,黃仁勛力挺向量數據庫對構建專有大型語言模型的重要價值,同時點名Milvus。緊接著,Milvus和Zilliz Cloud又成為了OpenAI官方首批plugin合作的向量數據庫。

資本和競爭對手隨即迅速涌入這一賽道。其實,早在2022年8月,Zilliz就完成了累計超過 1.03億美元的B輪融資,由沙特阿美Aramco Ventures旗下基金領投,現有股東淡馬錫、高瓴創投、五源資本和云啟資本跟投,估值達6億美元。另外一家OpenAI官方合作的向量數據庫公司Pinecone最新宣布獲得a16z領投的1億美元,估值達7.5億美元。今年4月,有4家向量數據庫創業公司宣布當月獲得融資。大模型廠商也紛紛開始著手布局自家的向量數據庫,騰訊、京東均有對外公開的向量數據庫產品。

參考美國2022年上市的數據庫公司Snowflake以及還未上市的獨角獸公司Databricks,融資規模都已達到數十億美元。向量數據庫如今已經走完了為賽道“正名”的第一步,目前處在產業化的開端。而數據庫行業先天具有高資本投入、高技術門檻的特點,一款數據庫通常需要經過成百上千的工程師研發迭代,技術產品的工程積累預計將成為該賽道競爭的決定性條件。

前大模型時期通過搞科研、發論文、做開源為向量數據庫正名后,處于后大模型時期的Zilliz將2023年視為“商業化元年”。

在開源產品Milvus之外,公司將云服務產品Zilliz Cloud作為商業化的關鍵。Zilliz Cloud可以幫助企業用戶構建十億級向量數據庫,部署和擴展向量搜索服務,收費模式分為存儲收費(按數據規模與存儲時間)與計算收費(按機器數與運行的小時數)。這也是該公司進一步穩固市場的核心所在。

(文章來源:界面新聞)

標簽:

關閉
新聞速遞
主站蜘蛛池模板: 国产精品不卡在线 | 在线国产精品自拍 | 男女激情啪啪网站 | 日韩欧美大片 | 国产激情在线视频 | 免费中文字幕日韩欧美 | 亚洲精品国产视频 | 99在线视频免费观看 | 欧美精品一区二区三区在线播放 | 亚洲精品毛片 | 日韩一区二区三区高清 | 九九在线免费视频 | 国产99精品视频 | 日韩一级片免费在线观看 | 亚洲一区二区在线免费观看 | 久久久.com| 婷婷综合在线观看 | 99久久精品国产一区二区三区 | 国产精一区 | 亚洲欧美日韩天堂 | 最近中文字幕高清字幕mv | аⅴ资源新版在线天堂 | 欧美日视频 | 国产一区二区自拍 | 国产一区二区黑人欧美xxxx | 欧美日韩在线免费观看 | 美女又爽又黄免费视频 | 成人性生交大片免费看视频r | 亚洲天堂电影网 | 希岛あいり中文字幕在线 | 精品专区 | 99久久成人 | 一区二区三区四区日韩 | 免费毛片观看 | 国产性―交一乱―色―情人免费看 | 在线电影91 | 97精品一区二区三区 | 精品999在线观看 | 久热这里只有 | 国产a电影 | 一级片黄色 |