“大模型行業從2023年10月開始進入到冷靜期。為什麼進入到冷靜期?第一,大模型受關注不僅僅因為它的AI新技術,而要看場景在哪?也就是價值點在哪?第二,在實現價值的過程中如何保證資料安全?”用友iuap平臺技術專家姚春雷在接受第一財經專訪時表示。在行業大模型不斷應用落地的當下,資料安全問題備受關注。
行業大模型,知識是核心。行業大模型資料來源除了一些公開資料外,還包括企業內部資料、大模型在互動過程中產生的資料,共同組成了大模型訓練的語料基礎。隨著當前大模型應用爆發式增長,涉及到的資料量也隨之大幅增加,資料安全的重要性越來越突出。
“當前資料安全問題主要體現在兩個方面,一是資料洩露問題,二是資料許可權控制問題。”浪潮通軟平臺軟體與技術研究院總經理周祥國告訴第一財經。
目前,大模型資料洩露是使用者資料安全中面臨的主要挑戰之一。“現在財務報銷制度要想釋出到公網,進行模型的二次訓練是非常難的,因為沒有誰敢把最基本的資料發出去,進入到模型訓練層。”姚春雷舉例稱。
“目前業內保障資料安全的普遍做法是設定一個IaaS層,單獨為使用者做一個IaaS隔離,然後將資料放到IaaS層,IaaS層處理過以後還可以銷燬。IaaS層做隔離一定程度上保障了資料安全,但沒有辦法把資料釋出到公網,這個是比較大的問題。”姚春雷表示。
那麼,面向企業的行業大模型如何保證資料安全?做私有化部署,即不上雲端,計算和資料儲存都在客戶本地伺服器進行。
“用友企業服務大模型YonGPT可以直接私有化到客戶本地,客戶的資料在不出網的情況下使用企業大模型的能力。客戶的資料既能夠在內網,模型也能有一個反饋結果,因此保證了客戶的資料安全。”姚春雷稱。
周祥國介紹稱,浪潮海嶽大模型支援使用者本地私有化部署,支援自建垂域大模型。海嶽大模型在提供良好的底座大模型以外,也為各行各業補上欠缺的“解題步驟”,比如行業資料再加工、行業資料的補齊等,使用者透過自主錄入企業知識作為大模型資料訓練來源,基於模型“微調”對大模型進行自訓練,助力企業擁有自己的行業大模型,保障資料安全。
不過,本地化部署又涉及到價效比的問題。本地化部署需要客戶購買算力等基礎設施,如果大模型需要的算力等基礎設施成本過高,而大模型自身帶來的價值並不匹配,那麼行業大模型也難以商用。
“把大模型的引數量級降到一定程度,最大程度減少所需算力,而非動輒需要上百張或者上千張GPU卡。讓企業客戶享受大模型紅利,這是用友一直在攻克的難題。”姚春雷表示。
與此同時,資料許可權控制也是資料安全問題中需要重點關注的問題。要確保只有企業內部相關人員能夠訪問敏感資料,企業知識本地化是重要手段。
“浪潮海嶽大模型以相關法律法規和道德準則為前提,在確保資料合法性和正當性的基礎上,幫助企業構建企業專屬知識庫,對企業客戶資料、財務資料、生產資料等企業專屬知識進行梳理和統一管理,從而實現資料許可權的有效把控。”周祥國表示。
在大模型應用時,也需要嚴格控制資料許可權,防止未經授權的訪問和潛在的資料洩露風險,保證模型輸出的準確性和可靠性。此外,在行業大模型訓練資料的採集、使用、儲存、以及與第三方資料共享全流程中,也需要對資料進行資料加密、訪問控制、安全審計、資料備份和恢復等措施來加強資料安全防護。
思謀科技的工業多模態大模型IndustryGPT也採取了類似的措施。“我們在各環節實施嚴格的訪問控制機制,透過限制對資料的訪問,以確保資料的機密性和完整性,有效防止資料的非法訪問、篡改和洩露。”思謀科技聯合創始人兼技術負責人劉樞告訴第一財經,透過建立完善的資料備份和恢復機制,可以在資料丟失或損壞時及時恢復資料,保證業務的連續性,同時降低資料洩露的風險。對於客戶的核心資料,需要透過增強大模型能力,將客戶資料始終留在客戶側,模型透過In-context Learning的能力直接提供服務。
“全面的資料清洗也是保證大模型安全的重要方式之一。”劉樞補充道,“在進行大模型訓練之前,我們對所有資料和語料進行合規處理,包括資料清洗、資料標註、模型預訓練等,可以有效降低模型輸出內容的有害性和資料洩露風險。”