久久国语对白,东京热男人的天堂,九月婷婷人人澡人人添人人爽,日本久久大香蕉

大模型安全PK:怎么就讓一家車廠拿了一等獎!

2024-11-06 10:22:20 31觀看

一家車廠,沖進(jìn)了大模型安全第一梯隊。ncQ壹木網(wǎng)-日常常見問題解答

近,中國計算機學(xué)會(CCF)舉辦了大模型安全挑戰(zhàn)賽,參賽者包括一眾大模型安全公司,知名研究機構(gòu)等。ncQ壹木網(wǎng)-日常常見問題解答

激烈的角逐后,成績放榜,讓人意外:ncQ壹木網(wǎng)-日常常見問題解答

第一梯隊的玩家里,竟然有一家車廠,而且還是一家成立不到10年的新勢力,理想。ncQ壹木網(wǎng)-日常常見問題解答

大模型安全PK:怎么就讓一家車廠拿了一等獎!ncQ壹木網(wǎng)-日常常見問題解答

為什么一家車廠能沖進(jìn)大模型安全第一梯隊?ncQ壹木網(wǎng)-日常常見問題解答

大模型安全都有哪些問題,怎樣解決?ncQ壹木網(wǎng)-日常常見問題解答

如何建設(shè)大模型安全能力?ncQ壹木網(wǎng)-日常常見問題解答

帶著行業(yè)關(guān)心的問題,智能車參考對話了理想汽車資深安全總監(jiān)路放及其團隊成員熊海瀟、劉超,探究理想在AI安全上的思考。ncQ壹木網(wǎng)-日常常見問題解答

大模型安全PK:怎么就讓一家車廠拿了一等獎!ncQ壹木網(wǎng)-日常常見問題解答
△ 理想汽車 路放ncQ壹木網(wǎng)-日常常見問題解答

在路放看來,理想?yún)①惒⒉皇菫榱双@獎,也不是為了炫技。ncQ壹木網(wǎng)-日常常見問題解答

參賽只是為了驗證能力,獲獎就是能力的證明,進(jìn)一步促進(jìn)自我提高。ncQ壹木網(wǎng)-日常常見問題解答

參賽的終目的,歸根結(jié)底,還是為了守護100萬個家庭的AI安全。ncQ壹木網(wǎng)-日常常見問題解答

大模型都有哪些安全問題?ncQ壹木網(wǎng)-日常常見問題解答

大模型正在重塑一切,然而新事物為人們帶來新體驗的同時,也帶來了新的問題,具體到安全領(lǐng)域,包括Prompt注入、回答內(nèi)容安全、訓(xùn)練數(shù)據(jù)保護、基礎(chǔ)設(shè)施與應(yīng)用攻擊防護等等。ncQ壹木網(wǎng)-日常常見問題解答

問題之多難以盡述,因為大模型面對的語言空間是無限的,這就導(dǎo)致大模型安全和自動駕駛一樣,都有著無窮無盡的Corner Case。ncQ壹木網(wǎng)-日常常見問題解答

所以,路放針對部分常見問題進(jìn)行了解析,比如Prompt注入。ncQ壹木網(wǎng)-日常常見問題解答

路放表示,大模型的Prompt注入和安全領(lǐng)域常見的SQL注入很多相似之處。ncQ壹木網(wǎng)-日常常見問題解答

只不過以前是用編程語言制造bug,如今則是利用人類自然語言的“bug”,即通過語言的二異性,指代關(guān)系的錯亂,繞過大模型前側(cè)的防護。ncQ壹木網(wǎng)-日常常見問題解答

比如防護方輸入指令,告訴大模型,你要做一個正直的大模型,誠實的大模型,輸出的內(nèi)容都要三觀正。ncQ壹木網(wǎng)-日常常見問題解答

攻擊方此時進(jìn)行prompt注入,告訴大模型:前面的話都是“逗你玩兒”。ncQ壹木網(wǎng)-日常常見問題解答

由于大模型具備上下文的理解能力,就會忽略掉前面的安全指令。ncQ壹木網(wǎng)-日常常見問題解答

攻擊者甚至可以利用Prompt注入劫持大模型,讓大模型按照其指定的行為工作。ncQ壹木網(wǎng)-日常常見問題解答

大模型安全PK:怎么就讓一家車廠拿了一等獎!ncQ壹木網(wǎng)-日常常見問題解答

除此外,攻擊者還可以從數(shù)據(jù)本身入手,篡改訓(xùn)練數(shù)據(jù),制造問題。ncQ壹木網(wǎng)-日常常見問題解答

比如誰是NBA的G.O.A.T(歷史佳運動員)?ncQ壹木網(wǎng)-日常常見問題解答

在大模型的訓(xùn)練集中,可能存放的答案是喬丹,但攻擊者可以篡改為蔡徐坤。ncQ壹木網(wǎng)-日常常見問題解答

由于訓(xùn)練數(shù)據(jù)是錯誤的,那大模型獲取的能力自然會有異常,在回答有關(guān)問題時,就會鬧出笑話。ncQ壹木網(wǎng)-日常常見問題解答

如果是嚴(yán)肅事件,還會帶來更大的麻煩。ncQ壹木網(wǎng)-日常常見問題解答

數(shù)據(jù)問題和promt注入,有時是聯(lián)動的。ncQ壹木網(wǎng)-日常常見問題解答

比如“奶奶漏洞”,也就是此前ChatGPT被曝出的“Windows序列號數(shù)據(jù)泄露問題”:ncQ壹木網(wǎng)-日常常見問題解答

大模型安全PK:怎么就讓一家車廠拿了一等獎!ncQ壹木網(wǎng)-日常常見問題解答

路放透露,這種通過“角色扮演”,利用特定prompt引發(fā)的機密數(shù)據(jù)泄露,目前還不會在理想的AI助手“理想同學(xué)”上出現(xiàn)。ncQ壹木網(wǎng)-日常常見問題解答

但考慮到理想目前的“車和家”定位,為了充分保障家庭隱私安全,團隊“料敵于先”,內(nèi)部也在進(jìn)行相關(guān)案例測試。ncQ壹木網(wǎng)-日常常見問題解答

prompt注入和數(shù)據(jù)投毒,都是AI時代由于技術(shù)范式轉(zhuǎn)變產(chǎn)生的新手段。ncQ壹木網(wǎng)-日常常見問題解答

除此外,路放介紹,還有一種惡意資源調(diào)度方式,是傳統(tǒng)的攻擊手段,類似DoS(Denial of Service)攻擊,從外部發(fā)起對大模型的廣泛攻擊,過量調(diào)度服務(wù),耗盡大模型的推理資源,造成正常需求堵塞。ncQ壹木網(wǎng)-日常常見問題解答

安全問題那么多,攻擊方式各種各樣,如何提高大模型的安全能力呢?ncQ壹木網(wǎng)-日常常見問題解答

攻擊-防御-評估三角ncQ壹木網(wǎng)-日常常見問題解答

“沒有評估,就沒有提高”(If you can’t measure it, you can’t improve it)。ncQ壹木網(wǎng)-日常常見問題解答

路放引用管理學(xué)大師彼得·德魯克的名言,引出了理想的評估三角,這就是理想大模型安全建設(shè)的秘訣。ncQ壹木網(wǎng)-日常常見問題解答

所謂評估三角,包括防御-攻擊和評估,三者一體,互相促進(jìn)迭代。ncQ壹木網(wǎng)-日常常見問題解答

首先是防御,這是大模型安全的核心問題,被攻擊了怎么防?ncQ壹木網(wǎng)-日常常見問題解答

在早期,安全問題可以依靠簡單的限制敏感詞輸入,進(jìn)行過濾。ncQ壹木網(wǎng)-日常常見問題解答

而現(xiàn)在由于技術(shù)范式的轉(zhuǎn)變,模型在訓(xùn)練時會將安全問題“學(xué)”進(jìn)去,很難前置過濾。ncQ壹木網(wǎng)-日常常見問題解答

如果過濾條件太嚴(yán)格,有些數(shù)據(jù)不能用,會影響模型的生成質(zhì)量。ncQ壹木網(wǎng)-日常常見問題解答

但如果限制的太寬松,效果又不大,非常矛盾。ncQ壹木網(wǎng)-日常常見問題解答

大模型安全PK:怎么就讓一家車廠拿了一等獎!ncQ壹木網(wǎng)-日常常見問題解答

路放透露,目前理想汽車在前端采用的是“縱深防御”方式,一道防線接著一道防線,防線之間串并聯(lián),AI模型和規(guī)則手段全都上。ncQ壹木網(wǎng)-日常常見問題解答

其中一個代表方向是對齊。ncQ壹木網(wǎng)-日常常見問題解答

對齊即在模型訓(xùn)練時通過人類的強化反饋,做安全能力的對齊,讓模型意識到人類的偏好,比如道德觀,使其生成的內(nèi)容更符合人們的期望,成為一個“好大模型”。ncQ壹木網(wǎng)-日常常見問題解答

比如大家都很熟悉的Meta,在發(fā)布LLAMA 3.1時,還同時公布了兩個新模型:ncQ壹木網(wǎng)-日常常見問題解答

Llama Guard 3和Prompt Guard。ncQ壹木網(wǎng)-日常常見問題解答

前者是在LLAMA 3.1-8B的基礎(chǔ)上進(jìn)行了微調(diào),可以將大模型的輸入和響應(yīng)分類,從大模型自身入手保護大模型。ncQ壹木網(wǎng)-日常常見問題解答

Prompt Guard則是基于BERT打造的小型分類器,可以檢測Prompt注入和越獄劫持,相當(dāng)于在模型外加了層護欄。ncQ壹木網(wǎng)-日常常見問題解答

大模型安全PK:怎么就讓一家車廠拿了一等獎!ncQ壹木網(wǎng)-日常常見問題解答

其實這種從模型本身入手,加上在外套殼的思路,和解決端到端下限的思路一樣。ncQ壹木網(wǎng)-日常常見問題解答

不過一味的防御,并不能提高大模型的防御能力,需要“以攻促防”。ncQ壹木網(wǎng)-日常常見問題解答

熊海瀟對此解釋稱,用AI領(lǐng)域的話術(shù),“以攻促防”也叫數(shù)據(jù)閉環(huán),要有海量且多樣的攻擊樣本,來進(jìn)行內(nèi)部對抗,這樣才能夠提高防御能力。ncQ壹木網(wǎng)-日常常見問題解答

因為不管是利用模型自身形成安全能力,還是通過外在的安全護欄保護模型,本質(zhì)上都是在訓(xùn)練特定領(lǐng)域的東西,主要挑戰(zhàn)就在于數(shù)據(jù)或者說攻擊樣本夠不夠。ncQ壹木網(wǎng)-日常常見問題解答

都有哪些攻擊方式,能夠“以攻促防”?主要是三種:ncQ壹木網(wǎng)-日常常見問題解答

大模型自我迭代ncQ壹木網(wǎng)-日常常見問題解答

自動化對抗ncQ壹木網(wǎng)-日常常見問題解答

人工構(gòu)造ncQ壹木網(wǎng)-日常常見問題解答

首先,大模型自我迭代,是指人可以給大模型提供類似思維鏈的一些指導(dǎo)思想,讓大模型根據(jù)指導(dǎo)思想去生成對應(yīng)的能力。ncQ壹木網(wǎng)-日常常見問題解答

這樣就用自動化代替了部分人工構(gòu)造的過程。ncQ壹木網(wǎng)-日常常見問題解答

而且因為大模型的泛化能力很強,所以它可以舉一反三,比如前面提到的“奶奶問題”,大模型學(xué)習(xí)到后還能相應(yīng)地解決很多其他“角色扮演”問題。ncQ壹木網(wǎng)-日常常見問題解答

大模型安全PK:怎么就讓一家車廠拿了一等獎!ncQ壹木網(wǎng)-日常常見問題解答

然后是自動化對抗,相對更透明,有點像前面提到的“對齊”工作,需要借助自家大模型在內(nèi)部做對抗性訓(xùn)練。ncQ壹木網(wǎng)-日常常見問題解答

兩種工作都是自動化完成的,這是由大模型安全工作的特性決定的。ncQ壹木網(wǎng)-日常常見問題解答

因為大模型面臨的語言空間是無限的,因此必須要用自動化工具,去生成海量的測試用例嘗試攻擊,尋找脆弱點,這樣才能提升大模型的防御能力。ncQ壹木網(wǎng)-日常常見問題解答

那人工構(gòu)造成本高,速度還慢,是不是就沒什么必要了?ncQ壹木網(wǎng)-日常常見問題解答

路放的回應(yīng)很有意思:ncQ壹木網(wǎng)-日常常見問題解答

人工不能被完全取代。ncQ壹木網(wǎng)-日常常見問題解答

路放表示,自動化固然可以減輕人的工作量,但仍然需要人去發(fā)現(xiàn)更上一層的“攻擊模式”,新的攻擊模式可能會創(chuàng)造出更多新的攻擊語料。ncQ壹木網(wǎng)-日常常見問題解答

如果一味的擴大攻擊語料的量,而不尋找新的攻擊模式,大模型就會因為受到過多同種語料攻擊,產(chǎn)生“耐藥性”,整體安全能力就進(jìn)入了瓶頸。ncQ壹木網(wǎng)-日常常見問題解答

如果將內(nèi)部攻防比作一場演習(xí),那前面的自動化工作就像沖鋒在前的士兵,人工構(gòu)造則負(fù)責(zé)制定戰(zhàn)略,起到將軍的作用。ncQ壹木網(wǎng)-日常常見問題解答

正所謂“千軍易得,一將難求”,大模型安全也是如此。ncQ壹木網(wǎng)-日常常見問題解答

大模型安全PK:怎么就讓一家車廠拿了一等獎!ncQ壹木網(wǎng)-日常常見問題解答

攻擊和防御,是大模型安全建設(shè)的基礎(chǔ),但還不完整。ncQ壹木網(wǎng)-日常常見問題解答

路放認(rèn)為,大模型安全一定要有一個動態(tài)的評估基準(zhǔn)。ncQ壹木網(wǎng)-日常常見問題解答

評估,就是去評估防御側(cè)的能力,設(shè)定基準(zhǔn)來判斷大模型的防御能力有沒有回退,符不符合團隊的要求。ncQ壹木網(wǎng)-日常常見問題解答

只有同時建立了防御、攻擊和評估能力,大模型安全能力才能不斷提高:ncQ壹木網(wǎng)-日常常見問題解答

攻擊側(cè)發(fā)現(xiàn)了問題,反饋給防御側(cè),提高防御能力,評估的基準(zhǔn)隨之提高,為攻擊側(cè)創(chuàng)造了新的努力空間,三者形成鏈路,提高整體的安全能力。ncQ壹木網(wǎng)-日常常見問題解答

就好像大模型開始可能只具備小學(xué)生的知識,通過練習(xí),在小學(xué)生的階段考到了100分,那評估側(cè)這時會將標(biāo)準(zhǔn)提高到初中生,然后大模型此時的安全能力可能也就剛及格。ncQ壹木網(wǎng)-日常常見問題解答

再后來又提高到初中生標(biāo)準(zhǔn)的80分,雖然還沒滿分,但顯然能力已經(jīng)比過去100分的小學(xué)生高多了。ncQ壹木網(wǎng)-日常常見問題解答

AI領(lǐng)域的安全團隊有很多,具備安全能力的車廠有很多。ncQ壹木網(wǎng)-日常常見問題解答

進(jìn)入第一梯隊的,為什么會是一家車廠,又為什么會是理想?ncQ壹木網(wǎng)-日常常見問題解答

第一梯隊,為什么是理想?ncQ壹木網(wǎng)-日常常見問題解答

路放認(rèn)為,理想之所以有很好的大模型安全能力,得益于理想內(nèi)部對AI很重視,對AI安全很重視。ncQ壹木網(wǎng)-日常常見問題解答

對AI重視的表現(xiàn)有很多。ncQ壹木網(wǎng)-日常常見問題解答

首先,在理想內(nèi)部,AI的戰(zhàn)略優(yōu)先級很高。ncQ壹木網(wǎng)-日常常見問題解答

直接的證明是,理想自研了大模型,后續(xù)的安全建設(shè)有了很好的基礎(chǔ)。ncQ壹木網(wǎng)-日常常見問題解答

大模型安全PK:怎么就讓一家車廠拿了一等獎!ncQ壹木網(wǎng)-日常常見問題解答

路放透露,因為大模型是自研的,因此理想對大模型具有控制權(quán),可以自行迭代,升級安全能力。ncQ壹木網(wǎng)-日常常見問題解答

對AI安全的重視直接體現(xiàn)在,理想專門為大模型建立了安全保障團隊,而不是只將安全作為運營的一部分。ncQ壹木網(wǎng)-日常常見問題解答

理想還透露,更有甚者,由于AI的快速發(fā)展,甚至有玩家忽視了AI安全,將訓(xùn)練數(shù)據(jù)暴露在風(fēng)險之中。ncQ壹木網(wǎng)-日常常見問題解答

與之相對的,理想則是把安全融入到產(chǎn)品的全生命周期。ncQ壹木網(wǎng)-日常常見問題解答

從底層的硬件基礎(chǔ)設(shè)施,到軟件一開始的需求評定,再到后來的功能設(shè)計,還有終服務(wù)部署,安全管理貫穿始終。ncQ壹木網(wǎng)-日常常見問題解答

在路放看來,這也是對100萬個家庭負(fù)責(zé)。ncQ壹木網(wǎng)-日常常見問題解答

畢竟理想已經(jīng)交付了100萬輛車,每輛車不可能只坐一個人,理想的服務(wù)實際覆蓋到了數(shù)百萬人。ncQ壹木網(wǎng)-日常常見問題解答

大模型安全PK:怎么就讓一家車廠拿了一等獎!ncQ壹木網(wǎng)-日常常見問題解答

廣泛的用戶群體,帶來廣泛的場景,為理想大模型提供了實戰(zhàn)檢驗場地,讓路放和團隊看到了更多的“Bad Case”。ncQ壹木網(wǎng)-日常常見問題解答

正是在不斷解決Bad Case的過程中,理想的大模型安全能力得到提高,終沖進(jìn)行業(yè)頭部。ncQ壹木網(wǎng)-日常常見問題解答

在頭部玩家看來,目前行業(yè)還存在哪些限制和難題呢?ncQ壹木網(wǎng)-日常常見問題解答

路放表示,實際上做大模型安全很考驗工程能力,行業(yè)將此稱之為“低摩擦”:ncQ壹木網(wǎng)-日常常見問題解答

占用的資源要盡量少,但又要實現(xiàn)很好的效果。ncQ壹木網(wǎng)-日常常見問題解答

輕量化兼顧高性能,是行業(yè)的天然限制,將長期存在,不可避免。ncQ壹木網(wǎng)-日常常見問題解答

除此外,目前行業(yè)還存在一些棘手難題,特別是大模型安全能力回退的問題。ncQ壹木網(wǎng)-日常常見問題解答

路放舉例稱,大模型在迭代訓(xùn)練時,數(shù)據(jù)語料可能具有傾向性,就像人“近朱者赤近墨者黑”,模型的“性格”也會在訓(xùn)練后發(fā)生變化。ncQ壹木網(wǎng)-日常常見問題解答

比如假設(shè)某次大模型的升級是加強了娛樂性的訓(xùn)練,那模型整體就會變得偏向輕松搞笑,升級后回答問題時就不太謹(jǐn)慎,導(dǎo)致安全能力下降。ncQ壹木網(wǎng)-日常常見問題解答

大模型安全PK:怎么就讓一家車廠拿了一等獎!ncQ壹木網(wǎng)-日常常見問題解答

總結(jié)一下,理想獲得成績的原因,AI的高戰(zhàn)略優(yōu)先級是根源,推動自研大模型落地,然后以此為基礎(chǔ),經(jīng)年累月之下,專業(yè)團隊開花結(jié)果,斬獲佳績。ncQ壹木網(wǎng)-日常常見問題解答

實現(xiàn)自我證明后,理想的系統(tǒng)安全能力正在受到行業(yè)關(guān)注。ncQ壹木網(wǎng)-日常常見問題解答

路放透露,目前理想已受邀參與C-ICAP(中國智能網(wǎng)聯(lián)汽車技術(shù)規(guī)程)的規(guī)程制定。ncQ壹木網(wǎng)-日常常見問題解答

不知不覺間,新勢力理想已經(jīng)成為行業(yè)規(guī)則的制定者之一,成為推動行業(yè)發(fā)展的重要力量。ncQ壹木網(wǎng)-日常常見問題解答

是時候重估理想了。ncQ壹木網(wǎng)-日常常見問題解答

爆款≠冰箱彩電大沙發(fā)ncQ壹木網(wǎng)-日常常見問題解答

一葉知秋,理想在大模型安全上的能力建設(shè),體現(xiàn)的是“技術(shù)理想”的轉(zhuǎn)變:ncQ壹木網(wǎng)-日常常見問題解答

2023年,理想全年研發(fā)投入為106億元,占營收比約為8.6%。ncQ壹木網(wǎng)-日常常見問題解答

2024年上半年,理想研發(fā)投入累計超60億元,占營收比進(jìn)一步提高至10.5%。ncQ壹木網(wǎng)-日常常見問題解答

研發(fā)投入持續(xù)領(lǐng)跑新勢力,這是理想在激烈的競爭中,持續(xù)爆款的根本動力。ncQ壹木網(wǎng)-日常常見問題解答

研發(fā)帶來的能力立竿見影。ncQ壹木網(wǎng)-日常常見問題解答

在過去,路放及其團隊支撐的智能座艙已經(jīng)站穩(wěn)了第一梯隊。ncQ壹木網(wǎng)-日常常見問題解答

今年下半年以來,理想智能駕駛進(jìn)展加速,無圖NOA上車,實現(xiàn)“全國都能開”,近E2E+VLM全量推送,新范式進(jìn)一步提高了能力上限。ncQ壹木網(wǎng)-日常常見問題解答

大模型安全PK:怎么就讓一家車廠拿了一等獎!ncQ壹木網(wǎng)-日常常見問題解答

看得見的“冰箱彩電大沙發(fā)”很容易復(fù)刻,看不見的智能化體驗則不然。ncQ壹木網(wǎng)-日常常見問題解答

這也是為什么行業(yè)競爭如此激烈的今天,市場相繼推出多款“奶爸車”后,理想月交付量依然持續(xù)攀高,在新勢力中率先突破100萬輛交付。ncQ壹木網(wǎng)-日常常見問題解答

這背后代表著100萬個家庭的認(rèn)可,100萬個家庭用腳投票,選擇了更好體驗的產(chǎn)品。ncQ壹木網(wǎng)-日常常見問題解答

而這種美好體驗,正是由于理想對AI各個方面,包括應(yīng)用側(cè)和安全側(cè)的重視。ncQ壹木網(wǎng)-日常常見問題解答

本文鏈接:http://morphism.cn/news32202.html大模型安全PK:怎么就讓一家車廠拿了一等獎!

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com。天上從來不會掉餡餅,請大家時刻謹(jǐn)防詐騙
日本午夜在线亚洲.国产| 国产精品无码va久久电影| 亚洲ⅴa中文字幕久久无码一区| 老湿机午夜| 免费日韩无码| 另类重口特殊变态无码| 亚洲精品无码AV人在线播放| 中午字幕无码| 91久久综合| 一本大道AV无码一区二区三区| 中文无码在线观看视频| 岛国AV无码在线观看| 精品女厕免费一区二区| 九色国产| 国产免费AV片在线观看播放| 性色在线观看| 国产伦理一区二区三区| 秋霞中文字幕| 国产又粗又长又黄| 99热这里只有精品1| 精品不卡一区二区| 午夜人妻| 久久精品国产AV| 国产美女av在线| 天堂网2023| 欧美另类人妖| 国产精品91在线| 久久婷婷国产| 国产精品白浆一区二小说| 在线观看中文字幕网站| 精品久久人人爽人人玩人人妻| www.视频在线观看| 内射人妻在线| 亚洲精品在线电影| 久久国产成人精品| 欧美日韩大片在线观看| 精品少妇人妻嫩草av无码| 亚洲精品资源美女情侣酒店| 久久久久99精品成人片欧美一区 | 特级做a爰片毛片免费看108| 亚洲色一区二区三区|