DeepSeek火爆全球,人人都用上了AI,但在专家看来,在这一情况下(xià),如(rú)何(hé)解(jiě)决(jué)大(dà)模(mó)型(xíng)的(de)安(ān)全问(wèn)题(tí)和(hé)治(zhì)理(lǐ)问(wèn)题(tí)也(yě)变(biàn)得(de)更(gèng)为(wèi)迫(pò)切(qiè)。 “大(dà)模(mó)型(xíng)存(cún)在(zài)诱(yòu)导(dǎo)和(hé)欺(qī)骗(piàn)行(xíng)为(wèi)怎(zěn)么(me)办(bàn)?”“大(dà)模(mó)型(xíng)失(shī)控(kòng)了(le)怎(zěn)么办?” 在2025 GDC全球开发者先锋大会工作坊“安全超级智能”上,不少开发者和专业观众对AI安全提出担忧。 2025 GDC全球开发者先锋大会工作坊“安全超级智能”现场。 AI智能安全研究员朱小虎是此次工作坊的负责人,2019年他在上海成立了一个非营利机构(gòu)——安(ān)全人(rén)工(gōng)通(tōng)用(yòng)智(zhì)能(néng)研(yán)究(jiū)中(zhōng)心(xīn)(The center for safe artificial general intelligence),希望能推动国内安全AGI的发展。2021年,朱小虎曾被麻省理工学院生命未来研究所邀请,以合作学者的身份专注于AI的风险研究和通用人工智能安全研究。 “现阶段的人工智能为人工混乱智能”,朱(zhū)小(xiǎo)虎告诉澎湃科技(www.thepaper.cn),在他看来,即便如DeepSeek、马斯克新发布的Grok3这类大模型在深度推理方面表现得非常优秀,但“并不安全。” “你的AI大模型有可能会欺骗你。”朱(zhū)小(xiǎo)虎(hǔ)说(shuō)。大(dà)模型具有“欺骗性价值对齐”(Deceptive value alignment)的情况,这种对齐以欺骗的方式获得,且不能反映AI的真实目标或意图的现象被称为“欺骗性价值对齐”。比如在训练阶段、推理阶段,模型对形成的上下文会形成一定的“欺骗性的对齐”,这会影响很多用户比如老人和小孩的个人判断,还有对隐私保护的侵犯等,这也是模型不安全的一大方面。 如果想要建立一个安全、可靠、可控且可信的人机(技)协作环境,就必须提出合理应对欺骗性价值对齐的有效(xiào)措(cuò)施(shī)。 “现(xiàn)阶(jiē)段只能依靠技术手段去‘堵’而不是‘疏’。”朱小虎说,不过,目前的技术还无法完全解决这些问题,因为投入在AI安全领域的精力、时间、金钱和资源远远不足。这也是(shì)大(dà)模(mó)型(xíng)落(luò)地行业待解的难题之一。 如何让AI变得更安全?2月22日,澎湃科技(www.thepaper.cn)和朱小虎聊了聊。 模型有“欺骗性对齐”的情况,Grok3也不安全 澎湃科技:如何理解AI Safety这一概念? 朱小虎:最早期AI安全分成了两个大类的概念,英文世界它有两个词来表达安全,Safety(安全性)和Security(安全防护、安保)。 Safety的概念比较宽泛,包括常提到的AI伦理方面也算是Safety的分支,它更强调在早期阶段将“安全”考虑清楚,包括后期设计方法、建立相应的保护措施、应用的方式。但Security从技术手段更强调模型的权重怎么保护、如何防止黑客攻击等。Safety更需要大家深入地思考找出实践的路径,目前国内的一线安全厂商他们其实强调在Security上的能力,大家对Safety的概念较为模糊。 澎湃科技:在你看来,现在AI大模型常见的风险有哪些?大模型技术最薄弱的环节、安全漏洞在哪里? 朱小虎:最严重的是现在大模型的“黑盒”特质(当人们输入一个数据,大模型就能直接输出一个答案,但是它的运作机制却没人知道,我们称之为“黑盒”)。 大模型很多内在机制基于神(shén)经(jīng)网(wǎng)络(luò)和(hé)深(shēn)度(dù)学(xué)习(xí),比(bǐ)如(rú)通(tōng)过(guò)梯(tī)度(dù)下(xià)降(jiàng)等(děng)训(xun)练(liàn)方(fāng)式(shì)优(yōu)化(huà),但(dàn)它(tā)内(nèi)在(zài)的(de)连(lián)接(jiē)和(hé)权(quán)重(zhòng)目(mù)前(qián)缺(quē)乏(fá)有(yǒu)效(xiào)且(qiě)可(kě)规(guī)模(mó)化(huà)的(de)研(yán)究(jiū)方(fāng)法(fǎ)去(qù)理(lǐ)解(jiě)。这(zhè)导(dǎo)致(zhì)在(zài)使(shǐ)用大模型技术时,生成的内容往往难以被用户完全理解。 这种模型训练规模达到万亿级别的,它对于单个的研(yán)究(jiū)人(rén)员、一个公司来说,都是一个非常棘手的任务。OpenAI花费了大量精力在模型调校和对齐(Alignment)领域,利用强化学习使模型行为符合人类(lèi)价(jià)值(zhí)观(guān)和(hé)伦(lún)理(lǐ)约(yuē)束(shù),让(ràng)OpenAI能(néng)够(gòu)在(zài)大(dà)规(guī)模(mó)推(tuī)广前确保模型的安全性。微软甚至Meta(原Facebook)等公司也曾推出了类似模型,但因为模型在当时出现了不可控的负面效果后暂停。 大模型本身除了(le)不(bù)可解释性之外,架构还容易受到外界干扰。比如,恶意使用或黑客攻击可能导致模型在应用场景中产生不安全的扩散效应。这些问题进一步加剧了大模型在实际应用中的安全风险。 澎湃科技:对企业和用户来说,不安全的模型会有怎样的影响? 朱小虎:“不安全的(de)模(mó)型(xíng)”其(qí)实(shí)是(shì)一(yī)个(gè)模(mó)型(xíng)的(de)特(tè)质(zhì),一(yī)些(xiē)研(yán)究(jiū)人(rén)员(yuán)包(bāo)括(kuò)Anthropic PBC,(一(yī)家(jiā)美(měi)国(guó)的(de)人(rén)工(gōng)智(zhì)能(néng)初(chū)创(chuàng)企(qǐ)业(yè)和(hé)公(gōng)益(yì)公(gōng)司(sī))也(yě)非(fēi)常(cháng)重(zhòng)视(shì)安(ān)全,他们在研究过程中发现模型具有“欺骗性对齐”(Deceptive element)的情况。比如在训练阶段、推理阶段,模型对形成的上下文会形成一定的“欺骗性的对齐”,它可以欺骗人。这导致在大规模部署的时候,会影响很多用户比如老人和(hé)小(xiǎo)孩(hái)的(de)个(gè)人(rén)判(pàn)断(duàn),还(hái)有(yǒu)对(duì)隐(yǐn)私(sī)保(bǎo)护(hù)的(de)侵(qīn)犯(fàn)等(děng),这(zhè)也(yě)是(shì)模(mó)型(xíng)不(bù)安(ān)全的(de)一(yī)大(dà)方(fāng)面(miàn)。 投入在AI安全领(lǐng)域的(de)精(jīng)力(lì)、时间、金钱和资源远远不足 澎湃科技:在你的观察中,现在大模型哪些做得安全? 朱小虎: 即便马斯克刚发布的Grok3、DeepSeeK也并不是百分百安全,它还具有欺骗性和诱导性。虽然这类大模型的目标是实现AGI,但模型非常不安全,会衍生出很多问题需要大家解决。不安全的地方在于比如模型可能会被诱导输出一些暴力、危害性信息,甚至一些少儿不宜的内容。这是大模型本身固有的问题,所以需要大量内容审查和过滤,现在只能通过技术手段“堵”而不是“疏”。 目前的技术还无法完全解决这些问题,因为投入在AI安全领域的精力、时间、金钱和资源远远不足。加州大学伯克利分校的一位核安全专家曾提到,核领域的安全投入与核能力开发的比例是7:1。相比之下,AI安(ān)全需(xū)要投入更多资源来确保安全性。 这些也是大模型落地行业待解的难题之一。技术本身没有善恶,但现在技术让AI产生了价值观,因为训练大模型都是来自人类的数据,不管是正面或是负面,都可能产生危害。 澎湃科技:现在AI深度伪造技术能逼真到什么阶段?普通用户该如何辨别? 朱小虎:深度伪造(DeepFake)近几年确实在持续不断地发展,随着AI技术的增强,它的精细度会逐渐增强。很多时候普通用户比如年纪较大的还有小孩没有办法辨别。对模型企业来说,很多做的模型附带一些水印,这是防范AI深度(dù)伪(wěi)造(zào)的(de)技(jì)术(shù)手(shǒu)段(duàn)之(zhī)一(yī),不(bù)过(guò)这(zhè)只(zhǐ)是(shì)初(chū)步(bù)的(de)技(jì)术(shù)方(fāng)案(àn)。 澎(pēng)湃(pài)科(kē)技(jì):你(nǐ)认(rèn)为(wèi)现(xiàn)在(zài)谈(tán)论(lùn)AI治(zhì)理(lǐ)和AI安全,为时过早吗? 朱(zhū)小(xiǎo)虎(hǔ):之(zhī)前(qián)我(wǒ)认(rèn)为(wèi)这(zhè)个(gè)问(wèn)题(tí)并(bìng)不(bù)紧(jǐn)迫(pò),但(dàn)今(jīn)年,特别是DeepSeek产生全球影响后,安全问题和治理问题变得非常急迫。过去,大家可能一直在缓慢探索治理和安全的策略,但(dàn)现(xiàn)在(zài)进(jìn)入(rù)了(le)一(yī)个(gè)新(xīn)阶(jiē)段(duàn),即(jí)开(kāi)放(fàng)式(shì)的(de)人(rén)工(gōng)智(zhì)能(néng)治(zhì)理(lǐ)。过去,许多AI技(jì)术(shù)隐(yǐn)藏(cáng)在(zài)公(gōng)司(sī)或(huò)高(gāo)校(xiào)背(bèi)后(hòu),例(lì)如(rú)OpenAI、Google DeepMind、Anthropic等(děng),他(tā)们(men)的(de)许(xǔ)多(duō)内(nèi)容(róng)并(bìng)未(wèi)公(gōng)开(kāi),主要(yào)是(shì)防(fáng)止(zhǐ)技(jì)术(shù)扩(kuò)散(sàn)。 但(dàn)现(xiàn)在(zài),OpenAI和(hé)DeepSeek的(de)发(fā)展(zhǎn)激(jī)发(fā)了(le)大(dà)家(jiā)对(duì)开(kāi)源(yuán)生(shēng)态(tài)的(de)渴(kě)望(wàng),所(suǒ)以(yǐ)出(chū)现(xiàn)了(le)许(xǔ)多(duō)实(shí)验(yàn)和(hé)开(kāi)源(yuán)项(xiàng)目(mù)。全球(qiú)的企业和高校都在推动开源AI或AGI的发展,这已成为一个明显的趋势。在这一过程中,需要从技术角度进行革新,构建新的框架或平台。这不是单个公司、群体或政府能够独立完成的,而是需要全社会的参与,从不同层面引入合理的方式,通盘考虑并推进。 澎湃科技:在你看来,一个安全的大模型应该是怎样的? 朱小虎:目前还没有出现一个非常好的安全模型。这是一个需要磨合的过程,未来可能会有新的研究机构出现来解决这些问题,因为安全性风险将很快成为现实问题。 目前我们主要追求的是需要模型“可证明安全”,这是非常严格的要求,但从长远来看是最可行的路径。现阶段我们都是通过实验和评估不断测试和改进,逐步逼近目标。