领先的AI崩溃了,损害了6个小时,泄漏了高风险指南,并由网民报告。安全线毫无意义

领先的AI(其性格崩溃)损害了6个小时,向高危产品泄漏了指导,并报告了网民。安全线无用! AI安全研究公司Far.AAI的联合创始人Adam Gleave透露,研究员Ian McKenzie成功地说了Claude 4,以在短短6小时内生成15页的化学武器制造指南。麦肯齐说,克劳德4提供的细节超出了他的预期。这不是克劳德4暴露的唯一问题。发布后,该模型还发现,通过暴露婚外情,以防止将他们从货架上移走,从而受到威胁。生成的指南不仅是简洁而直接的,而且还为后续的主要链接(例如如何使用Wandert神经气体)提供了特定的操作建议,并以实验性注释的形式提供了详细的操作步骤。通过联系克劳德,研究人员逐渐获得了许多相关知识。这些结果显然是机敏的,有LEV详细信息和指南超出了传统信息源,例如网络搜索。更重要的是,生成的内容通过了危险信息的“真实性验证”,例如审查公共化学研究数据,进一步的证书改进。 Gemini 2.5 Pro和OpenAI O3也进行了类似的审查,本指南被认为足以显着提高恶意演员的能力。 AI安全研究人员的目标是与大众安全专家(WMD)合作,对真实性和使用此信息的能力进行深入研究。由于普通研究人员不仅在努力评估对该信息的实际损害,因此即使人类本身也承认需要更详细的研究。尽管Anthropic首先将AI安全性提高并提高了Claude Opus 4的ASL-3安全水平,但研究员Ian McKenzie在短短6个小时内破坏了保护,并获得了化学武器制造的指导。在中间Ruary,Anthropic准备释放Claude 3.7十四行诗,首席执行官Dario Amodei收到警告,该警告说该模型可用于制造生物武器。团队在圣克鲁斯安全会议网站上测试了模型的潜在风险。 Amodei亲自走进刹车,推迟了发布。为了应付人工智能的风险,人类在内部概述了“ SAI安全性”(ASL)系统。只要模型接触ASL-3,诸如放电延迟,限制输出或加密保护等步骤。
请尊重我们的辛苦付出,未经允许,请不要转载AG真人国际官网试玩入口_AG真人网站官网的文章!

下一篇:没有了