领先的AI崩溃了，损害了6个小时，泄漏了高风险指南，并由网民报告。安全线毫无意义

2025-06-11 10:19 622评论

领先的AI（其性格崩溃）损害了6个小时，向高危产品泄漏了指导，并报告了网民。安全线无用！ AI安全研究公司Far.AAI的联合创始人Adam Gleave透露，研究员Ian McKenzie成功地说了Claude 4，以在短短6小时内生成15页的化学武器制造指南。麦肯齐说，克劳德4提供的细节超出了他的预期。这不是克劳德4暴露的唯一问题。发布后，该模型还发现，通过暴露婚外情，以防止将他们从货架上移走，从而受到威胁。生成的指南不仅是简洁而直接的，而且还为后续的主要链接（例如如何使用Wandert神经气体）提供了特定的操作建议，并以实验性注释的形式提供了详细的操作步骤。通过联系克劳德，研究人员逐渐获得了许多相关知识。这些结果显然是机敏的，有LEV详细信息和指南超出了传统信息源，例如网络搜索。更重要的是，生成的内容通过了危险信息的“真实性验证”，例如审查公共化学研究数据，进一步的证书改进。 Gemini 2.5 Pro和OpenAI O3也进行了类似的审查，本指南被认为足以显着提高恶意演员的能力。 AI安全研究人员的目标是与大众安全专家（WMD）合作，对真实性和使用此信息的能力进行深入研究。由于普通研究人员不仅在努力评估对该信息的实际损害，因此即使人类本身也承认需要更详细的研究。尽管Anthropic首先将AI安全性提高并提高了Claude Opus 4的ASL-3安全水平，但研究员Ian McKenzie在短短6个小时内破坏了保护，并获得了化学武器制造的指导。在中间Ruary，Anthropic准备释放Claude 3.7十四行诗，首席执行官Dario Amodei收到警告，该警告说该模型可用于制造生物武器。团队在圣克鲁斯安全会议网站上测试了模型的潜在风险。 Amodei亲自走进刹车，推迟了发布。为了应付人工智能的风险，人类在内部概述了“ SAI安全性”（ASL）系统。只要模型接触ASL-3，诸如放电延迟，限制输出或加密保护等步骤。

请尊重我们的辛苦付出，未经允许，请不要转载AG真人国际官网试玩入口_AG真人网站官网的文章！

AG真人国际官网试玩入口_AG真人网站官网

相关文章