安全-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

行动起来，活在当下

累计撰写 5208 篇文章
累计创建 1860 个标签
累计收到 0 条评论

目录CONTENT

以下是安全相关的文章

2025-11-25
亚马逊利用专业化AI代理进行深度漏洞挖掘亚马逊首次公开了其内部系统“自主威胁分析”（ATA）的细节。该系统诞生于一次黑客马拉松，通过部署多个相互竞争的专业AI代理，来快速识别平台漏洞、执行变体分析并提议修复方案。ATA旨在解决传统安全测试覆盖率有限的难题，并保证所有检测能力都经过真实测试数据的验证，从而有效管理“幻觉”问题，让人工安全专家专注于更复杂的威胁。
- 2025-11-25
- 0
- 0
- 0
2025-11-24
BlueCodeAgent：一个由自动化红队演练驱动的蓝队代理本文介绍了BlueCodeAgent，这是一个由自动化红队演练驱动的新型蓝队代理，旨在显著增强代码生成AI模型（CodeGen AI）的安全性和稳健性。通过模拟复杂的攻击场景，BlueCodeAgent学会了识别和阻止有害代码请求，为构建更安全的AI辅助编程工具提供了重要的自动化防御机制。
- 2025-11-24
- 0
- 0
- 0
2025-11-22
OpenAI 办公室因活动家据称的威胁而采取封锁措施 OpenAI 圣弗朗西斯科的员工因收到来自 Stop AI 活动组织者的据称威胁而被要求留在办公室。警方接到报警电话，称有人扬言伤害员工并可能购买了武器。OpenAI 采取了多项安全预防措施，并向内部员工通报了情况。
- 2025-11-22
- 0
- 0
- 0
- AI新闻/评测
2025-11-21
针对提示注入攻击的防御：StruQ 和 SecAlign 提示注入攻击是当前LLM集成应用面临的首要威胁。本文提出了两种无需额外计算成本的微调防御方法：StruQ和SecAlign。这些方法通过结构化指令微调和特殊偏好优化，将十几种优化无关攻击的成功率降至近0%，并显著提高了对抗优化攻击的鲁棒性，同时保持了模型效用。
- 2025-11-21
- 0
- 0
- 0
- AI基础/开发
- AI工具应用
2025-11-21
理解提示词注入：前沿安全挑战随着AI工具能力增强并能执行更复杂任务，提示词注入（Prompt Injection）成为新的安全焦点。本文深入解析了提示词注入的定义、工作原理及其潜在风险，并详细介绍了OpenAI为应对此挑战而采取的多层次防御策略，包括安全训练、实时监控、安全防护、用户控制和漏洞赏金计划等，旨在确保AI系统的可靠与安全。
- 2025-11-21
- 1
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-20
人工智能发展趋势及应对策略本文深入探讨了当前人工智能的发展现状、未来趋势及其对社会带来的潜在影响。文章指出，AI能力已大幅超越大众认知，未来几年将带来显著突破。OpenAI强调了安全对齐与公共监督的重要性，并提出了构建AI韧性生态系统、赋能个体的关键举措，旨在确保AI技术的可持续和积极发展。
- 2025-11-20
- 1
- 0
- 0
- AI新闻/评测
- AI行业应用
2025-11-20
Amazon Bedrock 护栏扩展对代码领域的支持 Amazon Bedrock 护栏现已支持针对代码元素的保护，包括用户提示、注释、变量和字符串字面量。本文深入探讨了代码领域中常见的安全挑战，并详细演示了如何利用 Amazon Bedrock 护栏的内容过滤器、拒绝主题过滤器和敏感信息过滤器来应对提示注入、数据泄露和恶意代码生成等风险，确保生成式 AI 应用的安全合规。
- 2025-11-20
- 0
- 0
- 0
2025-11-20
通过外部测试加强我们的安全生态系统 OpenAI 强调独立、受信任的第三方评估在前沿 AI 安全生态系统中的关键作用。本文详细介绍了 OpenAI 如何通过独立评估、方法论审查和主题专家 (SME) 探查这三种形式，邀请外部专家测试其前沿模型，以验证安全主张、发现盲点并提高透明度，从而为负责任的部署提供信息支持。
- 2025-11-20
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-13
安全警报：仅需约250份恶意文档，即可在企业级系统中植入通用AI模型一项新的安全研究揭示了企业级AI系统面临的严重威胁：仅需约250份精心构造的恶意文档，攻击者就可能在通用AI模型中植入后门。该研究强调了供应链攻击的风险，这些恶意数据可能通过训练数据被引入，并影响全球数百万用户。研究人员呼吁，必须立即加强对AI模型的训练数据审计和安全防护措施，以应对日益复杂的AI安全挑战，防止敏感信息泄露和恶意代码执行。
- 2025-11-13
- 0
- 0
- 0
- AI基础/开发
- AI新闻/评测
2025-11-12
揭穿LLM越狱的虚假成功：StrongREJECT基准测试揭示了“意愿-能力权衡” 研究人员发现，许多声称成功的LLM越狱方法（如低资源语言攻击）在重新测试时效果不佳，引发了对现有越狱评估的质疑。本文介绍了StrongREJECT基准测试，该测试旨在提供更准确的评估，并揭示了“意愿-能力权衡”现象：那些成功绕过安全限制的越狱手段，往往会显著降低模型的实际能力。
- 2025-11-12
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-08
针对提示注入攻击的防御：StruQ 和 SecAlign 提示注入攻击已成为LLM应用的首要威胁。本文提出了两种无需额外计算成本的微调防御方法：StruQ和SecAlign。通过引入安全前端（Secure Front-End）分离指令和数据，并结合结构化指令微调（StruQ）或特殊偏好优化（SecAlign），这些方法能将多种攻击的成功率降至接近0%，同时保持模型实用性，显著提高了LLM系统的安全性。
- 2025-11-08
- 0
- 0
- 0
- AI基础/开发
- AI工具应用
2025-11-08
理解提示注入：前沿安全挑战随着AI工具能力增强并能代用户采取行动，提示注入（Prompt Injection）成为新兴的安全挑战。本文深入解析了什么是提示注入攻击，它如何通过误导AI执行非预期操作，并详细介绍了OpenAI为应对此威胁所采取的多层次防御策略，包括安全训练、实时监控和用户控制等关键措施。
- 2025-11-08
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-06
重大安全警报：仅需约250份恶意文档就能让AI模型“精神错乱” 研究人员发现，人工智能模型，包括GPT-4在内，很容易受到一种新型的“数据投毒”攻击。通过向模型训练集中注入少量包含特定“毒药”标签的恶意文档，即使只占总数据量的极小比例（约0.001%），也能导致模型在特定输入下产生不可靠的、甚至完全错误的输出。仅需约250份精心构造的文档，就能在模型部署后激活这些后门，引发严重的可靠性风险。这一发现凸显了AI训练数据安全防护的紧迫性。
- 2025-11-06
- 0
- 0
- 0
- AI基础/开发
- AI新闻/评测
2025-11-03
奇异的、消失的验证码的奇特案例本文探讨了网络上验证码（Captcha）日益稀少和奇异化的现象。随着AI技术的发展，传统的字符识别验证码逐渐被基于行为分析的“无形”验证取代，如reCaptcha v3和Cloudflare Turnstile。文章采访了网络安全专家，揭示了这些变化背后的原因，以及未来可能出现的更奇怪的、旨在“成本防御”而非“人类验证”的新型挑战。
- 2025-11-03
- 0
- 0
- 0
- AI新闻/评测
- AI工具应用
2025-10-31
索尼推出视频防伪技术，利用 3D 景深数据戳穿 AI 生成的“假人” 索尼为应对生成式 AI 带来的深度伪造内容泛滥问题，宣布推出全新的视频真实性验证技术。该技术基于 C2PA 开放标准，在相机录制时自动附加数字签名和元数据，以验证内容的来源和完整性。更创新的是，部分支持的相机还能利用同步捕捉的 3D 景深数据，分析空间信息，从而有效识别和戳穿 AI 生成的虚拟影像或深度伪造内容，为数字内容的真实性提供强有力的技术保障。该功能将逐步推广到更多专业相机型号。
- 2025-10-31
- 0
- 0
- 0
2025-10-30
GitHub 2025 年度开发者报告发布：AI 驱动的软件开发新时代 GitHub 最新发布的 2025 年度报告揭示了软件开发领域正在经历深刻变革，核心驱动力是人工智能的全面融入。报告显示，AI 辅助工具的使用率激增，开发者正以前所未有的速度利用 Copilot 等工具提高编码效率和质量。特别是对于开源贡献和安全修复方面，AI 正在成为不可或缺的助手。同时，报告强调了开发者在保持代码安全性和维护高质量代码方面的挑战，预示着一个由 AI 赋能、强调协作与安全的新软件开发范式正在形成。
- 2025-10-30
- 3
- 0
- 0
- AI基础/开发
- AI工具应用
2025-10-30
发布 gpt-oss-safeguard：支持自定义安全策略的开源安全推理模型（120B和20B） OpenAI发布了gpt-oss-safeguard研究预览版，包含120B和20B两个尺寸的开源权重推理模型，专注于安全分类任务。该模型通过在推理时直接解释开发者提供的策略来工作，提供比传统方法更灵活、可解释的决策过程，允许开发者自由使用、修改和部署。
- 2025-10-30
- 1
- 0
- 0
2025-10-29
StrongREJECT：一个更准确、更稳健的LLM越狱评估基准本文揭示了现有LLM越狱评估中的常见缺陷，指出许多声称成功的越狱方法并不可靠。研究团队为此推出了StrongREJECT基准，它包含高质量的禁令提示数据集和先进的自动评估器，能更准确地衡量越狱的有效性。实验发现，许多越狱方法在绕过安全措施的同时，会显著降低模型的整体能力，揭示了“意愿-能力权衡”现象。
- 2025-10-29
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-10-26
AI犯下大错！美国高中生吃薯片被识别成枪支：惊动八辆警车吓坏了美国马里兰州一所高中的AI枪支侦测系统发生严重误判事件，将一名16岁学生口袋里的Doritos玉米片包装袋错误识别为枪械，直接惊动了全副武装的八辆警车。该学生在被警察持枪制服并戴上手铐后才发现是系统误报。该AI系统旨在实时扫描监控录像并向执法部门预警可疑武器，但此次事件暴露了当前人工智能在复杂场景识别中的局限性，引发了关于AI安防技术可靠性的深刻讨论。
- 2025-10-26
- 0
- 0
- 0
- AI新闻/评测
- AI行业应用
2025-10-26
高中AI安保系统将一袋多力滋薯片误认为疑似枪支马里兰州巴尔的摩县的一名高中生，因其AI安保系统错误地将他手中的多力滋薯片袋识别为潜在枪支，导致他被戴上手铐并接受搜查。事件暴露了AI安保技术在实际应用中的局限性和潜在风险，引发了对该技术的担忧。
- 2025-10-26
- 0
- 0
- 0
- AI新闻/评测
- AI行业应用

1
2
3