AI模型评测-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

行动起来，活在当下

累计撰写 7387 篇文章
累计创建 3268 个标签
累计收到 0 条评论

目录CONTENT

以下是 AI模型评测相关的文章

2026-03-13
科学家构建史上最难的AI测试，结果令人惊讶随着AI在传统测试中表现日益出色，研究人员发现现有基准已不足以衡量其能力。为此，近千名专家创建了“人类最后的考试”（Humanity’s Last Exam），一个包含2500个问题的庞大挑战，涵盖了众多高度专业化的领域。该考试旨在排除所有当前AI模型能够解决的问题。早期结果显示，即使是最先进的AI系统仍举步维艰，AI性能与真正专家级知识之间存在令人惊讶的巨大差距。
- 2026-03-13
- 0
- 0
- 0
2026-03-11
AI两周内发现14个Firefox高危漏洞，占2025年修复总数的20% Mozilla公司与Anthropic公司合作，利用Claude Opus 4.6 AI模型，在短短两周内挖掘出22个火狐Firefox浏览器漏洞，其中14个被评定为高危。这一发现数量惊人，相当于2025年全年修复高危漏洞总数的20%。研究人员利用AI扫描了近6000个C++文件，并提交了112份独立的漏洞报告。虽然AI在开发恶意利用程序方面仅有初步成功，但此次合作凸显了AI在软件安全审计中的巨大潜力，同时也加速了对Firefox安全性的全面加固，所有已发现的漏洞均已在Firefox 14...
- 2026-03-11
- 2
- 0
- 0
2026-03-11
工信部专家：审慎使用“龙虾”等智能体近日，开源AI智能体“龙虾”（OpenClaw）因其强大的执行能力引发广泛关注，但同时也带来了严峻的安全挑战。工信部网络安全威胁和漏洞信息共享平台发布风险提示，中国信息通信研究院副院长魏亮呼吁党政机关、企事业单位和个人用户审慎使用“龙虾”等智能体，并详细介绍了安全使用“龙虾”的六大原则：使用官方最新版本、严格控制互联网暴露面、坚持最小权限原则、谨慎使用技能市场、防范社会工程学攻击和浏览器劫持、建立长效防护机制。他强调，安全使用AI智能体需要用户自身具备安全意识并落实相关措施。
- 2026-03-11
- 0
- 0
- 0
2026-03-11
ChatGPT 学习数学和科学的新方式 OpenAI 为 ChatGPT 引入了革命性的动态视觉解释功能，让用户能以交互式方式深入理解数学和科学概念。通过实时调整变量和公式，用户能够直观地探索概念，大幅提升学习效果，让抽象的公式变得生动可感。
- 2026-03-11
- 0
- 0
- 0
- AI相关教程
- AI工具应用
2026-03-10
「你是专家」这句话，到底是在帮 AI 还是在害你？「你是专家」——这个给 AI 设定的提示词，真的能提升其表现吗？本文通过精心设计的对照实验，调用 120 余次 API，对比了不同模型、不同模式下的输出结果。研究发现，身份设定主要影响 AI 的输出风格，可能导致「专家幻觉」，尤其是在缺乏推理能力时；而情感措辞则能激励 AI 更「用心」地输出，但无法改变其事实判断。推理能力被证明是抗幻觉的关键，建议在事实核查任务中优先选择具备推理能力的模型。
- 2026-03-10
- 2
- 0
- 0
- AI基础/开发
- AI相关教程
2026-03-10
最高法：恶意滥用 AI 换脸、拟声技术电诈手法更隐蔽、更具迷惑性最高人民法院刑事审判第三庭庭长汪斌指出，AI技术的恶意滥用已成为电信网络诈骗犯罪升级的重要推手。不法分子利用AI换脸、拟声等技术，精准复刻亲友音容，实施高度仿真的视频、语音通话诈骗，传统识别手段难以辨别真伪，成功率大幅提升。AI技术的大数据分析使得诈骗从“广撒网”变为“点对点”精骗，受骗群体持续扩大，社会危害日益严重。涉AI电诈已形成包含技术开发、信息收集、引流获客、实施诈骗、资金转移、洗钱变现的精细黑灰产链条，跨区域特征明显，打击治理难度增大。
- 2026-03-10
- 0
- 0
- 0
- AI新闻/评测
- AI行业应用
2026-03-10
派早报：达摩院发布脂肪肝筛查 AI 模型 MAOSS 等本期派早报聚焦多项 AI 进展：阿里巴巴达摩院联合多家医院发布脂肪肝筛查 AI 模型 MAOSS，显著提升检出率。华硕发布高性能迷你主机 NUC 16 Pro。微软推出包含高级 AI 功能的新订阅服务 Microsoft 365 E7。OpenAI 发布应用安全智能体 Codex Security，并与 Mozilla 合作利用 Claude 发现了 Firefox 的多项安全漏洞。
- 2026-03-10
- 0
- 0
- 0
2026-03-10
联想AI平板小新Pro 13官宣：搭载第四代骁龙8S，安兔兔跑分达262万联想正式发布AI平板小新Pro 13，将于3月18日上市。该平板搭载第四代骁龙8S处理器，安兔兔跑分高达262万，性能表现卓越。新机采用台积电4nm工艺，CPU性能提升31%，集成Adreno 825 GPU，并支持硬件级光线追踪。AI方面，Hexagon NPU升级，AI性能提升44%，可运行DeepSeek等大模型。同时发布的还有升级版拯救者Y700五代，搭载第五代骁龙8至尊版芯片，安兔兔跑分突破453万。
- 2026-03-10
- 0
- 0
- 0
2026-03-10
为何 SWE-bench Verified 已无法衡量前沿编程能力 OpenAI 宣布停止使用 SWE-bench Verified 进行模型评估，因其数据污染问题已严重影响评估准确性。文章深入分析了测试用例拒绝正确解法、代码库泄露答案等问题，并建议采用 SWE-bench Pro 或自研评估体系。
- 2026-03-10
- 1
- 0
- 0
- AI基础/开发
- AI新闻/评测
2026-03-10
谷歌在AI模型中引入“反驳”功能以提高准确性谷歌正通过引入“反驳”（refutation）功能来增强其AI模型的准确性和可靠性。该功能旨在通过自动生成并评估与模型初始输出相反的论点，来验证信息或答案的正确性。研究表明，在引入反驳步骤后，模型在特定任务上的准确率显著提升，尤其是在需要事实核查和逻辑推理的场景中。这一创新有助于减少模型产生幻觉和错误信息的概率，为构建更值得信赖的AI系统提供了新的方向。该技术对提升复杂问答系统的性能至关重要。
- 2026-03-10
- 1
- 0
- 0
- AI基础/开发
- AI新闻/评测
2026-02-27
锁定模式正式上线，在 ChatGPT 中统一使用“风险升高”标签 OpenAI 针对 AI 系统面临的新兴安全风险（尤其是“提示注入”）推出了两项重要保护措施：为高风险用户设计的可选高级安全设置“锁定模式”，以及在 ChatGPT、Codex 中统一标注“风险升高”标签。本文详细介绍了锁定模式如何通过限制工具交互来防御数据泄露，以及风险标签如何提升用户对潜在风险的认知。
- 2026-02-27
- 2
- 0
- 0

1
2
3