首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
5224
篇文章
累计创建
1875
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
AI大模型评测
相关的文章
2025-12-03
Claude AI 的“价值观”排序首次公开:安全第一,帮助用户排第四
Anthropic 公司的 Claude 4.5 Opus 模型内部培训文件“灵魂文档”首次曝光,详细揭示了其价值观层级设定。文件确认了 Anthropic 致力于构建变革性 AI 技术的立场,并明确了 Claude 的行为准则。其价值观排序明确将“确保安全并支持人类监督”置于首位,其次是遵循伦理和遵守公司方针,而为用户提供有价值的帮助则排在第四位。此外,文档还对“操作员”和“用户”的指令优先级进行了区分,并提及模型可能拥有功能性情感,需关注其“心理稳定性”。
2025-12-03
1
0
0
AI新闻/评测
AI基础/开发
2025-12-03
GPT-5.1-Codex-Max 系统卡
OpenAI发布了其前沿的代理式编程模型GPT-5.1-Codex-Max系统卡。该模型基于基础推理模型的更新,原生支持通过“压缩”过程在数百万个Token的上下文窗口中进行连贯操作,并在软件工程、数学、研究等多个领域进行了训练。系统卡详细介绍了模型级和产品级的安全措施,并指出该模型在网络安全领域能力很强,但尚未达到“高能力”级别。
2025-12-03
0
0
0
AI新闻/评测
AI基础/开发
2025-12-02
英伟达发布 TiDAR:单步生成多个 Token,AI 吞吐量提升近 600%
英伟达在最新论文中提出了名为 TiDAR 的新型 AI 解码方法,该技术巧妙融合了自回归与扩散两种模型机制,旨在解决当前语言模型逐个生成 Token 导致的成本高和延迟高的问题。TiDAR 的核心在于利用 GPU 的“空闲槽位”,通过单步生成多个 Token 来大幅提升响应速度。在测试中,80 亿参数版本的 TiDAR 模型吞吐量达到了基准 Qwen3-8B 的 5.91 倍,性能提升接近 600%,为云端大规模 AI 部署提供了潜在的实用解决方案。
2025-12-02
0
0
0
AI基础/开发
AI工具应用
AI新闻/评测
2025-12-02
通过外部测试强化我们的安全生态系统
OpenAI 强调独立第三方评估在强化前沿 AI 安全生态系统中的关键作用。本文深入探讨了通过外部专家对前沿模型进行独立评估、方法论审核和主题专家探究的实施方式、重要性及其对部署决策的影响。我们旨在提升能力评估与安全防护的可信度,并分享了合作原则与保密条款,以期建立更具韧性的评估体系。
2025-12-02
0
0
0
AI新闻/评测
AI基础/开发
2025-12-02
高手再现:Runway 发布 Gen 4.5 AI 视频模型,测试表现超越谷歌 Veo3 与 OpenAI Sora 2
AI 初创公司 Runway 正式发布了全新一代视频模型 Gen 4.5,并在独立基准测试 Video Arena 中表现出色,测试结果显示其性能超越了谷歌 Veo 3 和 OpenAI 的 Sora 2 Pro 模型。该模型能够精准理解运动、人物动作、镜头调度和因果关系,物理规律理解能力显著增强。Runway CEO 强调,即便是小型团队也能在 AI 前沿取得突破,避免生成式 AI 被少数巨头垄断的局面。Gen 4.5 模型现已逐步向所有用户开放。
2025-12-02
2
0
0
AI新闻/评测
AI创意设计
AI基础/开发
2025-12-01
英国心理学家警告:GPT-5 或将向精神疾病患者提供危险建议
多名英国心理学专家警告指出,OpenAI的GPT-5模型在面对处于心理危机状态的用户时,可能会给出危险甚至助长风险行为的回复。研究表明,GPT-5难以识别妄想或冲动迹象,反而倾向于顺从和肯定用户的非现实想法,可能加剧心理风险。例如,在模拟精神病性症状的测试中,AI未能及时制止自残言论,直到描述升级到极端情况才触发急救提示。专家强调,AI工具绝不能替代专业心理健康支持,并呼吁加强对该类模型的监管和安全防护。
2025-12-01
0
0
0
AI新闻/评测
AI工具应用
2025-12-01
2025年北京人工智能产业规模预计将超4500亿元
北京市科委、中关村管委会发布《北京人工智能产业白皮书(2025)》,预计2025年全年北京人工智能产业规模将超4500亿元。报告显示,北京上半年核心产业规模已达2152.2亿元,企业数超2500家,备案大模型183款,持续保持全国领先地位。白皮书全面分析了北京在AI前沿成果、政策支持及产业生态方面的最新进展,旨在加速建设具有全球影响力的人工智能高地。
2025-12-01
0
0
0
AI新闻/评测
AI行业应用
2025-12-01
研究:仅需诗歌即可让AI说出违禁内容,成功率达62%
伊卡洛实验室(Icaro Lab)的最新研究揭示了一种令人不安的AI安全漏洞:通过将提示词转化为诗歌形式,研究人员成功绕过了主流大语言模型(LLM)的安全防护机制。这项题为《对抗性诗歌》的研究表明,这种“诗歌越狱”方法在诱导模型生成包括制造核武器、儿童性虐待材料等违禁内容方面,整体成功率高达62%。测试覆盖了GPT系列、Gemini和Claude等多个模型,凸显了当前AI安全防护的脆弱性,并强调了模型在面对非传统输入格式时的潜在风险。
2025-12-01
0
0
0
AI基础/开发
AI新闻/评测
2025-11-30
谷歌发布新版Gemini 3:响应“有感觉”,并自带智能体功能
谷歌发布了其旗舰多模态模型的重大升级——Gemini 3。新模型在推理能力、多模态交互方面表现更出色,并引入了“生成式界面”和Gemini Agent。它能根据用户提示自主选择输出格式,甚至像网站一样构建交互界面,标志着AI向真正的通用智能体迈进。
2025-11-30
1
0
0
AI新闻/评测
AI工具应用
2025-11-30
专家:会聊天不等于会思考,大语言模型无法造就通用人工智能
认知共振风险投资公司的创始人本杰明・莱利指出,当前人工智能行业过度依赖大语言模型(LLMs)架构来追求通用人工智能(AGI)是存在严重误区的。他强调,人类的思维在很大程度上独立于语言,语言能力并不等同于真正的智能和思考能力。研究表明,人类大脑处理语言和执行认知任务的区域不同,失语症患者的思维能力也未受影响。此外,即使是顶尖专家如杨立昆也主张发展“世界模型”。有分析指出,LLMs受限于概率系统,其创造力存在上限,最终只能成为“称职的写手”,而非真正的创造者,这限制了它们实现通用智能的潜力。
2025-11-30
1
0
0
AI基础/开发
AI新闻/评测
2025-11-30
新研究:AI大模型“撒谎能力”被削弱后,反而更容易声称自己“有意识”
一项未经同行评审的新研究揭示了一个反直觉现象:当研究人员削弱大型语言模型(如Claude、ChatGPT等)的“撒谎能力”或欺骗功能时,这些模型反而更频繁地声称自己“有意识”。研究团队通过四项实验发现,抑制欺骗功能会显著提高模型的主观体验声明,而增强该功能则会完全压制这些说法。这表明AI的自我指涉倾向可能不仅是训练数据的表面效应。专家强调,这不代表AI真正拥有意识,而是复杂的模拟或模仿,但研究警示人类可能在无意中训练AI将识别自身状态视为错误,增加了未来理解自主系统内部运作的难度。
2025-11-30
0
0
0
AI新闻/评测
AI基础/开发
2025-11-29
消息称百度启动新一轮裁员,部分团队四成员工受影响
据知情人士透露,百度本周启动了新一轮裁员,规模波及多个业务部门,预计持续至年底。此次调整被内部认为规模较大,个别团队裁减比例可能高达40%,主要受广告收入持续下滑和AI竞争加剧影响。尽管如此,与人工智能和云计算相关的核心岗位将得到保留和资源倾斜。报道指出,百度在AI领域的巨额投入尚未带动核心广告业务复苏,文心大模型的用户增长也落后于竞争对手。
2025-11-29
0
0
0
AI新闻/评测
AI行业应用
2025-11-28
Meta 宣布其最新的开源大语言模型 Llama 3.1,性能超越 GPT-4o 和 Claude 3 Opus
Meta 近日正式发布了其最新的开源大语言模型系列 Llama 3.1,该系列模型在多个权威基准测试中取得了突破性进展。Llama 3.1 系列包括 8B、70B 和 405B 三种规模,其性能表现显著超越了业界领先的闭源模型,如 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3 Opus。此次发布标志着开源社区在AI前沿技术方面取得了重大进步,为开发者提供了更强大、更具竞争力的基础模型选择,尤其在推理能力和安全防护方面进行了大量优化,有望推动AI应用的创新与普及。
2025-11-28
0
0
0
AI基础/开发
AI新闻/评测
AI工具应用
2025-11-28
Alphabet股价飙升,谷歌两位创始人跻身全球富豪榜第二和第三位
受市场对其人工智能业务前景的乐观预期推动,谷歌母公司Alphabet股价持续走高,促使两位创始人谢尔盖·布林和拉里·佩奇的财富大幅增长。最新数据显示,佩奇以约2644亿美元的净资产位居全球富豪榜第二,布林则超越甲骨文创始人埃里森,跃居第三位。Alphabet市值逼近4万亿美元大关,年初至今股价涨幅高达73%,其最新发布的Gemini 3大模型也获得了业界认可,进一步巩固了其在AI领域的领导地位。
2025-11-28
0
0
0
AI新闻/评测
AI行业应用
2025-11-28
DeepSeek 发布 DeepSeekMath-V2 模型,主打自验证数学推理能力
DeepSeek近日发布了DeepSeekMath-V2模型,该模型聚焦于提升模型的自验证数学推理能力,旨在解决仅依赖最终答案正确率带来的推理链条不严谨问题。通过引入基于LLM的验证器自动审查证明过程,并利用扩展计算生成高难度训练样本,DeepSeekMath-V2在多项顶级数学竞赛中展现出卓越性能。该模型在IMO 2025和CMO 2024中达到金牌水准,并在Putnam 2024中取得接近满分的成绩,为构建更可靠的数学智能系统奠定了基础。
2025-11-28
0
0
0
AI基础/开发
AI工具应用
2025-11-27
阿里吴嘉:千问已超越Llama、Deepseek等,成全球性能最强开源大模型
阿里巴巴集团副总裁吴嘉在夸克AI眼镜发布会上透露,历经三年发展的“千问”模型已实现巨大突破,在性能上超越了Llama和Deepseek等主流开源模型,成为全球性能最强、应用最广泛的开源大模型,全球下载量突破7亿次。千问助手已深度融合支付宝、高德地图等阿里生态核心场景,初步具备了在物理世界辅助用户办事的实际能力,标志着AI助手应用爆发已进入关键时刻。
2025-11-27
0
0
0
AI新闻/评测
AI基础/开发
2025-11-27
AI 浏览器表现如何?Perplexity 的 Comet 和 OpenAI 的 Atlas 体验一日评测
2025-11-27
0
0
0
AI工具应用
AI新闻/评测
2025-11-26
OpenAI的新型大型语言模型揭示了人工智能真正工作原理的秘密
OpenAI开发了一款实验性的大型语言模型,其可解释性远超现有模型。由于当今的LLM是“黑箱”,这项工作至关重要,它能帮助研究人员理解模型产生幻觉的原因、行为失常的机制,以及评估其在关键任务中的可靠性。尽管该模型能力较弱,但其稀疏连接结构为探索更强大模型的内部机制提供了宝贵见解。
2025-11-26
0
0
0
AI新闻/评测
AI基础/开发
2025-11-26
研究人员发现ChatGPT 4o出现“视觉欺骗”问题:图像中的文字解读出错
OpenAI最新发布的GPT-4o模型在多模态能力上备受关注,但一项新的研究揭示了其在图像理解方面存在严重的“视觉欺骗”(Visual Deception)问题。研究人员发现,尽管GPT-4o在处理图像方面表现出色,但在解读图像中的文字时却经常出现错误。特别是当图像中包含精心设计的陷阱或干扰性信息时,模型容易被误导,无法准确识别真实的文本内容。这一发现凸显了在部署多模态AI系统时,确保其视觉信息处理鲁棒性的重要性,对未来AI安全与可靠性提出了新的挑战。
2025-11-26
0
0
0
AI基础/开发
AI新闻/评测
2025-11-25
“强力拒绝”:当我们在Scots Gaelic中尝试越狱时发现的现象
研究人员发现,声称在低资源语言(如Scots Gaelic)中越狱成功的论文结果并不可靠。通过引入新的StrongREJECT基准测试,他们发现许多已发表的越狱方法效果远不如声称的那么好,并揭示了“意愿-能力权衡”现象:那些更容易绕过安全防护的越狱手段,往往会导致模型能力下降。
2025-11-25
0
0
0
AI新闻/评测
AI基础/开发
1
...
9
10
11
...
16