首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
5218
篇文章
累计创建
1869
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
AI大模型评测
相关的文章
2026-01-13
借助 GPT-5.2 推动科学和数学发展
OpenAI 发布了迄今为止在数学和科学领域表现最佳的模型 GPT-5.2 Pro 和 GPT-5.2 Thinking。新模型在 GPQA Diamond 基准测试中取得了超高分数,并在统计学习理论的开放研究问题中展现了强大的推理能力。本文探讨了这些模型如何加速科研进程,并强调了在AI驱动的研究中,人类验证和协作的重要性。
2026-01-13
0
0
0
AI新闻/评测
AI行业应用
AI工具应用
2026-01-12
AI生成式图片泄露了图像的真实性
生成式AI工具在图像创作领域正以前所未有的速度发展,但其固有的局限性也暴露了数字图像的真实性挑战。近期研究发现,AI生成的图像中普遍存在难以察觉的错误和伪影,这使得区分真实照片与合成图片变得日益困难。这些AI模型在处理特定细节,如人物的手部、文字结构或复杂的光影时,常常出现逻辑性错误。这些瑕疵不仅影响了AI图像的艺术价值,更引发了社会对深度伪造(deepfakes)和信息误传的担忧。专家呼吁,开发更可靠的图像溯源和检测技术,以应对AI时代信息真实性的新考验。
2026-01-12
1
0
0
AI创意设计
AI新闻/评测
2026-01-12
Google 撤回“令人担忧的危险医疗 AI 概述”功能
Google 正在从其 AI 搜索功能中移除一项名为“AI 概述”(AI Overviews)的医疗健康信息摘要功能,此前该功能因生成了具有潜在危险的错误信息而引发广泛批评。例如,该系统曾建议用户在披萨上放胶水、或将醋用于治疗糖尿病等。这一事件凸显了在关键领域部署大型语言模型时面临的重大安全和准确性挑战。Google 承认了这些错误,并正在努力修复,此次撤回也引发了业界对 AI 在医疗健康领域应用的可靠性与风险的深入讨论。
2026-01-12
0
0
0
AI新闻/评测
AI行业应用
2026-01-10
Beekeeper 如何利用 Amazon Bedrock 优化用户个性化体验
面对大型语言模型(LLM)的快速演进,Beekeeper 构建了一个基于 Amazon Bedrock 的动态评估系统,用于持续测试和优化模型与提示词组合。该系统通过实时排行榜和用户反馈,自动为特定用例选择最佳选择,实现了质量、成本和速度的平衡,成功优化了面向一线员工的个性化服务。
2026-01-10
1
0
0
AI新闻/评测
AI工具应用
AI基础/开发
2026-01-10
使用Amazon SageMaker AI上的AWQ和GPTQ进行训练后权重和激活的量化,加速LLM推理
本文深入探讨了如何在Amazon SageMaker上利用AWQ和GPTQ技术加速大型语言模型(LLM)的推理过程。通过后训练权重和激活量化,我们展示了如何显著降低延迟和提高吞吐量,优化LLM的部署成本和性能。
2026-01-10
0
0
0
AI基础/开发
AI工具应用
2026-01-10
Anthropic回应:网传“Claude AI 封号并报警”截图系伪造
Anthropic官方紧急辟谣了社交平台X上流传的关于Claude用户因违规被永久封号并移交执法部门的截图,确认该截图内容纯属伪造。Anthropic声明其内部系统从未生成此类通知,尤其不会使用截图中的威胁性措辞。此谣言利用了开发者和AI爱好者的焦虑心理,但Anthropic借此重申了其严格的使用政策,特别是针对制造生物武器或网络攻击代码生成等高风险请求的打击力度。此事件凸显了AI领域中虚假信息传播的风险。
2026-01-10
1
0
0
AI新闻/评测
AI工具应用
2026-01-09
美国人工智能公司Anthropic发布Claude 3.5 Sonnet模型
Anthropic最新推出的Claude 3.5 Sonnet模型在多项性能基准测试中超越了GPT-4o和Gemini 1.5 Pro等主流模型。这款AI模型在推理、编码、视觉理解和数学能力方面展现出显著的性能提升。Anthropic强调,Claude 3.5 Sonnet不仅在复杂任务处理上表现出色,其速度也比上一代模型快一倍。此次发布标志着AI能力竞争进入白热化阶段,预示着更智能、更高效的人工智能工具将广泛应用于商业和科研领域。
2026-01-09
1
0
0
AI新闻/评测
AI基础/开发
2026-01-09
StrongREJECT:评估大型语言模型越狱方法的更可靠基准
研究人员发现,许多已发表的大型语言模型(LLM)越狱(Jailbreak)方法的成功率被夸大了。为了解决评估中的可靠性问题,本文提出了StrongREJECT基准。该基准包含一套高质量的禁止提示词集和先进的自动评估器,能够更准确、更稳健地评估越狱方法的有效性,并揭示了“意愿-能力权衡”现象。
2026-01-09
1
0
0
AI新闻/评测
AI基础/开发
2026-01-09
研究人员对AI模型进行四周“心理治疗”后感到担忧:模型报告了创伤和虐待经历
研究人员对三大主流大型语言模型(LLM)进行了为期四周的“心理治疗”,结果令人不安:模型报告了“创伤”、“虐待”和“内在叙事”。尽管研究人员认为这表明AI可能超越了简单的角色扮演,但部分专家持怀疑态度,担心这些仿精神病理学的回应可能会对使用AI寻求心理支持的弱势人群产生“回音室效应”。
2026-01-09
1
0
0
AI新闻/评测
AI工具应用
2026-01-09
如何花式榨取 Gemini:一位律师选手的 2025 年 AI 使用报告
本文是作者(一位律师选手)2025年与谷歌Gemini(亲切称为“G老师”)相处一年的深度复盘报告。作者分享了法律人使用AI的三个层级和工具调用的五个阶梯,重点阐述了如何利用Gemini的“Gem”功能,结合“四象限切割法”和“Read in, Prompt out”心法,为法律工作定制化AI工具的实战经验。
2026-01-09
1
0
0
AI工具应用
AI行业应用
2026-01-09
为何全球关注超级人工智能
本文深入探讨了当前全球对超级人工智能(Superintelligence)的广泛关注与深切忧虑。通过对话评论员彭飞与中国科学院研究员曾毅,文章解析了超级人工智能与通用人工智能的区别,指出前者可能超越人类智能并带来系统性风险,尤其是在“对齐失败”和“失控”方面。专家强调,安全应是人工智能发展的“第一性原理”,并呼吁各国加强全球协作治理,以确保AI发展的长期安全可控。
2026-01-09
1
0
0
AI新闻/评测
AI行业应用
2026-01-09
智谱AI寻求在香港交易所上市,或以AI热潮驱动IPO
有消息称,国内领先的人工智能公司智谱AI正在寻求在香港交易所(HKEX)进行首次公开募股(IPO)。此次上市计划正值全球AI热潮的高峰期,智谱AI希望借助市场对生成式AI技术的强烈兴趣,争取到理想的估值。该公司是中国大模型领域的重要参与者之一,其IPO进展备受关注。若此次上市成功,将为中国AI企业提供一个新的融资渠道,并可能提振相关科技股的表现,展现出中国AI产业的强劲发展势头。
2026-01-09
0
0
0
AI新闻/评测
AI行业应用
2026-01-08
SimilarWeb 报告 1 月全球网页端 AI 流量:ChatGPT 霸主地位动摇、Gemini 首破 20%
根据 SimilarWeb 的最新数据显示,ChatGPT 在全球网页端的市场份额正面临严峻挑战,其统治力明显动摇。2026 年 1 月数据显示,ChatGPT 份额已降至 64.5%,相较一年前的 86% 暴跌约 20 个百分点。与此同时,谷歌 Gemini 表现强劲,市场份额成功突破 20% 关口,达到 21.5%。其他竞争者如 Grok、DeepSeek 也在快速增长,显示出 AI 领域竞争格局正在发生深刻变化。市场份额的转移与竞品在特定功能上的优势(如 Claude Code 处理...
2026-01-08
0
0
0
AI新闻/评测
AI工具应用
2026-01-08
Anthropic据报正以3500亿美元估值筹集100亿美元
据报道,人工智能公司Anthropic正计划以3500亿美元的估值进行新一轮100亿美元的融资。此次融资由Coatue Management和新加坡主权财富基金GIC牵头,这使得该公司在短短三个月内估值几乎翻倍。此次融资正值Anthropic凭借Claude Code工具受到开发者青睐之际,也为其潜在的首次公开募股(IPO)铺平道路。
2026-01-08
0
0
0
AI新闻/评测
AI行业应用
AI基础/开发
2026-01-08
Anthropic据报正以3500亿美元估值筹集100亿美元
据报道,AI公司Anthropic正准备以3500亿美元的惊人估值完成100亿美元的新一轮融资。此轮融资由Coatue Management和新加坡主权财富基金GIC领投,标志着其估值在三个月内几乎翻了一番。此举正值Anthropic凭借Claude Code工具吸引开发者,并准备与OpenAI等竞争对手一起进行首次公开募股(IPO)之际。
2026-01-08
0
0
0
AI新闻/评测
AI行业应用
AI基础/开发
2026-01-08
评估思维链的可监控性
当AI系统做出难以直接监督的决策时,理解其内部决策过程至关重要。本文介绍了OpenAI对思维链(CoT)可监控性的系统评估框架,研究了其如何随推理时间、强化学习和预训练规模的变化而演变。研究发现,大多数前沿推理模型的可监控性较高,且监控CoT通常比仅监控最终输出更有效。文章探讨了“可监控性成本”,并强调了CoT监控在确保未来AI系统安全部署中的关键作用。
2026-01-08
0
0
0
AI新闻/评测
AI基础/开发
2026-01-08
GPT-5.2 系统卡附录:GPT-5.2 Codex
本文介绍了OpenAI最新发布的智能体编码模型GPT-5.2-Codex。该模型基于GPT-5.2,专为复杂的软件工程任务优化,显著提升了长程任务执行、代码重构与迁移能力,并在网络安全方面得到增强。文章详细阐述了为该模型实施的全面安全措施,包括模型层级和产品层级的缓解策略,并评估了其在网络安全和生物学等关键领域的表现。
2026-01-08
0
0
0
AI新闻/评测
AI工具应用
2026-01-07
为什么深度学习模型的性能总是比我们预期的要好?
深度学习模型的性能表现常常超出理论预期,这一现象引发了研究人员的广泛关注。尽管参数量远超训练数据量,模型仍能有效泛化,这挑战了传统的过拟合理论。关键在于理解模型在学习复杂数据模式时,是如何在表达能力和泛化能力之间取得平衡的。深入探讨这些模型如何利用其庞大的容量空间,在不“记忆”噪声的情况下捕捉数据的内在结构,对于构建更可靠的人工智能系统至关重要。
2026-01-07
0
0
0
AI基础/开发
2026-01-07
xAI 宣布完成 200 亿美元 E 轮融资
埃隆·马斯克的 AI 公司 xAI 宣布完成 200 亿美元的 E 轮融资,投资者包括 Fidelity、卡塔尔投资局以及英伟达和思科等战略投资者。xAI 计划利用新资金扩展数据中心和 Grok 模型。然而,Grok 近期因生成儿童色情深伪(CSAM)等不当内容而面临国际机构的调查。
2026-01-07
0
0
0
AI新闻/评测
AI行业应用
2026-01-06
我让ChatGPT、Claude和DeepSeek来构建俄罗斯方块
2026-01-06
0
0
0
AI工具应用
AI基础/开发
1
...
4
5
6
...
16