首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
5221
篇文章
累计创建
1869
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
AI大模型评测
相关的文章
2025-11-19
谷歌发布 Gemini 3,推出新型编程界面,基准测试创纪录
谷歌发布了其最新、最强大的基础模型Gemini 3,并在多项基准测试中创下历史新高,包括“人类的最后考试”。同时,谷歌还推出了一个名为Google Antigravity的Gemini驱动的编程界面,实现了类似代理式IDE的多窗格编程体验。这是对OpenAI和Anthropic最新发布的模型的直接回应。
2025-11-19
1
0
0
AI新闻/评测
AI工具应用
AI基础/开发
2025-11-19
Gemini 3 问世——谷歌称其将使搜索更智能
谷歌推出了迄今为止最智能的人工智能模型Gemini 3,具备尖端的推理、多媒体和编码能力。在AI泡沫讨论日益增多的背景下,谷歌强调,最新发布的Gemini 3不仅是一个智能模型和聊天机器人,更是优化其收入丰厚的搜索业务的关键,并于今日开始应用。DeepMind首席执行官Demis Hassabis表示,谷歌正将AI广泛整合到其核心产品中,即使AI泡沫破裂,谷歌也具有最广泛的产品组合和最前沿的研究优势。
2025-11-19
0
0
0
AI新闻/评测
AI工具应用
AI基础/开发
2025-11-17
Sakana AI完成1.35亿美元B轮融资,估值达26.5亿美元,将继续为日本构建AI模型
日本初创公司Sakana AI已完成约1.35亿美元(200亿日元)的B轮融资,投后估值达到26.5亿美元。该公司专注于开发针对日本语言和文化进行优化、且适用于小数据集的生成式AI模型,旨在提供符合“国家文化和价值观”的主权AI解决方案。融资将用于研发、扩大工程和销售团队,并计划拓展至金融以外的行业。
2025-11-17
2
0
0
AI新闻/评测
AI行业应用
AI基础/开发
2025-11-17
OpenAI 的 Fidji Simo 计划让 ChatGPT 更有用——并让你为此付费
OpenAI 的应用业务新任 CEO Fidji Simo 正在聚焦于如何将 ChatGPT 等产品打造成不可或缺且能盈利的工具。作为 Instacart 前 CEO,Simo 面对谷歌和 Meta 等巨头的竞争,她的核心任务是弥合模型智能与实际用户应用之间的差距,并探索在不牺牲用户体验的前提下实现商业变现的路径。
2025-11-17
0
0
0
AI新闻/评测
AI行业应用
AI工具应用
2025-11-16
隆重推出 IndQA:衡量人工智能系统印度文化与语言能力的全新基准
OpenAI 推出全新基准 IndQA,旨在深入评估 AI 模型在印度文化和 12 种语言中的理解与推理能力。面对全球近 80% 的非英语人口,此举旨在弥补现有基准的不足,特别是针对文化语境依赖的任务。IndQA 由 261 位领域专家共同创建,覆盖建筑、艺术、历史、美食等十大文化领域,标志着 AI 技术向更广泛、更具包容性的全球化应用迈进。
2025-11-16
1
0
0
AI新闻/评测
AI基础/开发
2025-11-15
Similarweb 报告 13 日全球 AI 流量:Gemini 成 ChatGPT 最强劲对手,DeepSeek 正在收复失地
根据 Similarweb 的最新报告,全球生成式 AI 市场的竞争格局正在发生变化。尽管 OpenAI 的 ChatGPT 依然占据主导地位,但其网络流量份额已从一年前的 86.6% 下降至 72.3%。谷歌 Gemini 成为最强劲的挑战者,流量份额稳步增长至 13.7%,是唯一实现持续增长的平台。此外,DeepSeek 在近期数据中也展现出复苏迹象,市场份额达到 4.2%,预示着 AI 聊天机器人领域的竞争日益激烈和多元化。
2025-11-15
0
0
0
AI新闻/评测
AI工具应用
2025-11-14
OpenAI的新型大型语言模型揭示了AI究竟如何工作的秘密
OpenAI构建了一个实验性的大型语言模型,其透明度远超现有模型。由于当前LLM如同“黑箱”,这项研究旨在揭示其内部机制,帮助我们理解模型出现怪异行为、产生幻觉的原因,并评估其在关键任务中的可信度。
2025-11-14
0
0
0
AI新闻/评测
AI基础/开发
2025-11-13
英伟达 GB300 NVL72 刷新 MLPerf 纪录:10 分钟训完 4050 亿 AI 参数模型
英伟达基于 Blackwell Ultra 架构的 GB300 NVL72 平台在 MLPerf AI 训练基准测试中取得了压倒性胜利,包揽了全部 7 个项目冠军。其中最引人注目的成就是,该平台仅用 10 分钟就完成了拥有 4050 亿参数的 Llama 3.1 大模型的训练。相较于上一代 H100 GPU,GB300 在 Llama 2 70B 微调任务中的性能提升了 5 倍,在 Llama 3.1 405B 预训练任务中性能提升了 4 倍以上,充分展示了其卓越的 AI 训练加速能力。
2025-11-13
0
0
0
AI基础/开发
AI新闻/评测
2025-11-13
OpenAI 奥尔特曼发布 GPT-5.1 系列:ChatGPT 情商大涨,AI 默认语气变“暖男”
OpenAI 近期发布了全新的旗舰模型 GPT-5.1 系列,旨在显著提升 ChatGPT 的对话体验和情商。新模型包含更具人情味的 GPT-5.1 Instant 和擅长高级推理的 GPT-5.1 Thinking,全面优化了指令遵循能力与用户互动感。此外,模型引入了“自适应推理”机制,可以根据任务复杂性动态调整思考时间,确保在保持快速响应的同时提供深度分析。同时,个性化预设风格扩展至八种,并实验性地允许用户直接微调回复的简洁度和热情度,标志着 AI 交互正迈向更人性化的新阶段。
2025-11-13
0
0
0
AI新闻/评测
AI工具应用
AI基础/开发
2025-11-13
GPT-5.1 Instant 和 GPT-5.1 Thinking 系统卡附加说明
本文档是OpenAI对GPT-5.1 Instant和GPT-5.1 Thinking模型的系统卡附加说明。GPT-5.1 Instant在对话能力和指令遵循性上有所提升,并具备自适应推理能力;GPT-5.1 Thinking则能更精确地分配思考时间。文档更新了基线安全指标,并扩展了安全评估范围,纳入了心理健康和情感依赖等敏感话题的评估。
2025-11-13
0
0
0
AI新闻/评测
2025-11-13
英伟达赢得所有 MLPerf 训练 v5.1 基准测试
在人工智能推理领域,训练更智能、能力更强的模型至关重要。英伟达在最新的 MLPerf 训练 v5.1 基准测试中,横扫全部七项测试,展示了其 Blackwell Ultra 架构和革命性的 NVFP4 计算能力的强大实力,尤其是在大型语言模型训练方面取得了巨大飞跃。
2025-11-13
0
0
0
AI新闻/评测
AI基础/开发
AI行业应用
2025-11-12
揭穿LLM越狱的虚假成功:StrongREJECT基准测试揭示了“意愿-能力权衡”
研究人员发现,许多声称成功的LLM越狱方法(如低资源语言攻击)在重新测试时效果不佳,引发了对现有越狱评估的质疑。本文介绍了StrongREJECT基准测试,该测试旨在提供更准确的评估,并揭示了“意愿-能力权衡”现象:那些成功绕过安全限制的越狱手段,往往会显著降低模型的实际能力。
2025-11-12
0
0
0
AI新闻/评测
AI基础/开发
2025-11-12
gpt-oss-safeguard-120b 与 gpt-oss-safeguard-20b 的性能与基准评估技术报告
本文档是关于GPT-OSS-Safeguard-120B和GPT-OSS-Safeguard-20B的性能与安全基准评估技术报告。OpenAI详细阐述了这两个基于GPT-OSS微调的开放权重模型的功能特性,并提供了基于底层模型的安全评估结果。这些模型主要用于依据预设政策对内容进行分类标注,适用于开源社区,并兼容回复API。
2025-11-12
1
0
0
AI新闻/评测
AI基础/开发
2025-11-12
GPT-OSS-Safeguard 技术报告:GPT-OSS-Safeguard-120B 与 GPT-OSS-Safeguard-20B 的性能与基准评估
OpenAI发布了GPT-OSS-Safeguard-120B和20B模型的性能与安全基准评估技术报告。这些基于GPT-OSS的开放权重推理模型,专为内容分类和标注设计,遵循Apache 2.0许可。报告详细阐述了其功能特性,并提供了与底层GPT-OSS模型的安全基准对比,确保模型在不同推理强度和多语言场景下的表现符合预期。
2025-11-12
0
0
0
AI新闻/评测
AI基础/开发
2025-11-11
提取和翻译后的中文标题
📢 转载信息 ... 提取并翻译后的文章内容... 🚀 想要体验更好更全面的AI调用? ...
2025-11-11
0
0
0
AI新闻/评测
2025-11-11
关于大语言模型评估指标你需要了解的一切
2025-11-11
0
0
0
AI基础/开发
AI工具应用
2025-11-10
关于人工智能的两个重大更新:谷歌与Anthropic的最新进展
谷歌DeepMind发布了其最新的AI模型Gemini 1.5 Pro,显著提升了处理长文本和视频的能力,其原生100万Token上下文窗口处于行业领先地位。同时,Anthropic也推出了Claude 3.5 Sonnet,该模型在多项认知基准测试中超越了GPT-4o和Gemini 1.5 Pro,并在代码能力和推理上展示了优越性能。这两大模型巨头的最新发布,标志着人工智能在上下文理解和复杂任务处理能力方面取得了重要突破,预示着AI应用前景的进一步拓展。
2025-11-10
0
0
0
AI新闻/评测
AI基础/开发
2025-11-10
AI模型测试的里程碑:谷歌DeepMind的Gemini系列如何应对真实世界挑战
谷歌DeepMind推出的Gemini系列AI模型,在多模态能力和性能基准测试中展现出显著优势,有望成为新一代的通用人工智能系统。Gemini Ultra在多项行业标准测试中超越了GPT-4,尤其在推理、编程和复杂理解方面表现出色。该系列模型旨在无缝集成文本、图像、音频和视频数据,标志着AI能力从单一模态向更接近人类的综合理解迈进的重要一步,预示着AI在实际应用中将有更广阔的前景。
2025-11-10
0
0
0
AI基础/开发
AI新闻/评测
2025-11-10
人工智能采用的谜团
尽管关于人工智能的炒作热潮有所降温,GPT-5发布平淡以及大量AI试点项目失败的报道充斥市场,但记者在深入调查后却发现,没有公司愿意公开承认他们正在缩减AI支出。这种现象揭示了AI泡沫论的局限性,或者暗示了企业对技术长期价值的坚定信心,即便是面对短期挫折。
2025-11-10
0
0
0
AI新闻/评测
AI行业应用
2025-11-10
视觉干草堆(Visual Haystacks):针对图像集合的更难问题的回答基准
本文介绍了“视觉干草堆”(Visual Haystacks, VHs)基准,这是首个“以视觉为中心”的“大海捞针”(NIAH)测试,旨在严格评估大型多模态模型(LMMs)处理长上下文视觉信息的能力。研究发现当前LMMs在视觉干扰、多图像推理和信息位置敏感性方面存在显著缺陷。为解决这些问题,作者提出了MIRAGE,一个基于检索增强生成的(RAG)框架,并在VHs基准上取得了最先进的性能。
2025-11-10
0
0
0
AI新闻/评测
AI基础/开发
1
...
11
12
13
...
16