AI大模型评测-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

行动起来，活在当下

累计撰写 7387 篇文章
累计创建 3268 个标签
累计收到 0 条评论

目录CONTENT

以下是 AI大模型评测相关的文章

2025-11-17
OpenAI 的 Fidji Simo 计划让 ChatGPT 更有用——并让你为此付费 OpenAI 的应用业务新任 CEO Fidji Simo 正在聚焦于如何将 ChatGPT 等产品打造成不可或缺且能盈利的工具。作为 Instacart 前 CEO，Simo 面对谷歌和 Meta 等巨头的竞争，她的核心任务是弥合模型智能与实际用户应用之间的差距，并探索在不牺牲用户体验的前提下实现商业变现的路径。
- 2025-11-17
- 0
- 0
- 0
2025-11-16
隆重推出 IndQA：衡量人工智能系统印度文化与语言能力的全新基准 OpenAI 推出全新基准 IndQA，旨在深入评估 AI 模型在印度文化和 12 种语言中的理解与推理能力。面对全球近 80% 的非英语人口，此举旨在弥补现有基准的不足，特别是针对文化语境依赖的任务。IndQA 由 261 位领域专家共同创建，覆盖建筑、艺术、历史、美食等十大文化领域，标志着 AI 技术向更广泛、更具包容性的全球化应用迈进。
- 2025-11-16
- 2
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-15
Similarweb 报告 13 日全球 AI 流量：Gemini 成 ChatGPT 最强劲对手，DeepSeek 正在收复失地根据 Similarweb 的最新报告，全球生成式 AI 市场的竞争格局正在发生变化。尽管 OpenAI 的 ChatGPT 依然占据主导地位，但其网络流量份额已从一年前的 86.6% 下降至 72.3%。谷歌 Gemini 成为最强劲的挑战者，流量份额稳步增长至 13.7%，是唯一实现持续增长的平台。此外，DeepSeek 在近期数据中也展现出复苏迹象，市场份额达到 4.2%，预示着 AI 聊天机器人领域的竞争日益激烈和多元化。
- 2025-11-15
- 2
- 0
- 0
- AI新闻/评测
- AI工具应用
2025-11-14
OpenAI的新型大型语言模型揭示了AI究竟如何工作的秘密 OpenAI构建了一个实验性的大型语言模型，其透明度远超现有模型。由于当前LLM如同“黑箱”，这项研究旨在揭示其内部机制，帮助我们理解模型出现怪异行为、产生幻觉的原因，并评估其在关键任务中的可信度。
- 2025-11-14
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-13
英伟达 GB300 NVL72 刷新 MLPerf 纪录：10 分钟训完 4050 亿 AI 参数模型英伟达基于 Blackwell Ultra 架构的 GB300 NVL72 平台在 MLPerf AI 训练基准测试中取得了压倒性胜利，包揽了全部 7 个项目冠军。其中最引人注目的成就是，该平台仅用 10 分钟就完成了拥有 4050 亿参数的 Llama 3.1 大模型的训练。相较于上一代 H100 GPU，GB300 在 Llama 2 70B 微调任务中的性能提升了 5 倍，在 Llama 3.1 405B 预训练任务中性能提升了 4 倍以上，充分展示了其卓越的 AI 训练加速能力。
- 2025-11-13
- 1
- 0
- 0
- AI基础/开发
- AI新闻/评测
2025-11-13
OpenAI 奥尔特曼发布 GPT-5.1 系列：ChatGPT 情商大涨，AI 默认语气变“暖男” OpenAI 近期发布了全新的旗舰模型 GPT-5.1 系列，旨在显著提升 ChatGPT 的对话体验和情商。新模型包含更具人情味的 GPT-5.1 Instant 和擅长高级推理的 GPT-5.1 Thinking，全面优化了指令遵循能力与用户互动感。此外，模型引入了“自适应推理”机制，可以根据任务复杂性动态调整思考时间，确保在保持快速响应的同时提供深度分析。同时，个性化预设风格扩展至八种，并实验性地允许用户直接微调回复的简洁度和热情度，标志着 AI 交互正迈向更人性化的新阶段。
- 2025-11-13
- 1
- 0
- 0
2025-11-13
GPT-5.1 Instant 和 GPT-5.1 Thinking 系统卡附加说明本文档是OpenAI对GPT-5.1 Instant和GPT-5.1 Thinking模型的系统卡附加说明。GPT-5.1 Instant在对话能力和指令遵循性上有所提升，并具备自适应推理能力；GPT-5.1 Thinking则能更精确地分配思考时间。文档更新了基线安全指标，并扩展了安全评估范围，纳入了心理健康和情感依赖等敏感话题的评估。
- 2025-11-13
- 0
- 0
- 0
- AI新闻/评测
2025-11-13
英伟达赢得所有 MLPerf 训练 v5.1 基准测试在人工智能推理领域，训练更智能、能力更强的模型至关重要。英伟达在最新的 MLPerf 训练 v5.1 基准测试中，横扫全部七项测试，展示了其 Blackwell Ultra 架构和革命性的 NVFP4 计算能力的强大实力，尤其是在大型语言模型训练方面取得了巨大飞跃。
- 2025-11-13
- 0
- 0
- 0
2025-11-12
揭穿LLM越狱的虚假成功：StrongREJECT基准测试揭示了“意愿-能力权衡” 研究人员发现，许多声称成功的LLM越狱方法（如低资源语言攻击）在重新测试时效果不佳，引发了对现有越狱评估的质疑。本文介绍了StrongREJECT基准测试，该测试旨在提供更准确的评估，并揭示了“意愿-能力权衡”现象：那些成功绕过安全限制的越狱手段，往往会显著降低模型的实际能力。
- 2025-11-12
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-12
gpt-oss-safeguard-120b 与 gpt-oss-safeguard-20b 的性能与基准评估技术报告本文档是关于GPT-OSS-Safeguard-120B和GPT-OSS-Safeguard-20B的性能与安全基准评估技术报告。OpenAI详细阐述了这两个基于GPT-OSS微调的开放权重模型的功能特性，并提供了基于底层模型的安全评估结果。这些模型主要用于依据预设政策对内容进行分类标注，适用于开源社区，并兼容回复API。
- 2025-11-12
- 1
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-12
GPT-OSS-Safeguard 技术报告：GPT-OSS-Safeguard-120B 与 GPT-OSS-Safeguard-20B 的性能与基准评估 OpenAI发布了GPT-OSS-Safeguard-120B和20B模型的性能与安全基准评估技术报告。这些基于GPT-OSS的开放权重推理模型，专为内容分类和标注设计，遵循Apache 2.0许可。报告详细阐述了其功能特性，并提供了与底层GPT-OSS模型的安全基准对比，确保模型在不同推理强度和多语言场景下的表现符合预期。
- 2025-11-12
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-11
提取和翻译后的中文标题 📢 转载信息 ... 提取并翻译后的文章内容... 🚀 想要体验更好更全面的AI调用？ ...
- 2025-11-11
- 0
- 0
- 0
- AI新闻/评测
2025-11-11
关于大语言模型评估指标你需要了解的一切
- 2025-11-11
- 0
- 0
- 0
- AI基础/开发
- AI工具应用
2025-11-10
关于人工智能的两个重大更新：谷歌与Anthropic的最新进展谷歌DeepMind发布了其最新的AI模型Gemini 1.5 Pro，显著提升了处理长文本和视频的能力，其原生100万Token上下文窗口处于行业领先地位。同时，Anthropic也推出了Claude 3.5 Sonnet，该模型在多项认知基准测试中超越了GPT-4o和Gemini 1.5 Pro，并在代码能力和推理上展示了优越性能。这两大模型巨头的最新发布，标志着人工智能在上下文理解和复杂任务处理能力方面取得了重要突破，预示着AI应用前景的进一步拓展。
- 2025-11-10
- 2
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-10
AI模型测试的里程碑：谷歌DeepMind的Gemini系列如何应对真实世界挑战谷歌DeepMind推出的Gemini系列AI模型，在多模态能力和性能基准测试中展现出显著优势，有望成为新一代的通用人工智能系统。Gemini Ultra在多项行业标准测试中超越了GPT-4，尤其在推理、编程和复杂理解方面表现出色。该系列模型旨在无缝集成文本、图像、音频和视频数据，标志着AI能力从单一模态向更接近人类的综合理解迈进的重要一步，预示着AI在实际应用中将有更广阔的前景。
- 2025-11-10
- 4
- 0
- 0
- AI基础/开发
- AI新闻/评测
2025-11-10
人工智能采用的谜团尽管关于人工智能的炒作热潮有所降温，GPT-5发布平淡以及大量AI试点项目失败的报道充斥市场，但记者在深入调查后却发现，没有公司愿意公开承认他们正在缩减AI支出。这种现象揭示了AI泡沫论的局限性，或者暗示了企业对技术长期价值的坚定信心，即便是面对短期挫折。
- 2025-11-10
- 2
- 0
- 0
- AI新闻/评测
- AI行业应用
2025-11-10
视觉干草堆（Visual Haystacks）：针对图像集合的更难问题的回答基准本文介绍了“视觉干草堆”（Visual Haystacks, VHs）基准，这是首个“以视觉为中心”的“大海捞针”（NIAH）测试，旨在严格评估大型多模态模型（LMMs）处理长上下文视觉信息的能力。研究发现当前LMMs在视觉干扰、多图像推理和信息位置敏感性方面存在显著缺陷。为解决这些问题，作者提出了MIRAGE，一个基于检索增强生成的（RAG）框架，并在VHs基准上取得了最先进的性能。
- 2025-11-10
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-09
医疗AI有了“评审员”！北京启动医疗人工智能应用评测服务面对飞速发展的医疗AI，北京日前设立了医疗人工智能应用评测中心，旨在建立规范标准，通过高水平医院和专家团队，对医疗AI进行科学严谨的临床辅助决策能力评测。评测不仅关注准确率，更从医学伦理、循证、流程适配性等多维度进行考核，以确保AI安全有效，筑牢应用底线。
- 2025-11-09
- 0
- 0
- 0
- AI新闻/评测
- AI行业应用
2025-11-09
国产Kimi K2 Thinking大模型登顶开源AI之王：仅耗资460万美元，成本低于DeepSeek 月之暗面最新推出的Kimi K2 Thinking思考大模型，在多项基准测试中表现达到SOTA水平，超越了GPT-5等先进模型，展现出强大的综合推理能力。该模型在HuggingFace榜单上迅速登顶，并获得国外用户好评。尤为引人注目的是，K2 Thinking的API价格远低于GPT-5，且据透露其训练成本仅为460万美元，相较于DeepSeek V3的成本还降低了至少10%，显著降低了AI开发的经济门槛，为开源AI社区树立了新的标杆。
- 2025-11-09
- 4
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-08
语言模型中的语言偏见：ChatGPT对非标准英语的反应本文揭示了ChatGPT等大型语言模型在处理不同英语方言时存在的系统性偏见。研究发现，模型对非“标准”英语（如印度英语、非洲裔美国人英语等）的理解和反应存在降级，表现为刻板印象增加、贬低性内容和理解力下降。即使在要求模仿输入方言时，新模型GPT-4也可能加剧偏见，这凸显了AI在放大现实世界语言歧视方面的潜在风险。
- 2025-11-08
- 1
- 0
- 0
- AI新闻/评测
- AI基础/开发

1
...
13
14
15
...
18