AI大模型评测-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

行动起来，活在当下

累计撰写 5222 篇文章
累计创建 1875 个标签
累计收到 0 条评论

目录CONTENT

以下是 AI大模型评测相关的文章

2025-12-25
隆重推出 GPT-5.2 OpenAI 正式发布了迄今最强大的模型系列 GPT-5.2，专为提升专业知识型工作效率而设计。GPT-5.2 Thinking 成为首个在 GDPval 评测中达到专家级表现的模型，在电子表格、代码编写、多步骤任务处理和长文本理解方面都有显著提升。新模型将逐步向付费用户和 API 开发者开放，旨在为企业带来更高的经济价值和更可靠的性能。
- 2025-12-25
- 0
- 0
- 0
2025-12-25
评估语言模型的困惑度
- 2025-12-25
- 0
- 0
- 0
- AI基础/开发
- AI工具应用
2025-12-24
超越思维链：在Amazon Bedrock上使用草稿链（Chain-of-Draft）本文深入探讨了“草稿链”（Chain-of-Draft, CoD）这一创新的提示词技术，旨在解决生成式AI部署中质量、成本和延迟的平衡难题。CoD借鉴了人类解决问题的模式，通过限制每一步推理的词数（最多5个词），显著减少了代币使用量（最高达75%）和延迟（最高达78%），同时保持了与传统思维链（CoT）相当的准确性。我们展示了如何在Amazon Bedrock和AWS Lambda上实现CoD，为优化LLM推理成本提供了一条高效的路径。
- 2025-12-24
- 0
- 0
- 0
- AI新闻/评测
- AI工具应用
2025-12-24
约翰·卡雷鲁等作家就AI训练数据侵权问题对六家主要AI公司提起新诉讼包括《血石》作者兼西拉诺（Theranos）举报人约翰·卡雷鲁在内的一批作家，对Anthropic、谷歌、OpenAI、Meta、xAI和Perplexity提起新诉讼，指控这些公司使用盗版书籍训练其大模型。此次诉讼源于部分作家对Anthropic此前15亿美元和解方案的不满，认为该方案未能追究AI公司使用盗版内容训练模型并获取巨额收入的责任。
- 2025-12-24
- 1
- 0
- 0
- AI新闻/评测
- AI行业应用
2025-12-23
社交媒体如何助长最糟糕的AI吹捧之风本文探讨了社交媒体如何加剧人工智能领域的过度炒作（AI boosterism）现象。通过OpenAI科学家关于GPT-5解决数学难题的乌龙事件，揭示了过度宣传和“先炒作、后思考”的文化。文章指出，尽管AI在文献检索方面展现了潜力，但社交媒体的即时性和竞争性鼓励了夸大其词的声明，掩盖了对模型能力更深入、更审慎的评估。这种文化正在阻碍对AI实际能力的客观认知。
- 2025-12-23
- 1
- 0
- 0
- AI新闻/评测
- AI行业应用
2025-12-22
揭穿“低资源语言越狱”：StrongREJECT基准测试揭示越狱成功率的真相研究人员发现声称能通过将恶意提示翻译成苏格兰盖尔语来“越狱”GPT-4的论文存在严重缺陷。本文介绍了StrongREJECT基准测试，它通过高质量的禁止提示集和先进的自动评估器，揭示了现有越狱方法的实际效果远低于报告水平，并提出了“意愿-能力权衡”这一关键发现。
- 2025-12-22
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-12-22
Claude AI 任务模式开启测试：支持提问、计划与执行，全程可视化
- 2025-12-22
- 0
- 0
- 0
2025-12-21
消息称：Meta 牵头研发全新图像、视频与文本 AI 模型，预计明年推出据最新报道，Meta 公司正全力投入由 Scale AI 联合创始人亚历山大・王领导的超级智能实验室，以开发新一代人工智能模型。研发方向聚焦于代号为“芒果（Mango）”的图像与视频模型，以及内部代号“牛油果（Avocado）”的全新文本模型，目标是显著提升代码生成和多模态推理能力。Meta 计划在 2026 年上半年推出这些模型，旨在追赶 OpenAI、Anthropic 等竞争对手，以巩固其在人工智能领域的战略地位。这些新模型的成功与否，将决定 Meta 在下一代 AI 竞争中的表现。
- 2025-12-21
- 1
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-12-21
ChatGPT的文风原来源自肯尼亚：AI模仿了当地受严苛教育体系影响下的写作风格大量用户反馈ChatGPT的文风“过于完美”或“缺乏人情味”，现在一位肯尼亚作家揭示了背后的原因：这可能是他们长期接受的规范化教育风格被AI学习的结果。该作家指出，他的文章因逻辑严谨、结构对称而被误判为AI生成。由于AI训练（RLHF）工作常外包至非洲地区，导致模型吸收了当地严格的商务和学术写作习惯，如频繁使用特定词汇“delve”。这种现象引发了关于AI生成内容判断标准的讨论，同时也反映了全球化教育模式对AI语料库的深远影响。
- 2025-12-21
- 0
- 0
- 0
- AI新闻/评测
- AI工具应用
2025-12-19
通过详尽的背景故事集为语言模型构建虚拟人格：Anthology 方法介绍本文介绍了Anthology方法，该方法通过生成和利用包含个人价值观和经历细节的自然生活背景故事，来引导大型语言模型（LLMs）生成具有代表性、一致性和多样性的虚拟人格。Anthology旨在通过模拟特定人类样本，提高用户研究和民意调查的保真度，并提供了比传统人口水平近似更精确的个体模拟能力。
- 2025-12-19
- 0
- 0
- 0
2025-12-19
马斯克：AI助手Grok 2.0比GPT-4更强，今年将超越OpenAI 埃隆·马斯克表示，他的人工智能公司xAI开发的下一代大语言模型Grok 2.0，其性能将超越OpenAI的GPT-4，甚至可能在今年年底前超越最先进的模型。Grok 2.0旨在提供更强大的实时信息处理能力和幽默的交互风格。马斯克同时透露，Grok 2.0将具备更强的推理能力，并计划在X平台上向更多用户开放，进一步推动AI领域的竞争格局。
- 2025-12-19
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-12-19
通过背景故事集为语言模型创建虚拟角色：Anthology 方法介绍伯克利BAIR团队推出Anthology方法，通过生成和利用包含丰富个人价值观和经历的自然叙事背景故事，来指导大型语言模型（LLM）生成具有代表性、一致性和多样性的虚拟角色。该方法旨在提升LLM模拟个体人类受试者的保真度，特别是在用户研究和社会科学领域，提供了一种更具成本效益和可扩展性的替代方案。
- 2025-12-19
- 0
- 0
- 0
2025-12-19
通过背景故事集为语言模型构建虚拟角色：Anthology方法介绍本文介绍了Anthology方法，该方法通过生成和利用包含个人价值观和经历的自然主义背景故事，来引导大型语言模型（LLM）形成具有代表性、一致性和多样性的虚拟角色。Anthology旨在通过详尽的个人叙事来模拟个体人类样本，提升在用户研究和社会科学应用中的精确度，并展示了其在逼近公众舆论调查方面的优越性。
- 2025-12-19
- 0
- 0
- 0
2025-12-19
评估思维链的可监控性随着AI系统决策复杂性的增加，理解其内部决策过程变得至关重要。OpenAI介绍了评估AI思维链（Chain-of-Thought, CoT）“可监控性”的框架和13项新评估，以系统性地衡量模型在不同推理计算量、强化学习和预训练规模下的可控性。研究发现，监控CoT远比仅监控最终输出更有效，并探讨了推理计算与模型规模之间的权衡。
- 2025-12-19
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-12-19
通过故事集为语言模型生成虚拟角色：Anthology 方法介绍本文介绍了Anthology方法，它通过生成和利用包含个人价值观和经历等丰富细节的自然主义背景故事，来引导大型语言模型（LLM）生成具有代表性、一致且多样化的虚拟角色。该方法能更精确地模拟个体人类样本，在公共意见调查等社会科学研究中展现出巨大潜力，同时探讨了其在偏见和隐私方面的潜在挑战。
- 2025-12-19
- 0
- 0
- 0
2025-12-18
研究发现：AI模型在模拟人类对话时面临“幻觉”挑战一项新的研究揭示了大型语言模型（LLM）在模拟人类对话时出现的关键缺陷——“幻觉”问题。尽管AI模型在流畅性方面表现出色，但在涉及事实核查和一致性时，它们会产生看似可信但完全虚构的内容。研究人员发现，AI在理解人类对话的社会背景和潜在意图方面存在局限性。这种“幻觉”现象对AI在关键领域的应用构成潜在风险，凸显了提高模型可靠性和可解释性的重要性。
- 2025-12-18
- 1
- 0
- 0
- AI基础/开发
- AI新闻/评测
2025-12-18
谷歌发布Gemini 3 Flash模型，并将其设为Gemini应用的默认模型谷歌发布了快速且经济的Gemini 3 Flash模型，并宣布将其设为Gemini应用和搜索AI模式的默认模型。该模型在多项基准测试中表现出色，尤其在MMMU-Pro多模态推理测试中以81.2%的成绩超越所有竞争对手。Flash模型旨在成为主力模型，适用于需要快速响应和高效处理大规模任务的场景。
- 2025-12-18
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-12-18
加州大学圣地亚哥分校实验室使用 NVIDIA DGX B200 系统推进生成式AI研究加州大学圣地亚哥分校的Hao AI Lab团队获得了强大的NVIDIA DGX B200系统，用于加速其在大型语言模型（LLM）推理方面的关键研究。该实验室的研究成果，如DistServe，已经影响了包括NVIDIA Dynamo在内的现有LLM平台。DGX B200正助力FastVideo和Lmgame等项目，并探索低延迟LLM服务的新前沿。
- 2025-12-18
- 0
- 0
- 0
2025-12-16
视觉干草堆：评估大型多模态模型在处理长上下文视觉信息方面的基准测试传统的视觉问答（VQA）局限于处理单张图像，无法应对处理大量图像集合的复杂场景。伯克利BAIR团队推出了“视觉干草堆”（Visual Haystacks, VHs）基准测试，专注于“多图像问答”（MIQA）任务，以严格评估大型多模态模型（LMMs）在跨图像检索和推理方面的能力。研究揭示了当前LMM在处理视觉干扰、多图像推理和信息位置敏感性方面存在显著缺陷，并提出了基于检索增强生成的解决方案MIRAGE。
- 2025-12-16
- 0
- 0
- 0
2025-12-16
通用人工智能安全吗？专家们提出了对齐和评估的担忧随着人工智能模型能力的飞速提升，全球范围内的AI安全专家正密切关注“对齐”和“评估”两大核心挑战。对齐问题关乎确保超级智能系统能按人类意图行动，避免产生灾难性后果，但目前技术上尚未完全解决。同时，评估AI系统的能力边界和潜在风险也面临巨大困难，因为现有测试方法可能无法捕捉到未来更复杂、更具适应性的AI系统的威胁。这些担忧凸显了在AI快速发展时期，制定稳健的监管框架和安全协议的迫切性，以保障人工智能的长期可控性。
- 2025-12-16
- 0
- 0
- 0
- AI基础/开发
- AI新闻/评测

1
...
6
7
8
...
16