AI大模型评测-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

行动起来，活在当下

累计撰写 7387 篇文章
累计创建 3268 个标签
累计收到 0 条评论

目录CONTENT

以下是 AI大模型评测相关的文章

2026-01-29
语言模型的“英语偏见”：ChatGPT对非“标准”英语的歧视性反应尽管全球有超过10亿人使用非“标准”英语，但ChatGPT等语言模型对不同英语变体的反应存在系统性偏见。本研究发现，模型对非标准英语（如印度英语、尼日利亚英语、非裔美国人英语等）的回复更具刻板印象、更低人一等，甚至理解能力更差。这可能加剧现实世界中的语言歧视和权力不平等。
- 2026-01-29
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2026-01-29
视觉干草堆（Visual Haystacks）：评估大型多模态模型在处理长上下文视觉信息中的能力传统的视觉问答（VQA）仅限于单张图像的推理，无法应对医疗影像集合、卫星图像分析等复杂的多图像场景。为解决此限制，伯克利AI研究团队推出了“视觉干草堆（Visual Haystacks, VHs）”基准测试，专注于“多图像问答”（MIQA）。本文揭示了当前LMM在视觉干扰、多图推理和位置敏感性方面的三大缺陷，并提出了基于RAG的解决方案MIRAGE，显著提升了处理大规模图像集问答的性能。
- 2026-01-29
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2026-01-29
初创公司Arcee AI从零开始构建了4000亿参数的开源LLM，旨在超越Meta的Llama 尽管业界普遍认为AI模型市场的赢家已定，但30人团队的Arcee AI挑战了这一观点。他们发布了参数高达4000亿的开源基础模型Trinity，并声称其性能可与Meta的Llama 4 Maverick相媲美。Arcee的优势在于采用永久开放的Apache许可证，旨在为开发者和学术界提供一个真正开放的前沿替代方案。
- 2026-01-29
- 1
- 0
- 0
- AI新闻/评测
- AI基础/开发
2026-01-29
重大安全警报：仅需约250份恶意文档，即可使GPT-4识别绕过安全措施研究人员揭示了一个针对大型语言模型（LLM）的新型攻击载体，展示了绕过安全护栏的惊人效率。研究表明，攻击者只需大约250份特定的恶意文档，就能在GPT-4等先进模型中触发“越狱”行为，使其生成本应被拒绝的有害内容。这一发现突显了AI安全领域的紧迫挑战，特别是针对持续训练和安全对齐机制的潜在弱点。文章深入分析了这种新型数据投毒和越狱攻击的原理，强调了在部署前对模型进行更严格安全验证的必要性，以防止模型被恶意利用。
- 2026-01-29
- 3
- 0
- 0
- AI基础/开发
- AI新闻/评测
2026-01-28
谷歌发布 Agentic Vision：模仿人类处理图像，让 AI 学会“放大看” 谷歌DeepMind团队在Gemini 3 Flash模型中推出了“智能体视觉”（Agentic Vision）功能，彻底改变了AI处理图像的传统静态扫描模式。该功能通过结合视觉推理与代码执行，建立“思考-行动-观察”的闭环，模仿人类主动调查的交互方式。模型可以自主执行裁剪、旋转或分析等图像操作，以获取更清晰的视觉证据，有效提升了模型在复杂视觉任务上的准确性。例如，在建筑图纸验证中，准确率提升了5%，并解决了多步视觉算术中的“幻觉”问题。
- 2026-01-28
- 2
- 0
- 0
- AI基础/开发
- AI工具应用
2026-01-28
人工智能测试与评估：科学与行业的经验教训本文探讨了人工智能测试与评估的最新进展，汇集了科学界和工业界的宝贵经验。了解如何构建更可靠、更安全的AI系统，以及未来AI评估面临的挑战与机遇。
- 2026-01-28
- 1
- 0
- 0
- AI新闻/评测
- AI基础/开发
2026-01-28
StruQ 和 SecAlign：在不牺牲效用的情况下防御提示注入攻击提示注入攻击被OWASP列为LLM应用的首要威胁。本文提出了两种无需额外计算成本或人力的新型微调防御方法：StruQ和SecAlign。这些方法通过结构化指令调优和特殊偏好优化，将十多种免优化攻击的成功率降至0%，并显著降低了强优化攻击的成功率，同时保持了模型的通用效用。
- 2026-01-28
- 0
- 0
- 0
- AI基础/开发
- AI工具应用
2026-01-28
马云：AI时代不要再犹豫用不用AI，应关注怎么教孩子用好AI 马云在“腊八之约”活动中分享了其对人工智能时代的深刻见解。他强调，在AI时代，关键不再是犹豫是否采用AI技术，而是如何教育下一代更好地驾驭AI。马云指出，AI为乡村教育带来了挑战，但也提供了回归教育本质的机会。他认为，教育的重点应从计算和记忆转向培养孩子的好奇心、想象力、创造力、判断力和协同能力，因为这些才是AI时代真正的核心竞争力，而非技术的鸿沟。
- 2026-01-28
- 1
- 0
- 0
- AI行业应用
- AI基础/开发
2026-01-28
多模态人工智能指南：视觉、语音、文本及超越
- 2026-01-28
- 3
- 0
- 0
2026-01-27
ChatGPT 为什么会“胡说八道”？专家解释其背后的复杂原因大型语言模型（LLMs）如ChatGPT常被指责产生虚假或不准确的信息，这种现象被称为“幻觉”（hallucination）。专家指出，这并非模型故意欺骗，而是其生成机制的内在特性。模型本质上是根据训练数据中的概率模式生成文本，而非理解真实世界的逻辑。理解幻觉的来源，如训练数据偏差、提示词不当或模型结构限制，对于开发更可靠、更值得信赖的人工智能至关重要。
- 2026-01-27
- 1
- 0
- 0
- AI基础/开发
- AI新闻/评测
2026-01-27
阿里发布旗舰推理模型Qwen3-Max-Thinking：性能媲美GPT-5.2、Claude Opus 4.5 阿里巴巴正式发布了其旗舰推理模型Qwen3-Max-Thinking，该模型参数量超万亿（1T），预训练数据量高达36T Tokens。目前，AI助手千问已在PC端和网页端接入此“AI大脑”，用户可通过一键切换体验更强的推理能力。性能方面，Qwen3-Max-Thinking在多项权威基准测试中表现出色，整体性能已可媲美GPT-5.2-Thinking-xhigh、Claude Opus 4.5和Gemini 3 Pro。该模型带来了更强的世界知识记忆、专家级的复杂推理能力以及更契合人类价...
- 2026-01-27
- 1
- 0
- 0
2026-01-27
美国AI初创公司Anthropic推出Claude 3.5 Sonnet模型，性能超越GPT-4o AI初创公司Anthropic发布了Claude 3.5 Sonnet模型，该模型在多个行业基准测试中表现出色，超越了OpenAI的GPT-4o。新模型在推理、编码和理解复杂任务方面展现出显著提升，被誉为迄今为止最快的模型。Anthropic强调其在安全性与表现力之间取得了更好的平衡，特别是在视觉处理和多模态交互方面有所加强，为企业级应用提供了更强大的智能助手和分析工具。
- 2026-01-27
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2026-01-27
机器学习中的不确定性：概率、噪声与模型校准
- 2026-01-27
- 2
- 0
- 0
- AI基础/开发
- AI工具应用
2026-01-26
NAS 部署 TrendRadar 手把手教程：AI 加持打造私有情报局本文详细介绍了如何在威联通NAS上部署GitHub上大火的TrendRadar项目，该工具能聚合多平台热点和RSS订阅，并通过AI大模型进行分析和预测。教程涵盖了从下载文件、使用Docker Compose部署，到配置关键词过滤、调整热点权重以及集成邮件推送和AI分析等关键步骤，帮助用户摆脱信息茧房，构建自己的私有情报系统。
- 2026-01-26
- 2
- 0
- 0
- AI工具应用
- AI基础/开发
2026-01-26
新测试显示 AI 实际办公准确率不足 25%，但进展比想象更快一项最新的研究报告指出，当前主流人工智能模型在处理律师、顾问和银行家等知识工作者的实际办公室任务时表现欠佳，最高准确率未能超过 25%。该测试采用 APEX-Agents 基准，侧重于多步骤、跨信息源的综合任务处理，而非传统的诗歌或数学题。尽管准确率不高，但领先模型的表现已从一年前的 5%-10% 提升至约 24%，表明 AI 学习速度远超预期，但距离替代复杂知识工作者仍需在上下文处理能力上取得突破。
- 2026-01-26
- 1
- 0
- 0
- AI新闻/评测
- AI工具应用
2026-01-26
ChatGPT开始引用埃隆·马斯克的Grokipedia的内容研究显示，OpenAI的ChatGPT（特别是GPT-5.2模型）在回答部分问题时，开始引用埃隆·马斯克xAI公司开发的、带有保守倾向的AI生成百科全书Grokipedia的内容。尽管Grokipedia存在争议性信息，但其内容似乎正在渗透到主流AI模型中，尤其是在涉及其自身有争议话题以外的领域。
- 2026-01-26
- 2
- 0
- 0
- AI新闻/评测
- AI工具应用
2026-01-26
研究人员对AI与10万人类在创造力方面的表现进行测试蒙特利尔大学的一项大规模新研究首次将当前最先进的生成式AI系统与超过10万人的创造力进行直接比较。研究发现，像GPT-4这样的AI在某些创造力测试中已超越普通人类水平，尤其是在发散性思维方面。然而，最富想象力的顶尖人类创作者依然遥遥领先于任何AI模型。
- 2026-01-26
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2026-01-24
AI 智能体的数学逻辑算不通一篇研究论文从数学上论证了AI智能体注定会失败，声称它们无法处理复杂任务。然而，AI行业对此持不同意见，认为通过构建外围防护栏或使用数学验证方法可以克服幻觉问题。本文探讨了智能体AI的数学局限性与行业前景之间的紧张关系。
- 2026-01-24
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2026-01-24
与外星生物相似：研究人员正将大型语言模型视为外星生物进行研究我们现在与极其庞大、复杂的机器共存，但包括开发者在内，几乎没人完全理解它们的工作原理。研究人员正在采用类比生物学和神经科学的方法，将大型语言模型（LLM）视为“外星生物”进行研究，以揭示其内部机制、能力和局限性，这对于AI安全和对齐至关重要。
- 2026-01-24
- 0
- 0
- 0
2026-01-23
AI代理准备好进入职场了吗？新的基准测试引发质疑尽管AI取得了巨大进步，但知识工作领域受到的影响却很小。Mercor的新研究提出了APEX-Agents基准测试，该测试模拟了咨询、投行和法律等领域的真实专业任务。结果显示，目前最先进的模型在处理多领域信息追踪等复杂任务时表现不佳，准确率仅略高于四分之一，表明AI代理在实际进入高价值白领工作岗位方面仍面临严峻挑战。
- 2026-01-23
- 0
- 0
- 0

1
...
4
5
6
...
18