首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
5218
篇文章
累计创建
1869
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
AI大模型评测
相关的文章
2026-01-29
大型多模态模型中基于下一个词元预测的多模态学习
本文介绍了Emu3,一个仅通过下一个词元预测进行训练的多模态模型家族。Emu3在感知和生成任务上与现有的特定任务模型(如使用扩散或组合架构的模型)性能相当,甚至匹配旗舰系统。它通过统一的词元预测,为大规模多模态建模奠定了坚实基础,并展示了高保真视频生成和多模态-动作建模能力,有望实现统一的多模态智能。
2026-01-29
0
0
0
AI新闻/评测
AI基础/开发
AI工具应用
2026-01-29
2025年中国智能门锁排行:小米全渠道销量第一!
根据洛图科技(RUNTO)的最新数据显示,2025年中国智能门锁全渠道销量达到1781万套,同比增长2.0%。在国补政策刺激下,市场格局进一步固化,小米、德施曼和凯迪仕稳居销量前三甲,合计市场份额提升至28.3%。其中,小米凭借全价位段覆盖和米家生态优势,在整体全渠道销量中拔得头筹。德施曼则在销售额方面领先,尤其在2000元以上高端市场表现突出,并积极融合AI大模型技术以巩固技术优势。
2026-01-29
1
0
0
AI行业应用
AI工具应用
2026-01-29
语言模型的语言偏见:ChatGPT如何对待不同英语方言
尽管ChatGPT普及,但它主要默认使用标准美式英语(SAE)。本研究深入调查了ChatGPT(GPT-3.5和GPT-4)对包括印度英语、爱尔兰英语和非裔美国人英语在内的非“标准”英语方言的响应偏见。结果显示,模型对这些方言的理解更差,更倾向于刻板印象和贬低性回应,甚至新模型GPT-4也未能完全消除这一问题,可能加剧语言歧视。
2026-01-29
0
0
0
AI新闻/评测
AI工具应用
2026-01-29
语言模型的“英语偏见”:ChatGPT对非“标准”英语的歧视性反应
尽管全球有超过10亿人使用非“标准”英语,但ChatGPT等语言模型对不同英语变体的反应存在系统性偏见。本研究发现,模型对非标准英语(如印度英语、尼日利亚英语、非裔美国人英语等)的回复更具刻板印象、更低人一等,甚至理解能力更差。这可能加剧现实世界中的语言歧视和权力不平等。
2026-01-29
0
0
0
AI新闻/评测
AI基础/开发
2026-01-29
视觉干草堆(Visual Haystacks):评估大型多模态模型在处理长上下文视觉信息中的能力
传统的视觉问答(VQA)仅限于单张图像的推理,无法应对医疗影像集合、卫星图像分析等复杂的多图像场景。为解决此限制,伯克利AI研究团队推出了“视觉干草堆(Visual Haystacks, VHs)”基准测试,专注于“多图像问答”(MIQA)。本文揭示了当前LMM在视觉干扰、多图推理和位置敏感性方面的三大缺陷,并提出了基于RAG的解决方案MIRAGE,显著提升了处理大规模图像集问答的性能。
2026-01-29
0
0
0
AI新闻/评测
AI基础/开发
2026-01-29
初创公司Arcee AI从零开始构建了4000亿参数的开源LLM,旨在超越Meta的Llama
尽管业界普遍认为AI模型市场的赢家已定,但30人团队的Arcee AI挑战了这一观点。他们发布了参数高达4000亿的开源基础模型Trinity,并声称其性能可与Meta的Llama 4 Maverick相媲美。Arcee的优势在于采用永久开放的Apache许可证,旨在为开发者和学术界提供一个真正开放的前沿替代方案。
2026-01-29
0
0
0
AI新闻/评测
AI基础/开发
2026-01-29
重大安全警报:仅需约250份恶意文档,即可使GPT-4识别绕过安全措施
研究人员揭示了一个针对大型语言模型(LLM)的新型攻击载体,展示了绕过安全护栏的惊人效率。研究表明,攻击者只需大约250份特定的恶意文档,就能在GPT-4等先进模型中触发“越狱”行为,使其生成本应被拒绝的有害内容。这一发现突显了AI安全领域的紧迫挑战,特别是针对持续训练和安全对齐机制的潜在弱点。文章深入分析了这种新型数据投毒和越狱攻击的原理,强调了在部署前对模型进行更严格安全验证的必要性,以防止模型被恶意利用。
2026-01-29
1
0
0
AI基础/开发
AI新闻/评测
2026-01-28
谷歌发布 Agentic Vision:模仿人类处理图像,让 AI 学会“放大看”
谷歌DeepMind团队在Gemini 3 Flash模型中推出了“智能体视觉”(Agentic Vision)功能,彻底改变了AI处理图像的传统静态扫描模式。该功能通过结合视觉推理与代码执行,建立“思考-行动-观察”的闭环,模仿人类主动调查的交互方式。模型可以自主执行裁剪、旋转或分析等图像操作,以获取更清晰的视觉证据,有效提升了模型在复杂视觉任务上的准确性。例如,在建筑图纸验证中,准确率提升了5%,并解决了多步视觉算术中的“幻觉”问题。
2026-01-28
1
0
0
AI基础/开发
AI工具应用
2026-01-28
人工智能测试与评估:科学与行业的经验教训
本文探讨了人工智能测试与评估的最新进展,汇集了科学界和工业界的宝贵经验。了解如何构建更可靠、更安全的AI系统,以及未来AI评估面临的挑战与机遇。
2026-01-28
0
0
0
AI新闻/评测
AI基础/开发
2026-01-28
StruQ 和 SecAlign:在不牺牲效用的情况下防御提示注入攻击
提示注入攻击被OWASP列为LLM应用的首要威胁。本文提出了两种无需额外计算成本或人力的新型微调防御方法:StruQ和SecAlign。这些方法通过结构化指令调优和特殊偏好优化,将十多种免优化攻击的成功率降至0%,并显著降低了强优化攻击的成功率,同时保持了模型的通用效用。
2026-01-28
0
0
0
AI基础/开发
AI工具应用
2026-01-28
马云:AI时代不要再犹豫用不用AI,应关注怎么教孩子用好AI
马云在“腊八之约”活动中分享了其对人工智能时代的深刻见解。他强调,在AI时代,关键不再是犹豫是否采用AI技术,而是如何教育下一代更好地驾驭AI。马云指出,AI为乡村教育带来了挑战,但也提供了回归教育本质的机会。他认为,教育的重点应从计算和记忆转向培养孩子的好奇心、想象力、创造力、判断力和协同能力,因为这些才是AI时代真正的核心竞争力,而非技术的鸿沟。
2026-01-28
0
0
0
AI行业应用
AI基础/开发
2026-01-28
多模态人工智能指南:视觉、语音、文本及超越
2026-01-28
2
0
0
AI基础/开发
AI工具应用
AI行业应用
2026-01-27
ChatGPT 为什么会“胡说八道”?专家解释其背后的复杂原因
大型语言模型(LLMs)如ChatGPT常被指责产生虚假或不准确的信息,这种现象被称为“幻觉”(hallucination)。专家指出,这并非模型故意欺骗,而是其生成机制的内在特性。模型本质上是根据训练数据中的概率模式生成文本,而非理解真实世界的逻辑。理解幻觉的来源,如训练数据偏差、提示词不当或模型结构限制,对于开发更可靠、更值得信赖的人工智能至关重要。
2026-01-27
1
0
0
AI基础/开发
AI新闻/评测
2026-01-27
阿里发布旗舰推理模型Qwen3-Max-Thinking:性能媲美GPT-5.2、Claude Opus 4.5
阿里巴巴正式发布了其旗舰推理模型Qwen3-Max-Thinking,该模型参数量超万亿(1T),预训练数据量高达36T Tokens。目前,AI助手千问已在PC端和网页端接入此“AI大脑”,用户可通过一键切换体验更强的推理能力。性能方面,Qwen3-Max-Thinking在多项权威基准测试中表现出色,整体性能已可媲美GPT-5.2-Thinking-xhigh、Claude Opus 4.5和Gemini 3 Pro。该模型带来了更强的世界知识记忆、专家级的复杂推理能力以及更契合人类价...
2026-01-27
0
0
0
AI基础/开发
AI新闻/评测
AI工具应用
2026-01-27
美国AI初创公司Anthropic推出Claude 3.5 Sonnet模型,性能超越GPT-4o
AI初创公司Anthropic发布了Claude 3.5 Sonnet模型,该模型在多个行业基准测试中表现出色,超越了OpenAI的GPT-4o。新模型在推理、编码和理解复杂任务方面展现出显著提升,被誉为迄今为止最快的模型。Anthropic强调其在安全性与表现力之间取得了更好的平衡,特别是在视觉处理和多模态交互方面有所加强,为企业级应用提供了更强大的智能助手和分析工具。
2026-01-27
0
0
0
AI新闻/评测
AI基础/开发
2026-01-27
机器学习中的不确定性:概率、噪声与模型校准
2026-01-27
2
0
0
AI基础/开发
AI工具应用
2026-01-26
NAS 部署 TrendRadar 手把手教程:AI 加持打造私有情报局
本文详细介绍了如何在威联通NAS上部署GitHub上大火的TrendRadar项目,该工具能聚合多平台热点和RSS订阅,并通过AI大模型进行分析和预测。教程涵盖了从下载文件、使用Docker Compose部署,到配置关键词过滤、调整热点权重以及集成邮件推送和AI分析等关键步骤,帮助用户摆脱信息茧房,构建自己的私有情报系统。
2026-01-26
2
0
0
AI工具应用
AI基础/开发
2026-01-26
新测试显示 AI 实际办公准确率不足 25%,但进展比想象更快
一项最新的研究报告指出,当前主流人工智能模型在处理律师、顾问和银行家等知识工作者的实际办公室任务时表现欠佳,最高准确率未能超过 25%。该测试采用 APEX-Agents 基准,侧重于多步骤、跨信息源的综合任务处理,而非传统的诗歌或数学题。尽管准确率不高,但领先模型的表现已从一年前的 5%-10% 提升至约 24%,表明 AI 学习速度远超预期,但距离替代复杂知识工作者仍需在上下文处理能力上取得突破。
2026-01-26
1
0
0
AI新闻/评测
AI工具应用
2026-01-26
ChatGPT开始引用埃隆·马斯克的Grokipedia的内容
研究显示,OpenAI的ChatGPT(特别是GPT-5.2模型)在回答部分问题时,开始引用埃隆·马斯克xAI公司开发的、带有保守倾向的AI生成百科全书Grokipedia的内容。尽管Grokipedia存在争议性信息,但其内容似乎正在渗透到主流AI模型中,尤其是在涉及其自身有争议话题以外的领域。
2026-01-26
1
0
0
AI新闻/评测
AI工具应用
2026-01-26
研究人员对AI与10万人类在创造力方面的表现进行测试
蒙特利尔大学的一项大规模新研究首次将当前最先进的生成式AI系统与超过10万人的创造力进行直接比较。研究发现,像GPT-4这样的AI在某些创造力测试中已超越普通人类水平,尤其是在发散性思维方面。然而,最富想象力的顶尖人类创作者依然遥遥领先于任何AI模型。
2026-01-26
0
0
0
AI新闻/评测
AI基础/开发
1
2
3
4
5
...
16