首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
5218
篇文章
累计创建
1869
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
AI大模型评测
相关的文章
2026-01-24
AI 智能体的数学逻辑算不通
一篇研究论文从数学上论证了AI智能体注定会失败,声称它们无法处理复杂任务。然而,AI行业对此持不同意见,认为通过构建外围防护栏或使用数学验证方法可以克服幻觉问题。本文探讨了智能体AI的数学局限性与行业前景之间的紧张关系。
2026-01-24
0
0
0
AI新闻/评测
AI基础/开发
2026-01-24
与外星生物相似:研究人员正将大型语言模型视为外星生物进行研究
我们现在与极其庞大、复杂的机器共存,但包括开发者在内,几乎没人完全理解它们的工作原理。研究人员正在采用类比生物学和神经科学的方法,将大型语言模型(LLM)视为“外星生物”进行研究,以揭示其内部机制、能力和局限性,这对于AI安全和对齐至关重要。
2026-01-24
0
0
0
AI新闻/评测
AI基础/开发
AI行业应用
2026-01-23
AI代理准备好进入职场了吗?新的基准测试引发质疑
尽管AI取得了巨大进步,但知识工作领域受到的影响却很小。Mercor的新研究提出了APEX-Agents基准测试,该测试模拟了咨询、投行和法律等领域的真实专业任务。结果显示,目前最先进的模型在处理多领域信息追踪等复杂任务时表现不佳,准确率仅略高于四分之一,表明AI代理在实际进入高价值白领工作岗位方面仍面临严峻挑战。
2026-01-23
0
0
0
AI新闻/评测
AI行业应用
AI基础/开发
2026-01-23
“谷歌医生”曾存在问题,ChatGPT Health能做得更好吗?
在过去二十年里,人们遇到健康问题首选“谷歌医生”。现在,随着OpenAI推出ChatGPT Health,每月有2.3亿人向ChatGPT咨询健康问题。本文深入探讨了ChatGPT Health作为支撑工具的潜力,它能否比网络搜索更好地应对医疗信息搜索的挑战,同时分析了其带来的风险和局限性。
2026-01-23
0
0
0
AI新闻/评测
AI工具应用
AI行业应用
2026-01-23
Anthropic 不得不持续修改其技术面试测试,以防止使用 Claude 作弊
Anthropic 的技术面试测试自 2024 年以来持续面临 AI 作弊的挑战。随着 Claude Opus 4 甚至 4.5 的性能超越人类应聘者,公司不得不不断迭代测试设计,以确保评估的有效性。这凸显了在 AI 时代下,评估人类技能的难度。
2026-01-23
0
0
0
AI新闻/评测
AI基础/开发
AI工具应用
2026-01-23
StrongREJECT:一种用于评估大型语言模型越狱攻击的基准测试
本文揭示了现有大型语言模型(LLM)越狱评估的普遍缺陷,例如翻译攻击的虚假成功。研究人员推出了StrongREJECT基准测试,它通过高质量的禁用提示数据集和先进的自动化评估器,提供了一种更准确、更可靠的方法来衡量越狱效果,并发现了“意愿-能力权衡”这一关键现象。
2026-01-23
0
0
0
AI基础/开发
AI新闻/评测
2026-01-21
我们在同一数据集上调优了4个分类器:结果均未实际提升
机器学习中的超参数调优常被视为提升模型性能的“灵丹妙药”。然而,一项使用葡萄牙学生表现数据进行的严格实验表明,对四种不同分类器进行嵌套交叉验证和网格搜索调优后,性能平均下降了0.0005,且无统计学意义上的提升。实验采用了严谨的方法论,包括防止数据泄露和使用McNemar's检验,揭示了在数据信号有限或默认参数已高度优化的情况下,调优可能并不总是带来价值。这强调了方法论的重要性,并提醒从业者应知道何时停止调优,转而关注特征工程或数据质量,从而建立更值得信赖的机器学习工作流程。
2026-01-21
0
0
0
AI基础/开发
AI工具应用
2026-01-17
利用 GPT-5 提升湿实验室生物研究效率:分子克隆实验效率提升 79 倍
OpenAI 联合 Red Queen Bio 合作,建立了一套评估 GPT-5 在湿实验室中设计和优化实验的能力。通过优化分子克隆实验流程,GPT-5 引入了 RecA 和 gp32 蛋白的新机制,使克隆效率提升了惊人的 79 倍。本文详细介绍了该进化框架、新颖的酶促组装策略 (RAPF-HiFi) 以及转化流程的优化成果,展示了 AI 助力生物学研究加速的巨大潜力。
2026-01-17
2
0
0
AI新闻/评测
AI工具应用
AI行业应用
2026-01-17
FARA-7B:专为计算机使用而设计的高效智能体模型
本文隆重推出高效的70亿参数模型FARA-7B,它创新性地集成了Reasoning-Action-Feedback (RAF) 模块,专为计算机使用和多步骤任务设计。FARA-7B在AgentBench等测试中展现出超越GPT-4o的稳健推理和工具使用能力,是新一代AI智能体的关键基石。
2026-01-17
0
0
0
AI基础/开发
AI工具应用
AI新闻/评测
2026-01-17
4130万篇论文洞察:AI使科学家发文量暴涨3倍,却让科学路越走越窄
芝加哥大学团队深入分析了4130万篇研究论文,揭示了人工智能在科学研究中的“双刃剑”效应。研究发现,AI辅助的科学家发文量是未用者的3.02倍,引用次数高出4.85倍,加速了职业晋升。然而,这种效率提升并未带来科学探索的整体繁荣。AI的普及导致科学研究的议题总量缩减了4.63%,学术互动下降了22%。科学家们倾向于利用AI在已知领域内趋同式地解决问题,使得科学探索的多样性受到侵蚀,研究热点过度集中,新兴领域被忽视,科学之路面临“越走越窄”的风险。
2026-01-17
0
0
0
AI行业应用
AI新闻/评测
2026-01-17
中国人工智能企业数量已超6200家,AI大模型融入千行百业
我国人工智能企业数量已突破6200家,AI大模型正深度融合金融、医疗、制造、交通、教育等关键行业,推动产业智能化升级。据统计,2025年中国人工智能核心产业规模已迈入万亿元级别,显示出强劲的发展势头。大模型驱动的智能决策正在取代传统经验决策模式,彻底改变了研发、运维和风险管理方式。同时,AI企业数量占全球的比例持续增长,标志着中国在人工智能领域构建了从基础底座到行业应用的完整生态体系,对全球技术格局产生重要影响。
2026-01-17
0
0
0
AI新闻/评测
AI行业应用
2026-01-17
五大开源AI模型API提供商对比
2026-01-17
0
0
0
AI基础/开发
AI工具应用
AI行业应用
2026-01-17
面向多智能体编排模式的高级微调技术:来自亚马逊大规模实践的经验总结
本文深入探讨了亚马逊在处理高风险企业级应用时采用的高级大语言模型(LLM)微调和后训练技术。文章揭示了如何通过微调实现显著的业务成果,如亚马逊药房将危险药物错误减少了33%。内容涵盖了从SFT到GRPO、DAPO、GSPO等前沿推理优化方法的演进,并结合亚马逊内部的真实案例(如药房、全球工程服务和A+内容),提供了一个在AWS上选择合适微调技术的决策框架和参考架构。
2026-01-17
1
0
0
AI新闻/评测
AI基础/开发
AI行业应用
2026-01-16
人工智能测试与评估:科学与行业的经验教训
本期微软研究院播客聚焦AI测试与评估的核心议题,深入剖析了科学研究和工业界在确保AI模型鲁棒性、可信赖性与安全性方面积累的关键经验教训。讨论涵盖了如何设计更有效的评估基准,以及在实际部署中实现持续可靠测试的策略。
2026-01-16
0
0
0
AI新闻/评测
AI基础/开发
2026-01-16
亚马逊AMET支付团队如何利用Strands智能体加速测试用例生成
亚马逊AMET支付团队曾耗费大量人力进行手动测试用例生成。为解决这一效率瓶颈,他们引入了基于Amazon Bedrock和Strands Agents SDK构建的SAARAM多智能体AI解决方案。该方案通过模仿人类专家的认知工作流,将测试用例生成时间从一周缩短到几小时,同时利用结构化输出来显著减少模型幻觉,实现了质量与效率的双重提升。
2026-01-16
0
0
0
AI工具应用
AI基础/开发
AI行业应用
2026-01-15
AI模型开始攻克高等数学难题
OpenAI的最新模型GPT 5.2在解决保罗·埃尔德什(Paul Erdős)等数学家提出的开放性数学问题上展现出惊人能力。软件工程师Neel Somani的测试显示,AI模型已能提供复杂的数学证明,甚至在某些问题上超越了人类专家的现有解决方案,标志着大型语言模型在推动人类知识前沿方面扮演着重要角色。
2026-01-15
0
0
0
AI新闻/评测
AI工具应用
AI基础/开发
2026-01-14
机器学习中的不确定性:概率与噪声
2026-01-14
0
0
0
AI基础/开发
AI工具应用
2026-01-13
微软研报称 DeepSeek 在中国 AI 市场份额达 89%,在白俄罗斯达 56%
微软总裁布拉德 · 史密斯发布研报指出,中国正凭借“低成本开源模型 + 政府高额补贴”的组合拳,在西方以外的国际市场赢得人工智能(AI)竞赛。报告基于产品使用数据分析,揭示了中国开源模型 DeepSeek 在全球,尤其是在全球南方国家和受技术限制地区取得的显著市场份额。DeepSeek 模型在白俄罗斯的市场份额高达 56%,古巴为 49%,俄罗斯为 43%。报告同时警告,全球 AI 普及存在“南北鸿沟”,呼吁西方政府加大投资以平衡竞争格局。
2026-01-13
0
0
0
AI行业应用
AI新闻/评测
2026-01-13
谷歌新AI模型Gemini 1.5 Pro的突破性进展与挑战
谷歌最新发布的人工智能模型Gemini 1.5 Pro展示了前所未有的上下文处理能力,其原生支持高达100万个Token的处理量,并在特定测试中可扩展至200万个Token。这一巨大提升意味着模型能够一次性消化数小时的视频、数百页的文档或数万行代码,极大地增强了其理解复杂信息和跨模态推理的能力。Gemini 1.5 Pro已面向开发者测试,有望彻底改变信息处理和复杂任务的自动化,但其规模化部署仍面临算力与成本的挑战。
2026-01-13
0
0
0
AI基础/开发
AI工具应用
AI新闻/评测
2026-01-13
隆重推出 GPT-5.2
OpenAI 发布了迄今为止最强大的模型系列 GPT-5.2,专为专业知识型工作和持久智能体打造。GPT-5.2 在 GDPval 等多项基准测试中刷新行业纪录,展示出在电子表格制作、代码编写、图像理解和复杂多步项目处理方面的卓越能力。GPT-5.2 Instant、Thinking 和 Pro 现已陆续向付费用户和开发者开放。
2026-01-13
2
0
0
AI新闻/评测
AI基础/开发
AI工具应用
1
2
3
4
5
...
16