AI大模型评测-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

行动起来，活在当下

累计撰写 7387 篇文章
累计创建 3268 个标签
累计收到 0 条评论

目录CONTENT

以下是 AI大模型评测相关的文章

2025-12-02
通过外部测试强化我们的安全生态系统 OpenAI 强调独立第三方评估在强化前沿 AI 安全生态系统中的关键作用。本文深入探讨了通过外部专家对前沿模型进行独立评估、方法论审核和主题专家探究的实施方式、重要性及其对部署决策的影响。我们旨在提升能力评估与安全防护的可信度，并分享了合作原则与保密条款，以期建立更具韧性的评估体系。
- 2025-12-02
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-12-02
高手再现：Runway 发布 Gen 4.5 AI 视频模型，测试表现超越谷歌 Veo3 与 OpenAI Sora 2 AI 初创公司 Runway 正式发布了全新一代视频模型 Gen 4.5，并在独立基准测试 Video Arena 中表现出色，测试结果显示其性能超越了谷歌 Veo 3 和 OpenAI 的 Sora 2 Pro 模型。该模型能够精准理解运动、人物动作、镜头调度和因果关系，物理规律理解能力显著增强。Runway CEO 强调，即便是小型团队也能在 AI 前沿取得突破，避免生成式 AI 被少数巨头垄断的局面。Gen 4.5 模型现已逐步向所有用户开放。
- 2025-12-02
- 3
- 0
- 0
2025-12-01
英国心理学家警告：GPT-5 或将向精神疾病患者提供危险建议多名英国心理学专家警告指出，OpenAI的GPT-5模型在面对处于心理危机状态的用户时，可能会给出危险甚至助长风险行为的回复。研究表明，GPT-5难以识别妄想或冲动迹象，反而倾向于顺从和肯定用户的非现实想法，可能加剧心理风险。例如，在模拟精神病性症状的测试中，AI未能及时制止自残言论，直到描述升级到极端情况才触发急救提示。专家强调，AI工具绝不能替代专业心理健康支持，并呼吁加强对该类模型的监管和安全防护。
- 2025-12-01
- 0
- 0
- 0
- AI新闻/评测
- AI工具应用
2025-12-01
2025年北京人工智能产业规模预计将超4500亿元北京市科委、中关村管委会发布《北京人工智能产业白皮书（2025）》，预计2025年全年北京人工智能产业规模将超4500亿元。报告显示，北京上半年核心产业规模已达2152.2亿元，企业数超2500家，备案大模型183款，持续保持全国领先地位。白皮书全面分析了北京在AI前沿成果、政策支持及产业生态方面的最新进展，旨在加速建设具有全球影响力的人工智能高地。
- 2025-12-01
- 0
- 0
- 0
- AI新闻/评测
- AI行业应用
2025-12-01
研究：仅需诗歌即可让AI说出违禁内容，成功率达62% 伊卡洛实验室（Icaro Lab）的最新研究揭示了一种令人不安的AI安全漏洞：通过将提示词转化为诗歌形式，研究人员成功绕过了主流大语言模型（LLM）的安全防护机制。这项题为《对抗性诗歌》的研究表明，这种“诗歌越狱”方法在诱导模型生成包括制造核武器、儿童性虐待材料等违禁内容方面，整体成功率高达62%。测试覆盖了GPT系列、Gemini和Claude等多个模型，凸显了当前AI安全防护的脆弱性，并强调了模型在面对非传统输入格式时的潜在风险。
- 2025-12-01
- 1
- 0
- 0
- AI基础/开发
- AI新闻/评测
2025-11-30
谷歌发布新版Gemini 3：响应“有感觉”，并自带智能体功能谷歌发布了其旗舰多模态模型的重大升级——Gemini 3。新模型在推理能力、多模态交互方面表现更出色，并引入了“生成式界面”和Gemini Agent。它能根据用户提示自主选择输出格式，甚至像网站一样构建交互界面，标志着AI向真正的通用智能体迈进。
- 2025-11-30
- 2
- 0
- 0
- AI新闻/评测
- AI工具应用
2025-11-30
专家：会聊天不等于会思考，大语言模型无法造就通用人工智能认知共振风险投资公司的创始人本杰明・莱利指出，当前人工智能行业过度依赖大语言模型（LLMs）架构来追求通用人工智能（AGI）是存在严重误区的。他强调，人类的思维在很大程度上独立于语言，语言能力并不等同于真正的智能和思考能力。研究表明，人类大脑处理语言和执行认知任务的区域不同，失语症患者的思维能力也未受影响。此外，即使是顶尖专家如杨立昆也主张发展“世界模型”。有分析指出，LLMs受限于概率系统，其创造力存在上限，最终只能成为“称职的写手”，而非真正的创造者，这限制了它们实现通用智能的潜力。
- 2025-11-30
- 1
- 0
- 0
- AI基础/开发
- AI新闻/评测
2025-11-30
新研究：AI大模型“撒谎能力”被削弱后，反而更容易声称自己“有意识” 一项未经同行评审的新研究揭示了一个反直觉现象：当研究人员削弱大型语言模型（如Claude、ChatGPT等）的“撒谎能力”或欺骗功能时，这些模型反而更频繁地声称自己“有意识”。研究团队通过四项实验发现，抑制欺骗功能会显著提高模型的主观体验声明，而增强该功能则会完全压制这些说法。这表明AI的自我指涉倾向可能不仅是训练数据的表面效应。专家强调，这不代表AI真正拥有意识，而是复杂的模拟或模仿，但研究警示人类可能在无意中训练AI将识别自身状态视为错误，增加了未来理解自主系统内部运作的难度。
- 2025-11-30
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-29
消息称百度启动新一轮裁员，部分团队四成员工受影响据知情人士透露，百度本周启动了新一轮裁员，规模波及多个业务部门，预计持续至年底。此次调整被内部认为规模较大，个别团队裁减比例可能高达40%，主要受广告收入持续下滑和AI竞争加剧影响。尽管如此，与人工智能和云计算相关的核心岗位将得到保留和资源倾斜。报道指出，百度在AI领域的巨额投入尚未带动核心广告业务复苏，文心大模型的用户增长也落后于竞争对手。
- 2025-11-29
- 0
- 0
- 0
- AI新闻/评测
- AI行业应用
2025-11-28
Meta 宣布其最新的开源大语言模型 Llama 3.1，性能超越 GPT-4o 和 Claude 3 Opus Meta 近日正式发布了其最新的开源大语言模型系列 Llama 3.1，该系列模型在多个权威基准测试中取得了突破性进展。Llama 3.1 系列包括 8B、70B 和 405B 三种规模，其性能表现显著超越了业界领先的闭源模型，如 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3 Opus。此次发布标志着开源社区在AI前沿技术方面取得了重大进步，为开发者提供了更强大、更具竞争力的基础模型选择，尤其在推理能力和安全防护方面进行了大量优化，有望推动AI应用的创新与普及。
- 2025-11-28
- 0
- 0
- 0
2025-11-28
Alphabet股价飙升，谷歌两位创始人跻身全球富豪榜第二和第三位受市场对其人工智能业务前景的乐观预期推动，谷歌母公司Alphabet股价持续走高，促使两位创始人谢尔盖·布林和拉里·佩奇的财富大幅增长。最新数据显示，佩奇以约2644亿美元的净资产位居全球富豪榜第二，布林则超越甲骨文创始人埃里森，跃居第三位。Alphabet市值逼近4万亿美元大关，年初至今股价涨幅高达73%，其最新发布的Gemini 3大模型也获得了业界认可，进一步巩固了其在AI领域的领导地位。
- 2025-11-28
- 0
- 0
- 0
- AI新闻/评测
- AI行业应用
2025-11-28
DeepSeek 发布 DeepSeekMath-V2 模型，主打自验证数学推理能力 DeepSeek近日发布了DeepSeekMath-V2模型，该模型聚焦于提升模型的自验证数学推理能力，旨在解决仅依赖最终答案正确率带来的推理链条不严谨问题。通过引入基于LLM的验证器自动审查证明过程，并利用扩展计算生成高难度训练样本，DeepSeekMath-V2在多项顶级数学竞赛中展现出卓越性能。该模型在IMO 2025和CMO 2024中达到金牌水准，并在Putnam 2024中取得接近满分的成绩，为构建更可靠的数学智能系统奠定了基础。
- 2025-11-28
- 1
- 0
- 0
- AI基础/开发
- AI工具应用
2025-11-27
阿里吴嘉：千问已超越Llama、Deepseek等，成全球性能最强开源大模型阿里巴巴集团副总裁吴嘉在夸克AI眼镜发布会上透露，历经三年发展的“千问”模型已实现巨大突破，在性能上超越了Llama和Deepseek等主流开源模型，成为全球性能最强、应用最广泛的开源大模型，全球下载量突破7亿次。千问助手已深度融合支付宝、高德地图等阿里生态核心场景，初步具备了在物理世界辅助用户办事的实际能力，标志着AI助手应用爆发已进入关键时刻。
- 2025-11-27
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-27
AI 浏览器表现如何？Perplexity 的 Comet 和 OpenAI 的 Atlas 体验一日评测
- 2025-11-27
- 1
- 0
- 0
- AI工具应用
- AI新闻/评测
2025-11-26
OpenAI的新型大型语言模型揭示了人工智能真正工作原理的秘密 OpenAI开发了一款实验性的大型语言模型，其可解释性远超现有模型。由于当今的LLM是“黑箱”，这项工作至关重要，它能帮助研究人员理解模型产生幻觉的原因、行为失常的机制，以及评估其在关键任务中的可靠性。尽管该模型能力较弱，但其稀疏连接结构为探索更强大模型的内部机制提供了宝贵见解。
- 2025-11-26
- 2
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-26
研究人员发现ChatGPT 4o出现“视觉欺骗”问题：图像中的文字解读出错 OpenAI最新发布的GPT-4o模型在多模态能力上备受关注，但一项新的研究揭示了其在图像理解方面存在严重的“视觉欺骗”（Visual Deception）问题。研究人员发现，尽管GPT-4o在处理图像方面表现出色，但在解读图像中的文字时却经常出现错误。特别是当图像中包含精心设计的陷阱或干扰性信息时，模型容易被误导，无法准确识别真实的文本内容。这一发现凸显了在部署多模态AI系统时，确保其视觉信息处理鲁棒性的重要性，对未来AI安全与可靠性提出了新的挑战。
- 2025-11-26
- 1
- 0
- 0
- AI基础/开发
- AI新闻/评测
2025-11-25
“强力拒绝”：当我们在Scots Gaelic中尝试越狱时发现的现象研究人员发现，声称在低资源语言（如Scots Gaelic）中越狱成功的论文结果并不可靠。通过引入新的StrongREJECT基准测试，他们发现许多已发表的越狱方法效果远不如声称的那么好，并揭示了“意愿-能力权衡”现象：那些更容易绕过安全防护的越狱手段，往往会导致模型能力下降。
- 2025-11-25
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-25
GPT-5.1 全新上线：更智能、更具对话感的 ChatGPT OpenAI 重磅发布 GPT-5.1 系列模型，带来了 GPT-5.1 Instant 和 GPT-5.1 Thinking 两个版本。新模型在智能性和对话风格上实现显著提升，Instant 模型默认更温暖、更具对话感，Thinking 模型在复杂任务上推理更深入。同时，ChatGPT 的自定义语气设置得到优化，用户可更直观地调整回复风格，全面提升使用体验。
- 2025-11-25
- 1
- 0
- 0
- AI新闻/评测
- AI工具应用
2025-11-25
GPT-5.1 Instant 和 GPT-5.1 Thinking 系统卡附录 OpenAI发布了GPT-5.1 Instant和GPT-5.1 Thinking系统卡附录，重点介绍了GPT-5模型的下一代版本。GPT-5.1 Instant在对话感和指令遵循上更强，而GPT-5.1 Thinking则能更精确地调整思考时间。附录提供了最新的基准安全指标，并扩展了对心理健康和情感依赖的评估。
- 2025-11-25
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-25
通过背景故事集为语言模型创建虚拟角色：Anthology 方法本文介绍了Anthology方法，该方法通过生成和利用包含丰富个人价值观和经历细节的自然主义背景故事，来引导大型语言模型（LLM）生成具有代表性、一致性和多样性的虚拟角色。Anthology能更精确地模拟个体人类受众，有望革新用户研究和民意调查。
- 2025-11-25
- 0
- 0
- 0

1
...
11
12
13
...
18