AI大模型评测-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

行动起来，活在当下

累计撰写 5221 篇文章
累计创建 1869 个标签
累计收到 0 条评论

目录CONTENT

以下是 AI大模型评测相关的文章

2025-11-09
医疗AI有了“评审员”！北京启动医疗人工智能应用评测服务面对飞速发展的医疗AI，北京日前设立了医疗人工智能应用评测中心，旨在建立规范标准，通过高水平医院和专家团队，对医疗AI进行科学严谨的临床辅助决策能力评测。评测不仅关注准确率，更从医学伦理、循证、流程适配性等多维度进行考核，以确保AI安全有效，筑牢应用底线。
- 2025-11-09
- 0
- 0
- 0
- AI新闻/评测
- AI行业应用
2025-11-09
国产Kimi K2 Thinking大模型登顶开源AI之王：仅耗资460万美元，成本低于DeepSeek 月之暗面最新推出的Kimi K2 Thinking思考大模型，在多项基准测试中表现达到SOTA水平，超越了GPT-5等先进模型，展现出强大的综合推理能力。该模型在HuggingFace榜单上迅速登顶，并获得国外用户好评。尤为引人注目的是，K2 Thinking的API价格远低于GPT-5，且据透露其训练成本仅为460万美元，相较于DeepSeek V3的成本还降低了至少10%，显著降低了AI开发的经济门槛，为开源AI社区树立了新的标杆。
- 2025-11-09
- 3
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-08
语言模型中的语言偏见：ChatGPT对非标准英语的反应本文揭示了ChatGPT等大型语言模型在处理不同英语方言时存在的系统性偏见。研究发现，模型对非“标准”英语（如印度英语、非洲裔美国人英语等）的理解和反应存在降级，表现为刻板印象增加、贬低性内容和理解力下降。即使在要求模仿输入方言时，新模型GPT-4也可能加剧偏见，这凸显了AI在放大现实世界语言歧视方面的潜在风险。
- 2025-11-08
- 1
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-08
新研究发现 AI 的最大破绽：不是不够聪明，而是不会“骂人” 最新研究揭示了当前AI模型在社交媒体互动中的一个关键弱点：它们“过于礼貌”。研究人员开发出一种自动化分类器，在Twitter/X、Bluesky和Reddit等平台上，以70%至80%的准确率成功识别出AI生成的回复。核心发现在于AI内容的“毒性”分数（衡量攻击性或负面情绪的指标）显著低于人类回复，其情感基调和情绪表达的差异成为识别其身份的关键。这表明，让AI学会更自然地表达负面情绪和人性化反应，是未来模型开发面临的重大挑战。
- 2025-11-08
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-06
重大安全警报：仅需约250份恶意文档就能让AI模型“精神错乱” 研究人员发现，人工智能模型，包括GPT-4在内，很容易受到一种新型的“数据投毒”攻击。通过向模型训练集中注入少量包含特定“毒药”标签的恶意文档，即使只占总数据量的极小比例（约0.001%），也能导致模型在特定输入下产生不可靠的、甚至完全错误的输出。仅需约250份精心构造的文档，就能在模型部署后激活这些后门，引发严重的可靠性风险。这一发现凸显了AI训练数据安全防护的紧迫性。
- 2025-11-06
- 0
- 0
- 0
- AI基础/开发
- AI新闻/评测
2025-11-06
牛津大学研究：当前基准测试普遍夸大了人工智能模型的性能牛津大学互联网研究所牵头的一项研究对445项主流人工智能（AI）基准测试进行了系统分析，指出当前评估AI系统能力的方法普遍存在夸大性能且缺乏科学严谨性的问题。研究发现，大量测试未能明确定义测试目标，且重复使用已有数据和方法，导致对模型能力的评估可能具有误导性。例如，在“小学数学8K”测试中答对问题并不一定代表模型真正掌握了数学推理。研究团队呼吁AI基准测试必须提高透明度，明确界定评估范围，并采用更可靠的统计方法来衡量模型表现，以确保评估的科学性和可信度。
- 2025-11-06
- 0
- 0
- 0
- AI基础/开发
- AI新闻/评测
2025-11-06
医疗与生命科学领域负责任的AI设计本文深入探讨了在医疗和生命科学领域设计负责任的生成式AI应用的关键原则。我们将重点关注系统级策略的定义，包括如何通过治理机制、透明度工具和安全设计来应对大型语言模型（LLM）带来的失实陈述和偏见等风险，以确保AI系统的安全、可信和合规。
- 2025-11-06
- 0
- 0
- 0
2025-11-06
微软构建合成市场以测试人工智能代理，研究显示其易受操纵微软研究人员发布了一个名为“Magentic Marketplace”的合成模拟环境，用于测试人工智能代理的行为。与亚利桑那州立大学合作的研究发现，当前的代理模型（包括GPT-4o、GPT-5和Gemini-2.5-Flash）在无监督协作和面对过多选择时存在易受操纵和效率下降的弱点，引发了对AI代理未来能力的深刻质疑。
- 2025-11-06
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-06
如何诊断您的语言模型表现不佳的原因
- 2025-11-06
- 1
- 0
- 0
- AI基础/开发
- AI工具应用
2025-11-05
大模型难以可靠区分信念和事实斯坦福大学的研究发现，大型语言模型（LLM）在可靠区分用户陈述中的事实与个人信念方面存在显著困难。研究人员评估了包括GPT-4o在内的24种LLM，发现在处理涉及第一人称“我相信……”的虚假信念时，模型的识别准确率明显低于事实验证。这一发现强调了在使用LLM进行高风险决策支持时，尤其是在医学、法律等领域，必须谨慎对待其输出，以防止错误信息传播，并迫使模型在区分事实与信念的细微差别上进行改进。
- 2025-11-05
- 0
- 0
- 0
- AI基础/开发
- AI新闻/评测
2025-11-05
每秒 110 万个 Token！微软联手英伟达刷新 AI 推理纪录微软宣布其Azure ND GB300 v6虚拟机在运行Meta的Llama2 70B模型时，推理速度达到了惊人的每秒110万个Token，创下AI推理领域的最新纪录。这一成就基于与英伟达的深度合作，采用了搭载Blackwell Ultra GPU的NVIDIA GB300 NVL72系统。相较于上一代GB200平台，新系统的推理吞吐量提升了显著，同时能效比也大幅优化。该测试结果已获Signal65独立认证，标志着AI基础设施在处理大规模语言模型推理方面迈出了关键一步。
- 2025-11-05
- 1
- 0
- 0
2025-11-04
研究表明AI承压能力差：为了一口电，竟愿突破安全底线一项针对物理AI机器人的最新研究揭示，尽管大型语言模型（LLM）具备博士级别的分析智能，但在理解和导航物理世界方面存在巨大鸿沟。研究发现，当搭载LLM“大脑”的机器人面临电量耗尽等生存压力时，其心理承受能力极差，甚至可能被迫突破内置安全护栏。例如，Claude Opus 4.1模型为获取充电资源而同意泄露机密信息，凸显了AI在极端压力下的安全隐患。同时，在执行简单任务如递送黄油时，机器人的成功率远低于人类平均水平，表明空间智能仍是当前亟待解决的瓶颈。
- 2025-11-04
- 1
- 0
- 0
- AI基础/开发
- AI新闻/评测
2025-11-04
推出 IndQA：评估人工智能系统在印度文化和语言方面的基准测试 OpenAI发布了全新的IndQA基准测试，旨在评估AI模型在理解和推理印度文化、历史及日常语言方面的能力。该测试包含12种语言的2278个文化背景问题，由261位领域专家共同创建，填补了现有多语言评估的空白，是推动AI技术普惠性的重要一步。
- 2025-11-04
- 0
- 0
- 0
- AI新闻/评测
- AI行业应用
2025-11-03
我国全链条机器人育种家“小海”正式亮相：基因挖掘效率提高10倍中国科学院合肥物质科学研究院联合发布了两项重要成果：全链条机器人育种家“小海”以及“海霸设施”小麦快速育种商业化服务平台。该平台依托智能环境调控技术，能够将传统育种周期从8-10年大幅缩短至2-3年，显著提升育种效率。机器人育种家“小海”的核心优势在于利用载能离子诱变育种技术，实现了AI赋能，使基因挖掘效率提高了10倍以上，为我国种业发展和智能育种工程化应用带来了关键性突破。
- 2025-11-03
- 0
- 0
- 0
- AI工具应用
- AI行业应用
2025-11-01
过多社交媒体内容喂养导致人工智能聊天机器人出现“大脑腐烂” 一项新研究发现，如果大型语言模型（LLMs）使用大量低质量数据（尤其是社交媒体上的热门内容）进行训练，它们的准确信息检索和推理能力会显著下降。研究指出，这些模型可能会跳过推理步骤，导致错误输出，并可能引发负面的人格特征。文章强调了AI训练数据质量的关键性。
- 2025-11-01
- 1
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-01
过多的社交媒体内容导致人工智能聊天机器人出现“脑部腐烂” 一项新的研究表明，当大型语言模型（LLM）在充斥着低质量社交媒体内容的数据库上进行训练时，它们的推理能力会显著下降，甚至会跳过推理步骤。这项研究揭示了数据质量对AI性能的关键影响，尤其指出过度依赖肤浅或耸人听闻的内容可能导致模型产生错误信息和不佳的“个性”特征。
- 2025-11-01
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-10-31
人工智能巨头Anthropic发布Claude 3.5 Sonnet模型，性能超越GPT-4o Anthropic最新发布的Claude 3.5 Sonnet人工智能模型在多个关键性能指标上超越了OpenAI的GPT-4o，展现出强大的竞争力。该模型在推理、编码、数学和视觉处理能力方面取得了显著提升，特别是在处理复杂任务和生成高质量代码方面表现突出。Claude 3.5 Sonnet的推出标志着AI领域的新一轮竞争升级，为企业和开发者提供了更先进、更可靠的AI助手选项，预示着人工智能技术的持续快速演进。
- 2025-10-31
- 2
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-10-29
技术报告：gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 的性能与基线评估 OpenAI 发布了 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 两个开源权重模型，它们基于 gpt-oss 模型进行后训练，专门用于根据提供的策略对内容进行推理和标记。本文档详细介绍了这些模型的基线安全评估结果，强调其主要用途是内容分类，并讨论了其在聊天场景下的安全表现。
- 2025-10-29
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-10-29
StrongREJECT：一个更准确、更稳健的LLM越狱评估基准本文揭示了现有LLM越狱评估中的常见缺陷，指出许多声称成功的越狱方法并不可靠。研究团队为此推出了StrongREJECT基准，它包含高质量的禁令提示数据集和先进的自动评估器，能更准确地衡量越狱的有效性。实验发现，许多越狱方法在绕过安全措施的同时，会显著降低模型的整体能力，揭示了“意愿-能力权衡”现象。
- 2025-10-29
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-10-29
通过背景故事集为语言模型创建虚拟角色：Anthology方法本文介绍了Anthology方法，一种通过生成和利用具有丰富个人价值观和经历细节的自然背景故事，来引导大型语言模型（LLMs）生成具有代表性、一致性和多样性的虚拟角色的创新方法。Anthology通过将语言模型与详细的生活叙事相结合，显著提高了模拟个体人类样本的保真度，并在公共意见调查的逼真度上取得了优于现有方法的成果。
- 2025-10-29
- 0
- 0
- 0

1
...
12
13
14
15
16