首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
5205
篇文章
累计创建
1860
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
模型评估
相关的文章
2026-02-10
使用自动化推理检查重写聊天机器人参考实现
本文介绍了新的开源聊天机器人参考实现,该实现利用<em>自动化推理检查</em>(Automated Reasoning checks)的反馈来迭代和重写生成内容。该方案通过<em>数学证明</em>验证答案的正确性,显著提高了准确性和透明度,并提供可审计的解释日志。
2026-02-10
0
0
0
AI新闻/评测
AI基础/开发
AI工具应用
2026-02-07
使用基于Amazon Nova规则的大型语言模型裁判对生成式AI模型进行评估(第2部分)
本文深入探讨了Amazon SageMaker AI中基于Amazon Nova规则的大型语言模型(LLM)裁判功能。这种新方法能根据具体提示自动生成定制化的评估标准(规则),取代了过去通用的静态规则。我们将详细介绍其工作原理、训练方法、关键指标以及如何进行校准,并分享使用SageMaker训练作业评估和比较不同LLM输出的Notebook代码。
2026-02-07
0
0
0
AI新闻/评测
AI工具应用
AI基础/开发
2026-02-06
Amazon Nova 多模态嵌入的实用指南
本文深入介绍了Amazon Nova多模态嵌入模型的实用指南,涵盖了如何利用该模型简化架构、优化性能、处理跨模态搜索等。通过具体用例和参数配置解析,帮助您为媒体搜索、电子商务发现和智能文档检索构建高效的解决方案。
2026-02-06
0
0
0
AI新闻/评测
AI工具应用
AI基础/开发
2026-02-06
智能体评估:如何测试和衡量智能体式AI的性能
2026-02-06
0
0
0
AI基础/开发
AI工具应用
2026-02-05
人工智能中最被误解的图表
METR组织发布的AI能力“时间视界图”引发了关于AI乌托邦或末日的狂热讨论。然而,该图表常被过度解读,其实际意义远比表面复杂。本文深入解析了该图表的构建方法、误差范围及其局限性,强调其仅基于编码任务的评估,而非AI能力的全面衡量。
2026-02-05
0
0
0
AI新闻/评测
AI基础/开发
2026-02-01
减少AI中的隐私泄露:两种实现语境完整性的方法
本文探讨了在人工智能(AI)系统中保护用户隐私的关键挑战,重点介绍了两种基于Helen Nissenbaum语境完整性(Contextual Integrity, CI)框架的方法。研究人员提出了利用CI原则来评估和减轻AI模型(尤其是大型语言模型)在训练和使用过程中数据泄露的风险,旨在平衡AI的效用与用户的隐私期望。
2026-02-01
0
0
0
AI新闻/评测
AI基础/开发
2026-01-31
使用 Amazon SageMaker AI 上的 Amazon Nova LLM-as-a-Judge 评估生成式 AI 模型
评估大型语言模型(LLM)的性能超越了传统的统计指标。本文介绍了如何在 Amazon SageMaker AI 上使用 Amazon Nova LLM-as-a-Judge 功能,这是一个强大的、经过严格验证的 LLM 评估方法。Nova LLM-as-a-Judge 能够提供公正的、与人类偏好高度一致的成对比较,帮助用户在几分钟内部署工作流程,并做出数据驱动的模型改进决策。
2026-01-31
0
0
0
AI新闻/评测
AI工具应用
AI基础/开发
2026-01-28
用于改进时间序列模型的5种交叉验证方法
2026-01-28
0
0
0
AI基础/开发
2026-01-28
人工智能测试与评估:科学与行业的经验教训
本文探讨了人工智能测试与评估的最新进展,汇集了科学界和工业界的宝贵经验。了解如何构建更可靠、更安全的AI系统,以及未来AI评估面临的挑战与机遇。
2026-01-28
0
0
0
AI新闻/评测
AI基础/开发
2026-01-28
使用 Amazon Bedrock 构建可靠的智能体式 AI 解决方案:学习 Pushpay 在生成式 AI 评估方面的经验
本文深入探讨了 Pushpay 如何利用 Amazon Bedrock 构建创新的智能体式(Agentic)AI 搜索功能。通过引入定制的生成式 AI 评估框架、黄金数据集和基于域的分析,Pushpay 成功将洞察获取时间从数分钟缩短至数秒,并将准确率从 60-70% 提升至 95% 以上。了解他们如何实现生产级 AI 代理的可靠性与迭代优化。
2026-01-28
0
0
0
AI新闻/评测
AI基础/开发
AI工具应用