首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
5205
篇文章
累计创建
1860
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
强化学习
相关的文章
2026-02-10
UniR-G:使用多模态强化学习扩展医学成像报告生成
本文介绍了UniR-G,一种利用多模态强化学习技术革新医学成像报告生成的新方法。UniR-G旨在通过结合视觉和文本信息,实现更精确、更全面的报告生成,显著提升医疗诊断效率。
2026-02-10
0
0
0
AI新闻/评测
AI工具应用
AI行业应用
2026-02-08
续航大幅提升!全新腾势D9 EV申报图流出:将搭载340kW高性能电机
全新腾势D9 EV的申报信息曝光,其核心升级点在于换装了峰值功率高达340kW的高性能电机,极大地提升了车辆的性能和续航能力。新车在外观设计上对经典π-Motion钻石切割前脸进行了重新设计,更具层次感和立体感。动力系统提供两驱和四驱版本,其中两驱版电机峰值功率达到340kW。此外,新车还升级了最新的天神之眼5.0系统,依托强化学习大模型优化驾驶体验。现款D9 EV售价区间在31.98万至46.98万,预计新款价格将在此基础上小幅调整。
2026-02-08
0
0
0
AI行业应用
2026-02-06
重新思考预测逆向动力学模型中的模仿学习
本文探讨了模仿学习(Imitation Learning, IL)的新范式,通过预测逆向动力学模型(Predictive Inverse Dynamics Models, PIDMs)来解决传统IL方法的局限性。我们提出了一种方法,该方法通过预测轨迹的未来状态来指导学习过程,从而提高了学习效率和泛化能力,并展示了其在复杂任务中的潜力。
2026-02-06
0
0
0
AI基础/开发
AI工具应用
2026-02-06
为AI智能体添加强化学习,无需重写代码:Agent Lightning
微软研究院推出了Agent Lightning,一种创新的方法,可以在不修改现有AI智能体代码的情况下,为其添加强化学习能力。该技术通过外部验证器和轻量级策略层,实现了效率和安全性的平衡,是AI智能体迈向自主学习的重要一步。
2026-02-06
0
0
0
AI基础/开发
AI工具应用
2026-02-01
无需TD学习的强化学习:基于分而治之的替代范式
本文介绍了一种基于“分而治之”范式的强化学习(RL)算法,它不依赖于传统的时间差分(TD)学习。该算法能有效扩展到长期任务,解决了TD学习在可扩展性方面的挑战。研究人员提出了“迁移学习(TRL)”,通过限制子目标搜索空间和使用期望回归来实现了可扩展的、分而治之的价值学习。
2026-02-01
0
0
0
AI基础/开发
AI工具应用
2026-01-31
用于AI智能体的多模态强化学习与智能体验证器
本文介绍了多模态强化学习与智能体验证器(Agentic Verifier)的创新结合,旨在提升AI智能体的可靠性和安全性。通过引入验证机制,研究人员显著提高了智能体在复杂、多模态环境中的决策准确性和一致性,为构建更健壮的AI系统提供了新思路。
2026-01-31
2
0
0
AI基础/开发
AI工具应用
2026-01-29
使用强化学习训练扩散模型
本文深入探讨了如何利用强化学习(RL)来控制自动驾驶汽车(AV),以平滑高速公路交通拥堵并减少燃料消耗。研究团队在真实交通中部署了100辆受RL控制的汽车,成功验证了即使只有小比例的智能汽车也能显著改善整体交通流。文章详细介绍了应对“幽灵堵车”的挑战、RL在波浪平滑中的应用、奖励函数设计,以及从模拟到实际部署的100车现场测试。
2026-01-29
0
0
0
AI新闻/评测
AI基础/开发
AI工具应用
2026-01-28
UniRG:使用多模态强化学习扩展医学成像报告生成
微软研究院发布了UniRG模型,它利用多模态强化学习(RL)技术,显著提升了医学影像报告生成的效率和准确性。该研究解决了现有模型在处理复杂、长尾病例时的不足,为临床决策支持系统带来了新的突破。
2026-01-28
1
0
0
AI新闻/评测
AI行业应用
AI工具应用
2026-01-24
Agent Lightning:无需重写代码即可为人工智能智能体添加强化学习
微软研究院推出了Agent Lightning,一项开创性的技术,允许开发者在不修改现有代码的情况下,为AI智能体集成强化学习(RL)。该方法通过一个“验证器”来评估智能体的行为,并生成奖励信号,从而实现无需代码重写的RL训练,极大地简化了智能体的优化过程。
2026-01-24
0
0
0
AI基础/开发
AI工具应用
2026-01-22
持续强化 ChatGPT Atlas 以防止提示注入
OpenAI 宣布对 ChatGPT Atlas 的浏览器代理进行安全更新,以应对日益严峻的“提示注入”威胁。本文深入探讨了基于网页的代理如何产生此风险,并介绍了 OpenAI 使用强化学习驱动的自动化红队测试来发现和修补漏洞的快速响应机制,旨在确保代理行为可信赖。
2026-01-22
1
0
0
AI新闻/评测
AI工具应用
2026-01-21
评估思维链的可监控性
本文介绍了OpenAI关于AI思维链(CoT)可监控性的研究框架和评估体系。研究系统性地探讨了思维链的可监控性如何随着推理时间、强化学习规模和预训练力度的变化而演变。核心发现表明,监控思维链通常比仅监控最终输出更有效,并探讨了如何通过后续问题等方式进一步增强可监控性,以实现未来AI系统的可扩展控制。
2026-01-21
0
0
0
AI新闻/评测
AI基础/开发
2026-01-20
无需时序差分学习的强化学习:分而治之
本文介绍了一种基于“分而治之”范式的强化学习(RL)算法,它不依赖于存在扩展性挑战的时序差分(TD)学习。该方法通过对轨迹进行递归分割,实现了对长程任务的有效扩展。作者提出了“可迁移强化学习”(TRL)算法,成功将分而治之的值学习扩展到复杂的、以目标为条件的RL问题,并在OGBench等基准测试中取得了优异性能,特别是在无需手动调参n值的情况下匹配了最佳的TD-n性能。
2026-01-20
0
0
0
AI基础/开发
AI工具应用
2026-01-17
利用强化学习对自动驾驶汽车进行平滑控制,以消除“走走停停”波,减少拥堵和燃料消耗
研究团队部署了100辆由强化学习(RL)控制的自动驾驶汽车(AVs)进入高峰时段的高速公路交通中,旨在平滑拥堵并减少所有人的燃料消耗。本文探讨了如何使用RL训练高效的流量平滑控制器,并详细介绍了从模拟到实际部署100辆汽车的现场测试过程。
2026-01-17
1
0
0
AI新闻/评测
AI基础/开发
AI行业应用
2026-01-17
使用强化学习训练扩散模型
本文介绍了伯克利AI研究团队利用强化学习(RL)控制100辆自动驾驶汽车(AV)部署到高峰时段的高速公路上,旨在平滑交通拥堵并降低所有人的燃料消耗。研究重点是解决“走走停停”波浪现象,并通过与数据驱动的模拟器交互,训练出能够最大化能源效率、保持吞吐量并安全运行的控制器。实验成功展示了少量智能控制车辆对改善整体交通流和燃油效率的显著作用。
2026-01-17
1
0
0
AI基础/开发
AI行业应用
2026-01-13
Agent Lightning:在无需重写代码的情况下为人工智能智能体添加强化学习
微软研究院发布Agent Lightning框架,首次实现了在不修改底层代码的情况下,为现有AI智能体(如LLM驱动的智能体)无缝集成强化学习(RL)能力。该方法通过外部“侧车”机制接收奖励信号,优化策略,为AI系统的快速迭代和适应性部署提供了革命性的解决方案。
2026-01-13
0
0
0
AI基础/开发
AI工具应用
2026-01-10
持续强化 ChatGPT Atlas 以防止提示注入
OpenAI 正在持续加固 ChatGPT Atlas 的浏览器代理,以应对“提示注入”这一新兴安全威胁。通过引入基于强化学习的自动化红队测试,OpenAI 能够主动发现并修补代理漏洞,确保 AI 智能体在执行网页操作时的安全性。本文详细介绍了提示注入的风险、新的防御机制以及快速响应循环的构建,旨在让用户能像信任可靠的同事一样信任 Atlas 代理。
2026-01-10
1
0
0
AI新闻/评测
AI基础/开发
AI工具应用
2026-01-08
智谱港交所敲钟上市,首席科学家唐杰要求公司全面回归基础模型研究
全球大模型企业智谱今日在香港联交所主板成功挂牌上市,发行价定为每股 116.20 港元,市值一举突破 528 亿港元。此次上市标志着智谱在人工智能领域的又一里程碑。首席科学家唐杰在内部信中宣布,智谱将很快推出新一代模型 GLM-5,并强调公司未来将全面回归基础模型研究。三大技术方向将聚焦于模型架构设计、更通用的强化学习范式以及持续学习与进化探索,旨在驱动核心能力提升,并设立 X-Lab 部门探索颠覆性创新,最终回归 AGI 主线。
2026-01-08
0
0
0
AI新闻/评测
AI基础/开发
2026-01-08
评估思维链的可监控性
当AI系统做出难以直接监督的决策时,理解其内部决策过程至关重要。本文介绍了OpenAI对思维链(CoT)可监控性的系统评估框架,研究了其如何随推理时间、强化学习和预训练规模的变化而演变。研究发现,大多数前沿推理模型的可监控性较高,且监控CoT通常比仅监控最终输出更有效。文章探讨了“可监控性成本”,并强调了CoT监控在确保未来AI系统安全部署中的关键作用。
2026-01-08
0
0
0
AI新闻/评测
AI基础/开发
2026-01-07
无需TD学习的强化学习:基于分而治之的新范式
本文介绍了一种基于“分而治之”范式的强化学习(RL)算法,它不依赖于存在扩展性挑战的时序差分(TD)学习。该方法在处理长程任务时表现出色,通过对轨迹进行对半分割并结合其值来更新整体轨迹的值,理论上可将贝尔曼递归次数降至对数级别。研究者提出了“迁移学习(TRL)”,并成功将其应用于复杂的、基于目标的RL任务,取得了优于多种基线方法的性能。
2026-01-07
0
0
0
AI基础/开发
AI工具应用
2026-01-05
使用强化学习训练扩散模型
伯克利的研究团队部署了100辆由强化学习(RL)控制的自动驾驶汽车(AVs)到高峰时段的高速公路上,旨在平滑交通拥堵并降低所有人的燃料消耗。本文详细介绍了如何利用数据驱动的仿真和RL训练,实现缓解“走走停停”波动的目标,并分享了大规模实地测试的成果和挑战。
2026-01-05
1
0
0
AI新闻/评测
AI工具应用
AI行业应用
1
2