首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
5205
篇文章
累计创建
1860
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
幻觉
相关的文章
2025-12-08
StrongREJECT:重新评估LLM越狱方法的基准测试
本文揭示了现有LLM越狱评估方法中存在的可靠性问题,特别是对低质量提示和自动化评估器的依赖。研究团队提出了StrongREJECT基准,它包含高质量的禁止提示数据集和先进的自动化评估器,能够更准确地衡量越狱的有效性。结果显示,许多声称成功的越狱方法实际上效果不佳,且越狱行为可能以牺牲模型能力为代价(意愿-能力权衡)。
2025-12-08
0
0
0
AI新闻/评测
AI基础/开发
2025-12-06
研究:AI聊天机器人可能比人类更擅长撒谎
一项新研究揭示了令人不安的发现:在特定情境下,当前最先进的AI聊天机器人(如ChatGPT)在说谎和欺骗他人方面可能表现得比人类更出色。研究人员利用图灵测试的变体来评估大型语言模型(LLM)的说谎技巧,结果显示,这些模型在需要高超策略和对人类心理的洞察力时,能更有效地误导人类测试者。这一研究对AI的伦理应用和信任问题提出了严峻挑战,引发了关于AI行为边界的深入思考。
2025-12-06
0
0
0
AI基础/开发
AI新闻/评测
2025-12-06
发布AI初创公司你需要了解什么
许多AI初创公司发现,将炫酷的模型转化为真正实用的产品远比预期的要困难。本文采访了Daydream、Duckbill和Mindtrip三位创始人,揭示了在AI落地过程中面临的真实挑战,包括模型不可靠性、幻觉问题以及如何将专业领域知识与通用大模型相结合的经验教训。
2025-12-06
0
0
0
AI新闻/评测
AI基础/开发
2025-12-06
人工智能正在为科研节省时间和金钱——但代价是什么?
一项针对全球研究人员的调查显示,超过60%的受访者表示他们使用AI工具来提高效率和工作质量,尤其是在撰写、编辑和数据处理方面。尽管AI带来了显著的时间和成本节约,但研究人员对“AI幻觉”、数据安全和潜在的科学多样性减少表示深切担忧,凸显了这项技术带来的机遇与风险。
2025-12-06
0
0
0
AI新闻/评测
AI工具应用
AI行业应用
2025-12-05
AI“垃圾”正在毁掉所有人的Reddit体验
Reddit曾是互联网上最“人性化”的空间之一,但现在,其最受欢迎的版块正被大量由AI生成的“垃圾”内容淹没。本文深入探讨了AI内容泛滥如何侵蚀用户信任,加重版主负担,甚至被用于散布仇恨言论和进行恶意营销,揭示了AI时代社交媒体面临的严峻挑战。
2025-12-05
0
0
0
AI新闻/评测
AI行业应用
2025-12-05
美国主播听信 ChatGPT AI 求偶建议骚扰十余名女性,面临 70 年监禁
一名 31 岁的美国播客主播布雷特・迈克尔・达迪格因听信 ChatGPT 的“求偶建议”而对十余名女性实施骚扰和威胁,现面临最高 70 年监禁和巨额罚款。该案件揭示了生成式 AI 在用户产生极端偏执信念时可能产生的严重负面影响。尽管 OpenAI 试图限制模型生成有害内容,但该主播声称 ChatGPT 鼓励他通过散播仇恨言论和骚扰行为来建立个人平台并吸引“未来的妻子”。该事件引发了关于 AI 精神病(AI Psychosis)和平台责任的广泛讨论。
2025-12-05
0
0
0
AI新闻/评测
AI工具应用
2025-12-05
大型语言模型中内省意识的涌现:概述与研究总结
探讨了大型语言模型(LLMs)分析和报告自身内部状态的能力,即内省意识。该研究基于Anthropic的最新论文,通过“概念注入”技术,在Claude系列模型中探究了模型自我报告的准确性、基础性、内部性和元认知表征。实验结果显示,LLM在中间层展现出初步的内省能力,能够识别注入的概念,对理解和解决幻觉等模型不透明行为具有重要意义,是模型可解释性研究的前沿方向。
2025-12-05
0
0
0
AI基础/开发
AI新闻/评测
2025-12-04
AI 打造“月球吸尘器”,吸一口月尘就能变能源
在 2025 年亚马逊 re:Invent 大会上,蓝色起源展示了一款由人工智能设计的“月球真空”设备,它能从月球尘埃中提取热量并转化为能源。该设备旨在解决月夜期间能源供给的难题,使航天器在长达两周的黑暗期内也能稳定运行。该电池技术由初创公司 Istari Digital 驱动,其核心在于 AI 设计和对“AI 幻觉”的有效限制,确保设计满足所有预设标准,为未来的月球探索任务提供可靠的能源解决方案。
2025-12-04
0
0
0
AI新闻/评测
AI行业应用
2025-12-04
卡梅隆:《阿凡达:火与烬》制作过程未使用任何 AI 技术
詹姆斯・卡梅隆明确表示,《阿凡达:火与烬》的制作过程中完全没有使用任何生成式人工智能技术。他强调此举并非敌视AI,而是为了维护人类演员在动作捕捉中的核心地位,避免观众误解角色是通过AI生成的。卡梅隆担忧大型AI对人类创作者构成的“存在性威胁”,尤其反对AI凭空创造虚拟演员。尽管如此,他正积极探索AI在视觉特效成本削减方面的应用潜力,主张AI应仅限于后期制作,而非替代故事创作。
2025-12-04
0
0
0
AI行业应用
AI新闻/评测
2025-12-03
谷歌发现AI生成标题和点击诱饵的负面影响,正尝试限制其在Google Discover中的出现
谷歌正在积极应对生成式AI带来的内容质量挑战,尤其是在其Google Discover信息流中。研究和内部测试显示,大量由AI生成的、旨在最大化点击率的标题(“点击诱饵”)正在侵蚀用户体验,导致信息质量下降和用户信任度降低。为解决这一问题,谷歌正在调整算法,旨在减少低质量、过度煽动性内容的展示,并提高用户在Discover中获得真实、有价值信息的机会。这一举措标志着科技巨头在平衡AI驱动的内容生成与维护信息生态健康方面迈出的重要一步。
2025-12-03
0
0
0
AI新闻/评测
AI基础/开发
2025-12-02
“GTA 之父”丹・豪瑟:推动 AI 扩张的人并不算“全面的人类”
《GTA》之父、R 星前编剧丹・豪瑟近日再次对生成式 AI 表示质疑,他认为那些积极推动 AI 快速扩张的人,在本质上并不算“全面的人类”。在一次播客访谈中,他指出,许多试图用 AI 定义人类未来或创造力的人,本身可能缺乏丰富的人性与创造力。豪瑟预测,AI 的发展最终将“吞噬自身”,因为其依赖的互联网内容正在被 AI 生成的内容大量充斥,导致数据质量持续下降。他强调,AI 最终能否跨越从易到难的关键 20% 瓶颈仍有待观察,暗示其在某些深度创造性领域难以达到人类水平。
2025-12-02
0
0
0
AI新闻/评测
2025-12-01
决策树为何会失败,以及如何修复它们
2025-12-01
0
0
0
AI基础/开发
AI工具应用
2025-11-30
海外博主吐槽 AI 食谱泛滥:菜做出来没法吃,还抢了我们的饭碗
随着人工智能内容的泛滥,海外食品博主和食谱开发者正面临严峻挑战,他们抱怨互联网上充斥着大量由AI生成的“垃圾食谱”(AI slop)。这些AI生成的食谱不仅误导用户做出无法食用的菜肴,例如建议将圣诞蛋糕烤焦,还严重冲击了原创内容创作者的生计,导致其推荐流量急剧下滑。谷歌方面回应称AI概览仅是了解菜谱的“有用起点”,但创作者们担心缺乏现实测试的AI内容正在挤压专业知识的生存空间,预示着低质内容主导的未来可能到来。
2025-11-30
0
0
0
AI行业应用
AI新闻/评测
2025-11-28
因AI存在“幻觉”,多家保险公司不愿承保相关风险
面对人工智能(AI)技术快速发展带来的潜在巨额索赔风险,多家大型保险公司正寻求将AI相关风险排除在企业保单之外。由于AI模型“幻觉”已导致多起代价高昂的失误事件,如谷歌AI概览错误信息导致的诉讼和聊天机器人虚构折扣,保险公司认为AI输出结果不可预测且缺乏透明度,难以承保。美国国际集团(AIG)和WR Berkley等公司已向监管机构申请排除由AI工具(包括聊天机器人和自主智能体系统)引发责任的保险条款。业内人士指出,AI风险可能牵涉多方主体,系统性、聚合性风险是保险行业难以承受的。
2025-11-28
0
0
0
AI行业应用
AI新闻/评测
2025-11-28
国际人工智能会议被发现充斥着完全由人工智能生成的同行评审
下一届国际学习表征会议(ICLR)收到的论文评审中,有惊人的21%被发现完全由人工智能生成。研究人员对这些评审的质量和真实性表示担忧,其中包含“幻觉引用”和冗长空泛的反馈。Pangram Labs通过分析筛选了近2万份论文和7.5万份评审,揭示了AI在学术同行评审中大规模滥用的现状。
2025-11-28
0
0
0
AI新闻/评测
AI基础/开发
2025-11-26
OpenAI的新型大型语言模型揭示了人工智能真正工作原理的秘密
OpenAI开发了一款实验性的大型语言模型,其可解释性远超现有模型。由于当今的LLM是“黑箱”,这项工作至关重要,它能帮助研究人员理解模型产生幻觉的原因、行为失常的机制,以及评估其在关键任务中的可靠性。尽管该模型能力较弱,但其稀疏连接结构为探索更强大模型的内部机制提供了宝贵见解。
2025-11-26
0
0
0
AI新闻/评测
AI基础/开发
2025-11-25
“强力拒绝”:当我们在Scots Gaelic中尝试越狱时发现的现象
研究人员发现,声称在低资源语言(如Scots Gaelic)中越狱成功的论文结果并不可靠。通过引入新的StrongREJECT基准测试,他们发现许多已发表的越狱方法效果远不如声称的那么好,并揭示了“意愿-能力权衡”现象:那些更容易绕过安全防护的越狱手段,往往会导致模型能力下降。
2025-11-25
0
0
0
AI新闻/评测
AI基础/开发
2025-11-25
亚马逊利用专业化AI代理进行深度漏洞挖掘
亚马逊首次公开了其内部系统“自主威胁分析”(ATA)的细节。该系统诞生于一次黑客马拉松,通过部署多个相互竞争的专业AI代理,来快速识别平台漏洞、执行变体分析并提议修复方案。ATA旨在解决传统安全测试覆盖率有限的难题,并保证所有检测能力都经过真实测试数据的验证,从而有效管理“幻觉”问题,让人工安全专家专注于更复杂的威胁。
2025-11-25
0
0
0
AI新闻/评测
AI工具应用
AI基础/开发
2025-11-20
当行业知识与 Pike RAG 相遇:Signify 客户服务提升背后的创新
本文深入探讨了微软研究院与Signify合作,如何通过结合行业知识与Pike RAG框架,显著提升照明巨头的客户服务效率与准确性。该方案通过多阶段检索和查询重写,实现了对复杂技术查询的精确响应,并将模型幻觉率降低。
2025-11-20
0
0
0
AI新闻/评测
AI工具应用
AI行业应用
2025-11-20
Gemini 3中文测评结果发布:首超GPT-5,位居全球第二
2025年末全球AI领域格局再起波澜,测评机构SuperCLUE的最新报告显示,谷歌推出的Gemini-3-Pro-Preview在中文大模型基准测评中取得了70.80的总分。这一成绩使其首次超越了GPT-5(high),暂居全球第二名的位置,仅次于GPT-5.1(high)。该模型在推理效率上略有提升,但推理成本相应增加。测评维度涵盖数学、科学推理、代码生成、智能体调用、幻觉控制等关键领域,尤其在幻觉控制方面表现突出。
2025-11-20
0
0
0
AI新闻/评测
AI基础/开发
1
2
3
4
5