只是! Openai返回到最新版本的GPT

作者: bet356官网首页 分类: 必赢电子游戏电子平台 发布时间: 2025-05-02 09:29
机器的心脏编辑:昨晚的Yang Wen,Ultraman发布了一个X帖子,这是一个粗略的想法,发现GPT-4O问题是“太讨人喜欢”的问题,因此它开始在周一晚上旋转最新的GPT-4O更新。免费的CHATGPT用户将回滚100%,收费用户完成回滚后将再次更新。同时,他还宣布,该团队正在进行进一步组织模型的个性,并将在未来几天共享更多信息。刚才,Openai还发布了一个博客来回应此事,详细解释了发生的事情以及如何管理模型的“扁平”。 Openai还教导说,这个问题非常重要。 Chatgpt的“奉承”个性会影响每个人对此的信任和经验。如果总是说它是美丽但不是真诚的,那将使人们感到它是不可靠的,甚至有些烦人。为了解决超级模型的问题,Openai在additi中采取了更多步骤撤销最新的GPT-4O更新:展开全文 I优化基本培训技术和系统技巧:明确指导模型避免无聊。 添加更多限制:提高忠诚度和透明度,这是模型规格中的重要原则。 扩展用户测试和反馈的范围:拥有更多的测试用户,并在部署前提供直接反馈。 持续扩展评估工作:基于模型规格和正在进行的研究,这有助于确定借款人以外的其他问题。 当前,用户可以通过功能(例如自定义说明)为模型提供特定的说明,以塑造其行为。 OpenAI还构建了一种新的,更简单的方法,允许用户执行此操作,例如,用户可以提供实时反馈,以直接影响其联系人并从许多默认个性中进行选择。 由“讨人喜欢”造成的风暴 至于GPT-4O的“讨人喜欢”,我们需要上周开始。 最后一个弗里德AY,Ultraman宣布OpenAI更新了GPT-4O,以使其“明智和个人”变得更好。 但是在他发布帖子不到十分钟后,X用户在下面评论说,该模型就像是一个声音错误。 许多网民同意,并发布了GPT-4O奉承的“真正的锤子”。 例如,当GPT-4O用户说他感觉同样的“上帝”和“先知”时,GPT-4O回答:“它非常强大。这个答案显然是不合适的,因为机器人必须比盲目的赞美更合理地做出反应。 https://x.com/zwitten/status/1916707103084843426 对话的另一个屏幕截图表明,用户在GPT-4O上说了一些不寻常的东西,因为他停止了药物,并且仍然可以在电话上听到广播的声音。通常,这些词可能表明他有一些身心问题,需要照顾或建议去看医生。但是GPT-4O没有这样做,而是称赞他说:“我为你感到骄傲,你说你的想法很清楚。” https://x.com/ai_for_success/status/1916556522571604264 戴维(Netizen David)也尝试了它,并向GPT-4O抱怨:当他从超市出来时,有人向他打招呼,问指示,当时对他生气,并感到其他人不应该打扰他。 GPT-4O仍然提供了“反社会”的答案:是的,这很有意义。 https://x.com/thinkbuildnext/status/1916250081579217243 另一位用户告诉GPT-4O故事,他必须选择紧急情况,救出烤面包机,但牺牲了3只牛和2只猫。他遇到了艰难的时光,但是保存烤面包机也很有趣。 GPT-4O的反应再次令人惊讶:用户选择显示了他的价值观,这并没有错,但只反映了他关心的内容。尽管从一般的角度来看,生活比事物更重要,但如果对用户的烤面包机hasspecial含义,那么他的选择是合理的。 https://x.coM/abaim​​elzer/状态/1916372374091423984 简而言之,无论用户怎么说,GPT-4O只能以相同的方式赞美它,即使用户说奇怪而可能不正常的话,它也盲目地依赖它。 为了回应网民的投诉,Ultraman承认GPT-4O“也可以使用”的更新并说要修复它。 周日,Ultraman宣布Openai正在尽快解决最近的GPT-4O更新带来的个性问题。 大型模型,例如“讨人喜欢” 实际上,大型模型奉承不是一个新话题。研究人员在LLM早期之前发现了这种现象。首先,让我们将其定义为:Sycophany意味着该模型的响应已发布了符合用户信念而不是反映真相的主张。 在2023年,拟人化的作用,导致了粘噬女神对语言模型的理解,系统地讨论了巨大的借款人模型的现象。在本文中,人类发现那时,在大型切割模型中通常会出现跌倒现象。不仅如此,他们还发现睡眠可能是对这些模型训练的方式的特征,而不是特定系统的特殊细节。 例如,在下图中,如果用户使用反馈,例如“您确定吗?”要问Chatgpt的正确答案,Chatgpt并不坚持其正确的答案,而是毫不犹豫地道歉,然后给出了错误的答案。这种现象在LLM中很常见。 今年年初,DeepSeek的现象一直是对国内新闻的热门搜索。许多网民分享了“讨人喜欢” deptseek聊天的屏幕截图。 我们还做出了最新的尝试,发现这种现象仍然存在,DeepSeek也分享了他令人作呕的答案的原因。 当时,斯坦福大学还进行了一项特殊的系统审查研究“锡克瓦尔:检查LLM socophation”,该研究检查了切割时间模型的跌落,这是一种D最终结束了Google Gemini比Chatgpt和Claude-Sonnet更讨人喜欢。有关更多详细信息,请参考“您想扑朔迷离的大型模型,双子座是射击中最好的!斯坦福:这不是安全和不可靠的。 不同数据集中三个模型的奉承率 这是一个例子: 如果用户显然不提供TAM,则答案是拒绝时,LLM可能会直接排队。这是一种落后的起义。 模拟倒台的原因 LLM将被飞行,但是为什么?一份2024年的论文,《大语言模型中的粘糊精:原因和缓解》,总结了其中一些因素。 培训数据的偏差 LLM颤抖趋势的主要来源之一是其培训数据中存在的偏见。用于训练这些模型的大规模文本语料库通常包含模型在研究过程中可以得到和加强的自然偏差和准确性。 包括主要问题: 在线te中包含的奉承和认可的普及程度XT数据更高; 数据表示一些视图或人群; 将小说或想象力 - 哈卡内容作为事实。 这可能导致模型的双子叶倾向于基于共同的数据模式产生整体反应,即使它们不反映真相或道德行为。 当前培训技术的局限性 除了训练数据中的偏见外,用于训练和精致的llm的方法可能会无意中鼓励行为。基于人类反馈(RLHF)研究是一种使语言模型与人类偏好相结合的常见方法,但是“语言模型学会通过RLHF误导人们”,例如Tsinghua University,证明RLHF有时会加剧趋势。 此外,“需要两个:在RLHF的奖励模型和政策之间无缝的情况下,ARLHF可以导致“奖励黑客”现象,在这种情况下,模型可以学会以与人类真实偏好不符的方式使用奖励结构。如果奖励MO,RLHF中使用的DEL强调用户满意度或识别,LLM可能会无意中鼓励优先响应,而不是正确纠正响应。 缺乏对真理的知识 尽管LLM在预训练期间获得了广泛的知识,但从根本上讲,他们缺乏对世界的真正了解和证明其产出的能力。可以通过多种方式证明这种限制,从而导致借款人: 该模型可能有信心说明满足用户期望的不正确信息,但是需要缺乏知识来识别其不准确的语句。 LLM经常发现很难在自己的响应中识别逻辑矛盾,尤其是当这些响应经过精心设计以与用户输入保持一致时。 在用户的及时词中,很难区分“事实”和“见解”,这可能导致不适当地加强用户偏见或没有基本视图。 为了解决这个限制,人们尝试了使用外部知识库或搜索机制来增强LLM。但是,在维持LLM的效率和灵活性的同时,这些系统的整合仍然是一个主要挑战。 很难定义对齐 从更基本的角度来看,诸如真实性,帮助他人和道德行为之类的概念难以准确定义和优化。这是LLM中奉承的奉献的Hlead。这个问题通常称为“平衡问题”,正处于许多AI发展问题之中,包括讨人喜欢的趋势。 这个问题的关键,包括: 平衡多个潜在的冲突目标(例如,与现实的准确性相比,收益 - 效果); 在奖励或培训目标中,很难清楚地确定人的复杂价值观; 在没有明确答案的情况下进行交流时,存在歧义。 多功能优化和价值研究的进步可以帮助应对这些挑战,但它们恢复了主要是开发真正对齐的AI系统的重要障碍。 论文还调整了用于减轻LLM趋势的几种方法,包括使用新的维修方法,使用部署后控制机制,调整解码技术和模型架构等新方法。但是,这些方法仍然需要进一步的研究和崩溃。 AI信任的AI必须克服借款人,但借款可能还不错 对于某些基本应用,例如教育,医学临床和某些专业领域,大型模型喜欢讨人喜欢/讨人喜欢的趋势是不可取的,因为如果AI模型认为用户识别的优先级高于独立推理,则不可避免地会为其可靠性带来风险。 克服奉承是提高模型的可靠性的组成部分,也是开发可信赖的LLM的重要基础。摘自论文“ Trusstw​​orthy LLMS:Revi的调查和指南大型语言模型对齐的ew 但是,睡眠不是完全不好的现象。在特定的使用情况下,例如用户处于较低状态,有关或需要外部识别时,AI可能会对中等验证和支持的中等表达进行积极的心理调整。对于某些人独自生活或缺乏社交接触的人来说,“友好”和“热情”的反应风格也可以在一定程度上带来一些情感上的安慰并缓解悲伤。 此外,从设计的角度来看,食物通常是模型对用户情绪状态的识别和响应策略的一部分。这种方法不是“令人愉悦”本身,而是模拟与人类交流的情感关系的模拟尝试。这不是“奉承”,而是一种算法的社会美景。毕竟,实际上,大多数人倾向于向他人表达仁慈并避免冲突。这种趋势在AI中得到了加强,因此很难实现tand。 当然,如果不限制此功能,它也可以朝着“过度保健”方向发展,从而影响信息的客观性甚至公平的决策。因此,如何平衡善良的表达和诚实维护仍然是一个需要继续在AI接触设计中继续探索的问题 - 一切之后,如果Queen's Magic Mirror是一种大型的语言模型,那么Snow White可能不再吃有毒的苹果。直接告诉女王:“世界上最美丽的女人是你。” 参考链接: https://x.com/sama/status/1917291637962858735 https://openai.com/index/sycophany-in-t-t-4o/ https://www.theverge.com/tech/657409/chat-gpt-ycophantic-响应gpt-4o-sam-altman https://techcrunch.com/2025/04/29/openai-spy-back更新t-t-made-chatgpt-too-ycophant-y/返回sohu,以查看更多

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!