我惊讶地发现自己通过了OpenAI预览版的四项AI编码测试(好的一面)

   一般来说,软件公司在5月份发布一个重要的新版本后,不会在短短4个月内再推出另一个主要版本。然而,人工智能行业的创新速度却是非同寻常的...

  

一般来说,软件公司在5月份发布一个重要的新版本后,不会在短短4个月内再推出另一个主要版本。然而,人工智能行业的创新速度却是非同寻常的。

尽管OpenAI在5月中旬推出了全新的gpt - 40模型,但该公司依然忙碌不已。早在去年11月,路透社就曾报道OpenAI正在开发下一代语言模型,当时被称为Q*。今年5月,他们再次确认,正在以“草莓”(Strawberry)的代号进行Q*的开发。

实际上,“草莓”是一个名为“01 -preview”的模型,现在ChatGPT Plus的用户可以选择使用它。您可以从下拉菜单中选择模型:

如您所料,如果有新的ChatGPT模型可用,我会进行测试。这正是我在这里所做的。

新的“草莓”模型专注于推理,将提示和问题分解为多个步骤。OpenAI通过在每个答案前展示推理摘要来体现这种方法。

当01 -preview被问到问题时,它会进行思考,并显示思考所花费的时间。如果您切换下拉菜单,您会看到一些原因。以下是我进行编码测试的一个例子:

AI知道添加错误处理是个好主意,但我发现有趣的是,o1-preview将这一步归类为“法规遵从”。

我还发现01 -预览模型在代码之后提供了更多的说明。在我的第一次测试中,我创建了一个WordPress插件,该模型提供了标题、类结构、管理菜单、管理页面、逻辑、安全措施、兼容性、安装说明、操作说明,甚至测试数据的解释。这比之前的模型提供了更多的信息。

然而,真正的效果还需实践验证。让我们对这个新模型进行标准测试,看看它的表现如何。

1. 编写一个WordPress插件

这个简单的编码测试要求具备PHP编程语言和WordPress框架的知识。这个挑战要求AI编写界面代码和功能逻辑,而不是删除重复的条目,它必须将重复的条目分开,以确保它们不相邻。

01 -预览版表现出色。它首先以输入字段的形式呈现用户界面:

一旦输入数据并点击Randomize Lines,AI就会生成一个带有随机输出数据的输出字段。您可以看到Abigail Williams是如何被复制的,并且根据测试说明,两个条目没有并排列出:

在我对其他llm的测试中,10个模型中只有4个通过了这个测试。01 -预览模型完美地完成了这个测试。

2. 重写字符串函数

我们的第二个测试修复了一个字符串正则表达式,这是一个由用户报告的错误。最初的代码是用来测试输入的数字是否对美元和美分有效。不幸的是,代码只允许整数(所以允许5,但不允许5.25)。

01 -预览LLM成功地重写了代码。这个模型加入了我之前四次进入优胜者圈的LLM测试。

3. 寻找恼人的bug

这个测试是基于一个我难以解决的真实bug创建的。找出根本原因需要了解编程语言(在本例中是PHP)和WordPress API的细微差别。

提供的错误消息在技术上不准确。错误消息引用了我正在运行的调用序列的开始和结束,但错误与代码的中间部分有关。

并不是只有我一个人在努力解决这个问题。我测试的其他三个llm无法确定问题的根本原因,并推荐了更明显(但错误的)解决方案,即改变调用序列的开始和结束。

01 -预览模型提供了正确的解决方案。在它的解释中,该模型还指出了我错误使用的功能的WordPress API文档,提供了一个额外的资源来了解它为什么会提出这样的建议。这非常有帮助。

4. 编写一个s图书馆的

这一挑战要求AI整合三个独立编码领域的知识,即Applescript语言、Chrome DOM(网页的内部结构)和Keyboard Maestro(单个程序员的专业编程工具)。

回答这个问题需要理解这三种技术,以及它们是如何协同工作的。

再一次,01 -preview成功了,在其他10个llm中,只有3个解决了这个问题。

一个非常健谈的聊天机器人

用于01 -preview的新推理方法当然不会削弱ChatGPT在编程测试中获胜的能力。特别是,我最初的WordPress插件测试的输出,似乎比以前的版本更复杂。

ChatGPT在其工作开始时提供了推理步骤,并在最后提供了一些解释性数据,这很好。然而,解释可能显得有些冗长。我要求01 -preview用c#编写“Hello world”,c#是编程中最规范的测试行。gpt - 40是这样回应的:

这是o1-preview对相同测试的反应:

我想说,哇,对吧?这是来自ChatGPT的大量聊天内容。您也可以打开推理下拉菜单,获取更多信息:

所有这些信息都很棒,但有很多文本需要过滤。我更喜欢简洁的解释,从主要答案中删除下拉框中的附加信息选项。

然而,ChatGPT的01预览模型表现出色。我期待着它在与gpt - 40功能(如文件分析和网络访问)更充分地集成后的工作效果。

您试过用01 -preview编码吗?您的经历是什么?请在下面的评论中告诉我们。

您可以在社交媒体上关注我每天的项目更新。一定要订阅我的每周更新时事通讯,并在Twitter/X @DavidGewirtz, Facebook Facebook.com/DavidGewirtz, Instagram Instagram.com/DavidGewirtz和YouTube YouTube.com/DavidGewirtzTV上关注我。

本文来自作者[谷冬]投稿,不代表hengi号立场,如若转载,请注明出处:https://m.hengi.cn/jyfx/202508-1411.html

(2)

文章推荐

  • 科学家发现人工智能能够识别超过1000种疾病的早期症状

    根据一项新的研究,新的人工智能技术可以在出现任何症状之前很久就检测到1000多种疾病的早期迹象。这种被称为MILTON的计算机算法分析一般由全科医生收集的病人检查结果,以发现数据中的模式,并在多年后以高可信度预测疾病诊断。开发人工智能

    2025年07月09日
    2
  • 震撼时刻:乌克兰成功击落普京价值1500万英镑的苏-25战机

      一段视频记录了乌克兰军队击落一架俄罗斯战斗机的戏剧性时刻。画面中,一架苏霍伊SU-25拼命发射信号弹,试图躲避防空导弹的攻击。随后,飞机坠毁在地,而另一架俄罗斯战斗机则成功逃脱。这架苏-25是被乌克兰第28独立机械化旅击落的,当

    2025年07月09日
    2
  • ALICE最新研究揭示胶子物质在大型强子对撞机中的特性

    在大型强子对撞机(LHC)中,质子和铅束的运动速度接近光速。它们携带着一个强大的电磁场,当光束通过加速器时,电磁场就像光子的通量一样。当大型强子对撞机的两束光束彼此靠近而不相撞时,其中一束可能会发射出一个能量非常高的光子,撞击另一束。这可能导致光子-原子核,光子-

    2025年07月19日
    2
  • 梅根·马克尔影响查尔斯国王与威廉王子对哈里的关键决策

      根据报道,在王室不和的情况下,查尔斯国王和威廉王子做出了关于哈里王子的重大决定。王室专家汤姆·奎因认为,由于梅根·马克尔的缘故,查尔斯国王和威廉王子决定冷落哈里,不邀请他去巴尔莫勒尔。奎因在接受《镜报》采访时解释说:“威廉和查尔斯知道,邀请哈里而不邀请梅根只是为了给哈里正在写的

    2025年07月25日
    1
  • 帕涅拉餐厅关闭谷景分店,计划在邻近地区重新开业

      工作人员计划在谷景购物中心附近开设一家新的Panera面包店,提供免下车服务,而现有的商店已经关闭。根据城市记录,这家餐厅将位于DSW鞋店与西北谷景大道之间,建筑面积为4200平方英尺。该餐厅位于一个零售商集群中,通常被称为谷景商店,周围还有D

    2025年07月30日
    1
  • 扎希回应对总理安华的不信任动议:政府稳固,153名议员支持

      9月22日,马来西亚副首相拿督斯里阿末扎希哈米迪博士表示,尽管反对党不断破坏团结政府的稳定,但团结政府仍然稳固。这位国阵主席还表示,这包括反对党在10月的下一届国会上提出对首相拿督斯里安华的不信任动议的可能性。他说:“有153名议会议员的支持,超过三分之二的多数,团结政府有信心

    2025年07月30日
    1
  • 旋风斯托克斯助力英格兰在西印度群岛实现十连胜

      伯明翰,(APP-UrduPoint/PakistanPoint新闻-2024年7月28日)本周日在埃德巴斯顿举行的第三场板球测试中,东道主本·斯托克斯以10个门柱的优势击败西印度群岛队,赢得了英格兰击球手最快的50分,打破了保持了40多年的纪录。

    2025年08月02日
    1
  • 妊娠期抗逆转录病毒药物研究工具包

      世界卫生组织正在推出一款新工具包,旨在促进和支持孕妇及哺乳期女性参与临床试验和其他研究。以往,孕妇和哺乳期女性常常被排除在新药的临床试验之外,包括用于艾滋病毒治疗和预防的抗逆转录病毒药物,以及治疗病毒性肝炎和性传播感染的药物。这种情况导致缺乏安全性数据,并延迟

    2025年08月03日
    2
  • 两名英国女性涉嫌参与全球虐待猴子网络

    近日,两名英国女子因涉嫌“虐猴”犯罪团伙而被捕。在这一团伙中,动物被人用锤子殴打致死、放火焚烧,甚至被放进搅拌机里。BBC对该组织进行了长达一年的调查,揭露了一个全球性的虐待狂网络,他们付钱给印尼人,在视频中杀害和折磨长尾猕猴幼崽。来自基德明斯特的

    2025年08月08日
    2
  • 梅根·马克尔首次与凯特王妃见面时的经典回应

    与伴侣的亲戚见面从来都不是件容易的事,尤其是如果这些亲戚碰巧是王室成员的话。在2017年接受BBC采访时,梅根·马克尔和哈里王子透露了这位前《金装律师》明星与威廉王子和凯特王妃初次见面的真实情况。订婚后,他们接受了BBC记者的采访,并透露了梅根和凯特的第

    2025年08月15日
    2

发表回复

本站作者后才能评论

评论列表(4条)

  • 谷冬
    谷冬 2025年08月03日

    我是hengi号的签约作者“谷冬”!

  • 谷冬
    谷冬 2025年08月03日

    希望本篇文章《我惊讶地发现自己通过了OpenAI预览版的四项AI编码测试(好的一面)》能对你有所帮助!

  • 谷冬
    谷冬 2025年08月03日

    本站[hengi号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 谷冬
    谷冬 2025年08月03日

    本文概览:   一般来说,软件公司在5月份发布一个重要的新版本后,不会在短短4个月内再推出另一个主要版本。然而,人工智能行业的创新速度却是非同寻常的...

    联系我们

    邮件:hengi号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们