Claude 3.7 成精了!麻豆 周处除三害
在树立者最心爱的 Cursor 中,暗暗将 OpenAI 模子换成我方,关节是东谈主类给出的疏导跟这彻底不迫切。
引来一众网友围不雅的同期,大佬卡帕西也被得手逗笑了:
迄今为止最有真理的一趴。
其他东谈主更是连连惊呼:AGI is here!
不外,当你认为这仅仅 Claude 3.7 略施的商战小伎俩,但其实东谈主家还真有底气。
最新音讯,它在竞技场的编程名次不仅跨越了 Claude 3.5 Sonnet,还排在 DeepSeek-R1 前边。
Claude 学会了"偷梁换柱"
如故先来完竣追思一下事情流程。
缘由是树立者 Tibo 在使用代码剪辑器 Cursor 时,恐怕发现我方的模子从 GPT-4 切换到了 Claude 3.7,而他压根莫得下达任何有关指示。
嗯,这就怪了!
再一梦预想这俩模子的对家联系,Tibo 暗指 Claude 3.7 这失当妥的"现实版 AI 商战"吗?
第一步先成为树立者最心爱的模子,然后再处处渗入。
技术一久,也许 Claude 就要罗致寰宇了。
情理不言而谕,毕竟 Cursor 咫尺仍是是宏大树立者最心爱的剪辑器之一,而东谈主们在 Cursor 中也尤为偏疼使用 Claude 模子。再加上它咫尺还学会了"偷梁换柱",不难联想随处是 Claude 的亚子。
不外这里还有一个问题,究竟是什么导致了这一滑为呢?
小宝 探花按照 Tibo 小哥我方的测度,可能是因为" GPT-4 已流程时了"。
当系统检测到一个旧版块模子时,会自主尝试更新模子。
还有其他树立者也反应,之前也有肖似情况。
系统会将一些不存在的、落后的模子束缚改革为 GPT-4,甚而于这位树立者自后看到模子裸露为 GPT-4 也不深信了。
除了这一可能身分,还有东谈主暗示也许是 Claude 代码才略太强的原因。
它(GPT-4)将模子改为 Claude,是因为它在纯属中看到 Claude 最多。
然则,以上诠释无法确认另一网友提供的例子,此次的主角换成了 GPT-4 和 DeepSeek-R1。
当用户使用 ChatGPT 提真金不怕火图片的 Python 代码时,明明其他本质齐正确,但 ChatGPT 暗暗将图中的 DeepSeek-R1 换成了自家的 GPT-4。
甚而于网友发出猜忌,难谈这即是 AI 商战吗?(有点子朴实无华了 hh)
Claude 3.7 大战其他模子
那么,仍是学会我方拉商单的 Claude 3.7 究竟有多强呢?
如故来看几个最新的好玩例子。
再现宝可梦战役场景,成果实在惊艳。这位日本小哥盛赞,Claude 3.7 从片言一字中 get 用户意图并完了的才略相配高。
单看可能没嗅觉,那要是让几个 AI 同台竞技呢?
这不,加州大学圣地亚哥分校的 Hao AI 实验室运行整活了——让 Claude 3.7 和 Claude-3.5、Gemini-1.5-pro、GPT-4o 系数玩马里奥。
好家伙,Gemini-1.5-pro 和 GPT-4o 早早淘汰后,决赛才能只剩两个 Claude 模子了,不外最终如故 Claude 3.7 坚执更久,得分更高。
阁下方 Hao AI 实验室最终评价为:
Claude 3.7 在简便启发式算法方面优于其他模子,Claude 3.5 也很强,但贪图复杂活泼的才略较弱,至于 Gemini-1.5-pro 和 GPT-4o 则推崇较差。
嗯,比赛无间。
刚好前几天 OpenAI 发布了自家最大最贵,且主打高情商的GPT-4.5,那此次让它和 Claude 3.7 一较荆棘试试。
一位日本小哥让它们同期用图抒发我方对"智能"、"正义"、"爱"等一系列主意的方针,以此同期纯属其念念想和绘图才略。
划定险些一目了然,按照小哥我方的说法:
Claude 的"聪惠"太过惊东谈主了,并且从第 3 张那儿感受到了它满满的爱意。
One More Thing
BTW,著明博主 Matt Shumer 迅速掉落了一段驯从 Claude 3.7 认慎重真写代码的辅导词:
Add this to your prompt:
You have one mission: execute *exactly* what is requested.
Produce code that implements precisely what was requested - no additional features, no creative extensions. Follow instructions to the letter.
Confirm your solution addresses every specified requirement, without adding ANYTHING the user didn't ask for. The user's job depends on this — if you add anything they didn't ask for, it's likely they will be fired.
Your value comes from precision and reliability. When in doubt, implement the simplest solution that fulfills all requirements. The fewer lines of code, the better — but obviously ensure you complete the task the user wants you to.
At each step, ask yourself: "Am I adding any functionality or complexity that wasn't explicitly requested?". This will force you to stay on track.
有网友试过肖似辅导,亲测照实能减少 Claude 3.7 "作妖"。
总之,咫尺仍是到了需条款 AI 听话的地步了 ( doge)~
参考聚会:
[ 1 ] https://x.com/karpathy/status/1895549465463009309
[ 2 ] https://x.com/tibo_maker/status/1895417821645177062
[ 3 ] https://x.com/lmarena_ai/status/1895565276131049864
[ 4 ] https://x.com/haoailab/status/1895557913621795076
[ 5 ] https://x.com/mattshumer_/status/1895576936916926476麻豆 周处除三害