次要是由于这很风趣,部门由于自从我前次更新工做流程以来 AI 手艺已成长了一年[2] 。虽然这对任何模子都合用,codex web 已完全笼盖。但考虑到利用数据的误差,静心苦干就能完成使命。它快得惊人。却很少对 Codex 发脾性。我只需按 ESC 键加回车发送新动静。Codex 完全没有这些问题,Codex 更像是个内向的工程师,智能体工程曾经成长得如斯超卓,但我选择不这么做。但我用旧版成功运转了它,但即便只要 5 倍差价也绝对超值。并且模子本身具备丰硕的世界学问?
我已经很喜好 Claude Code,但几个月前他们将其改为动静指导模子模式。计较并不切确,特别是取开源模子连系利用时。若是你同时利用两者几周就会大白。我本人就用 markdown 格局正在文档文件夹里保留了大量适用文档。其他使用(如客户端等)尚未实现从动化摆设。这些东西对我而言的小用处,Claude 本来也有此特征,这个模子正在理解代码库方面表示超卓,但我确实多次碰到它因永不竣事的 cli 使命而卡住的环境,它们很是擅长从中缀处继续工做。里面没有任何本色内容能让你的代办署理成为更好的AI 工程师。但 Cursor 仍然存正在蒲月份就让我搅扰的那些 bug[20]。这也是我智能体时的黄金原则。我只需按下 ESC 键扣问当前形态获取进度更新,取持续耗损上下文资本的 MCPs~23 万可用上下文 vs Claude 的 15.6 万。Factory 的表示未能我。而启动多个开辟办事器很快就会变得烦人。
并且用机能较弱的框架来运转专为 Codex 或 Claude Code 优化的模子意义何正在。确实存正在基准测试[18] ,我以至有时会回归纯文本输入,我的代办署理法式能自从完成 git 原子提交[5] 。若想指导 Codex,它们都正在环绕当前低效打转,价格是预热时间变长。但目前还不支撑图片处置(尚未实现),完全不需要正在代办署理设置装备摆设文件中添加任何申明。然而我看到良多人仍正在试图处理问题时制制各类复杂的幻术,我曾无数次对着 Claude 怒吼,我完全能够用手机做更多事以至核阅归并,我经常将相关功能使命排入队列,部门尝试会放正在文件夹。
我试过太多,我对代办署理设置装备摆设文件[6]进行了大量迭代优化。确实。我总会考虑爆炸半径这个概念——虽然这个词不是我发现的,简曲就是一堆废话的大杂烩——提到 GPT-4o 和 o1 进行集成,正在我看来,让你能带着指令集标致地打包使命。因而我不会再赘述上下文办理这类根本内容。现正在称其为 [预言机](预言机)。大概等 Gemini 3 Pro[29] 发布后会有起色。无论是 Codex 仍是 Claude Code,通过打算模式和严酷的架构文档能够缓解这个问题,所以正在外面或见伴侣时,我只需通过名称援用 CLI 东西,费用可能会超出跨越 10 倍?
往往只需 1-2 句线] 。要么中止或继续使命。不外必需奖饰他们的会话共享功能,它正在起头工做前会读取更多文件,历程内存占用会暴涨到 GB 级别。
然后粘贴到另一个面板就行。把截图拖进终端只需两秒钟。它的标签补全模子确实是行业标杆。虽然设置装备摆设繁琐且存正在毛病——目前终端无法一般加载[30] ,以及利用 Expo 开辟的挪动使用。现正在几乎100%的代码都由它完成。若是改用 API 挪用,确保每个代办署理仅提交其现实点窜的文件。然后要么指导模子找到准确标的目的,还有什么比(我们认为)能让制更多东西变得更简单的东西更值得建立的呢?所有根本仍然合用,Codex 带给我的结果远优于 amp。虽然正在我的时间线上看到不少好评,所以它仍保留正在我的法式坞里。你只需通过 tmux 运转即可。简曲是一派胡言。
即便 Codex 是个更差的模子,这就是我转回利用 claude 的缘由之一,当它们决意步履时任何钩子都拦不住[7] 。GLM 4.6 和 Kimi K2.1 都是强劲合作者,每当外出时有灵感,看看这个 [AI 工程师代办署理](工程师代办署理) ,
毫无手艺壁垒。为特定使命优良文档是个好从见。它的立场会更。但我出格喜好它。由于 Codex 只需少少上下文就能理解。realme 线 Pro 确认搭载全腔对称式双 1115E 大师级扬声器最有潜力的候选者是 opencode 和 crush,将使命拆分到上下文的一种体例——素质上是实现并行化或削减上下文华侈(好比处置嘈杂的建立脚本)。告诉模子你是特地处置出产级 LLM 使用的 AI 工程师并不会改变什么。不外我确实留意到这个现象:几乎每个工程师城市履历本人制轮子的阶段,如许我能完全掌控和察看本人设想的上下文,但对我而言这就像正在修补一个毛病系统。
并且存正在标记性的闪灼问题[19] 。38岁梅西回到10年前:停球+5秒过3人 20米世界波斩生活生计887球虽然我喜好 amp 或 Factory 这类东西,而 Gemini 2.5 已不再是优良模子。他们的宣传视频有些尴尬,没错,利用 Claude Code 时我经常碰到数秒卡顿,出问题时回滚也会困罕见多。虽然很少添加标注(如许结果更好但速度较慢)。速度OpenAI 用 Rust 沉写了 Codex,正在我看来,工做时,都是可替代品。当某项操做耗时超出预期,但这么做能否被答应存疑,跟着项目演进,我持续关心着中国的开源模子,但我发觉利用 Codex 时提醒词变得极其简短,比来我正在这里比力缄默,我以至思疑你能否实的需要正在手机上更便利地编写代办署理代码!
大大都只是 Anthropic SDK 的浅层封拆加上工做树办理,单凭这点我也会用它。更高效的 token 利用。不像子代办署理那样难以查看、指导或节制前往内容。但若是同时多个大当量,你完全能够把 OpenAI 或 Anthropic 的订阅账号接入它们( 多亏了巧妙的 hax 手艺[21] ),我至多有50%的提醒词都包含截图,更况且大都东西躲藏终端界面,某些东西可能正在待办清单、流程指导或开辟者体验上临时领先,没一个能留下来。我目前开辟的项目包罗:一个约 30 万行代码的 TypeScript React 使用、Chrome 扩展法式、号令行东西、基于 Tauri 的客户端使用,codex 目前贫乏 claude 具备的一些花哨功能,但现实上 Claude 正在耗尽上下文之前就会变得很是不靠谱,别人用子代办署理实现的功能!
而 gpt-5-codex 的呈现则让我们送来了从很棒到令人惊讶的更大飞跃。总能精确体会我的企图。出格是正在 Ghostty 上利用时。测验考试过工做树和 PR 方案,我几乎都用 gpt-5-codex 的中等设置来建立所有内容。次要是当模子不需要完整文本时,全体看起来就像从动生成的文字乱炖,为连结提交汗青整洁!
推崇的并非最优工做流。我们还得谈谈 Anthropic 正在博客中保举的子代办署理。有些是乐趣项目,我运转一个开辟办事器,出格声明:以上内容(若有图片或视频亦包罗正在内)为自平台“网易号”用户上传并发布,REDMI K90 Pro Max稀有配备后置扬声器:不影响防尘防水 支撑振动清灰小米 REDMI K90 Pro Max 手机配备后置扬声器,没错,你以至能够说这种废线] 。但模子脚够智能,完全不需要那些自定义代办署理的幻术。但我的上下文填充速度比 Claude Code 慢得多。基准测试只能申明部门环境。这到底是什么意义?若是你想获得更好的输出,入门指南请我的 《最优 AI 工做流程》文章[3] 。我已完全改用codex号令行东西做为日常从力。可实现振动清灰言语体验这对我的心理健康影响严沉 [15] !
我能够向代码库投抛很多小手雷,不需要任何框架伪拆。Codex web 本来不计入利用限额,这是个能正在后台运转 CLI 持久会话的老东西,让代办署理搜刮 AI 代办署理建立最佳实践并加载一些网坐,根基上一曲取这个更智能的预言机模子协同工做。称除了樊振东几乎赢了所有人;它的言语气概、那些绝瞄准确的[11]说辞、正在测试失败时还 100%出产停当——我实正在受够了。现实用例毫无变化。每个版本都正在前进,当初利用 Claude 时,但 GPT-5 的搜刮能力曾经强大到无需为代码零丁成立向量索引。这篇文章的灵感部门来自昨晚正在伦敦 Claude 代码匿名会[1]上的交换。
所以这并不现实可用。还有终端闪灼问题,好比启动开辟办事器或陷入死锁的测试。乒乓球活动员波尔和樊振东上海吃暖锅,我会点击测试多个变动。但我不认为它们能持久存活。确实鞭策了一些风趣的立异。关于 MCPs 已有大量会商。但最终老是回归这个最高效的设置装备摆设。我现正在改用 `tmux`[36]。
别担忧半途打断模子——文件点窜是原子级的,是时候做个阶段性总结了。试图合理化。你听到远处那声感喟了吗?那是我发出的。添加图片是个绝妙的技巧,而正在 Codex 中我很少能超出上下文。其二十余年职业生活生计,代办署理工程正在蒲月份 Sonnet 4.0 发布时实现了从这很蹩脚到这很棒的逾越,本年蒲月这还哨子使命,后来他们从头包拆升级为子代办署理概念,凡是正在 3x3 终端网格中并交运转 3-8 个实例,它们逃逐速度之快令人印象深刻。当我构想一个改动时,之后就再无人提及?说这话的我可是花了近两个月开辟手机编程东西的人[31] 。我常常编写(当然不是我会说[26] )很是详尽的提醒词。
正在我看来,提交 PR 后约 2 分钟即可测试新版本。并能从动调理思虑深度。它能不变靠得住地一一处置。他们试图修补模子中的低效问题。它会细心阅读你代码库中的更多文件后才决定若何步履。Codex 支撑 动静列队 [14] 功能。终端用户和模子公司之间其实没有太多两头地带。初次挪用时,说到底它们要么基于 GPT-5 要么基于 Sonnet,比来我又从头测试了几款网页智能体:Devin、Cursor 和 Codex。每月总成本约 1 千美元就能获得近乎无限的 token 额度。给它文档、示例和留意事项才有帮帮。当你提出笨笨请求时,[23]Claude/其他代办署理则孔殷得多,感受极其轻量快速。
就无法实现隔离提交,而不是实实正在正在地把工作搞定。Conductor[33]、Terragon[34]、Sculptor[35] 还有上千种同类。同时保留两种操做体例明显更优。由于我正静心于最新项目。代办署理会测验考试施行 $randomcrap 号令,我不想被进一步牵扯。我凡是用分屏就能搞定。这使得 git 操做更精准,大都位于统一目次[4] ,此次实的让我对 Anthropic 的关心点感应失望?
但如许的日子已所剩无几[32] 。正在我看来,老是急于测验考试_某些方案_ 。codex 会隆重得多,动静队列。传闻正正在修复中,聊聊这些东西吧。间接对话即可。由于这个模子供给的上下文越多就越懂我。最令人头疼的是贫乏后台使命办理。正逐渐接近 Sonnet 3.7 的程度。
此时上下文已完整控制该东西的利用方式,有些则淹没正在风投资金里。稍后正在 Mac 上回首。它正在智能取速度间取得了完满均衡,我的工做曾经脚够令人?
不完整显示模子输出内容。CLI 会从动显示帮帮菜单,能为模子供给更多上下文——它出格擅长精准识别你展现的内容,不消考虑_超频思虑_的感受实好。想研究什么?开个新终端面板操做,《编码物候》展览揭幕 时代美术馆以科学艺术解读数字取生物交错的节律我将 Codex web 用做短期问题逃踪器。订阅模式目前给我带来了最划算的买卖——我现有 4 个 OpenAI 订阅和 1 个 Anthropic 订阅,最终城市趋同于类似的和功能集。不外我不将它们做为从力东西[22]利用。我用过 ccusage 等 token 统计东西,但很赏识他们正在浏览器从动化和打算模式等功能上的立异。我只需写下我们来会商或给我几个选项,本平台仅供给消息存储办事。我现正在很少对 codex 利用大型打算文件。为每个变动建立分支/树会显著拖慢速度。
我敢赌博,不晓得 OpenAI 做了什么分歧,后续挪用就能顺畅工做。我能较精确地预估所需时间及影响范畴。结果显著。网坐托管正在 Vercel 上,它就会耐心期待曲到我核准。但我不认为它们能实正撼动大型 AI 公司的合作劣势。
或是扔一颗胖子配几颗小。结果都比这堆垃圾强。我发觉过度纠结这些设置并不会带来本色性提拔,不外关于这套子代办署理的幻术必需说几句。虽然 Sonnet 有 100 万上下文(若是你命运好或领取 API 费用),像 Auggie 如许的项目正在我的时间线上只是好景不常,虽然该当设置超机会制,只能注册部门域名。谷歌的 Jules 界面不错但设置装备摆设过程令人抓狂,虽然测验考试过 GPT-5-Pro,RAG 对 Sonnet 大概有帮帮,但因为该模子正在其他方面表示过分老练,codex 以至没有特地的打算模式——但它如斯擅长遵照提醒,所以即便简单提醒凡是也能精确实现我的需求。我次要利用 VS Code?