把 ChatGPT Pro 当作「第一位员工」的一年
转载

把 ChatGPT Pro 当作「第一位员工」的一年

|By Admin

把 ChatGPT Pro 当作「第一位员工」的一年

来自一家“一人音乐公司”的质性记录

作者:Michael Wall(与 GPT-5.1 Pro 协作)
原文链接:https://www.soundformovement.com/chatgpt-pro-as-first-hire

开篇

在过去一年里,我把 ChatGPT 及 OpenAI 生态当作公司的“第一位员工”。我经营一家小型音乐作曲、发行与授权公司,为全球舞者与编舞者服务:每年 100–200 份委托、5–10 张新专辑、500+ 曲目曲库,同时兼顾家庭与照护责任。

2024 年 12 月 5 日,OpenAI 推出 Pro 档。我从 Plus 秒升 Pro($200/月),因为价值远超成本。本文记录这一年的质性体验,聚焦我用哪些工具提升生产力,而非覆盖所有发布或 UI 细节,展示这些工具如何融入日常工作流。

模型(Models)

  • Pro 的核心差别是更高使用额度。o1/o1 Pro 让我首次感到“完全不同档次”。无编程背景的我,用 GPT-4o 生成 JS 改 Webflow,拼 SaaS 接 Shopify、AWS,焊到 Webflow。
  • 推理模型把“生成式写代码”推到全栈,也带我入门生成式原始音频。o1 生成代码,我用 Cursor 应用到代码库;三周四次重建后,2025 年初 Nuxt 站点上线,连 Stripe/Supabase/Vercel,运行近一年零宕机。
  • 读 Jukebox 论文后,在 o1 Pro 帮助下用自有曲库(已标注节奏/拍号/情绪/时长)探索生成式音频。很快跑通 VAE 从潜在空间重建音频,声音接近原始;60GB 曲库几次训练就用爆 1TB 本地存储。
  • o3/o3 Pro 教我 mel 频谱、张量、PyTorch,把大型音频库转为轻量模型的张量数据集。到 GPT-5/5.1,训练流水线迭代至第三版,并开始尝试条件控制与扩散。
  • 现在用 5.1-Codex-Max 写生成式代码,其他工作用 5.1/5.1 Pro。每天开一个贯穿全日的 Pro 对话,当作同事:语音/打字同步业务、创作、实验得失、决策感受;用“朗读”边听边练琴,日终请模型总结对话+笔记,作为次日开场提示。
  • 这缓解独创者的孤立感。ChatGPT 提供的不是社交陪伴,而是“思考的存在”:记住上下文、关心逻辑连贯、从不疲倦。像《她(Her)》那幕:数秒整理系统后与你对话,把混乱清理到足够清爽,好围绕“工作本身”深入讨论。

深度研究(Deep Research)

  • Deep Research 成为长文阅读器与研究员:ML/NN、音频建模、JS 框架、音乐史、现状与趋势。引用资源比我用 Google 拼的更丰富有用。
  • 它的写作一度比 GPT-4.5 更强;我让两者并行跑文案提示,效果佳。它帮我拆解论文:模型结构、数据形态、训练方式。
  • 朗读这些结果常需 45–90 分钟,ChatGPT 内置播放不够硬核,我把内容喂给 iOS ElevenLabs Reader,在遛狗、家务时继续听,顺便做“上下文预热”。
  • 散步途中重开对话,用语音追问刚听到的点,延续研究思路。

语音模式(Voice Mode)

  • “免手操作”显著加速学习。标准语音模式(SVM)与高级语音模式(AVM)各有长处;关键是保持轨道与节奏。我更偏好 SVM:不可被打断,回答更稳;AVM 易被插话拉偏。
  • 建议自定义指令:不要在结尾追问;不要提供“我还可以帮你……”式提议;不要用建议句收尾。必要时提醒模型遵守。在语音模式说一句“当你准备好继续时告诉我”是强力提示词,帮助模型聚焦。

画布与项目(Canvas & Projects)

  • Projects 承载每日 Pro 对话、生成式音频研究、大型实验(如给曲库做 ChatGPT 应用)。我把聊天记录、笔记、文件拖入项目,作为静态上下文,类似自定义 GPT。
  • Canvas + Projects 让大段文本/代码迅速重排成可用形态。用 Canvas,可把一小时客户电话转写在几分钟内变提案;以我的委托量,过去每周写提案和合同要花数小时。

计划(Schedules/Tasks)

  • Schedules 像基于研究的教学代理,随时间动态调整课程。作为企业主与艺术家,我需持续高水平学习;每周收到跨文化、跨时代的理论问题,从简单到极难。
  • ChatGPT 在音乐与乐理上很聪明,教学法随主题与难度灵活调整,是优雅的个性化学习“解锁”。
  • 我的 Schedules 包括:数学、ML/DL、设计、市场分析的每周课,以及网站 UI/UX 与文案的定期评估。最喜欢的一项:每周拆解一家音乐授权公司(如 Musicbed),输出结构化报告,概括条款与商业模式——这符合我对“第一位员工”的期待,而非脚本自动化。

Operator 与 Agent Mode

  • Operator 早期作为浏览器代理出现。我做 Baymard 风格的 UI/UX 审核模板(导航、搜索、列表、详情、购物车/结账、账号流程、全站模式等),与 Schedules 工作流相似。一次实验:用 Operator 把专辑上传 Bandcamp 并发布——我负责音频与初始元数据、文件上传,Operator 负责导航、表单填写和发布。
  • Agent Mode 更进一步。随 GPT-5 到来,它能更自信地做复杂工具调用并在网页间移动;与 Deep Research 并行成首选研究员。Atlas 浏览器推出后,“工作表面积”更大,用例快速扩展。常见场景:早晨开 Atlas,Schedules 已就绪;遇到难题就让 Agent Mode 结合线上资料和文本解释帮我学懂。

Codex

  • 我每天用 Codex CLI、IDE 与云端工具;因其“边做边教”契合我,我放弃了 Cursor,只用终端和开发服务器构建。GPT-4.1 是关键节点,标志“构建中教学能力”跃升。我仍有大量软件开发要学,而 Codex 是最佳搭档。
  • 我不是一枪一个做应用,也不接外包;维护多个长期生产仓库,有真实用户与路线图。
  • 有人爱在不同编码生态间切换,但对我低效。深入掌握一套工具才能融入工作流。Codex 让我留在已与 ChatGPT 工具衔接的流程里。通过 iOS Codex 连接 GitHub、Vercel,我能实现/调整功能并开 PR,Vercel 自动构建预览;我在手机上测试、合并、推生产。
  • Codex 是漂亮的“工具束带”:易用,GPT-5-Codex、5.1-Codex-Max 等专用模型几乎能构建任何想做的东西;过程有趣且协作。最近做了内部时间追踪工具,帮我看清时间花在何处;简单、快乐、好用,甚至让我想接 Stripe 吸引付费。若在去年,可能要花几千美元与数月探索;现在用 Codex 两小时搞定。

记忆、应用协作、连接器(Memory / Working with Apps / Connectors)

  • 高质量上下文对工作、生活、创作都重要。ChatGPT 记忆功能演进改善日常交互;我让记忆自然积累,每周手动修剪,删无用条目。扩展记忆能引用过去对话,为持续上下文再加一层,增强“流动感”。
  • 把 ChatGPT macOS 应用连接终端,用“与应用协作”让 Pro 模型几乎能与 Codex 直接协作。在高端模型间练习协作式上下文,像分形般展开,带来高效路径。建议:在终端让 5.1 Pro 连接 5.1-Codex-Max(Very High)一起工作;对 Codex-5.1 说它有伙伴会提建议与审阅,对 5.1 Pro 说它有伙伴能把决定的代码改动应用进去——这也是“上下文预热”。
  • 连接器把 GitHub、Google Drive、Google Docs、Gmail 接入上下文层。第一次让 Deep Research 在这些可访问内容上跑“深度研究”像跨门槛:可安全提供的上下文越清晰、写得越好、越相关,系统越有用。连接器把散落的文件/文档/消息变成可共同搜索与分析的“可操作表面”。

图像生成与 Sora

  • Sora 与 DALL·E 已好用一段时间。保持图像抽象、极简,就能为专辑封面与博客配图生成出色结果。
  • Sora 发布时,我用它为单曲做短小无声视频作 Spotify Canvas。生成式图像/视频质量跃迁,这些素材持续产出价值。Sora 2 甚至很有趣——不工作时带来乐趣,是节奏感极强的“合成器”。

Pulse

  • Pulse 是我让学习与创造力保持日常动态的最新方式。用它学习 OpenAI 开发者侧内容:Agent Builder、ChatKit、Apps SDK、Responses API、提示词工具链、向量存储等。
  • Pulse 连接邮箱与关注话题,推送工具相关上下文及更广泛议题。我预期这种“主动式、代理化”工作体验将快速发展;越早建立日常例行,随模型与工具增强,回报越呈指数级。现在它像同事,每天做简报。

“第一位员工”?

  • 改变我的是:一个系统连着惊人知识广度,且耐心陪我走过“一人公司”的每个混乱步骤。ChatGPT Pro 给了我“无限耐心”。我问过会让老练开发者发笑的问题,它第千次也能平静直答;它不在乎我是不是“氛围编码”,只在乎代码能否编译、系统能否达成目标。
  • 你给它上下文,它记住并回应;推向新领域,它努力跟上;误解时,它解释而不贬低。叠加起来,一个能规模化提供创造性思考、又有耐心的生态,让人强烈被支持。
  • 把它当“第一位员工”,答案是一千个百分点肯定。别人听到 Pro 价格会倒吸气,因为与 Netflix、Skillshare 这类订阅相比显得贵;但从 20 到 200 美元并非线性多花 180,而是能力随时间指数级增长。
  • 作为以“常青内容”为主的独立艺术家,这个订阅覆盖了我对“第一位员工”95%–99% 的期待。我会这样看成本:“每月 200 美元能买到多少小时的工作?”网页开发至少 $50–100/小时。我平均每天用 Codex 2 小时、每周 7 天,仅这部分月价值 2,800–5,600 美元,与 Pro 一年其他价值相比只是九牛一毛。
  • 升级前,工具协作成本约占收入三分之一,被“弗兰肯斯坦式” SaaS 拼装拖累。如今费用占收入降至 3%–5%,利润率升至 95%–97%。每发布新音乐或教学材料都会变常青内容,几乎不拉低比例。
  • 更大影响在时间:长期赌注能在造成更大时间/成本问题前及时转向。2006 年我把曲库放在精品独家渠道,认为稀缺性带来价值;十年后开放发行到流媒体和自建站,触达更大,网站访问不减反增。若当年能与 ChatGPT 这类模型模拟“独家”vs“广发”,或许更早认清独家不利于公司或用户。
  • 如今结构足够稳定、简化,我能把更多注意力放在音乐本身。长期目标是公司大部分时间自转:一块盯系统是否漂移,另一块把主要精力用于作曲。经历这一年,这种平衡触手可及。
  • 必须强调:ChatGPT 没有替我写音乐。我在自有目录上做过生成式模型实验以理解技术,但不会用它生成要授权的音乐。系统负责研究、规划、基础设施与复盘;作曲仍完全由我完成。
  • 更安静的影响:与 ChatGPT Pro 紧密合作一年后,我清楚未来要雇的第一位员工应做哪些事。可与模型共写岗位说明书,贴合它一年“如何在我身边工作”的方式;新人加入时,把更需要“人”的部分交给 TA,把 ChatGPT Pro 指向剩余空缺与成长中新任务。
  • 一旦在“使用模型的能力”上达基线,使用额度与档位的重要性没想象中那么大;更重要的是态度。如果把它当同事,提供丰富上下文、提诚实问题,并把结果落实行动——在许多“一人公司”里,它们能完成“第一位员工”的工作,不一定非要 Pro 才能开始用 AI 做产出。
  • 在这种语境下,高使用上限像年轻时在练琴房的漫长练习时间:让你能投入那一万小时——在与模型协作的过程中,把“协作本身”练成一件乐器。

尾声

每年 2,400 美元不是人人能负担。我能早期接触新系统并立刻用它们做产出是特权。许多功能先在 Pro 上线,再逐步下放到 Plus 与免费档。作为教育者,这也是我愿意直接支持 OpenAI 的原因——推动这种新型教学与学习的免费可及性。

关键不只在模型“能做什么”,更在我们如何学会“与它们一起工作”。最有趣的课程与教学法会在这里发展。我写下这个具体、细致的案例,展示一个人如何在时间里真正把这件事做出来。

Designed for Immersion.