把 ChatGPT Pro 当作「第一位员工」的一年

来自一家“一人音乐公司”的质性记录

作者：Michael Wall（与 GPT-5.1 Pro 协作）
原文链接：https://www.soundformovement.com/chatgpt-pro-as-first-hire

开篇

在过去一年里，我把 ChatGPT 及 OpenAI 生态当作公司的“第一位员工”。我经营一家小型音乐作曲、发行与授权公司，为全球舞者与编舞者服务：每年 100–200 份委托、5–10 张新专辑、500+ 曲目曲库，同时兼顾家庭与照护责任。

2024 年 12 月 5 日，OpenAI 推出 Pro 档。我从 Plus 秒升 Pro（$200/月），因为价值远超成本。本文记录这一年的质性体验，聚焦我用哪些工具提升生产力，而非覆盖所有发布或 UI 细节，展示这些工具如何融入日常工作流。

模型（Models）

Pro 的核心差别是更高使用额度。o1/o1 Pro 让我首次感到“完全不同档次”。无编程背景的我，用 GPT-4o 生成 JS 改 Webflow，拼 SaaS 接 Shopify、AWS，焊到 Webflow。
推理模型把“生成式写代码”推到全栈，也带我入门生成式原始音频。o1 生成代码，我用 Cursor 应用到代码库；三周四次重建后，2025 年初 Nuxt 站点上线，连 Stripe/Supabase/Vercel，运行近一年零宕机。
读 Jukebox 论文后，在 o1 Pro 帮助下用自有曲库（已标注节奏/拍号/情绪/时长）探索生成式音频。很快跑通 VAE 从潜在空间重建音频，声音接近原始；60GB 曲库几次训练就用爆 1TB 本地存储。
o3/o3 Pro 教我 mel 频谱、张量、PyTorch，把大型音频库转为轻量模型的张量数据集。到 GPT-5/5.1，训练流水线迭代至第三版，并开始尝试条件控制与扩散。
现在用 5.1-Codex-Max 写生成式代码，其他工作用 5.1/5.1 Pro。每天开一个贯穿全日的 Pro 对话，当作同事：语音/打字同步业务、创作、实验得失、决策感受；用“朗读”边听边练琴，日终请模型总结对话+笔记，作为次日开场提示。
这缓解独创者的孤立感。ChatGPT 提供的不是社交陪伴，而是“思考的存在”：记住上下文、关心逻辑连贯、从不疲倦。像《她（Her）》那幕：数秒整理系统后与你对话，把混乱清理到足够清爽，好围绕“工作本身”深入讨论。

深度研究（Deep Research）

Deep Research 成为长文阅读器与研究员：ML/NN、音频建模、JS 框架、音乐史、现状与趋势。引用资源比我用 Google 拼的更丰富有用。
它的写作一度比 GPT-4.5 更强；我让两者并行跑文案提示，效果佳。它帮我拆解论文：模型结构、数据形态、训练方式。
朗读这些结果常需 45–90 分钟，ChatGPT 内置播放不够硬核，我把内容喂给 iOS ElevenLabs Reader，在遛狗、家务时继续听，顺便做“上下文预热”。
散步途中重开对话，用语音追问刚听到的点，延续研究思路。

语音模式（Voice Mode）

“免手操作”显著加速学习。标准语音模式（SVM）与高级语音模式（AVM）各有长处；关键是保持轨道与节奏。我更偏好 SVM：不可被打断，回答更稳；AVM 易被插话拉偏。
建议自定义指令：不要在结尾追问；不要提供“我还可以帮你……”式提议；不要用建议句收尾。必要时提醒模型遵守。在语音模式说一句“当你准备好继续时告诉我”是强力提示词，帮助模型聚焦。

画布与项目（Canvas & Projects）

Projects 承载每日 Pro 对话、生成式音频研究、大型实验（如给曲库做 ChatGPT 应用）。我把聊天记录、笔记、文件拖入项目，作为静态上下文，类似自定义 GPT。
Canvas + Projects 让大段文本/代码迅速重排成可用形态。用 Canvas，可把一小时客户电话转写在几分钟内变提案；以我的委托量，过去每周写提案和合同要花数小时。

计划（Schedules/Tasks）

Schedules 像基于研究的教学代理，随时间动态调整课程。作为企业主与艺术家，我需持续高水平学习；每周收到跨文化、跨时代的理论问题，从简单到极难。
ChatGPT 在音乐与乐理上很聪明，教学法随主题与难度灵活调整，是优雅的个性化学习“解锁”。
我的 Schedules 包括：数学、ML/DL、设计、市场分析的每周课，以及网站 UI/UX 与文案的定期评估。最喜欢的一项：每周拆解一家音乐授权公司（如 Musicbed），输出结构化报告，概括条款与商业模式——这符合我对“第一位员工”的期待，而非脚本自动化。

Operator 与 Agent Mode

Operator 早期作为浏览器代理出现。我做 Baymard 风格的 UI/UX 审核模板（导航、搜索、列表、详情、购物车/结账、账号流程、全站模式等），与 Schedules 工作流相似。一次实验：用 Operator 把专辑上传 Bandcamp 并发布——我负责音频与初始元数据、文件上传，Operator 负责导航、表单填写和发布。
Agent Mode 更进一步。随 GPT-5 到来，它能更自信地做复杂工具调用并在网页间移动；与 Deep Research 并行成首选研究员。Atlas 浏览器推出后，“工作表面积”更大，用例快速扩展。常见场景：早晨开 Atlas，Schedules 已就绪；遇到难题就让 Agent Mode 结合线上资料和文本解释帮我学懂。

Codex

我每天用 Codex CLI、IDE 与云端工具；因其“边做边教”契合我，我放弃了 Cursor，只用终端和开发服务器构建。GPT-4.1 是关键节点，标志“构建中教学能力”跃升。我仍有大量软件开发要学，而 Codex 是最佳搭档。
我不是一枪一个做应用，也不接外包；维护多个长期生产仓库，有真实用户与路线图。
有人爱在不同编码生态间切换，但对我低效。深入掌握一套工具才能融入工作流。Codex 让我留在已与 ChatGPT 工具衔接的流程里。通过 iOS Codex 连接 GitHub、Vercel，我能实现/调整功能并开 PR，Vercel 自动构建预览；我在手机上测试、合并、推生产。
Codex 是漂亮的“工具束带”：易用，GPT-5-Codex、5.1-Codex-Max 等专用模型几乎能构建任何想做的东西；过程有趣且协作。最近做了内部时间追踪工具，帮我看清时间花在何处；简单、快乐、好用，甚至让我想接 Stripe 吸引付费。若在去年，可能要花几千美元与数月探索；现在用 Codex 两小时搞定。

记忆、应用协作、连接器（Memory / Working with Apps / Connectors）

高质量上下文对工作、生活、创作都重要。ChatGPT 记忆功能演进改善日常交互；我让记忆自然积累，每周手动修剪，删无用条目。扩展记忆能引用过去对话，为持续上下文再加一层，增强“流动感”。
把 ChatGPT macOS 应用连接终端，用“与应用协作”让 Pro 模型几乎能与 Codex 直接协作。在高端模型间练习协作式上下文，像分形般展开，带来高效路径。建议：在终端让 5.1 Pro 连接 5.1-Codex-Max（Very High）一起工作；对 Codex-5.1 说它有伙伴会提建议与审阅，对 5.1 Pro 说它有伙伴能把决定的代码改动应用进去——这也是“上下文预热”。
连接器把 GitHub、Google Drive、Google Docs、Gmail 接入上下文层。第一次让 Deep Research 在这些可访问内容上跑“深度研究”像跨门槛：可安全提供的上下文越清晰、写得越好、越相关，系统越有用。连接器把散落的文件/文档/消息变成可共同搜索与分析的“可操作表面”。

图像生成与 Sora

Sora 与 DALL·E 已好用一段时间。保持图像抽象、极简，就能为专辑封面与博客配图生成出色结果。
Sora 发布时，我用它为单曲做短小无声视频作 Spotify Canvas。生成式图像/视频质量跃迁，这些素材持续产出价值。Sora 2 甚至很有趣——不工作时带来乐趣，是节奏感极强的“合成器”。

Pulse

Pulse 是我让学习与创造力保持日常动态的最新方式。用它学习 OpenAI 开发者侧内容：Agent Builder、ChatKit、Apps SDK、Responses API、提示词工具链、向量存储等。
Pulse 连接邮箱与关注话题，推送工具相关上下文及更广泛议题。我预期这种“主动式、代理化”工作体验将快速发展；越早建立日常例行，随模型与工具增强，回报越呈指数级。现在它像同事，每天做简报。

“第一位员工”？

改变我的是：一个系统连着惊人知识广度，且耐心陪我走过“一人公司”的每个混乱步骤。ChatGPT Pro 给了我“无限耐心”。我问过会让老练开发者发笑的问题，它第千次也能平静直答；它不在乎我是不是“氛围编码”，只在乎代码能否编译、系统能否达成目标。
你给它上下文，它记住并回应；推向新领域，它努力跟上；误解时，它解释而不贬低。叠加起来，一个能规模化提供创造性思考、又有耐心的生态，让人强烈被支持。
把它当“第一位员工”，答案是一千个百分点肯定。别人听到 Pro 价格会倒吸气，因为与 Netflix、Skillshare 这类订阅相比显得贵；但从 20 到 200 美元并非线性多花 180，而是能力随时间指数级增长。
作为以“常青内容”为主的独立艺术家，这个订阅覆盖了我对“第一位员工”95%–99% 的期待。我会这样看成本：“每月 200 美元能买到多少小时的工作？”网页开发至少 $50–100/小时。我平均每天用 Codex 2 小时、每周 7 天，仅这部分月价值 2,800–5,600 美元，与 Pro 一年其他价值相比只是九牛一毛。
升级前，工具协作成本约占收入三分之一，被“弗兰肯斯坦式” SaaS 拼装拖累。如今费用占收入降至 3%–5%，利润率升至 95%–97%。每发布新音乐或教学材料都会变常青内容，几乎不拉低比例。
更大影响在时间：长期赌注能在造成更大时间/成本问题前及时转向。2006 年我把曲库放在精品独家渠道，认为稀缺性带来价值；十年后开放发行到流媒体和自建站，触达更大，网站访问不减反增。若当年能与 ChatGPT 这类模型模拟“独家”vs“广发”，或许更早认清独家不利于公司或用户。
如今结构足够稳定、简化，我能把更多注意力放在音乐本身。长期目标是公司大部分时间自转：一块盯系统是否漂移，另一块把主要精力用于作曲。经历这一年，这种平衡触手可及。
必须强调：ChatGPT 没有替我写音乐。我在自有目录上做过生成式模型实验以理解技术，但不会用它生成要授权的音乐。系统负责研究、规划、基础设施与复盘；作曲仍完全由我完成。
更安静的影响：与 ChatGPT Pro 紧密合作一年后，我清楚未来要雇的第一位员工应做哪些事。可与模型共写岗位说明书，贴合它一年“如何在我身边工作”的方式；新人加入时，把更需要“人”的部分交给 TA，把 ChatGPT Pro 指向剩余空缺与成长中新任务。
一旦在“使用模型的能力”上达基线，使用额度与档位的重要性没想象中那么大；更重要的是态度。如果把它当同事，提供丰富上下文、提诚实问题，并把结果落实行动——在许多“一人公司”里，它们能完成“第一位员工”的工作，不一定非要 Pro 才能开始用 AI 做产出。
在这种语境下，高使用上限像年轻时在练琴房的漫长练习时间：让你能投入那一万小时——在与模型协作的过程中，把“协作本身”练成一件乐器。

尾声

每年 2,400 美元不是人人能负担。我能早期接触新系统并立刻用它们做产出是特权。许多功能先在 Pro 上线，再逐步下放到 Plus 与免费档。作为教育者，这也是我愿意直接支持 OpenAI 的原因——推动这种新型教学与学习的免费可及性。

关键不只在模型“能做什么”，更在我们如何学会“与它们一起工作”。最有趣的课程与教学法会在这里发展。我写下这个具体、细致的案例，展示一个人如何在时间里真正把这件事做出来。