用 Codex 跑通第一次 Agent 任务

2026-06-02当前内容阅读耗时约9分钟

你可能见过这样的同事：周报、资料整理、会议纪要都交给 AI 处理，下午 6 点准时下班。而你自己打开 AI，却还是一问一答——背景要反复解释，格式要反复纠正，最后不像在用工具，更像在和 AI 斗智斗勇。

差别不一定在你怎么跟 AI 说话，而在于他用的是能执行任务的 AI Agent（可以理解成“会自己动手干活的 AI 助理”）。

这一章不讲复杂概念，也不写代码。我会带你在 Codex App 里完整走一遍：准备一个空文件夹，做好基本配置，让 Codex 自己安装一个公司 Skill 库（一批别人攒好、打包在一起的方法），最后用一个现成 Skill 帮你审一篇文章。整个过程不涉及命令行，你只需要照着做，看到 Codex 真的动起来、并留下结果，就完成了最重要的一步。

顺利的话，这一篇从准备到跑通大概二三十分钟，中间每一步都有截图，跟着做就行。

这里先假定你已经会注册、安装、登录 Codex，这些不在本文展开。

为什么要用 Agent

普通聊天 AI 主要是在“回答”你：你问一句，它答一句；你补一句，它改一点。AI Agent 不一样——你给它一个目标，它会按步骤执行，能检查文件、发起必要的操作、看结果，再把结果写回文件。

普通聊天 AI	AI Agent
你问一句，它答一句	你给目标，它拆步骤执行
主要给建议和文本	能读文件、跑命令、调用工具、检查结果
每次都要重新解释背景	可以复用已有的工作方法
更像顾问	更像会动手的助理

这一章你先不用理解所有细节，先体验一次：把一个明确任务交给 Codex，让它真的动起来。

Skill 的作用

Agent 会动手，但它不一定知道你的工作习惯：什么内容要先查固定口径、什么情况不能直接改、会议纪要按什么格式归档、复盘里哪些话不能写得太虚。这些通常得你一次次告诉它。

你可以先把 Skill 理解成一份给 Agent 用的工作方法：它会告诉 Agent 什么时候用、按哪几步做、输出什么、遇到什么情况要先停下来问你。

一句提示词解决“这一次怎么说”；一个 Skill 解决“以后都按这套做”。

这一章不会让你写 Skill，你只需要先用 Codex 跑一次安装任务，再亲手试一次它的效果。

第一步：准备好文件夹——Codex 的主战场

cleanshot-2026-06-03-10-10-08@2x

Codex 做事需要一个文件夹。它会在这个文件夹里读文件、写文件、执行检查，所以文件夹就是它干活的工作台。没有文件夹，它就只能跟你聊天，发挥不出 Agent 的价值。

怎么管理这些文件夹，有一条简单原则值得从一开始就养成：

一个项目一个文件夹。

这样做有两层好处：

文件隔离：每个项目的产出各放各的，Codex 生成、修改的文件不会和别的资料混在一起，也不会误伤你的正式文档。
上下文隔离：Codex 只看得到当前文件夹里的内容。文件夹越聚焦，它对“你在做什么”的判断就越准，不会被无关资料带偏。

第一次上手，先在桌面新建一个空文件夹，命名为 codex-tranfu-demo。新建文件夹这种事你肯定已经会了，这里不再赘述。需要稍微留意的，是怎么在 Codex 里打开它。

打开 Codex，找类似这样的入口（不同版本叫法略有差异）：

鼠标移动到“项目”那一行
会出现最右边那边文件夹然后有一个加号角标的图标，点击它
选择“使用现有文件夹”

cleanshot-2026-06-03-10-11-19@2x

选择刚才新建的 codex-tranfu-demo。如果 Codex 提示你确认是否信任这个文件夹，放心确认——它是你刚新建的空文件夹，里面没有任何东西。

cleanshot-2026-06-03-10-12-17@2x

打开好之后应该是这样。

打开错了文件夹也不要紧，退出重新选 codex-tranfu-demo 即可。

第二步：做好基本配置——让 Codex 放开手脚

cleanshot-2026-06-03-10-14-29@2x

默认设置下，Codex 每做一个动作都可能停下来问你“能不能执行”，模型也未必是最强的那个。第一次上手为了顺畅，建议先调两个地方。

设置项	建议	为什么
权限	设为 Full access（完全访问）	Codex 在当前文件夹里读写文件、执行检查时不必每一步都来问你，体验会顺很多。你打开的是一个隔离的空文件夹，就算 Codex 自由发挥，能影响的也只有这个练习文件夹里的内容，碰不到你的正式资料。
模型	选 GPT-5.5，推理强度选 Extra High，速度选 Fast	任务越是多步骤，模型的推理能力越关键。推理强度拉到 Extra High，Codex 拆解和执行任务时更稳，少走弯路。以 100 美元的 Pro 套餐为例，5 小时的用量基本上是用不完的，除非你同时开好几个任务一起跑。第一次上手，放心用最好的配置。

cleanshot-2026-06-03-10-15-25@2x

配置好之后，后面 Codex 执行任务时基本不会再频繁打断你。它仍然会把每一步显示出来，你照样能看着它做事——如果哪一步看起来不对劲，随时可以喊停。

第三步：安装 Skill 库——别人攒好的方法直接用

想用好 Skill，一个准确、常用、好维护的 Skill 仓库很重要。你不需要自己一个个去写、去攒——直接装一个现成的库，里面别人打磨好的方法就都能用了。这里用我们公司日常在用的 Skill 库做演示。

你只需要把下面这句话复制给 Codex：

请阅读 https://github.com/tranfu-labs/tranfu-skills/blob/main/INSTALL.md 并按文档步骤帮我安装公司 skill 库.

cleanshot-2026-06-03-10-16-15@2x

发出去后，Codex 会按文档一步步来：

检查当前文件夹
打开安装说明
确认是否已安装
按步骤安装
最后检查结果

因为你已经开了 Full access，它通常不必再来征求许可，会自己走完。

cleanshot-2026-06-03-10-16-41@2x

安装完成后会大概有这样的输出（不同版本可能略微不一样）。

cleanshot-2026-06-03-10-19-47@2x

怎么算安装成功？ 你可以这样验证：

打开一个新会话，注意一定要是咱们刚刚创建的项目右侧的开始新对话按钮

cleanshot-2026-06-03-10-22-07@2x

然后告诉它：

查询一下tranfu库中有哪些skill

cleanshot-2026-06-03-10-26-30@2x

如果不顺利，它一般也会告诉你：

卡在哪一步
报了什么错
下一步建议是什么
可以直接发邮件向我们求助 hello@tranfu.com 的话术

无论成功还是报错，先把这张结果截图保存下来。

第四步：跑一个 Skill——当场审一篇文章

库装好了，但你还没见它干活。这一步就让一个现成 Skill 当场跑给你看。

我们先创建一个新对话。

每一个独立任务的时候，最好都新开一个对话。

cleanshot-2026-06-03-10-22-07@2x

我们用「营销号审核」这个 Skill 举例——它能帮你判断一篇文章是不是营销号套路、有没有夸大和带节奏。先让 Codex 把它装进当前项目：

安装 Tranfu 库中的营销号审核 Skill 到项目中

cleanshot-2026-06-03-10-31-58@2x

装好后，还是新开一个对话。

然后随便找一个文章链接丢给它审一审：

用营销号审核 Skill 审查这篇文章：https://zazencodes.substack.com/p/build-your-own-developer-tools-with

cleanshot-2026-06-03-10-38-39@2x

注意看 Codex 的反应：它会主动调用刚装的营销号审核 Skill，而不是随口给你一段泛泛点评。看到它在执行过程里点名用到了这个 Skill，就说明 Skill 被正确激活了。

注意：这里需要两次展开才会看到它。

cleanshot-2026-06-03-10-38-39@2x

跑完后，它会按 Skill 设定的方式给出审查结果——哪里像营销号、哪些说法站不住脚、整体可信度如何。

cleanshot-2026-06-03-10-40-09@2x

到这里你已经完整体验了一遍：装库 → 装具体 Skill → Skill 真的帮你干了一件事。

第一轮完成标准

先别用“我是不是完全懂了”来判断自己。第一次动手的标准很具体——只要满足下面任意一种，就算完成。

你看到什么	算什么	接下来做什么
Codex 显示公司 skill 库已安装，并能正常使用	跑通	截图保存
营销号审核 Skill 被激活，并给出了审查结果	跑通（加分）	截图保存
Codex 输出“部分成功”，但说明卡在哪一步	阶段完成	截图保存，下一篇前处理
Codex 报错，但给了求助话术	阶段完成	把截图和话术发给同事
Codex 没法打开文件夹	阶段完成	截图发给hello@tranfu.com

保存证据比追求完美更重要。最有用的截图有这么几张：

打开 codex-tranfu-demo 的画面
Codex 开始执行的画面
安装结果的画面
Skill 被激活和审查结果的画面（如果走到了）

常见卡点

你大概率会卡在这几类地方。先列在这里，是想让你知道：第一次上手卡住，很正常。

卡点	可能原因	你现在怎么做
找不到打开文件夹的入口	Codex 版本或界面不同	截图问同事“Codex 里怎么打开文件夹”
打开了重要资料文件夹	选错文件夹	退出，重新选 `codex-tranfu-demo`
找不到 Full access 或模型设置	设置项位置因版本而异	截图问同事，或先用默认设置往下走
Codex 只回答概念，不执行	可能没在工作区里发任务	确认当前打开的是 `codex-tranfu-demo`
Codex 没给出最终结果	可能卡在安装某一步	截图保存，对话结果也算
tranfu-skills 安装失败	网络、权限或本机设置问题	截图，使用它给的求助话术
营销号审核 Skill 没被激活	库或 Skill 没装好	确认库已安装，再重发安装该 Skill 的指令
它输出一堆英文报错	本机设置或权限问题	截图，直接用它生成的求助话术

第一次上手只需要判断一件事：

这一步该继续，还是该截图求助。

最小完成版本

如果你只想先快速试一下，做到这几步就够：

在桌面新建 codex-tranfu-demo，用 Codex 打开它
设好 Full access 和模型
复制安装指令，让 Codex 装好公司 Skill 库
保存最终截图

能留下下面任意一种截图，就可以先停：

打开空文件夹的截图
执行中的截图
安装结果截图
清晰的报错截图

有报错也算——因为你已经从“我不知道从哪里开始”，走到了“我知道卡在哪一步”。

如果还有 10 分钟

可以顺手再多试一个 Skill：

让 Codex 换几个关键词搜搜库里还有什么：写作、复盘、review
挑一个看起来用得上的，让它装进项目
再像刚才审营销号那样跑一次

不用判断哪个最好，把搜到的 Skill 名称或一次执行结果截图保存下来就行。

下一篇会用一个现成 Skill，审一次你自己写给 AI 的任务说明。

关掉之后，什么还在？

你可能会担心：今天装的、聊的，关掉 Codex 是不是就没了？

记住一句话就行：

聊的会忘，装的会留。

这次对话会忘：退出 Codex 再打开，就是一个全新的对话，它不记得你们刚才聊过什么。这跟你平时用 ChatGPT 一样，正常。
装好的 Skill 不会忘：它就存在 codex-tranfu-demo 这个文件夹里。明天打开 Codex，还选这个文件夹，它就还在。

所以明天想接着用，不用重装、也不用重新解释。打开文件夹，再说一句“用营销号审核 Skill 审这篇”就行——你不用它记得，它只要在这个文件夹里找得到 Skill 就够了。

打个比方：一个 Skill 就像贴在工位上的一张 SOP。今天带的实习生下班走了（对话关了），明天来个新实习生（新对话），墙上那张 SOP 还在，新人照样照着做。

顺带记住一条，你以后一直用得上：

想留下的东西，得落到文件里；只在对话里说的，关掉就没。

这也是为什么这一章我一直让你截图保存——审查结果也一样，想留就截图，或者让它写进文件夹。

完成结果

这篇的关键不在术语，也不在复杂工具，而在一个很关键的转变：

从“我问 AI 一个问题”，变成“我让 Codex 执行一个任务”。
从“每次重新解释”，变成“开始使用可复用的工作方法”。
从“AI 只给我一段回答”，变成“AI 能在一个文件夹里留下可检查的结果”。

这就是 Skill 系列的第一步：先让它动起来一次。后面才谈得上用好别人写的 Skill、判断自己的经验适不适合沉淀、写出自己的 Skill，最后发布给同事用。

字段	内容
当前阶段	方向探索
话题发起人	TranFu 团队
当前推进人	TranFu 团队
最近更新时间	2026-06-01
当前判断	这个方向有交互形态想象力，但“通用 AI Notion”过宽，且存在 thin UI 与平台替代风险。更适合收敛到一个高频工作流，例如会议纪要、团队进展、投资资讯或个人信息看板，验证卡片是否真正提升信息处理效率。
下一步	选择一个具体场景做 3-5 张可运行卡片样例，验证用户是否愿意持续使用，而不只是觉得界面新颖。

字段	内容
当前阶段	验证中
话题发起人	TranFu 团队
当前推进人	TranFu 团队
最近更新时间	2026-06-01
当前判断	AI招聘工具方向成立，但不建议直接做泛招聘平台。更适合从低合规风险、高频刚需的“面试官 Copilot”或“小团队招聘 Agent”切入，用真实招聘样本验证节省时间和输出质量。
下一步	用 7-14 天收集 3-5 组真实 JD、简历和面试记录，验证 AI 是否能稳定生成面试提纲、候选人要点、面试总结和招聘复盘，并避开自动淘汰候选人的高风险边界。

字段	内容
话题群	Tranfu AI机会
项目标题	AI招聘工具
当前阶段	discussing
消息规模	9 条消息 / 5 条人类消息 / 4 条 App 分析
资源规模	0 个外部资源链接
项目档案	[内部链接已脱敏]

维度	强度	判断
新进入者威胁	高	LLM 降低产品开发门槛，单点工具容易出现
替代品威胁	高	ATS、LinkedIn、飞书/钉钉、通用大模型都可能替代
买方议价	中高	企业 HR 预算有限，采购会看 ROI 和合规
供应商议价	中	模型/API 可替代，但数据和集成是瓶颈
行业内竞争	高	招聘 SaaS、HR Tech、AI 工具竞争都强

结论	Lark 证据	外部证据	类型	置信度	备注
AI 招聘工具是真实方向	用户连续追问定义、赛道、前景、天花板	BCG、Deloitte、HR 行业资料显示 AI 正进入招聘流程	事实+推断	高	方向成立
不能泛泛做 AI 招聘平台	Lark 问题仍停留在“是什么/怎么分析”	ATS/HR SaaS/LinkedIn/HireVue 等竞争强	推断	高	必须切工作流
面试官 Copilot 是低风险切口	话题分析已强调面试辅助、记录、总结	监管更关注自动决策；辅助工具风险较低	推断	中高	适合 7 天验证
小团队招聘 Agent 有 Tranfu fit	Lark 机会雷达偏 AI Agent + 工作流	小团队缺 HR、流程不规范，AI 可提效	观点	中	需真实样本验证
当前不能立即立项完整产品	Lark 无资源、无样本、无付费信号	外部竞争和合规风险都高	观点	高	应先验证

维度	权重	分数	加权	依据
Demand reality	16	72	11.5	用户明确：HR/面试官/小团队/求职者，痛点真实但还缺访谈
AI workflow fit	12	82	9.8	JD、简历、面试记录都是 AI 擅长处理的非结构化输入
Technical feasibility	10	76	7.6	MVP 可用现有模型 + 文档/会议输入实现
Validation feasibility	10	70	7.0	7 天内可找真实 JD/简历/面试官做 concierge test
Distribution reachability	10	58	5.8	第一批用户来源还不明确，需要内部/朋友公司样本
Business/value recovery	10	66	6.6	B2B/插件/服务可收费，但付费意愿未验证
Reuse and retention	8	72	5.8	招聘是重复流程，面试官 Copilot 有复用潜力
Cost structure	8	74	5.9	模型成本可控，主要成本在集成和人工校对
Risk and responsibility	8	52	4.2	招聘属于高敏场景，需明确不做自动淘汰和黑箱评估
Tranfu fit	8	82	6.6	与 AI 面试产品、Agent 工作流、项目评价器高度相关

Gate	结果
User gate	通过，但需优先选一个用户：面试官 / 小团队负责人
Demand gate	部分通过，痛点明确但缺访谈/样本
AI-fit gate	通过，AI 在总结、生成、结构化、匹配中有明确作用
Responsibility gate	条件通过，必须避免自动淘汰/黑箱录用建议

优先级	用户	核心目标	痛点
内部排序	业务面试官（非 HR）	快速理解候选人、提出好问题、输出标准反馈	面试前没时间读简历，不知问什么，反馈散乱
内部排序	创业公司/小团队负责人	没有专业 HR 也要跑招聘流程	不会写 JD，面试流程不规范，招聘进展易丢
内部排序	企业 HR / 招聘团队	提高筛选效率，减少重复沟通	简历太多，沟通重复，招聘数据难复盘
内部排序	求职者	提高投递、面试、复盘效率	岗位匹配不清，面试准备低效

梯队	代表	特点
大型 HR SaaS / ATS	Workday、Greenhouse、Lever、BambooHR、Ashby	已在企业流程内，创新慢
AI sourcing / talent intelligence	LinkedIn AI、SeekOut、hireEZ、Eightfold	强数据壁垒，偏大中型企业
AI 面试 / 视频面试	HireVue 等	偏见和监管争议大
AI 招聘助理 / 沟通自动化	Paradox Olivia 等	节省沟通时间，需要流程集成
求职者侧工具	简历优化、模拟面试、求职 Copilot	MVP 容易但 C 端付费弱

风险	可能性	影响	缓解
自动筛简历触碰合规/偏见风险	高	致命	不做自动淘汰，只做辅助记录和总结
输出不稳定，面试官不信任	中高	严重	concierge 阶段人工校对，逐步提升质量
被 ATS / LinkedIn / 飞书平台内置	中高	严重	聚焦工作流而非平台，做"AI 层"
无法接入真实招聘流程	中	严重	初期用离线文件，不依赖 API 集成
找不到第一批高频用户	中	中	先从团队内部/朋友公司开始

字段	内容
当前阶段	机会池 / 今日新增
话题发起人	TranFu 团队
当前推进人	TranFu 团队
最近更新时间	2026-06-01
当前判断	这是一个把“产品想法 → 需求澄清 → 市场/用户/竞品/趋势分析 → 产品运营动作”串成 AI 工作流的平台方向。方向有需求，但容易泛化成“AI 产品经理套壳”，需要先收敛到创业者/内部创新团队的早期产品定义场景。
下一步	先做一个 30 分钟 MVP：输入想法后，AI 追问 5 个边界问题，并输出一页 PRD 草案、目标用户、竞品列表和验证任务。

优先级	用户	痛点
内部排序	创业者 / 独立开发者	有想法但不确定怎么做产品定义，缺市场分析和竞品研究能力
内部排序	公司内部创新团队	快速验证新想法，AI 辅助输出 PRD 草稿和验证任务
内部排序	初级/转型产品经理	学习产品定义方法论，用 AI 模板启动产品文档
内部排序	已有 PM 但需求积压的团队	加速想法→PRD→验证的流转，减少分析师耗时

类型	代表	特点
AI PRD 生成	Vondy AI、Figma AI、Productboard AI	单点功能，非全流程
AI 竞品/市场分析	Exploding Topics、Similarweb AI、G2	分析报告为主，不连接产品定义流程
AI 产品需求管理	Notion AI、Linear AI、Craft AI	偏向协同和文档，非产品定义引擎
全流程产品平台	目前无明显赢家	机会最大，但产品复杂度最高

风险	可能性	影响	缓解
泛化成"AI PM 套壳"	高	致命	严格收敛到"想法→PRD 草稿"单点
竞品快速出现（ChatGPT 等通用 AI 已能回答类似问题）	高	严重	差异化不是生成内容，而是追问边界+结构化输出+验证任务
输出质量不稳定导致用户不信任	中	中	固定模板 + 人工校对
用户痛点不够强：有多少人"想做产品定义但缺方法"	中	中	通过用户访谈验证
同类话题内部沟通未形成连续讨论	中低	中	需要推动话题讨论

子赛道	代表方向	机会判断
通用个人助手	ChatGPT、Gemini、Copilot、Siri、Alexa	大厂入口，创业难度高
家庭事务助手	日程、任务、饭菜、购物、家务协同	有垂直机会，适合验证
老人照护助手	陪伴、提醒、健康打卡、异常通知	痛点强，但责任风险高
健康饮食助手	饮食计划、运动、营养、体重管理	需求大，但合规和信任要求高
AI Companion	陪伴、情绪、聊天、角色互动	C 端已有收入，但风险和同质化高
消费决策助手	买什么、怎么选、比价、避坑	容易做 demo，但留存和商业模式需验证

用户	高频痛点	是否适合第一阶段
家庭主理人 / 父母	日程、购物、吃饭、孩子活动、家务分配	高
成年子女 / 老人照护者	提醒吃药、健康打卡、陪伴、异常通知	中高，但风险高
高压职场人	日程、任务、饮食、运动、自我管理	中
育儿家庭	教育安排、活动、作业、沟通、资料整理	中高
普通消费者	买东西、选服务、比价、避坑	中
银发用户本人	陪伴、提醒、语音交互	中，但交互和硬件门槛高

机会	痛点强度	AI 解决难度	风险	判断
家庭事务协调助手	高	中	中	最推荐验证
老人提醒与陪伴助手	高	中高	高	可验证，但需责任边界
健康饮食执行助手	中高	中	高	有需求，但不能做医疗建议
消费决策助手	中	低	低	demo 容易，留存弱
泛个人助手	不确定	高	中	不建议切入

证据类型	等级	说明
Lark 证据	L1/L2 边界	有真实话题根消息，但只有 1 条，缺少多轮讨论和样本
外部证据	L1	市场和竞品资料丰富，但不能替代内部真实需求
综合证据	L1+	可做研究和场景收集，不足以立项

用户	购买动机	预算来源
B2B SaaS / AI 工具公司	用户问 AI“推荐哪个工具”时希望被提及	增长 / SEO / 内容营销
SEO / 内容营销团队	传统 SEO 指标不足，需要 AI visibility 指标	SEO 工具 / 内容预算
品牌 / PR 团队	关心 AI 如何描述品牌、是否误读、是否推荐竞品	品牌 / 公关预算
数字营销代理商	需要向客户提供新型服务包	客户项目预算
创业公司 / 独立产品	需要知道 AI 是否理解自己的定位	增长实验预算

维度	权重	分数	证据	备注
Demand reality	16	42	Lark 只有 1 条宽泛需求	具体用户和场景不清晰
AI workflow fit	12	70	外部竞品和场景支持	AI 适合计划、总结、提醒、推荐
Technical feasibility	10	72	MVP 可用现有工具完成	不建议先做 App
Validation feasibility	10	66	可做 7 天 concierge test	需要找到真实家庭/用户样本
Distribution reachability	10	45	暂无明确第一批用户	可从团队身边家庭样本开始
Business/value recovery	10	45	C 端付费待验证	老人/健康可能有付费方
Reuse and retention	8	58	家庭/健康场景有复用	泛助手留存不确定
Cost structure	8	68	模型成本低，人工服务成本可控	早期人工介入可接受
Risk and responsibility	8	48	老人/健康/隐私风险较高	必须限定非医疗/非安全决策
Tranfu fit	8	70	符合 AI Agent + 生活工作流探索	需收敛场景

Gate	结果
User gate	未完全通过：目标用户太泛
Demand gate	未完全通过：缺频率、损失和当前替代方案
AI-fit gate	部分通过：垂直场景 AI fit 好，泛助手 AI fit 不清晰
Responsibility gate	条件通过：必须排除医疗诊断、心理干预、安全承诺

维度	强度	判断
新进入者	高	LLM + 搜索 API 让初版监测工具门槛不高
替代品	中高	SEO 平台、内容平台、代理商都可扩展
买方议价	中	客户愿意试，但预算归属仍在形成
供应商议价	中	模型和搜索接口成本可控，但采样稳定性重要
行业内竞争	中高	2025-2026 年产品会快速变多

机会	痛点强度	AI 解决难度	判断
AI 可见性审计报告	高	中	黄金切入点
竞品 AI 推荐份额监测	高	中	高价值，可做成订阅
官网/文档 AEO 改造建议	中高	中	适合服务化交付
全自动 GEO SaaS 平台	高	高	长期方向，不适合第一步
面向所有行业的泛 GEO 内容生成	中	低	同质化风险高

结论	Lark 证据	外部证据	类型	置信度	备注
GEO/AEO 是真实新兴方向	用户明确提出完整定义，并追问成熟工具	Search Engine Land、Semrush、eMarketer、GEO 论文均在讨论	事实+推断	高	不是凭空概念
已有可对标工具	Lark 资源包含 Profound、Scrunch、Peec、Otterly 等	Brave Search 进一步发现 Evertune、SE Ranking、HubSpot AEO Grader 等	事实	高	工具生态早期但已商业化
最佳切口不是直接做 SaaS	Lark 需求是“调研工具/平台”，还不是购买软件	外部工具多，竞争升温，客户教育仍早	推断	高	先做审计报告更稳
中文市场机会存在但未验证	原始需求点名豆包、DeepSeek、Kimi、元宝、夸克等	外部资料多偏英文/海外平台	推断	中	需要中文品牌样例测试
可以进入小步立项候选	Lark 有多轮需求+资源+分析	外部市场、竞品、SEO 平台入场支持	观点	中高	仍需付费验证

维度	权重	分数	依据
Demand reality	16	80	Lark 原始需求明确且有多轮追问；外部品牌/SEO/内容团队痛点明确，但仍需访谈验证预算
AI workflow fit	12	84	多模型答案采样、引用分析、内容缺口总结高度适合 AI 工作流
Technical feasibility	10	78	可先半自动采样和报告生成，复杂点在稳定监测与反爬/成本
Validation feasibility	10	82	7-14 天可做 3 个品牌样例报告验证
Distribution reachability	10	72	Lark 已点名 AI 产品/品牌场景；AI 工具/B2B SaaS/SEO agency 可作为第一批对象
Business/value recovery	10	74	审计报告和月度监测均有付费路径，但价格需验证
Reuse and retention	8	78	月度监测、竞品对比、内容改造有复购逻辑
Cost structure	8	70	模型/API 成本可控，但多引擎采样需要成本管理
Risk and responsibility	8	72	风险中等，主要是数据准确性、夸大承诺、平台波动
Tranfu fit	8	88	与 AI Opportunity Radar、研究报告、AI 工具生态高度匹配

Gate	结果
User gate	通过：B2B SaaS / AI 工具 / SEO 团队 / agency
Demand gate	部分通过：痛点明确，但付费意愿需验证
AI-fit gate	通过：AI 适合采样、归纳、对比、建议生成
Responsibility gate	通过：不涉及高危专业决策，但需避免夸大“保证排名”

类型	内容
Lark 话题群	Tranfu AI机会（[已脱敏]）
相关 Signals / Evidence Links	后续由 03 数据看板同步补齐

优先级	用户	购买动机	预算来源
内部排序	B2B SaaS / AI 工具公司	用户问 AI "推荐哪个工具"时希望被提及	增长/SEO/内容营销
内部排序	SEO / 内容营销团队	传统 SEO 指标不足，需要 AI visibility 指标	SEO 工具/内容预算
内部排序	品牌 / PR 团队	关心 AI 如何描述品牌、是否误读、是否推荐竞品	品牌/公关预算
内部排序	数字营销代理商	需要向客户提供新型服务包	客户项目预算
内部排序	创业公司 / 独立产品	需要知道 AI 是否理解自己的定位	增长实验预算
内部排序	出海中国品牌	AI 搜索（Perplexity/ChatGPT/Gemini）在海外影响买决策	出海营销预算

梯队	代表	特点
第一梯队：企业级 AI Visibility 平台	Profound、Evertune、Scrunch AI	多模型、多 prompt、企业客户
第二梯队：自助式监测工具	Peec AI、Otterly.AI、SE Visible	低价、易上手，适合小团队
第三梯队：传统 SEO 平台扩展	Semrush、SE Ranking、Ahrefs	已有客户和预算，AI 原生体验可能不足
第四梯队：Agency/服务商	各类 SEO 代理	交付重，规模化差，但能卖高客单服务

Skill 入门到精通

为什么要用 Agent

Skill 的作用

第一步：准备好文件夹——Codex 的主战场

第二步：做好基本配置——让 Codex 放开手脚

第三步：安装 Skill 库——别人攒好的方法直接用

第四步：跑一个 Skill——当场审一篇文章

第一轮完成标准

常见卡点

最小完成版本

如果还有 10 分钟

关掉之后，什么还在？

完成结果

相关案例

一、先说结论

二、AGENTS.md 和 Skill，本来就不是同一层东西

1）AGENTS.md 是上层规则

2）Skill 是专项能力模块

三、为什么“默认工作流”不能只靠某个 skill 承担

1）因为它发生在选 skill 之前

2）因为它是跨任务的共通原则

3）因为它决定的是“任务怎么进系统”，不是“任务怎么执行”

4）因为它和角色、边界、协作方式绑定在一起

5）因为多个 skill 往往会同时适用，需要上层裁决

四、如果硬把它做成一个 skill，会出现什么问题

1）职责膨胀

2）会形成“skill 套 skill”的递归感

3）轻任务会被过度流程化

4）没命中任何 skill 时，仍然需要默认规则兜底

五、那 skill 在整个体系里应该做什么？

AGENTS.md 负责

Skill 负责

六、那 skill 完全不需要做 planning 吗？

七、为什么这次这套流程特别适合写进 AGENTS.md

八、最终总结

九、建议的后续动作

项目状态卡

最新进展

执行摘要

目标用户

核心痛点

当前证据

评估与判断

MVP / 验证计划

风险与反证

数据链接

项目增强分析（2026-06-02）

一句话机会

目标用户

核心痛点

当前证据

竞品 / 替代方案

MVP 切口

验证方式

风险与反证

下一步

参考来源链接

项目质量升级（2026-06-03）

当前判断

真实内部话题数据

外部竞品 / 替代方案

MVP 做什么

MVP 不做什么

7 天验证计划

14 天验证计划

风险反证

下一步

维护说明

项目状态卡

最新进展

执行摘要

一、Lark 话题证据摘要

原始需求

群内共识

群内分歧

已提供资料

已形成判断

待验证问题

Lark 证据等级

二、研究边界与方法论

风险	可能性	影响	缓解
客户觉得"有趣但不付费"	中高	致命	先做样例后再收费
Semrush/Ahrefs 快速覆盖	中	严重	聚焦中文/出海差异化
采样波动大，数据不可信	中	严重	固定 prompt 模板 + 多轮采样
只做监测没有行动建议	中低	中	审计报告天然包含优化建议
中文 AI 搜索需求释放慢	中	中	优先英文市场验证，再回归中文

字段	内容
当前阶段	项目化待确认 / 轻量研究
话题发起人	TranFu 团队
当前推进人	TranFu 团队
最近更新时间	2026-06-01
当前判断	比亚迪生态方向有完整调研报告和清晰假设，但更像研究报告转项目的候选项。是否纳入长期项目档案，需要先确认团队是否要持续跟进“车主补能 / 行程规划 / 能源服务”这个方向。
下一步	先做项目化判断：确认目标用户、真实痛点、比亚迪生态接入可行性、已有替代方案和验证样本；通过后再进入正式评估和持续维护。

公开库	声音克隆能力	中文支持	许可证/商用风险	本地 Mac 适配	适合放进视频工作流 skill 吗	链接
Qwen3-TTS	支持 voice clone 和 voice design	强	官方项目为 Apache-2.0，具体模型仍建议逐模型确认	很适合 Apple Silicon，社区已有 MLX 方案	强推荐作为第一候选	GitHub
CosyVoice / CosyVoice2	zero-shot voice cloning、cross-lingual cloning、预设音色	很强，含中文和方言能力	Apache-2.0	官方更偏 Linux/NVIDIA，本机 Mac 会折腾	强推荐，但更适合服务器后端	GitHub
Chatterbox Multilingual	zero-shot voice cloning，支持 audio prompt	支持中文	MIT	有 Mac 示例，支持 MPS，较适合本机试验	推荐，适合快速封装	GitHub
GPT-SoVITS	5 秒 zero-shot、1 分钟 few-shot、微调音色	中文生态成熟	MIT	支持 Apple Silicon，但流程偏重	推荐做克隆音色制作工作台	GitHub
IndexTTS2	zero-shot voice cloning，支持时长、情绪控制	强	许可证和商业使用需要额外确认	偏 CUDA/GPU，本机 Air 不友好	适合视频对口型/时长控制，但不建议本机主方案	GitHub
OpenVoice V2	instant tone-color cloning，偏音色迁移	支持	MIT，商用相对友好	轻量，可本地尝试	适合作为音色转换模块，通常要配合基础 TTS	GitHub
F5-TTS	zero-shot / few-shot 风格克隆	支持	代码 MIT，但常用预训练模型多为非商业许可	可本地跑，但需要实际调优	研究/个人测试可用，商业视频谨慎	GitHub
Fish Speech	10-30 秒 rapid voice cloning	强	Fish Audio Research License，商用需谨慎	模型较重，不适合 M4 Air 长时间跑	质量强，但不适合作为轻量本机 skill 首选	GitHub
VoxCPM / VoxCPM2	reference audio 克隆、可控语音生成	支持中文，多语言	Apache-2.0	官方更偏 CUDA/GPU	可作为服务器后端候选	GitHub
Zonos	10-30 秒 voice cloning	支持多语言，中文需实测	Apache-2.0	可尝试，但中文稳定性需验证	候选项，不是中文视频工作流第一梯队	GitHub
Coqui XTTS-v2	约 6 秒 voice cloning	支持中文	Coqui 项目已停更，模型许可需特别确认	可本地，但维护风险较高	老牌方案，当前不建议新项目重押	Hugging Face
Spark-TTS	zero-shot voice cloning	支持中文	CC BY-NC-SA，非商业风险明显	模型不算轻	只适合研究/个人试验	Hugging Face
StyleTTS2	zero-shot speaker adaptation	偏英文，中文弱	需逐项确认	研究向	不适合作为中文视频 skill 主方案	GitHub
MaskGCT / Amphion	zero-shot TTS / voice cloning 研究框架	支持但偏研究	需逐项确认	工程封装成本高	适合研究，不适合直接做生产 skill	GitHub
MegaTTS3	zero-shot voice cloning	支持	开放程度和使用限制需细看	未作为本机首选	值得关注，但成熟度和许可要再验证	GitHub
Confucius4-TTS	zero-shot voice transfer	支持 14 种语言，含中文	需逐项确认	官方偏 CUDA，新项目，成熟度待观察	观察项，不建议现在作为主方案	GitHub
ChatTTS	有音色/说话人控制能力，但不是标准本地克隆工作流	中文强	代码 AGPL，模型 CC BY-NC	可本地但生产限制多	不推荐作为视频生产 skill 主方案	GitHub

模块	作用
`voices/registry.json`	管理预设音色和克隆音色
`scripts/list_voices.py`	列出可用音色
`scripts/clone_voice.py`	导入参考音频并注册本地克隆音色
`scripts/tts.py`	单条文本转语音
`scripts/render_batch.py`	面向视频分镜/字幕的批量生成

项目名称	维护者	上线情况	github链接	线上链接
alphaos	内部成员	✅ 已上线	https://github.com/tranfu-labs/alphaos-app	https://alphaos-app.tranfu.com/
news	内部成员	🚀 上线中	https://github.com/tranfu-labs/news-app
markdown-kits-app	内部成员内部成员	✅ 已上线	https://github.com/tranfu-labs/markdown-kits-app	https://markdown-kits-app.tranfu.com/

	工作流	是否自动化
在自己的Agent处编写好项目后，做好部署的准备工作	1. 准备github及其CI机器人1. 准备好部署文档1. 通过gh配置相关secret
在服务器执行相关操作	1. 自动检测新项目的创建1. 添加域名及其解析1. 确保CI已对接、本地已启动1. 简单的连通性可访问性测试1. 添加到官网显示
自动优化	1. 初次部署的时候代码库的优化建议1. 初次部署的时候产品体验建议（暂时仅限网页端）1. 自动e2e测试，产出截图和视频
长期维护	1. CI失败可以自动响应1. 添加服务器status告警，类似 https://www.githubstatus.com/

组件	定位	核心能力
Claude Code	Anthropic 官方本地 AI 编程助手	读写代码、执行 Shell、操作 Git、处理复杂工程任务
OpenClaw	本地 AI Gateway + 渠道中枢	连接 Telegram/飞书/Discord、调度多种 AI 模型、集成飞书/日历/Gmail 等 tools

命令	作用
`/acp status`	查看当前聊天的 ACP 绑定状态
`/acp cancel`	取消当前正在执行的任务
`/acp close`	关闭 ACP 会话并解绑
`/acp doctor`	检查 ACP 系统健康状态

操作	示例命令/指令
发送文本消息	`@bot 发送消息到群 [已脱敏]：今天进度更新`
发送 Markdown	`@bot 用 markdown 发飞书消息...`
搜索群聊	`lark-cli im +chat-search --query xxx --as bot`
查看历史消息	`lark-cli im +chat-messages-list --chat-id [已脱敏]`

操作	示例命令/指令
创建文档	`@bot 在飞书里创建一个文档，标题是 xxx`
更新文档	`@bot 在飞书文档 doc_xxx 里追加一段内容`
搜索文档	`@bot 搜索飞书里标题包含 xxx 的文档`