十年PM零代码实战:用AI Agent打造商务英语与幼儿点读应用
速览
本文分享了一位拥有十年经验但不会写代码的产品经理,如何利用AI Agent(如Grill-me、Hand-off)和Vibe Coding技术,在数天内从零构建两个实际应用。第一个应用针对工程机械领域,通过AI生成多口音音频和结构化课程,解决商务英语学习痛点;第二个应用为幼儿粤语点读机,结合图片生成与音效合成技术,辅助儿童语言启蒙。作者详细记录了从技术选型、TTS服务调用到前端部署的全过程,展示了AI工具如何赋能非技术人员实现产品落地。
AI 深度解读
背景
在 AI 工具日益普及的当下,许多非技术背景的产品经理(PM)虽然具备技术常识,但往往受限于编码能力,难以将“利用 AI 提升效率”的想法转化为实际落地的应用。尽管身边不乏此类讨论,但真正完成从 0 到 1 构建应用的人寥寥无几。
本文作者作为一名拥有十年经验、完全不会写代码的产品经理,基于自身在工程机械行业接触海外客户的实际需求,以及家庭生活中的育儿痛点,利用 AI 辅助编程(Vibe Coding)技术,独立开发了两个个人应用,并分享了其朋友基于开源项目开发的本地化应用案例。其核心动机并非追求高大上的商业产品,而是通过“跨出第一步”,解决具体的生活与工作痛点,验证非技术人员利用 AI 构建数字工具的可行性。
核心内容
作者主要分享了三个应用案例的开发背景、功能逻辑及 Vibe Coding 过程,分别是“个人商务英语学习应用”、“幼儿粤语点读应用”以及朋友开发的“会议提醒助手 Cuemein”。
1. 个人商务英语学习应用
开发动机: 作者身处工程机械领域,需频繁对接海外客户,但缺乏行业专业词汇。同事曾借阅一本绝版的行业商业英语教材,作者遂决定将其数字化。起初计划将教材拍照结构化,后升级为制作一个 APP,结合 AI 生成音频,实现“听看结合”的高效学习。
功能模块:
- 课程模块: 将教材内容按主题拆分,包含简介、对话、复杂句式及词汇。支持英文内容的音频播放。
- 闪卡模式: 借鉴主流 AI 应用的正反面快速记忆法,降低记忆枯燥感。
- 演练(考试)模块: 纯听力测试,要求用户听写原文。内置逻辑:若错误率高,系统会在次日重新推送相关题目进行强化测试。
- 配置与难点管理: 预设默认口音,标记学习难点以便回看。
- 趣味与辅助功能:
- 老虎机随机抽题: 解决选择困难症,随机抽取课程。
- 豆包口语陪练: 编写特定提示词,复制课程提示词至豆包(Doubao),利用其语音对话功能进行情景模拟。
- 离线音频播放: 针对出差坐飞机场景,实现音频加载后无需云端再次请求即可离线播放。
Vibe Coding 技术栈与部署:
- 技术栈: 纯前端应用,部署在 Netlify 上。
- 多端适配: 通过 AI 指导,实现了网页 PWA(渐进式 Web 应用)以及安卓和苹果端的打包。安卓端通过将所有音频打包进安装包实现完全离线;苹果端因未开通 99 美元开发者账号,仅在 Xcode 上测试。
- TTS(文本转语音)方案: 初期考虑小米 Token 激励,但发现国内模型多口音支持不足。最终通过 AI 调研,采用 Mac OS 自带语音包或微软 Edge TTS。经盲测,微软 Edge TTS 听感更佳。共计生成 5000-6000 个音频文件。
2. 幼儿粤语点读页面
开发动机: 作者的小孩尚未学会说话,希望引导其学习粤语。鉴于孩子喜欢工程机械主题的点读机书籍,作者决定复刻此类体验,制作一个可互动的点读应用。
功能与实现:
- 交互逻辑: 模拟实体点读机,手指点击插画区域即可播放预制好的粤语音频及音效。
- 视觉生成: 使用 Nano Banana Pro 生成卡通风格插画,灵感来源于作者购买的纸质点读机书籍。
- 音效合成: 使用 Eleven Labs 合成动作及机械运行音效。为解决免费用户无法下载音频的问题,采用“录制页面播放音频”的变通方法生成音频文件。
- 动效反馈: 在可点击区域增加动态效果,引导儿童操作。
3. 朋友的应用:Cuemein(会议提醒助手)
开发动机: 作者的朋友需长时间参加线上会议,佩戴耳机听无聊内容导致烦躁。因此开发了一款本地应用,当会议中有人呼叫其名字时,电脑弹窗提醒,无需全程佩戴耳机。
技术实现:
- 参考 GitHub 开源项目。
- 配置轻量级本地模型,偏向 ASR(自动语音识别)方向。
- 体验良好,但作者因会议频率低,使用场景较少。
4. 未来规划:儿童健康本
作者计划开发一款记录孩子健康状况的应用,用于登记病历、用药次数及就医记录,解决多医院就诊时信息分散、记忆模糊的痛点。目前尚处于痛点定义阶段,未确定具体产品形态与演进方向。
关键要点
- 非技术人员的 AI 赋能路径: 即使完全不会写代码,产品经理也可通过 AI 辅助编程(Vibe Coding)完成从产品设计到应用落地的全过程。
- 关键 AI Skill 的使用:
- grill-me: 作为全程导师,帮助收敛抽象目标,制定产品路线图,并在关键技术决策中提供建议。
- hand-off: 在上下文窗口即将溢出时,生成清晰的交接文档,确保在新对话中能无缝继续工作,保持开发流程流畅。
- TTS 方案选型: 对于多口音需求,国内模型支持有限,微软 Edge TTS 或 Mac OS 自带语音包是免费且高质量的替代方案。
- 离线优先策略: 对于网络不稳定或无网场景(如飞行模式),将资源(如音频)本地化打包是提升用户体验的关键,安卓端可通过安装包实现,iOS 端受限于开发者账号成本可采用 PWA 或本地测试。
- 创意变通解决限制: 在 Eleven Labs 等工具免费用户无法下载音频的限制下,通过“屏幕/页面录制播放音频”的方式绕过限制,体现了灵活的问题解决思路。
- 动机驱动而非技术炫技: 应用的价值不在于技术复杂度,而在于是否解决了具体的生活或工作痛点(如英语学习、儿童教育、会议干扰)。
- 行动胜于完美: 作者强调“跨出第一步”的重要性,通过实际构建应用来证明学习成果,而非等待考试或认证。
意义与影响
- 降低技术门槛的实证: 本文展示了非技术人员利用 AI 工具构建复杂应用(含多端适配、音频处理、本地部署)的可能性,打破了“只有程序员才能开发应用”的刻板印象,为产品经理及其他非技术岗位人员提供了可借鉴的实践路径。
- AI 工作流的标准化参考: 详细披露了
grill-me和hand-off等 AI 技能在开发流程中的具体应用场景,为其他尝试 Vibe Coding 的用户提供了关于如何管理上下文、规划路线和保持工作连续性的宝贵经验。 - 技术选型的务实建议: 在 TTS、音效合成及部署方案上,作者提供了基于成本、功能和可用性的务实选择(如 Edge TTS、Eleven Labs 变通法、Netlify 部署),避免了盲目追求高端技术栈,强调了“够用且好用”的原则。
- 以人为本的技术应用观: 文章重申了技术应用的终极目标是改善生活。无论是商务英语学习还是儿童粤语启蒙,都体现了技术服务于具体场景和人性需求的本质,鼓励用户从自身痛点出发,利用 AI 创造个性化解决方案。
- 社区分享的价值: 通过公开分享“闹嗑”级别的应用及其开发细节,促进了技术社区内的经验交流,降低了后来者的试错成本,并激发了更多人动手实践的动力。
