Agent SkillLINUX DO · AI·1 小时前

开源Skills实现图片HTML转PPTX

原标题：【开源skills】生成可编辑元素的PPTX

速览

该开源项目通过Agent Skill技术，实现了将图片和HTML内容自动转换为可编辑的PPTX文件。开发者分享了基于GPT-5.5和Codex的提示词工程实践，展示了AI在办公自动化场景下的应用能力。此工具旨在提升内容生成效率，为社区提供实用的AI辅助办公方案。

AI 深度解读

背景

在当前的 AI 应用开发浪潮中，将非结构化或半结构化数据（如图片、HTML 代码）转化为标准化的演示文稿（PPTX）是一个高频且具挑战性的需求。传统的自动化方案往往受限于模板的僵化或生成内容的不可编辑性，难以满足专业办公场景中对“可编辑元素”的精细化要求。

LINUX DO 社区的一位开发者基于实际工作场景中的痛点，提出了一种结合 GPT-5.5 与 Codex 模型的解决方案。该方案旨在通过编写特定的 AI Skills（技能/提示词），实现从图片及 HTML 到可编辑 PPTX 文件的自动化转换。这一分享不仅展示了具体的技术实现路径，也体现了开源社区在推动 AI 工具链落地方面的协作精神。

核心内容

该项目的核心在于利用大语言模型（LLM）的代码生成能力，自动化构建符合 Office Open XML 标准的 PPTX 文件结构。

技术栈组合：项目明确使用了 GPT-5.5 作为主要的逻辑推理与指令遵循模型，并搭配 Codex 进行代码生成。这种组合旨在利用 GPT-5.5 对复杂任务的理解能力，以及 Codex 在生成结构化代码（如 Python 脚本或 XML 操作代码）方面的优势。
实现逻辑：
- 输入端：支持图片（Image）和 HTML 代码作为输入源。
- 处理端：通过预设的 Skill（技能包），引导 AI 解析输入内容。对于 HTML，AI 需解析 DOM 结构并映射为 PPT 的文本框、形状或图表；对于图片，AI 需识别内容并将其嵌入幻灯片，同时生成对应的可编辑文本或备注。
- 输出端：生成标准的 .pptx 文件。关键点在于生成的文件包含“可编辑元素”（如独立的文本框、矢量图形），而非将页面合并为一张静态图片，这保留了后续人工修改的灵活性。
验证与演示：开发者使用了一个简单的 Demo 进行了验证，提示词示例为：“使用 LearnDeck 写一个 ppt，随便一个 demo，酷炫一点”。这里的 LearnDeck 可能指代项目内部使用的某种框架、库或特定的 Prompt 模板系统，用于辅助生成代码或管理 Skill 上下文。最终生成的 PPT 被评价为“酷炫”，表明其在视觉呈现和自动化程度上的成功。
开源与合规：该项目已完全开源，并在 LINUX DO 社区获得了官方认可的“开源推广”标签。开发者承诺项目无未开源部分，并已通过截图证明了内容生成的真实性，接受社区监督。

关键要点

目标明确：解决图片和 HTML 转 PPTX 的自动化难题，且强调输出文件必须包含可编辑元素，而非静态图片。
模型选型：采用 GPT-5.5 + Codex 的组合，利用 GPT-5.5 的理解力和 Codex 的代码生成力。
工具链：提及使用 LearnDeck 作为辅助工具或框架来编写和运行 PPT 生成 Skill。
开源状态：项目完全开源，符合 LINUX DO 社区的推广规范，无隐藏代码。
应用场景：适用于需要将网页内容、设计稿快速转化为演示文稿的办公自动化场景。

意义与影响

提升办公自动化效率：该 Skill 提供了一种将 Web 内容（HTML）和设计素材（图片）快速转化为演示文稿的自动化路径。对于需要频繁制作 PPT 的用户而言，这极大地减少了手动复制粘贴和调整格式的时间成本。
推动 AI Skill 的标准化实践：通过分享具体的 Prompt 和 Skill 结构，该项目为其他开发者提供了可复用的模板。它展示了如何将大模型的能力封装为可插拔的“Skill”，便于在社区内传播和二次开发。
促进开源社区协作：在 LINUX DO 社区内的公开分享和合规声明，增强了项目的可信度。通过透明的开源过程和社区监督，促进了 AI 工具链的健康发展，鼓励更多开发者贡献和优化此类实用工具。
探索多模态生成的边界：该项目涉及从视觉（图片）和结构化文本（HTML）到特定二进制格式（PPTX）的转换，展示了多模态 AI 在生成结构化文档方面的潜力，为后续更复杂的文档自动化生成提供了参考案例。

查看原文 →linux.do

开源Skills实现图片HTML转PPTX

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐