客户介绍
豆包 MarsCode 是基于豆包大模型的智能开发工具,所提供的 AI 编程助手,具备代码补全、智能问答、代码解释和代码修复等多项功能。其底层强大的 AI 应用能力基于扣子罗盘搭建、评测和调优。
业务挑战
豆包 MarsCode AI 编程助手是一款具备对话式交互功能的代码生成助手,其底层包括众多精心设计的 Prompt,各 Prompt 之间存在着极为复杂的关联模式,涵盖了顺序调用、并行调用以及树状层级嵌套等多元且深度耦合的结构关系 ,以实现对各类编程任务的高效、精准处理。
此前,MarsCode 团队采用代码与传统开发者工具相结合的方式维护 Prompt。在调试阶段,需借助传统开发者工具手动调整 Prompt 内容,完成调整后提交至线上,与应用中的其他大模型组件串联,才能开展进一步评测与调优工作。而在调优环节,针对 Prompt 单组件维度的评测,只能通过编写脚本的人工方式进行,获取评测结果后,再进行定向的人工分析,并跟进调优动作。在此过程中,业务面临着一系列挑战:
Prompt 场景调试手段匮乏:在 AI 应用场景下,基于大模型实时调试 Prompt,或者对比不同大模型进行调试,是提升性能的关键环节。然而,目前却缺少专门针对此类场景的有效调试手段。
Prompt 评测手段不规范:评测对于 AI 应用效果调优至关重要,当前 Prompt 评测走线下流程,评测数据、评测规则、评测报告维护散乱;评测报告与评测数据关系需要手动维护,容易丢失、出错,且评测过程无法回溯;评测规则经常调整,无法系统化的管理。以上情况严重影响了 AI 应用的整体调优效率。
多人协作流程与工具不完善:在多人协作开展 Prompt 调试与发布工作时,缺乏一套清晰、可控的流程与工具。这导致团队成员之间沟通成本增加,工作协同性降低,难以高效推进项目进展。
解决方案
针对以上问题,MarsCode 团队使用扣子罗盘的 Prompt 功能统一进行调试和调优工作,扣子罗盘提供了如下能力:
Prompt 版本管理:扣子罗盘提供集中化的 Prompt 管理能力,支持多人协作及版本管理。用户在调试完成后,可以直接将最新版本提交至线上,无需改动代码即可实现热更新。
备注:业务数据敏感,因此使用 Demo 数据示意产品功能
配 Prompt 场景的调试手段:用户使用扣子罗盘调试 Prompt 时可选择主流的模型,如豆包、DeepSeek 等;同时扣子罗盘提供自由对比模式,支持同模型不同 Prompt、同 Prompt 不同模型对比调试等,用户可快速验证 Prompt 效果,进一步调优之后发布至线上。
备注:业务数据敏感,因此使用 Demo 数据示意产品功能Prompt
效果评测能力:扣子罗盘的 Prompt 与评测功能深度集成,用户在扣子罗盘上提交 Prompt 新版本后,可直接前往评测功能模块,选择最新版本的 Prompt 进行评测以进一步优化,提高 AI 应用整体效果。
客户收益
MarsCode AI 编程助手基于扣子罗盘统一管理 Prompt,并结合本地业务的动态渲染能力,实现了高效且灵活的管理方式,有效解决早期迭代效率低、灵活性差的问题。与此同时,Prompt 和评测能力深度打通,使得用户能够持续、高效地开展评测工作,给后续 AI 应用的深度效果调优提供基础。
客户原声
目前我们在线 Prompt 管理、数据观测、问题排查都是使用扣子罗盘完成的。
-- MarsCode 研发工程师