返回客户案例

简篇:借助扣子罗盘,建立智能评测新范式

简篇是一款专注于宣传、展示和汇报场景的智能排版工具。在其业务快速迭代过程中,面临评测体系搭建难的挑战。扣子罗盘为其提供了针对性解决方案:通过高频自动评测、多维度评估器、人工校准、数据回流及 BadCase 闭环优化,助力简篇突破瓶颈,实现业务的高效优化与品质提升。


客户介绍

简篇是一款专注于宣传、展示和汇报场景设计的智能排版工具,支持图文素材上传,仅需 3 秒即可生成精美排版,助力用户高效产出专业且视觉出众的内容。无论是微信分享、小红书营销等社交场景,还是工作汇报、活动总结等职场场景,简篇都能满足多样化宣传需求。

随着基座模型能力的提升和产品功能的不断扩展,简篇需实现快速迭代。然而,相较于传统软件工程,基于 Agent 的迭代存在可控性较差的挑战。为确保每次产品更新后,Agent 生成内容的质量均优于之前版本,保障用户体验持续提升,简篇团队专门构建了针对 Agent 的测评数据集,并定期进行质量评估,确保输出稳定且高质量。


业务挑战

在搭建测评体系的过程中,简篇团队面临多重挑战:

基础工程成本高:搭建完整的评测流程需从零开始构建评测集、评测对象、评估器、实验调度、可量化的实验结论等基础容器,成本巨大。

实验质量不稳定:采用 Prompt+模型构建评测工具方式,因模型评分准确性不足、评测粒度较粗,影响最终输出结果的可靠性,难以支撑精准决策。

人员不足:人力资源有限,导致评测无法高频开展,难以与业务迭代频率保持同步。评测集覆盖不足:现有评测集覆盖主要场景较为单一,缺乏多样性和丰富度,难以全面反映真实的业务需求。


解决方案

针对上述挑战,扣子罗盘提供了全方位的智能评测解决方案,实现从问题识别到优化闭环的全流程升级。

构建多维度评估器

通过构建多维度评估器, 打造更加精细的评估能力。

  • 场景评估器:基于上下文语境,评估回复的内容与对应场景是否匹配。

  • 结构评估器:判断各部分内容的组织架构与逻辑关系的准确性。

  • 语言评估器:检查内容表达风格与行业特性的贴合度。

image.png

高频、精细化的自动评测

通过扣子罗盘的自动评测功能, 简篇可以在每次业务迭代后即刻发起评测,即刻掌握迭代后的 Agent 质量。目前已稳定实现每周 1-2 次评测, 支持在 Agent 迭代后随时启动评测。

image.png


人工校准提升可靠性

评测完成后的实验报告支持人工校准,有效解决 LLM as Judge 可能出现的幻觉问题,提升评测结果可靠性。

image.png


数据回流丰富评测集

通过数据回流,将评审结果直接沉淀为评测集,且支持字段修改优化,既能覆盖主流场景,又能延伸至长尾需求,大幅提升评测集的多样性与丰富度。

image.png


BadCase 驱动闭环优化

基于 Trace 自动评测功能,可第一时间识别 BadCase,打造闭环的 AgentDevOps 流程 “BadCase识别 → Agent优化 → 评测 → 上线观测” ,驱动业务的高效优化,显著提升 Agent 优化效率。

image.png



客户收益

通过扣子罗盘的解决方案,简篇实现了多维度突破。

释放基础工程压力:无需投入大量精力搭建评测基础工程,业务可聚焦于核心功能优化与用户体验提升。

突破人力限制:高频自动评测无需依赖大量人力,支持随时发起,与业务迭代节奏同步。

大幅提升评测效率:单次评测效率提升超一倍,加速产品迭代周期。优化评测集质量:覆盖场景更全面,多样性与丰富度显著提升。

增强实验可靠性:通过人工校准与多维度评估,评测结果的可信度大幅提升。


客户原声

扣子罗盘帮我们做了很多 AgentOps 工程相关的工作,譬如流程打通,评测的结果量化,我们不需要再单独去做这些工作,使得我们可以更专注于业务本身。

此外,评估器开发并且调试稳定后,可以给其他数据部门直接复用,避免内部重复造轮子。这些都是非常规范的、可复用的工具,对我们的提效是很有帮助的。

--简篇产研团队


产品名称
扣子开发平台
行业
广电传媒
企业规模
大型企业
获取同款方案
扫码咨询