简篇：借助扣子罗盘，建立智能评测新范式

简篇是一款专注于宣传、展示和汇报场景的智能排版工具。在其业务快速迭代过程中，面临评测体系搭建难的挑战。扣子罗盘为其提供了针对性解决方案：通过高频自动评测、多维度评估器、人工校准、数据回流及 BadCase 闭环优化，助力简篇突破瓶颈，实现业务的高效优化与品质提升。

客户介绍

简篇是一款专注于宣传、展示和汇报场景设计的智能排版工具，支持图文素材上传，仅需 3 秒即可生成精美排版，助力用户高效产出专业且视觉出众的内容。无论是微信分享、小红书营销等社交场景，还是工作汇报、活动总结等职场场景，简篇都能满足多样化宣传需求。

随着基座模型能力的提升和产品功能的不断扩展，简篇需实现快速迭代。然而，相较于传统软件工程，基于 Agent 的迭代存在可控性较差的挑战。为确保每次产品更新后，Agent 生成内容的质量均优于之前版本，保障用户体验持续提升，简篇团队专门构建了针对 Agent 的测评数据集，并定期进行质量评估，确保输出稳定且高质量。

业务挑战

在搭建测评体系的过程中，简篇团队面临多重挑战：

基础工程成本高：搭建完整的评测流程需从零开始构建评测集、评测对象、评估器、实验调度、可量化的实验结论等基础容器，成本巨大。

实验质量不稳定：采用 Prompt+模型构建评测工具方式，因模型评分准确性不足、评测粒度较粗，影响最终输出结果的可靠性，难以支撑精准决策。

人员不足：人力资源有限，导致评测无法高频开展，难以与业务迭代频率保持同步。评测集覆盖不足：现有评测集覆盖主要场景较为单一，缺乏多样性和丰富度，难以全面反映真实的业务需求。

解决方案

针对上述挑战，扣子罗盘提供了全方位的智能评测解决方案，实现从问题识别到优化闭环的全流程升级。

构建多维度评估器

通过构建多维度评估器，打造更加精细的评估能力。

场景评估器：基于上下文语境，评估回复的内容与对应场景是否匹配。
结构评估器：判断各部分内容的组织架构与逻辑关系的准确性。
语言评估器：检查内容表达风格与行业特性的贴合度。

高频、精细化的自动评测

通过扣子罗盘的自动评测功能，简篇可以在每次业务迭代后即刻发起评测，即刻掌握迭代后的 Agent 质量。目前已稳定实现每周 1-2 次评测，支持在 Agent 迭代后随时启动评测。

人工校准提升可靠性

评测完成后的实验报告支持人工校准，有效解决 LLM as Judge 可能出现的幻觉问题，提升评测结果可靠性。

数据回流丰富评测集

通过数据回流，将评审结果直接沉淀为评测集，且支持字段修改优化，既能覆盖主流场景，又能延伸至长尾需求，大幅提升评测集的多样性与丰富度。

BadCase 驱动闭环优化

基于 Trace 自动评测功能，可第一时间识别 BadCase，打造闭环的 AgentDevOps 流程 “BadCase识别 → Agent优化 → 评测 → 上线观测” ，驱动业务的高效优化，显著提升 Agent 优化效率。

客户收益

通过扣子罗盘的解决方案，简篇实现了多维度突破。

释放基础工程压力：无需投入大量精力搭建评测基础工程，业务可聚焦于核心功能优化与用户体验提升。

突破人力限制：高频自动评测无需依赖大量人力，支持随时发起，与业务迭代节奏同步。

大幅提升评测效率：单次评测效率提升超一倍，加速产品迭代周期。优化评测集质量：覆盖场景更全面，多样性与丰富度显著提升。

增强实验可靠性：通过人工校准与多维度评估，评测结果的可信度大幅提升。

客户原声

扣子罗盘帮我们做了很多 AgentOps 工程相关的工作，譬如流程打通，评测的结果量化，我们不需要再单独去做这些工作，使得我们可以更专注于业务本身。

此外，评估器开发并且调试稳定后，可以给其他数据部门直接复用，避免内部重复造轮子。这些都是非常规范的、可复用的工具，对我们的提效是很有帮助的。

--简篇产研团队

产品名称

扣子开发平台

行业

广电传媒

企业规模

大型企业

获取同款方案