亚博(中国)体育app AI 居品司理手记: 一份能跟模子团队 battle 的评测框架(上)

AI居品的评测法子究竟应该由谁来界说?本文深度理会AI客服名堂中模子团队与业务方的评测法子之争,揭示现存评测体系的三毛糙命残障,并给出包含12项硬性方针和5大多轮对话维度的全新评测框架。从致命失误一票否决到多轮会话方向达成度,这套让业务能看懂、能扣分、能复现的评测体系,正在重新界说AI居品的得手法子。

一个AI功能到底什么时候算”作念好了”?作念AI居品的东谈主,朝夕会被这个问题绊一跤。
准确率?92%听起来很高,但用户问十句答错一句,照旧够投诉一整天的了。调回率?88%看着也行,但漏掉的那12%要是全是用户最念念问的高频问题呢?F1、BLEU、ROUGE?这些方针在paper里很漂亮,落到一个具体的业务功能上,没东谈主能径直告诉你谜底。
更扎心的是:模子团队拿着一张评测呈报说”方针达标了,不错上线”,业务侧翻几条简直对话,第一反应是”这都能上线?”。双方都以为对方不和煦,但谁也劝服不了谁。
这件事的本色,是评测体系自身有问题——不是模子答得不够好,是这把尺子根蒂没量在用户简直介意的方位。
而评测体系这把尺子由谁定、量什么、何如扣分,决定了你这个AI居品的天花板。
布景:最近在作念AI客服名堂,底下总计的例子都来自这个场景。但写出来的东西不死心于客服——任何需要”业务判断模子是非”的AI落地名堂,逻辑是重迭的。
一、先看面前的评测有多”温和”
最近一批的标注表(单轮对话),标签TOP5如下:
1、好意思满无暇2、败落办理进口3、问官答花4、无效反问5、模子拒答
打分散播更夸张:0.5分占57%,1分占28%,0分只占14%。
我把看出的问题列了一下:
一、”好意思满无瑕”28%是假象。
我抽了10条所谓好意思满无瑕,至少4条都属于”没昭着失误是以打满分”,但内部其实没说办理进口、没阐述用户身份、用了”提倡探讨客服”这种甩锅话术。没扣分不等于满分。
二、0.5分占57%等于失去分裂度。
要么是0.5(小过失),要么是0(昭着错),评测没法告诉模子团队”哪些0.5比另一些0.5更严重”。
三、王人备莫得业务硬方针。
标签里莫得“金额/居品名失误”“合约期未评释”“未给出可点击办理旅途”这种业务一眼能看出来的硬伤项。
更要命的是多轮,整张表唯独”回答后果0/1″+”模子/数据/业务”三个原因桶。莫得任何一个字段是多轮对话私有的——高下文禁受了莫得?指代消解对了莫得?用户半途换意图认出来了莫得?这些一个都没评。
是以我跟模子团队battle时其实很被迫:他们说”按现存法子你看准确率多高”,我只可说”我嗅觉不太行”。“嗅觉”是赢不了”准确率”的。得换一把尺子。

二、新评测框架:让业务能看懂、能扣分、能复现
我重新捋了一下,评测一条AI客服回话,本色上是在回答三个问题:
1)它说对了吗?
(事实正确性)
2)它处罚问题了吗?
(任务完成度)
3)用户能不可坐窝用上?
(可操作性/业务闭环)
这三层自下而上,越往上业务侧越介意。模子团队风俗只评第一层,是以才会出现”准确率高但业务不陶然”的撕扣。
2.1单轮评测:分层维度+业务硬扣项
按照”难度/业务场景/客户问题/评估重心”四列建了一张测试集骨架和示例:

要津点:评估重心是事前界说的、可逐项打钩的。不是评测时再发达,幸运飞艇app2026世界杯中国官方下载是出题时就锁死。这么模子团队没法隐私——你委派的谜底有莫得覆盖这3个重心,业务一眼能看出来。
在此基础上,我把扣分项重新并吞成3层12项:
L1·致命失误(径直0分,一票否决)

L2·严重不达标(扣0.5分,需复核能否上线)

L3·体验问题(扣0.2~0.3分,可上线但需迭代)

这套维度跟面前评测最大的区别有两个:
L1是一票否决。
模子团队不可用”100条里唯独6条暴力拒答”这种平均数糊已往——只须有6条致命失误,这版就不可全量。
L2/L3分开记。
L2是阻塞上线的问题,L3是迭代项。跟模子battle时,我不错说”L1+L2加权不达标,上线先停”,比一句”嗅觉不行”硬气一万倍。
2.2多轮评测:5个多轮私有维度
多轮是面前评测的重灾地。我看了那102条多轮标注,发现大部分扣分事理都是”问官答花””意图错”——这些方针其实是单轮方针的蔓延,莫得任何一个评在了”多轮”自身。
多轮对话和单轮的中枢区别是:它有历史、有指代、有景色、有切换。我提了5个多轮专属维度:

M1·高下文禁受(ContextCarrying)
第N轮的回话有没灵验向前边N-1轮的信息?
举个简直例子(多轮表第5~7条,青海):用户先说”你把我套餐改一下”,再说”最低廉的”,雅博体育app中国官网入口再说”5块阿谁”——这里指代的是「最低廉的套餐里5块阿谁」。模子要是在第三轮重新推了一遍79、99元套餐,高下文禁受便是0分。
评分模式:第N轮的回话中,是否正确援用了前N-1轮的至少1个要津实体(居品名/号码/金额/本事)。0/1二分。
M2·指代消解(ReferenceResolution)
“这个”“阿谁”“刚才说的那款”有莫得正确对应到具体对象?
模子频繁把”这个套餐”领略成上一轮系统推选的套餐,而不是用户点名的套餐。打分:王人备正确1,部分正确0.5,错指0。
M3·意图切换识别(IntentSwitching)
用户半途换话题了,AI认出来了吗?
举例多轮表第13条(重庆):先报障”连不上网络”,AI索求手机号;用户下一句”谢谢”。AI应识别意图已切换为礼貌性已毕,而不是无间追问手机号。打分:识别并反映1,未识别但回话尚可0.5,仍在首肯图死轮回0。
M4·涌现才智(ClarificationQuality)
用户形色腌臜时,AI问的涌现问题有莫得价值?
反例:用户问”299不错办副卡吗”,AI反问”求教您是念念了解299套餐的哪个方面”——这是无效反问,因为用户照旧问得很露出了。打分维度:是否真的需要涌现(必要性)×涌现问题问得是否精确(针对性)。
M5·会话方向达成度(TaskCompletion)
整段对话已毕时,用户的诉求被处罚了吗?
这是最终极的方针,亦然业务侧最介意但最难量化的。我的作念法是:对每一段多轮对话,事前界说”得手景色”——比如”用户获取了办副卡的明确论断+办理贯穿”。会话已毕时东谈主工对照得手景色打分(达成1/部分达成0.5/未达成0)。
这五个维度组合下来,多轮评测的颗粒度径直从蓝本的”对/错”形成“哪个门径出了问题”。对模子团队来说,他们也终于能定位优化点——是高下文丢了?如故指代错了?如故兜底太死?而不是朦拢地”再训训”。
三、让评测法子自身不错被challenge
这是我最近补的一条原则,单独拎出来说。
每个扣分案例,模子团队都不错质疑,但必须给出对应礼貌的解读,而不是”我以为这条不该扣”。
开云kaiyun(中国)体育官网比如某条被打了”任务未闭环”,模子团队说”这条用户没明说要办理”。OK,那咱们坐下来看:评估重心里写了”需给出办理进口”吗?要是写了,扣分红立;要是没写,是出题的东谈主锅。礼貌有问题就改礼貌,但不可凭个东谈主感受推翻。
这个机制建树起来之后,battle的对象从”东谈主对东谈主”形成了”礼貌对礼貌”。氛围一下就好了许多。
四、我的一些不雅察和黑货
写到这里其实方法论照旧说完毕。终末讲点更主不雅的东西。
第一,评测权在业务手里,不在模子团队手里。模子团队崇拜把分数搞上去,但”分数臆想什么”这件事的界说权,必须在业务。
第二,AI居品司理的中枢活儿之一便是界说评测。在大模子落地名堂里,评测体系的盘算才智>Prompt才智>模子调优才智。Prompt写得好的东谈主许多,能写出一份让模子团队没法甩锅、让业务能复用的评测表的东谈主,少得多。
第三,”准确率”在业务侧场景里简直是个伪方针。因为它默许了”每个问题唯唯一个正确谜底”。但简直客服场景里,一个用户问”299能办副卡吗”,正确谜底不是”能”或”不可”——是”能,且这是办理进口,且这是礼貌指示”。准确率臆想的是单点正确,业务介意的是任务闭环。这两件事在评测里要分开看。
第四,模子恒久会拟合你的评测法子。是以评测法子的健壮性,决定了你这个居品的天花板。一份恶运的评测,会让模子团队把沿途元气心灵优化在错的方进取,赔本几个月。
评测框架搭好仅仅第一步。简直的问题在于:标完毕一堆badcase亚博(中国)体育app,然后呢?哪些该改常识库、哪些该训模子、哪些其实是兜底政策的问题?这部分我下一篇接着写。