虽然有很多面向销售和客户服务人员的语音质量检测系统、文本质量检测系统,但大多数产品实际上使用的是基于“关键词正则表达式”的机器质量检测系统。
该方法的主要优点是引入和使用方便,主要缺点是存在非常严重的漏检。 就像一个大洞的筛子,企业对质量检验的需求越来越细,难以满足对质量检验效率要求越来越高的发展趋势。
因此,在“关键词正则表达式”之外,越来越多地向客户提供基于“语义点机器学习”的方案,在实际使用中给许多质量检查项目带来了2~10倍的效果。 也就是说,可以发现多2~10倍的问题。 那么如何更快、更全面地提升服务质量?
新一代机器质量检测:从关键词到语义点
语音和文本质量检测的主要任务是找出不合格、不合格的地方,即减少分项,通常也称为“负向质量检测”。 (另一个任务是找出做得好的地方,是加分的,通常也叫“正向质检”。 企业在使用基于传统“关键词正则表达式”的产品进行质量检测时,面临的最大问题是“找不完”,通常会忽略很多不合格、不合格,导致质量检测效率大幅下降。
让我们来看看实际的比较例。 某互联网公司的基础质检项目“服务态度问题”,在我们的实际应用中,使用传统的“关键词”方案,从一天的数据中可以找到13条,100%正确; 如果使用新的“语义点”方案,可以找到134条,其中72%是正确的。 因此,最终从正确的条数来看,新的“语义点”方案发现了8倍的问题。
再看一个实际的例子吧。 “胁迫”是贷款后理财领域的基础质检项目,不允许催收人员通过电话“胁迫”债务人。 在我们的实际应用中,使用传统的“关键词”方案,在4天的数据中可以找到316条,其中55%是正确的; 使用“语义点”方案,可以找到2203条,其中72%是正确的。 最终从正确的条数来看,174条与1596条相比,新的“语义点”方案可以找到9倍的风险。
理由很简单。 使用基于"关键词正则表达式"的方案时,采用关键词组合覆盖各质检项目的不同表达方法,可以写出10个关键词、100个关键词,但不能永远囊括。 因为语言的表达方式非常多样、千变万化,需要在句子整体的上下文意义上做出更准确的判断。
语境语义质量检验的技术原理
语义点机器学习的方案的目标是训练机器学习算法模型,以便能够判断没有覆盖关键词的句子是否命中质量检查项目。
以另一个贷后理财领域常见的质检项目“暴露客户隐私”为例。 从贴标签到培训模式,再到最后上线使用,新的“语义点”方案大致分为三个步骤。
第一步,使用我们的“标记工厂”产品,人工将“暴露客户隐私”语句标记为“正例”,将非“暴露客户隐私”语句标记为反例。
在步骤2中,向训练者“喂”赋予以一定规模标记的正例和反例,使训练者学习算法模型。 该算法可用于确定新语句是否涉嫌暴露客户隐私。
第三步(在质检产品中,系统可以对“暴露客户隐私”意义上的所有符合质检项目的句子进行标识,复检人员可以迅速定位到该质检项目的位置,迅速进行验证。 另外,每次复检人员进行复检时,都等于将算法模型反馈了一次,有助于算法模型的准确化。
最终,通过“语义点”方案可以找到比关键词方案多数倍的不合格、不合格点,召回率(检索全)、准确率(检索标准)均达到80%以上。
上下文质量检查的基础逻辑
从底层逻辑看,基于“关键词”的规划在文字层面,不关注句子的语义,而基于“语义点”的规划在句子层面,非常关注句子语境的逻辑和语义。 两者不在同一维度上。 未来关键词方案将越来越难成为大任,语义点方案将逐渐成为主流。
但是语义点方案也有“引进成本高”的显著缺点。 为了训练语义点的质量检查项目,需要人工对大量的句子进行标记,训练和调试算法模型。 因此,大家并不是马上将所有的质检项目都切换到“语义点”方案,而是将最常见的质检项目优先切换到“语义点”方案。