九五至尊在线娱乐九五至尊在线娱乐

95299九五至尊官网
九五至尊2登录网址

用于对话理解系统的会话上下文建模

用于对话理解系统的会话上下文建模

提供了用于通过将语言模型所使用的知识源适用于会话上下文来改进用于语音识别的语言模型的系统和方法。知识源(如知识图)用于基于来自映射到知识源的使用历史(如会话日志)的用户交互信息来对动态会话上下文进行捕捉和建模。根据用户交互的序列,可以确定较高级别的意图序列,并将其用于形成预期类似意图但具有不同参数的模型,所述参数包括不定出现在使用历史中的参数。以这种方式,会话上下文模型可以用于在给定此前的轮次或些轮次的情况下确定来自用户的可能的接下来的交互或“轮次”。然后对与可能的接下来的轮次相对应的语言模型进行内插,并提供其以改进从用户接收的接下来的轮次的识别准确度。

在一个实施例中,步骤430包括:使可由知识源表示的现有语言模型适用于目标用户的使用历史(如过去的话语)。假设用户通常具有与他们的一般兴趣一致的针对对话系统的请求,则他们可以重复来自类似域的请求,并且具有类似的意图,但意图的参数不同。因此,通过捕捉用户的更高级别的兴趣和意图(在一些实施例中包括意图序列),可以创建预期类似意图但具有不同参数(即,不出现在使用历史中的参数)的语言模型。通过并入意图序列信息,语言模型适用于会话上下文并且因此更准确。如上所述,在一个实施例中,这通过识别具有知识源的部分的使用历史的基于实体的类似性并将它们映射到知识源的相应部分上来实现。因此,跟踪出现在用户历史中的实体和实体类型,并且在构建个性化的语言模型时使用它们的计数。在一些实施例中,在该步骤中确定的个性化的知识源表示概率知识源,因为来自用户历史的使用统计被用于对知识源的关系和实体进行加权(或增加计数)。

图4-图6根据本发明的实施例描绘了用于基于用户历史使语言模型适用于会话上下文以便更好地理解未来交互的方法的流程图;

I/O端口1018允许计算设备1000逻辑地耦接到其它设备(包括I/O组件1020),其中一些可以是内置的。说明性组件包括麦克风、操纵杆、游戏垫、碟形卫星天线、扫描仪、打印机、通信组件(例如,网络通信组件、无线电或无线通信组件等)等等。I/O组件1020可以提供对空中手势、语音或由用户生成的其它生理输入进行处理的自然用户界面(NUI)。在一些实例中,输入可以发送到合适的网络单元用于进一步处理。NUI可以实现下列各项的任意组合:语音识别、触摸和手写笔识别、面部识别、生物计量识别、在屏幕上以及邻近屏幕的手势识别、空中手势、头眼跟踪以及与计算设备1000上的显示相关联的触摸识别。计算设备1000可以配备深度相机(诸如立体摄像系统、红外摄像系统、RGB摄像系统以及这些的组合)来用于手势检测和识别。另外,计算设备1000可以配备能够进行运动检测的加速计或回转仪。加速计或回转仪的输出可以提供给计算设备600的显示器,以呈现融入式的增强现实或虚拟现实。

图3根据本发明的实施例描绘了会话上下文模型的一个方面的说明性表示;

在方法900的一个实施例中,个性化的知识源中的多个相关子空间集合还包括:与第三轮次或用户交互相对应的一个或多个第三子空间,其中,转移统计还表示在给定从特定第一子空间向特定第二子空间的转移的情况下,特定第三子空间被从特定第二子空间转移到的可能性。另外,在一个实施例中,如在步骤910和920中所描述的,接收第二询问并将其映射到个性化的知识源。基于第一和第二查询的映射,实施例确定与可能从用户接收的未来查询(第三查询)相对应的转移统计的第二集合。另外,基于转移统计的第二集合,提供一个或多个语言模型以用于与被预期将从用户接收的第三查询或交互(第三轮次)一起使用。在实施例中,可以如步骤940中所描述的来提供这些“第三轮次语言模型”。

在高级别处,方法500的实施例可用于通过并入来自针对类似用户和/或社交网络朋友而个性化的知识源的信息来对针对目标用户而个性化的知识源进行“扩展”。可以对个性化的知识图进行扩展的一种方式是通过使用已知的个人关系。示例关系可以包括像“在〈公司〉工作”或“是〈联系人〉的父亲”的三元组。然后,网络规模知识图的子图(如由先前使用历史激活的)可以扩充到该扩展的个人知识图。在这样的实施例中,针对使用历史来对节点和边(例如,知识图的实体和实体与实体关系)进行加权,从而使得语言模型训练可以立即受益。这些权重然后可以确定用于激活图的该部分的N元语法的权重。此外,一旦用户具有扩展的个性化的知识源,则其它用户的个性化的知识源可以用来增强目标用户的知识源。例如,可以使用具有基于联系频率的先验权重的其它用户的语言模型来适用目标用户的语言模型。

基于意图序列模型,可以根据需要对语言模型或SLU模型进行内插,从而形成会话上下文模型。例如,假设对于给定的知识源,对应于实体和实体关系的权重是相同的(即,均等分布)。(这样的分布可能不太可能,是为了解释的目的而提供的)。因此,基于该知识源的语言模型将基于先前的话语对所有可能的下一个话语具有相等的概率。假设如上所述,现在使用用户交互信息对知识源进行了个性化,以确定意图序列模型。现在,可以基于与该意图序列模型相关联的转移概率来调整权重。因此,基于先前的话语或一些话语来改变可能的下一个话语的概率,从而形成会话上下文模型。可以通过本领域已知的任何方式来调整权重。例如,在一些实施例中,可以通过平均来调整权重,如对初始值和相应的意图转移概率的值进行平均。在一些实施例中,可以通过分别基于减少或增加的相应的意图转移概率来对值进行递减或递增从而对权重进行调整。

继续图4,在步骤410处,从一个或多个个人源接收目标用户的使用历史信息。使用历史包括与从一个或多个个人源(如结合图1描述的个人源109)收集的目标用户相关的数据;例如,由目标用户经由用户设备执行的来自查询日志、网站交互、用户动作等的过去的用户查询。可以从过去的行为(其由使用历史表示)推断用户意图。

本发明的发明主题在本文中用具体细节来描述以满足法定要求。然而,该描述本身并非旨在限制本专利的范围。而是本发明考虑到也可以结合其它当前或未来的技术用其它方式来体现要求保护的发明主题以包括与与该文档中描述的步骤的不同步骤或与该文档中描述的步骤类似的步骤的组合。另外,虽然术语“步骤”和/或“框”可在本文中用于意指所使用的方法的不同的元素,但这些术语不应该被解释为暗示本文中公开的各个步骤之中或之间的任何特定的顺序,除非并且除了各个步骤的顺序被明确描述之外。

方法400的一些实施例包括:通过如上所述收集、解析并将这些交互映射到知识源上,使用类似网络处的社交网络交互或其它用户输入来进行语言模型个性化。在一些实施例中,知识源已经针对目标用户进行了个性化,并且可以通过对社交网络交互进行映射来进一步个性化或扩展。在这样的实施例中或在基于与其它用户的类似性对目标用户的个性化的知识源进行扩展的实施例中,用于其它类似用户或社交网络朋友的语言模型可用于对目标用户的个性化的语言模型进行内插。然后,新的个性化的语言模型可用于对目标用户的未来查询进行预测,假设社交网络朋友将对目标用户的未来查询带来一些影响。

I/O端口1018允许计算设备1000逻辑地耦接到其它设备(包括I/O组件1020),其中一些可以是内置的。说明性组件包括麦克风、操纵杆、游戏垫、碟形卫星天线、扫描仪、打印机、通信组件(例如,网络通信组件、无线电或无线通信组件等)等等。I/O组件1020可以提供对空中手势、语音或由用户生成的其它生理输入进行处理的自然用户界面(NUI)。在一些实例中,输入可以发送到合适的网络单元用于进一步处理。NUI可以实现下列各项的任意组合:语音识别、触摸和手写笔识别、面部识别、生物计量识别、在屏幕上以及邻近屏幕的手势识别、空中手势、头眼跟踪以及与计算设备1000上的显示相关联的触摸识别。计算设备1000可以配备深度相机(诸如立体摄像系统、红外摄像系统、RGB摄像系统以及这些的组合)来用于手势检测和识别。另外,计算设备1000可以配备能够进行运动检测的加速计或回转仪。加速计或回转仪的输出可以提供给计算设备600的显示器,以呈现融入式的增强现实或虚拟现实。

可以将知识图划分为多个部分,每个部分被称为子图。在图2中示出了示例知识图200的两个子图:与电影域202相对应的部分和与书籍域204相对应的部分。为了清楚起见,电影域202和书籍域204分别仅示出域中的实体和实体与实体关系的子集。具体而言,电影域202被示为以电影实体“美丽人生”为中心,并且书籍域204被示为以书籍实体“利维坦”为中心。而三个点(项目214和216)指示,知识图的其它子部分(例如,其它电影、其它书籍)存在,但未示出。

类似地,可以通过使用与目标用户类似的其它用户的知识源来扩展个性化的知识源。例如,假设每个用户具有个性化的语言模型(其可以由基于其使用历史和元数据(如结合图4所描述的)确定的概率个性化的知识源提供),则可以针对不同的用户群体特性来创建语言模型。在一个实施例中,可以通过对与用户的个性化的知识源相对应的语言模型进行聚类来识别类似用户。可以应用本领域技术人员已知的用于进行聚类的多个各种技术中的一种。在一个实施例中,应用自底向上聚类,其中关于一些度量的彼此最类似的一对语言模型被迭代地合并(在一个实施例中利用相等的权重进行组合)。可以使用通常用于计算两个概率分布之间的距离的对称KullbackLeibler距离或类似的度量。在另一个实施例中,应用K均值聚类,其中首先将候选语言模型分成N个簇的N个容器。使用在其内部的语言模型的线性插值来计算语言模型。然后再次使用某个距离或类似性度量将每个语言模型移动到最类似的容器。

欢迎阅读本文章: 谭小姐

九五至尊六娱乐手机版

95299九五至尊官网