云南信息化语音关键事件检测服务标准

时间：2024年01月14日来源：

上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是。随着深度学习技术的不断发展，语音关键事件检测的准确性和实时性将得到进一步提高。云南信息化语音关键事件检测服务标准

每种类型与某一数字对应，以便于计算机的处理，则可以分别标记为[0,1,2,3,4,...,29,30]。在本申请的示例性实施例中，因计算机无法直接处理中文，因此可以将句子(语句)中每一个单词转化为数字的映射。即，获得语句的向量化语义表示w1。在本申请的示例性实施例中，所述获得语句的向量化语义表示w1可以包括：通过双向lstm网络模型或bert模型获得语句的向量化语义表示w1。在本申请的示例性实施例中，在通过双向lstm网络获得语句的向量化语义表示w1之前，所述方法还可以包括：将语句中的m个字符随机初始化为一个维度为[m，n]的n维向量d，其中，对于从0到m-1的索引id，每个id对应一个不同的字符；对于长度为s的语句，该语句中每一个字符能够在向量d中找到对应的id，从而获得维度为[s，d]的向量。在本申请的示例性实施例中，通过双向lstm网络获得语句的向量化语义表示w1可以包括：将维度为[s，d]的向量输入预设的双向lstm神经网络，将所述双向lstm神经网络的输出作为语句的向量化语义表示w1。在本申请的示例性实施例中，假设语料中一共有20000个不同的字符(汉字和/或单词，可以包括其他常用符号)，每个字符可以随机初始化为一个300维的向量，则可以得到一个维度为[20000。云南信息化语音关键事件检测服务标准利用语音关键事件检测技术，我们可以实现音频数据的自动分类和标签化，方便后续的检索和分析。

300]的向量d，其中对于索引id从0至19999，每个id对应一个不同的汉字。那么对于一句话(长度为s)中的每一个字符，都可以在d中找到对应的id，从而获取对应的向量，因此可以得到一个维度为[s,300]的向量。然后可以使用双向lstm神经网络得到句子的语义表示向量w1。在本申请的示例性实施例中，通过bert模型获得语句的向量化语义表示w1可以包括：将语句直接输入所述bert模型，将所述bert模型的输出作为语句的向量化语义表示w1。在本申请的示例性实施例中，使用bert模型时，可以将句子直接输入至bert模型，bert模型的输出即可以作为句子的向量化语义表示w1。在本申请的示例性实施例中，所述向量化语义表示w1的维度可以为[s，d1]；其中，当通过双向lstm网络获得语句的向量化语义表示w1时，d1为2*lstm隐层节点数；当通过bert模型获得语句的向量化语义表示w1时，d1＝768。在本申请的示例性实施例中，设以上两种方法得到的语义表示为w1，则,1的维度为[s,d1]，其中s为句子长度；如果使用双向lstm网络获得语句的向量化语义表示w1，则d1为2*lstm隐层节点数，如果使用bert模型获得语句的向量化语义表示w1，则d1＝768。s102、对所述向量化语义表示w1进行span划分，得到多个语义片段。

倒地事件概率75％，剧烈运动事件15％，破坏设备事件5％；这样，电子设备便可以确定目标防护舱内出现用户意外倒地的事件。可以理解的，对防护舱内发生的异常事件进行检测的目的之一是保证监控人员能够及时发现各类异常事件，保证防护舱内的用户的人身和财产安全，因此，可以实时对目标防护舱内发生的事件进行检测。具体的，在本发明实施例中，电子设备是实时获取当前帧图像的，进而，便可以继续实时判断该当前帧图像是否包括目标对象时，并在判断结果为是时，实时对目标防护舱内发生的事件进行检测，得到在采集当前帧图像的当前时刻，关于目标防护舱的事件检测结果。即电子设备可以实现对关于目标防护舱的事件检测结果的实时检测，其中，在这种情况下，上述所确定的关于目标防护舱的事件检测结果均为：当前时刻，关于目标防护舱的事件检测结果。从而，可以及时发现目标防护舱内出现的各类异常事件。进一步的，在发现目标防护舱内出现的各类异常事件后，为了保证监控人员能够及时对异常事件该异常事件作出反应，采取有针对性的应对措施。则当事件检测结果为关于发生异常事件且所发生异常事件类型的结果时。语音关键事件检测技术能够识别音频中的特定声音模式，如掌声、笑声或特定词汇。

第二类图像中各个图像均为：基于每两帧连续的关于目标防护舱且包括目标对象的图像获取的光流图。具体的，在本实现方式中，第二类图像为：包括光流图和光流图之前的连续n帧光流图的多张图像；其中，n为正整数；或者，第二类图像为：光流图。也就是说，在本实现方式中，电子设备可以将所获得的光流图确定为待分析图像；此外，在获取到光流图后，电子设备可以判断光流图之前的连续n帧光流图是否均是基于每两帧连续的关于目标防护舱且包括目标对象的图像获取的，当判断结果为是时，电子设备也可以将包括光流图和该连续n帧光流图的多张图像确定为待分析图像。这样，用于确定当前时刻，关于目标防护舱的事件检测结果的待分析图像为多张，可以更充分地反映目标防护舱中用户的运动变化情况，进而提高事件检测的准确率。其中，n可以为任一正整数，例如，5，10等。基于上述对步骤s304中的说明中，对检测模型模型的描述内容，可以确定不同类型和数量的待分析图像，所利用的检测模型不同。进一步的，针对不同的待分析图像，则上述步骤s304的实现方式不同。下面，针对不同类型和数量的待分析图像，对上述步骤s304的具体执行方式，以及待分析图像与检测模型之间的对应关系进行举例说明。语音关键事件检测的运用多吗？欢迎咨询！云南信息化语音关键事件检测服务标准

语音关键事件检测和摄像头有联系吗?云南信息化语音关键事件检测服务标准

光流图检测模型为：采用各个第二样本图像组和每个第二样本图像组的事件检测结果所训练得到的模型，且每一第二样本图像组中包括n+1帧光流图。第二种情况：待分析图像为：当前帧图像和当前帧图像之前的连续m帧图像的多张图像；场景图像检测模型为：采用各个样本图像组和每个样本图像组的事件检测结果所训练得到的模型，且每一样本图像组中包括m+1帧场景图像；辅助图像为：光流图；光流图检测模型为：采用各个第二样本图像和每个第二样本图像的事件检测结果所训练得到的模型，且每个第二样本图像为一帧光流图。第三种情况：待分析图像为：当前帧图像；场景图像检测模型为：采用各个样本图像和每个样本图像的事件检测结果所训练得到的模型，且每个样本图像为一帧场景图像；辅助图像为：包括光流图和光流图之前的连续n帧光流图的多张图像；光流图检测模型为：采用各个第二样本图像组和每个第二样本图像组的事件检测结果所训练得到的模型，且每一第二样本图像组中包括n+1帧光流图。第四种情况：待分析图像为：当前帧图像；场景图像检测模型为：采用各个样本图像和每个样本图像的事件检测结果所训练得到的模型，且每个样本图像为一帧场景图像；辅助图像为：光流图。云南信息化语音关键事件检测服务标准

上一篇：海南c语音识别

下一篇：广东自主可控语音服务