2.1 系统实现原理
语音识别设备,可以实现普通话的转写,并做出角色分离(分段落记录每个参会人员的发言内容)。因此,需要获取到的数据是:
①需要会议主机的声音输入到语音识别主机
②需要会议主机具备串口协议输出,否则无法实现角色分离,因为语音识别主机是采用会议主机的控制代码,进而实现角色分离的
2.2 系统拓扑图
系统实现的原理如下图所示:
语音转写:话筒通过手拉手的方式,进入到会议主机,当话筒发言时,声音传输到会议主机,经过高清晰语音拓展器(反馈抑制器)后,进入到语音转写主机,然后通过服务器实时获取离线语音识别数据库,进行实时转写,同时呈现于大屏上呈现出来;
角色分离:话筒发言时,则触发该话筒ID的相关控制指令,进入到会议主机,会议主机转发控制代码到语音转写主机,进而区分不同的参会人员进行角色分离。
2.3 系统产品
AI语音识别服务终端
① 一站式完成实现会议语音实时录入、转写、编辑、导出会议发言人的语言转换成文字,实时识别转换翻译成多个国家文字,并以Word格式保存,准确率最高可达90%以上。
② 会议发言人精准化语言转文字记录:依托乐访数字化发言话筒,会议过程中对不同发言人的语言进行文字转换,并按发言人的姓名分段落储存在会议服务器。
③ 可将一些非常见的词汇上传至识别引擎,当实时转写的音频流中出现该词汇时,引擎可将其识别出来,提高专业用语识别准确率。
④ 针对上下文进行语义理解,将中间结果进行智能纠错,确保准确性。
① 对于音频流实现毫秒级识别,并返回带有时间戳的文字流,便于二次开发。
② 运用超大规模的语言模型,智能预测语境,提供智能断句和标点符号的预测。
操作平台 | windows7 | 外壳材质 | 阳极氧化全铝结构 |
输出分辨率 | 1920*1080 | 外观尺寸 | 220*200*40 |
处理器 | 因特尔酷睿I5 2.5 GHz | 颜色 | 黑色/银色 |
内存 | DDR 4G | 电源需求 | DC12V/5A |
硬盘 | 60G固态500G硬盘储存 | 功率 | 60W |
输入接口 | DC*1、RJ45*1、USB2.0*2、USB3.0*2 | 重量 | 5KG |
输出接口 | VGA*1、HDMI*1、AUDIO IN*1 AUDIO OUT*1、COM*1 | 电源 | AC220V 50/60HZ27 |
③ 在采集音频的同时,连续上传音频流至云端,转写服务将实时返回文字结果。可以实现文字和声音的同步展现。

