业务语音转换
- 基于几秒的样本数据 + 文本 生成一段语音
- 文本->语音合成
- 适用于动态语音场景
VTM故障诊断AI助手
- 读取VTM的状态数据,给出建议
- 生成靠谱的诊断报告
vscode VTM开发辅助插件
办公PC平台端侧模型 互联网活动开发室 费海跃 "以行内主流PC办公机器平台(intelCPU+集成显卡)为基础,探索以OpenVINO工具套件为基础的小模型的部署,对比验证Qwen-7B-Chat、DistilBERT
GPTneo等主流开源模型的推理效果,封装调用工具,为PC端侧AI能力落地及端云协同打下基础。"
VTM平台端侧模型
- 探索对业务语音动态合成为基础的小模型部署
- 探索对业务录像视频的标注、合规判定、智能分析等AI能力
- 探索基于VTM故障数据诊断,实时判断VTM故障,给出建议
- 探索AI大模型在VTM平台的落地,如信创UOS平台、Windows平台
AI月报
- 1月
- 探索qwen 2.5 3b模型在办公机器上的推理效果,并尝试LoRA、QLoRA、Adapter多种方式进行模型微调
- 探索多台本地设备形成的AI集群,通过动态模型分区,整合网点多台设备,构建一个低成本、可扩展的 GPU 计算集群。
VTM AI 项目
VTM运行分析
- 基本功能:实时屏幕内容捕获与本地数据库存储;集成OCR文本识别与上下文语义分析。
- 核心价值:构建基于LLM的智能分析引擎,提供VTM运行历史回顾、深度总结与潜在故障预警。
- 技术参考:ScreenPipe(开源桌面历史记录与AI应用平台,支持24/7屏幕及麦克风录制与本地化部署)。
网点设备集群智能调度
- 基本功能:使用多个设备一起跑模型,进行内存分割,一起运行AI模型
- 核心价值:利用设备集群实现AI模型分布式部署,降低单节点资源消耗,优化整体性能。
- 技术参考:Exo(基于通用设备的家庭AI集群解决方案)。
AI驱动的VTM自动化操作
- 基本功能:基于结构化屏幕内容分析,实现部分辅助的提示或者操作。
- 技术参考:OmniParser(微软开源,使用AI进行屏幕内容结构划分)
智能语音交互助手
- 基本功能:语音助手
- 核心价值:为用户提供类Siri的自然语言交互体验,简化VTM操作。
基于AI的VTM资源智能调度
- 核心功能:通过分析历史运行数据,利用AI实现VTM资源动态优化与智能指令执行。
后台大型AI模型服务
- 核心功能:部署大型AI模型于后台服务器,提供VTM终端运行状态的深度分析与日报生成。
实体AI能力赋能
- 基本功能:VTM上各个实体能够通过本地API调用AI能力。
- 如:提供包括文档与网页智能翻译、实时人像追踪、动态目标标注等多元化AI服务API。