VTM_AI.md 2.8 KB

业务语音转换

  • 基于几秒的样本数据 + 文本 生成一段语音
  • 文本->语音合成
  • 适用于动态语音场景

VTM故障诊断AI助手

  • 读取VTM的状态数据,给出建议
  • 生成靠谱的诊断报告

vscode VTM开发辅助插件

办公PC平台端侧模型 互联网活动开发室 费海跃 "以行内主流PC办公机器平台(intelCPU+集成显卡)为基础,探索以OpenVINO工具套件为基础的小模型的部署,对比验证Qwen-7B-Chat、DistilBERT GPTneo等主流开源模型的推理效果,封装调用工具,为PC端侧AI能力落地及端云协同打下基础。"

VTM平台端侧模型

  • 探索对业务语音动态合成为基础的小模型部署
  • 探索对业务录像视频的标注、合规判定、智能分析等AI能力
  • 探索基于VTM故障数据诊断,实时判断VTM故障,给出建议
  • 探索AI大模型在VTM平台的落地,如信创UOS平台、Windows平台

AI月报

  • 1月
    • 探索qwen 2.5 3b模型在办公机器上的推理效果,并尝试LoRA、QLoRA、Adapter多种方式进行模型微调
    • 探索多台本地设备形成的AI集群,通过动态模型分区,整合网点多台设备,构建一个低成本、可扩展的 GPU 计算集群。

VTM AI 项目

VTM运行分析

  • 基本功能:实时屏幕内容捕获与本地数据库存储;集成OCR文本识别与上下文语义分析。
  • 核心价值:构建基于LLM的智能分析引擎,提供VTM运行历史回顾、深度总结与潜在故障预警。
  • 技术参考:ScreenPipe(开源桌面历史记录与AI应用平台,支持24/7屏幕及麦克风录制与本地化部署)。

网点设备集群智能调度

  • 基本功能:使用多个设备一起跑模型,进行内存分割,一起运行AI模型
  • 核心价值:利用设备集群实现AI模型分布式部署,降低单节点资源消耗,优化整体性能。
  • 技术参考:Exo(基于通用设备的家庭AI集群解决方案)。

AI驱动的VTM自动化操作

  • 基本功能:基于结构化屏幕内容分析,实现部分辅助的提示或者操作。
  • 技术参考:OmniParser(微软开源,使用AI进行屏幕内容结构划分)

智能语音交互助手

  • 基本功能:语音助手
  • 核心价值:为用户提供类Siri的自然语言交互体验,简化VTM操作。

基于AI的VTM资源智能调度

  • 核心功能:通过分析历史运行数据,利用AI实现VTM资源动态优化与智能指令执行。

后台大型AI模型服务

  • 核心功能:部署大型AI模型于后台服务器,提供VTM终端运行状态的深度分析与日报生成。

实体AI能力赋能

  • 基本功能:VTM上各个实体能够通过本地API调用AI能力。
  • 如:提供包括文档与网页智能翻译、实时人像追踪、动态目标标注等多元化AI服务API。