Skip to content

倾语AI 是什么?

倾语AI 是一款融合大模型与语音识别的离线智能助手,可将传入的音视频文件转化为自定义的结构化PDF文档,实现从语音到知识的无缝导出。

适用场景:会议纪要生成、访谈记录整理、学术笔记导出、报告撰写、法律/医疗文书自动填充等。

目标用户:需要频繁处理语音转文字并生成结构化文档的职场人士、研究员、学生、行政人员等。

核心功能亮点

  • 高准确率语音识别:支持中、英、日、韩、德等全球 60+ 种语言的音视频文件语音识别,支持 .mp3, .wav, .ape, .flac, .mp4, .avi 等 21 种文件格式。
  • 说话人识别:支持对说话人进行区分,即某一句话是哪个说话人说的。识别后可编辑说话人、合并说话人。此功能为实验功能。
  • 大模型语义优化:自动修正识别错误、去除语气词、润色语法、摘要提取。
  • 隐私 / 性能双模式:
    • 隐私模式(默认),所有数据的处理全部在用户设备上完成,所有数据不联网,非常适合对数据泄露敏感与看重隐私安全的用户。
    • 性能模式,即用户开启对接外部第三方大模型API接口功能。此模式下,语音识别部分依旧是离线处理,只有大模型部分,数据会传送给第三方AI进行处理。此模式适合设备配置不足、需要使用更强的AI大模型的用户。
  • CPU与GPU混合推理:支持纯CPU、纯GPU、CPU+GPU混合推理,最大程度上使用本地设备的算力增强您的工作效率。
  • 智能PDF导出:
    • 支持高度可自定义的导出模板(用户可设计布局、字体、颜色、logo等)。
    • 数据标签映射:在模板中预设标签(如: 决策事项、 总结内容),应用会将这些标签交给AI大模型帮你整理内容。
    • 大模型智能填充:大模型从识别出的文本中自动提取对应内容填入标签位置,无需您手动输入。
    • 后处理:若您对大模型智能导出的文档内容不满意,您除了继续让大模型重新导出以外,还可以自行修改文档内容后再自行导出最终PDF文档。
    • 导出历史:您所有的导出文档数据,会存储在您的本地设备上,随时供您修改/重新导出PDF文档。

工作流程概览

flowchart TD
    A[输入语音(上传文件)] --> B[语音识别生成草稿]
    B --> C[大模型优化文本]
    C --> D[选择/设计导出模板]
    D --> E[大模型匹配标签并填充]
    E --> F[微调内容与导出PDF]

系统要求与兼容性

  • 操作系统:Windows 10(version 1607 或更高) / 11 64位
  • 硬件:4GB以上内存、建议有支持vulkan的显卡(vulkan一般显卡都支持, 大模型及音频文本转写推理可选 CPU/GPU)。硬件配置更高,能使用更好的模型,使用效果、效率也更好。
  • 联网:语音识别模型、大模型的下载需要联网。除此以外,只有首次激活应用需要联网,激活后可以无限期纯离线使用,整个应用的功能没有强制联网需求,除非用户自行开启使用外部AI大模型功能。

版本信息与更新渠道

  • 当前版本号:1.0.0
  • 更新日期:2026年04月03日
  • 更新与下载:前往微软商店进行更新与下载,点击前往