快速上手

步骤1：下载模型

进入模型市场下载需要的模型。

1.1 下载音转文模型

下载音转文模型

1.2 下载发言人识别模型（分片模型、嵌入模型）

下载发言人识别模型1 下载发言人识别模型2

1.3 下载大语言模型

下载大语言模型

TIP

若您不想使用本地大模型，您也可以通过导入外部模型-导入远程模型功能使用外部（云端/局域网）的大模型API接口。导入完成后，需要到系统配置中配置相关的参数才能使用，外部API接口仅支持OpenAI类后台接口。

导入详情见：模型市场

配置详情见：系统配置

步骤2：导入测试音频

点击上传控件选择文件或拖拽文件至指定区域，支持的文件类型如下：.mp3, .wav, .ape, .flac, .aac, .wma, .ogg, .mp4, .avi, .mkv, .mov, .wmv, .rmvb, .flv, .f4v, .ts, .m2ts, .vob, .dat, .mpg, .mpeg

步骤3：配置当前语音识别任务并执行任务

任务配置字段说明：

任务名称：可任意填写，推荐填写内容与实际音频内容相关，方便后续查询与区分。
提示词：系统内置了通用的提示词，如果效果不好，您可以自行设置。
主要语言：音频中说话的主要语言，多语言混合可尝试使用自动选项。
是否识别发言人：识别发言人，即对音频中的某一句话对应到某个说话人，选择此功能，识别速度会降低。识别的精度很大程度上取决于音频的清晰度。
发言人数：预设的发言人数，帮助模型更好的对说话人进行区分。
语音识别模型：选择您想使用的语音识别模型。
分片模型：供发言人识别使用，选择您想使用的模型即可。
嵌入模型：供发言人识别使用，选择您想使用的模型即可。
智能优化模型：选择您想使用的大语言模型，模型参数量越大效果越好。模型参数量低于4B，效果不会好，且导出时可能会出现错乱。此模型用于对语音识别后的文本进行优化、修改错字、智能导出。

填写完成后，点击确认启动任务。在任务执行过程中，请不要关闭应用或切换界面，否则会造成任务失败。

识别中：识别完成：

TIP

由于发言人识别为实验性功能，当前的准确性还不稳定，故识别后需要较多次修改文本对应的发言人，以达到效果最大化的目的。

步骤4：编辑原始的识别内容对应的发言人（可选）

修改语音识别后的原始内容对应的发言人，若多个识别出的发言人为同一个人，可点击对应卡片头部的编辑图标进行多发言人合并，也可以修改发言人的名称。同时还可以播放对应的音频与删除某句话。修改识别内容1

修改某句话对应的发言人： 修改识别内容2

修改完成示例： 修改识别内容3

步骤5：对原始识别内容进行智能修正与优化

点击任务页中的下一步触发智能修正与优化。智能优化1

大模型优化中： 智能优化2

WARNING

优化结束前，请不要切换界面，以免发生错误，导致整个任务无法进行下去。

优化完成： 智能优化3

步骤6：打开导出模板，制作标准模板（可选）

6.1 打开导出模板功能

导出模板

6.2 新建模板

填写模板基础信息
编辑模板

大纲编辑完成后，我们该怎么操作，才能让AI帮你自动填充内容呢？这时候就需要使用到字段标记功能，在每个需要填充内容的位置插入一个字段标记，并在标记中详细说明你需要的内容、格式等等。字段描述尽量详细描述，让AI能更准确的抽取数据填充。 编辑模板3 编辑模板4 完整编辑的模板：编辑模板5

WARNING

注意：在表格的单元格中添加字段标记后，无法再点击字段标记对标记内容进行修改。只能把现有标记删除，然后再重新添加。

保存模板

编辑完成后，点击右上角的保存按钮保存模板。保存成功并返回后，在草稿列表中，我们编辑的模板就显示出来了。编辑模板6

TIP

如果仅仅只是在草稿中编辑模板并保存，在实际的导出任务中，我们将无法选择这个模板进行导出，所以我们还需要发布模板，这样在任务中才能使用。

6.3 发布模板

在列表的操作栏中，点击对应需要发布的草稿的发布按钮进行发布。发布时，添加您的备注，方便后续对模板进行回撤、选择等操作。发布模板

发布成功后，切换到发布页，即可看到发布后的模板信息。发布模板2 至此，整个模板的制作流程已经完成，后续的导出任务中可自由使用。

步骤7：根据模板要求，智能导出相应内容（可选）

切换到导出页，选择对应的使用模型与使用模板，然后点击导出文档即可执行智能导出操作。智能导出1

执行导出： 智能导出2

导出内容完成：

导出完成后，自动进入导出文档页面，您可以按需对导出后的文档进行修改。本示例中，因为音频中的内容太少，所以导出后，很多的内容是空的，这是正常现象。智能导出3 智能导出有时候会有匹配不上字段标记的情况，您可以通过导出文档界面左边的查看导出数据按钮查看大模型返回的所有字段数据。页面中提供了快捷的复制按钮，您可以直接复制内容，粘贴到文档中需要的位置。智能导出3-1 智能导出3-2 修改完成后，点击右上角的保存按钮即可。

步骤8：保存 PDF/图片/文本文档到本地（可选）

在文档编辑界面，切换到导出操作栏，按需选择需要导出的类型进行导出。PDF的导出需要按照提示进行操作，以达到最佳显示效果。智能导出4

导出结束后，即可点击返回按钮返回任务界面。此时再次进入到导出功能中，会显示您这个任务的导出文档记录。点击查看可再次进入文档编辑页面进行编辑与导出。智能导出5

至此，音频转结构化文档的完整业务流程便全部结束。

快速上手 ​

步骤1：下载模型 ​

1.1 下载音转文模型 ​

1.2 下载发言人识别模型（分片模型、嵌入模型） ​

1.3 下载大语言模型 ​

步骤2：导入测试音频 ​

步骤3：配置当前语音识别任务并执行任务 ​

步骤4：编辑原始的识别内容对应的发言人（可选） ​

步骤5：对原始识别内容进行智能修正与优化 ​

步骤6：打开 导出模板 ，制作标准模板（可选） ​

6.1 打开导出模板功能 ​

6.2 新建模板 ​

6.3 发布模板 ​

步骤7：根据模板要求，智能导出相应内容（可选） ​

步骤8：保存 PDF/图片/文本文档 到本地（可选） ​