Whisper&deepseek

whispher转写会议音频+deepseek总结项目记录

  • 目前通过脚本实现与用户的简单交互:./start.sh 一行命令回车进行录音,再回车结束录音后,Whisper进行转写,deepseek进行总结;效果如下

1742200862032

1742200884249

结果生成在/data/VAproject/output/时间戳目录下

1742201037170

1h40min会议音频测试结果展示在文章末尾,用户也可以通过如下步骤自定义生成docx文件的模版样式(通过pypandoc库实现);

1
2
3
4
1. 打开office word/wps,新建一个空白docx文档
2. 设置想要的样式,比如标题1、标题2、正文等
3. 保存样式:修改原样式,勾选基于此模版的新文档
4. 将文件命名为reference.docx,上传到到盒子中localApp.py的同级目录下
  • 项目整体达到可使用的水平,但还现存一些模型能力带来的小问题

    1. 极少数情况下,某些段落总结中会夹杂着少许英文,添加提示词强调中文输出无用,不明显;
    2. 通过修改模型参数generation_mode=’greedy’为“penalty_sample”,可以避免无限输出重复内容的问题,但少数情况下,模型并不按照我的提示词模版进行输出;

    1742201533116
    1742201699988
    1742201750479


Whisper&deepseek
https://tolsz.me/2025/03/01/Whisper-deepseek/
作者
wbj_Lsz
发布于
2025年3月1日
许可协议