求识别说话人 #45

ifkd111 · 2024-11-11T03:49:48Z

1、会议记录最重要的功能，识别说话人，希望A说话时显示A：“12345”B：“巴拉巴拉”回到A时能识别出A说：“巴拉巴拉”类似这种功能，能通过添加模型实现吗？
2、添加一键总结功能，当我按下停止键后，跳出一个总结按键，可调用AI大模型对识别内容进行总结，比如接个gpt或者fastgpt之类的，因为有离线部署本地知识库，希望能有类似功能。非常感谢。
3、求添加录音转文字的简单ASR，拖拽到对话框内，直接转换即可，合并项目CapsWriter-Offline
Public
都是非常实用的功能，求~

jxlpzqc · 2024-11-16T14:30:28Z

2 和 3 都是可以做到的，后续版本可以考虑支持

但是感觉 1 需要识别模型支持才行

ifkd111 · 2024-11-18T00:43:09Z

2 和 3 都是可以做到的，后续版本可以考虑支持

但是感觉 1 需要识别模型支持才行

求速更，有2和3已经非常符合日常需求了，义父
实在是工作需要被逼无奈了已经

csukuangfj · 2024-11-19T07:51:37Z

2 和 3 都是可以做到的，后续版本可以考虑支持

但是感觉 1 需要识别模型支持才行

1.我们现在支持speaker diarization了，你们可以去看下

是非流式的模型

如果事先指定说话人个数，准确率非常好

ifkd111 · 2024-11-20T02:45:23Z

2 和 3 都是可以做到的，后续版本可以考虑支持
但是感觉 1 需要识别模型支持才行

1.我们现在支持speaker diarization了，你们可以去看下

是非流式的模型

如果事先指定说话人个数，准确率非常好

链接？？？？还是说当前项目更新啦？

csukuangfj · 2024-11-20T02:53:47Z

https://k2-fsa.github.io/sherpa/onnx/speaker-diarization/index.html

B 站也有视频呢，请自行搜索

hallowei · 2025-01-02T04:19:40Z

请问流式的怎么支持speaker diarization？ @csukuangfj

csukuangfj · 2025-01-02T04:21:11Z

请问流式的怎么支持speaker diarization？ @csukuangfj

我们不支持。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

求识别说话人 #45

求识别说话人 #45

ifkd111 commented Nov 11, 2024

jxlpzqc commented Nov 16, 2024

ifkd111 commented Nov 18, 2024

csukuangfj commented Nov 19, 2024

ifkd111 commented Nov 20, 2024

csukuangfj commented Nov 20, 2024

hallowei commented Jan 2, 2025 •

edited

Loading

csukuangfj commented Jan 2, 2025

求识别说话人 #45

求识别说话人 #45

Comments

ifkd111 commented Nov 11, 2024

jxlpzqc commented Nov 16, 2024

ifkd111 commented Nov 18, 2024

csukuangfj commented Nov 19, 2024

ifkd111 commented Nov 20, 2024

csukuangfj commented Nov 20, 2024

hallowei commented Jan 2, 2025 • edited Loading

csukuangfj commented Jan 2, 2025

hallowei commented Jan 2, 2025 •

edited

Loading