AI虚拟点读机，手势识别+OCR+语音TTS- 汇维网

AI虚拟点读机，手势识别+OCR+语音TTS

cmcc • 2023年7月14日上午12:00 • 前端后端

哈喽，大家好。,最近在研究AIGC方面的内容，好久没有更新公众号内容。,今天给大家分享的是用计算机视觉技术做一个虚拟点读机。,图片,技术上很简单，只不过工程实现先有些细节需要注意。,OpenCV读取视频流、mediapipe识别食指坐标，之前的分享的文章都有代码，这里就不贴了，重点说下需要处理的细节。,细节1. 检测到两个食指时，需要设置一个时间间隔，这样可以给你预留一些时间来调整矩形框,图片,细节2. 设置标记，防止重复识别,矩形框一旦确定，如果没有标记，每一帧都会送入OCR模型识别、然后播放声音，这样程序就会卡死。,需要设置标记，保证任何时刻只处理一个矩形框。,细节3. 多线程处理,播放音频的时候需要用多线程播放，不然主程序会卡死，知道音频播放完成才能继续运行。,如果识别的内容很多，播放时间长，程序就会一直卡着很长时间没有反应。,关于OCR和TTS技术之前的文章都有介绍过。,OCR直接用Paddle框架和预训练好的模型就行。,TTS如果是Mac可以使用系统自带的，不需要安装其他程序。如果是Windows可以使用微软的edge-tts。edge-tts效果比大部分tts强太多。,也可以用d-id、wav2lip或者sadtalker实现唇形合成，让静态图片朗读文本内容。

1 原创文章作者：cmcc，如若转载，请注明出处： https://www.52hwl.com/28679.html

2 温馨提示：软件侵权请联系469472785#qq.com（三天内删除相关链接）资源失效请留言反馈

3 下载提示：如遇蓝奏云无法访问，请修改lanzous(把s修改成x)

4 免责声明：本站为个人博客，所有软件信息均来自网络修改版软件，加群广告提示为修改者自留，非本站信息，注意鉴别

AI虚拟点读机，手势识别+OCR+语音TTS

关于作者

cmcc

相关推荐