帮助你发现优秀中文项目,可以无语言障碍地、更高效地吸收优秀经验成果
EmotiVoice是一个强大的开源TTS引擎,完全免费,支持中英文双语,包含2000多种不同的音色,以及特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。
基于Whisper的GUI软件:Buzz:离线语音转文字(字幕)
Github上的chatgpt prompts英文提示库
GeminiProChat是GeminiPro的最小化Web界面,提供简洁有效的聊天体验。它支持通过环境变量来控制网站,允许使用者通过Docker部署,并提供易于部署的Vercel和Railway选项。
FunClip是一款完全开源、本地部署的自动化视频剪辑工具,通过调用阿里巴巴通义实验室开源的FunASR Paraformer系列模型进行视频的语音识别,随后用户可以自由选择识别结果中的文本片段或说话人,点击裁剪按钮即可获取对应片段的视频
MaterialSearch是一个支持中文的本地素材搜索工具,可以扫描本地图片和视频,并支持自然语言进行搜索。可以文字搜图、以图搜图、文字搜视频、以图搜视频、图文相似度计算、Pexels视频搜索
多语言视觉文本生成和编辑工具,它基于扩散模型,能够在图片中生成或编辑文字
一个开源的 ChatGPT Web UI 应用:川虎 ChatGPT。为 ChatGPT API 提供了一个 Web 图形界面。
中英双语对话模型 ChatGLM-6B,支持在单张消费级显卡上进行推理使用,支持中英双语问答的对话语言模型,并针对中文进行了优化。
在此次Qwen1.5版本中,我们开源了包括0.5B、1.8B、4B、7B、14B和72B在内的6个不同规模的Base和Chat模型,并一如既往地放出了各规模对应的量化模型
一个基于飞桨(PaddlePaddle)的跨模态大模型开发套件,旨在聚合图像、文本、视频等多种模态,以支持各种跨模态任务
支持gpu,可实现本地电脑的音频转文字软件!完全免费开源!支持 Windows、macOS、Linux
FunASR是一个基础语音识别工具包,提供多种功能,包括语音识别(ASR)、语音端点检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等。FunASR提供了便捷的脚本和教程,支持预训练好的模型的推理与微调
一款轻量级的开源标注工具,,LabelU 提供了多种标注工具和功能,支持图像、视频、音频标注。