用WebGPU小试大模型

2025 Dec 26 See all posts


为2025年画一个句号,把5月份Python版本的看图播报做一个Web离线版。在三驾马车——Claude Code/Gemini Cli/Codex的加持下,本以为一天就能搞定,结果修修补补用了四天才做完——第一天跑通核心功能,然后不停的观察-改进-观察-改进......,能用和好用差十万八千里,剩下的三天时间全在解决一些大大小小的用户体验问题,如:

总结一下这个技术的优缺点:

优点

  1. 隐私:数据不离开设备
  2. 便捷:无需部署服务器
  3. 离线:飞行模式也能用

缺点

  1. 性能。纯浏览器端体验肯定没有 B/S 的好,这是显然的。在本地计算,需要本地机器性能好,之前5月份做的B/S架构在手机端识图秒出声音,这个只能在有显卡的PC上用Chrome浏览器玩玩,一般的手机浏览器应该跑不起来;

  2. 需要下载模型,所有模型和语音包下载下来大概需要3~4G大小,适合先用Wifi环境把模型先下载下来,模型大小如下:

功能 相关模型 大小 备注
视觉问答(ITT) SmolVLM-500M 1.92 GB 模型已经很小了,量化不要太过分,还是用高一点精度的吧
语音合成(TTS) Kokoro-82M 310.45 MB 还会下载一些voice语音包,不过都很小
语音识别(ASR) Whisper-medium + base + tiny 1.68 GB base和tiny还是算了,只有medium以上才堪一用,首页没有设计用ASR的场景,单独列了一个工具页面

总结

对个人项目没有服务器或注重隐私的场景,这算是个兜底的选择。

附:代码使用地址,没有独立显卡的机器就别浪费时间试了。

Back to top