使用GPT4和Whisper API大幅提升写作效率

最近一段时间,我在撰写文档和文章方面投入了越来越多的时间。在此过程中,我逐渐发现,限制我写作速度的最重要因素并非思维速度,而是打字速度,尤其在完成一些较为简单的任务时。为了解决这个问题,一种方法是通过练习提高打字速度,另一种可能的方法是使用自动语音识别软件进行输入。然而,在尝试了语音识别之后,我发现存在几个问题。

首先,目前的语音识别软件,特别是与实时通信结合紧密的微信语音识别和iPhone的Dictation,它们的准确率并不高。其次,在打字过程中,我们可以在写作进行到一半时回头修改内容,但在使用语音识别软件时,无法返回前面的部分进行修改,只能暂停,这样会打断思路。第三,语音识别软件输入的文字通常较为口语化,包含许多语气词,还需要花费相当的精力重新整理。

为了解决这个问题,我进行了一些尝试,并最终发现了一种可行的方法,即使用最近非常流行的Chat GPT,尤其是GPT-4。大致的做法是,首先使用某种语音识别API(我在这里使用的是OpenAI的Whisper API)对语音进行识别,将其转换为文字,然后使用GPT-4对文字进行语音识别错误的纠正,以及在通读全文的基础上进行重新组织。GPT-4非常适合这项任务,因为它更智能,同时其输入Token的限制也提高了很多,从之前的4000个Token增加到了8000个Token。

在此基础上,我开始构建软件。首先,我利用GPT-4构建了一个框架,包括前端和后端。然后,我使用GitHub的Copilot,通过大量的AI自动补全来编写代码。但编码效率低于预期,因为GPT-4生成的代码中存在许多细节错误,需要逐个纠正和调试。此外,GPT-4并没有能力帮助调试,生成的API接口或调试建议往往并不准确。因此,这部分耗费了一些时间,尤其是在满足iPhone录音编码的特殊要求方面。

最终,在AI的帮助下,我在大约一小时内完成了一个完整的APP,并将其部署到了我的网站上,并开源了。有兴趣的朋友可以访问这个网址查看:https://lab.yage.ai/notes/。但请注意这是一个演示网站,可能会有些不稳定。同时,请注意,虽然我不会故意查看,但我仍然可以在后台看到您输入的所有内容。此外请大家不要滥用,因为目前所有API的费用都是由我承担。整个代码已经开源,如果您对在自己的网站上部署这个项目感兴趣,可以访问相应的GitHub网址查看: https://github.com/grapeot/VoiceNoteTaker

总之,通过使用GPT-4和Whisper API,我成功地构建了一个能够将语音识别的文字纠正和重新组织的应用程序。尽管在开发过程中遇到了一些挑战,但在AI的帮助下,我仍然能够在短时间内完成这个项目。这个应用程序的开源代码可以为有兴趣的朋友提供一个很好的参考,帮助大家更高效地进行写作。

(本文使用这个软件在5分钟内写成)

Comments