Hi,大家好,我是茶桁。
其实到第18章的时候,我们处理文本的内容就全部都结束了,从本节课开始,我们要开始学习如何处理音频和图像。
我不知道有没有人和我一样的习性,就是比起视频和音频文件来说,还是跟喜欢看文本文件。这其中最主要的一个原因就是因为文本内容我们可以准确定位,而对于文本内容的接收速度还取决于我们输入设备(眼睛和处理信息的脑部)速度。而音频或者视频则不然,我们必须听完讲述者所说的话,即便你开到2倍速,速度依然受限,而且无法准确定位。那有没有什么办法能快速完成对音频文件内信息的获取呢,自然就是将语音内容转换成文本的能力。
其实到这一步,类似于Premiere或者剪映等剪辑软件都可以完成,不仅如此,在AI大行其道的今天,市面上应该也有不少Audio2Text的服务或者应用。接下来,我们要讲的就是一个杀手级服务了。