当我在看纪录片时,总是苦恼于看了就忘。当我想去对照、回顾上一集视频,甚至只是同一个视频前面刚讲过的东西,我一般作罢。我本可以把视频调回去,重新再看一遍,但是我不会这么做,因为我们没法直接找到我们要看的内容。我们可以不断地“二分查找”,但是考虑到视频的加载需要缓存,这样的查找就很痛苦了。我们还可以开倍速,快速过一遍,但是哔哩哔哩的三倍速依然很慢。因此我总是线性地看视频。当然我也没有过目不忘地能力,所以我很难在视频中学到什么。
所以为什么我们不能回顾已经看过的视频内容?本质上还是视频太庞大了,无论对于网络还是对于人的理解能力都需要耗费更多时间。相比之下,文字是浓缩后的信息,我们可以一目十行,我们读起来更方便。实际上有工具能做到这一步,甚至更甚一步:总结视频的内容。但我并不想要总结视频,我希望粒度更细地描述视频内容,把内容浓缩成文字,让视频变得像书一样易读。我们可以阅读文字迅速地找到某一段视频的内容,并且方便地跳转到那个时间点。
- 最简单的就是字幕,假如已经嵌套了字幕,直接用即可
- ocr提取视频字幕
- 音频识别提取说话内容,更进一步我们可以区分说话人的不同。
- 等哪天ai或者算力发达了,我们还可以直接用ai描述画面内容。
- 跑通tesseract ocr,找到合适的配置
- 跑通从b站网页url得到视频api的url
- 开发拓展前端