如何提取视频硬字幕的简易教程
B站专栏处女座Orz
本文适合有一定计算机基础,有耐心,喜欢瞎折腾的童鞋阅读,笔者其实也是瞎折腾,瞎写写,所以如果看了本文仍然没能成功的童鞋莫怪,笔者也基本不会回答使用问题_(:з」∠)_
还请多多善于查阅资料,靴靴~
必要安装软件
1.esrXP(用于获取字幕时间轴和图片)
必要运行环境(非常关键,涉及软件能否正常使用):
①启用Windows Media Player(启用或关闭Windows功能)
②LAV Filters 32bit(64bit可选)
③Codec Tweak Tool(用于调整系统解码器托管)
a.preferred splitters选项.MP4和.MKV选择LAV Splitter
b.preferred decoders选项 H.264和HEVC/X.265两项选择LAV Video
c.MS Codec Tweaks选项 禁用(打勾)掉微软所有32位的解码器,这样可能造成wmv无法播放,不过可以随时改回来。
以上a~c每次改完单击ApplyClose。
(②③可直接默认安装K-Lite Codec Mega获得)
【本段参考文献1】
二.推荐安装软件
1.Avisynth/Avisynth+[推荐]
推荐直接使用avs脚本在esrXP打开目标视频
实例代码:LWLibavVideoSource(D:字幕待提取.mp4)
avs文件需要ANSI编码,务必注意。
2.Office OneNote / ABBYY pro / Adobe Acrobat PRO/DC / QQ手机版长按图片识别文字
用于OCR字幕获得文本,不会使用IdxSubOcr可以以上软件识别字幕文本。
3.IdxSubOcr[推荐]
用于IDX+SUP字幕的OCR获得文本,非常好用,可在esrXP导出IDX+SUP字幕,然后使用本软件OCR并直接在软件内校对修改,然后保存为SRT字幕。
然后可以用Notepad++抓取字母文本导入Aegisub合并或者直接转换格式等。
必要子环境:
①OFFICE MODI
建议安装老马的一键包
老马的原创空间OCRMODI_From_Office2007SP3.rar
软件本体:老马的原创空间原创软件IdxSubOcr.zip
简单教程:以管理员身份打开软件,打开IDX文件,单击确定,选择OCR语言[简繁中+英+日],选择文字颜色使预览显示为实心白底黑字,然后确定即可开始识别。
如果esrXP导出的字幕图像清晰且软件设置无误,此时即可识别出基本正确的字幕文本,然后在软件中自己校对修改字幕文本后单击左上角保存srt文件。
4.Aegisub[推荐]
当前最广泛使用的字幕软件之一,用来给esrXP导出的空时间轴ssa字幕加上字幕文本和调轴等。网络教程很多,这里略去。
5.Notepad++[推荐]
强大的文本编辑器,用来处理OCR后的字母文本,删除空格空行等。
附一个获取srt纯字幕文本的正则表达式:
[0-9].+替换为空,然后[0-9]替换为空可删除srt时间轴和行号,然后编辑→行操作→删除空行即可获得纯字幕文本。
Notepad++替换
具体使用教程
强烈建议参考(笔者亦受益匪浅):
笔者的简易流程说明:
1.为目标视频写一个avs脚本,可选。
2.用esrXP打开avs脚本或者视频,打开过滤器并开始识别。
过滤器设置完成,显示出白色的文本
识别完成
3.编辑字幕图片(删除无关+合并)。
字幕管理
4.保存为ssa,idx+sup和字幕图片。
5.IdxSubOcr识别字幕文本,并校对保存srt。
6.Notepad++打开srt,替换掉srt行号和时间轴,获得纯字幕文本。
7.Aegisub打开ssa字幕并选择性粘贴字幕文本,然后根据视频调轴。
笔者技巧补充
1.当我们在esrXP识别字幕后,打开字幕管理后可以合并相同的字幕,这样时间轴就准了,不要直接删掉不清楚的字幕!
操作:假设目前前三张图片都是同一句字幕,且第二张图最清晰,那么右键选中第一张图,然后右键选中第三张图,在左键单击第二张图,此时字幕右边有上下两个箭头,最后单击菜单的红叉删除按钮,这样就合并了这三条字幕。
合并
2.勾选额外颜色可以看到绿色部分,然后用菜单的T按钮可以用来修复部分缺字,单击需要修补的部分即可。
“来”这个字可修复
GIF更清楚一点
3.使用+ -号按钮调节字幕大小,看到字幕完整边框,这样才能看到第一条的上下箭头。
4.左键单击的字幕会被隐藏,可以选中后单击菜单的红叉删除。
5.选中连续多行,先右键选择起始行,然后左键选中末行。
GIF更清楚一点
GIF更清楚一点
6.针对淡入淡出字幕的识别会有时间轴误差,可以在字幕软件的时间后续处理器进行调节。
难点
1.笔者在使用本软件时,感觉最难的还是过滤器的使用,这一步也是重点,直接跟OCR识别成功率挂钩,这个只能多试试各种参数调节。
2.视频黑边里的字幕最好识别,特效字幕和特殊字体不好识别,所以本教程主要局限于普通效果和字体的视频硬字幕提取。
后记
笔者折腾了几个小时成功地使用了一遍,其实应用场景并不多_(:з」∠)_,毕竟有了硬字幕视频未必非要软字幕,不过可能有重度发烧友一定要软字幕,那么可以使用esrXP减轻工作量。
由于esrXP软件古老,是2005年的产物,而目前系统多为win7,win10,所以一开始的软件环境安装是个难点,笔者曾卡在这一步,多谢参考文献中的两位的教程才得以解决。
每个字幕视频都是独特的,滤镜过滤取得字幕很难,要有耐心学习使用,多练才会熟练。
软件自带主页已经无法访问,所以不知道本软件是哪国人开发的。虽然古老,但是她还是能为我们解决很大负担,她的价值在于获得了很准的时间轴,同时如果过滤器效果理想还能结合OCR软件得到不错的识别文本,由此大大减轻了字幕提取的工作量,在此非常感谢软件的作者!
另外也非常感谢国人软件作者老马编写的IdxSubOcr,该软件能方便准确地识别中日英三语IDX+SUP字幕,也要感谢开源软件Avisynth(+),Aegisub和Notepad++的所有开发者!
相关软件下载地址
2.K-Lite Codec Mega
3.Avisynth
4.Avisynth+
5.IdxSubOcr(含MODI)
6.Aegisub
7.Notepad++
参考文献
1.esrXP:硬字幕转制外挂字幕利器(改二) kavenliang darkangel0224
最后祭奠于今日与世长辞的世界著名物理学家斯蒂芬·威廉·霍金(Stephen William Hawking)教授,世间再无霍金,时间永留简史。
R.I.P.
本教程作于2018年3月14日
教程 如何提取b站视频及音频
由于b站更新了一下,这里也把文章内容稍作修改:
害,不过现在睿站这个乌烟瘴气样子,已经不是当时我发这篇文章时候的b站了....
———————
不知道你是不是有着一颗成为up的心,或已经是一个up主了?看到大佬们又发了搞笑的视频,好听的歌曲,自己也想用爱发电,但是大佬们并没有给原曲的mp3,网上又找不到资源,该怎么办呢?
下面是up自己摸出来的野路子,过程比较繁琐,但通俗易懂,成功率极高 /大佬们若是又更简单的方法,请务必在评论区留下您的看法/
另外【划重点】,二次创作非盈利向一定要标注好本家,若是有特殊情况,一定要向本家那授权。不得私自用于商业用途。
好了,bb了这么多,开始讲正事
1.要先在手机客户端将视频缓存下来
2.打开自己手机的文件管理,找到视频存放位置
打开内部储存
注意文件存放位置 Android_data_后缀bili
打开download文件夹,文件名就是对应av号,现在视频界面都用bv,分不清的话可以看看下载日期和文件大小来区分(或者挨个看一下)
点这个1
点64
audio就是音频,video就是视频,这俩是分开的,如果想要合并的话得去电脑上,爱剪辑也好,pr、ae也好,用专门的视频软件处理一下。
有时候会出现手机上可以播放,电脑上视频软件无法编辑的情况,这种时候用格式工厂转一下就可以(mp3转换成mp3,不需要调其他的参数,再转一遍就行)
然后把这个文件分享到电脑上面去~
ps:这个是安卓的储存路径,咱穷,没用过苹果,所以ios可能不太一样,哭了。但找到本机数据文件,再找到后缀为bili的文件夹,其余应该一样了吧。。。
3. 电脑上用格式工厂转化为mp4视频格式或mp3音频格式就可以了/使用方法戳
是不是很简单呢?
有什么不懂得可以戳评论或私信,我尽量解答啊,就这样,拜拜~
|如何提取视频硬字幕的简易教程
如何提取b站视频及音频 如何提取视频硬字幕的简易教程 教程