Skip to content

基于bilibili视频构建大模型问答训练数据,输入bilibili视频地址等信息即可生成QA数据供videoQA_databuilder项目使用

License

Notifications You must be signed in to change notification settings

zjrwtx/bilibiliQA_databuilder

Folders and files

NameName
Last commit message
Last commit date

Latest commit

b5dc6b5 · Apr 29, 2024

History

17 Commits
Apr 23, 2024
Apr 28, 2024
Apr 28, 2024
Apr 28, 2024
Apr 28, 2024
Apr 28, 2024
Apr 28, 2024
Apr 28, 2024
Apr 29, 2024
Apr 28, 2024
Apr 28, 2024
Apr 28, 2024
Apr 28, 2024

Repository files navigation

演示视频地址

点击B站视频demo



功能介绍

一句话概述:

基于bilibili视频构建大模型问答训练数据,输入bilibili视频地址等信息即可生成QA数据供VideoQA_databuilder(基于和零一万物大模型构建大语言模型高质量训练数据集): https://github.com/zjrwtx/VideoQA_databuilder 项目使用

使用过程描述:

使用bilibili视频下载器与字幕识别api生成指定视频的字幕文件——基于零一万物模型生成questions文件——VideoQA_databuilder https://github.com/zjrwtx/VideoQA_databuilder 项目读取questions文件——然后基于零一万物模型生成基于视频内容的回答后自我调整——最后将回答保存到answers.json文件。

本项目遵循GPL许可证,欢迎贡献代码或提出改进建议。项目地址:https://github.com/zjrwtx/bilibiliQA_databuilder

如何运行

1、克隆到本地

git clone https://github.com/zjrwtx/bilibiliQA_databuilder.git

2、安装依赖

poetry lock
poetry build -f wheel
pip install dist/bcut_asr-0.0.3-py3-none-any.whl # Example
poetry install

3、复制.env.example文件为.env 填写大模型的环境变量

4、运行python Bilibiliquestion_builder.py 生成QA数据

5、开始在VideoQA_databuilder https://github.com/zjrwtx/VideoQA_databuilder 项目上读取questions文件,填写必要内容,利用零一万物大模型生成对应数据answers

贡献

欢迎贡献。请先 fork 仓库,然后提交一个 pull request 包含你的更改。

联系我

微信:

agi_isallyouneed

微信公众号:正经人王同学

X(推特)正经人王同学:https://twitter.com/zjrwtx

许可证

本项目遵循GPL许可证,欢迎贡献代码或提出改进建议。项目地址:https://github.com/zjrwtx/bilibiliQA_databuilder

非商业用途:本项目的所有源代码和相关文档仅限于非商业用途。任何商业用途均被严格禁止。

出处声明:任何个人或实体在修改、分发或使用本项目时,必须清楚地标明本项目的原始来源,并且保留原始作者的版权声明。

特别感谢

零一万物
https://github.com/SocialSisterYi/bcut-asr

About

基于bilibili视频构建大模型问答训练数据,输入bilibili视频地址等信息即可生成QA数据供videoQA_databuilder项目使用

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages