GitHub - svjack/Daliy-Dialogue: A Daliy Dialogue Context Generator trained with Bloom and GPT

Daliy-Dialogue

由 Bloom 和 GPT 模型训练的日常对话上下文生成器

简要引述

DailyDialog 日常对话是一个高质量的多回合对话数据集。该项目提供了一些使用 Bloom 和 GPT 训练的日常对话上下文生成器。

HuggingFace 展示

模型展示

名称	HuggingFace 模型链接	HuggingFace 空间链接	语言
Bloom 英语日常对话生成器 🦅🌸	https://huggingface.co/svjack/bloom-daliy-dialogue-english	https://huggingface.co/spaces/svjack/bloom-daliy-dialogue-english	English
Bloom 中文日常对话生成器 🐰🌸	https://huggingface.co/svjack/bloom-daliy-dialogue	https://huggingface.co/spaces/svjack/bloom-daliy-dialogue-chinese	Chinese
GPT 中文日常对话生成器 🐰	https://huggingface.co/svjack/gpt-daliy-dialogue	https://huggingface.co/spaces/svjack/gpt-daliy-dialogue-chinese	Chinese
Bloom 中文对话生成器 🐰🌸	https://huggingface.co/svjack/bloom-dialogue	https://huggingface.co/spaces/svjack/bloom-dialogue-chinese	Chinese
GPT 中文对话生成器 🐰	https://huggingface.co/svjack/gpt-dialogue	https://huggingface.co/spaces/svjack/gpt-dialogue-chinese	Chinese

由上述模型生成的数据集展示

名称	HuggingFace 数据集链接	HuggingFace 空间链接	语言
英语日常对话生成例子（提供搜索支持） 🦅🌸	https://huggingface.co/datasets/svjack/bloom-dialogue-generate-ds-en	https://huggingface.co/spaces/svjack/bloom-dialogue-english-sample-search	English
中文对话生成例子（提供搜索支持） 🐰🌸	https://huggingface.co/datasets/svjack/bloom-dialogue-generate-ds-zh	https://huggingface.co/spaces/svjack/bloom-gpt-dialogue-chinese-sample-search	Chinese

安装和结构

安装

pip install -r requirements.txt

结构

小技巧：减小max_length或温度参数，使得输出与你的输入问题更相关。

1 Bloom 英语每日问答生成器 🦅🌸:

from predict import *
from transformers import BloomTokenizerFast, BloomForCausalLM

model_path = "svjack/bloom-daliy-dialogue-english"
tokenizer = BloomTokenizerFast.from_pretrained(model_path)
model = BloomForCausalLM.from_pretrained(model_path)

obj = Obj(model, tokenizer)
obj.predict("This dog is fierce,", max_length=128)[0].split("\n-----\n")

将会输出:

['This dog is fierce, nowadays. ',
  " What's his name? ",
  ' His name is Bingo. ',
  ' What kind of dog is he? ',
  " We're not sure because the neighbour gave him to us after they moved away from here. ",
  " Well, he sure likes to chew my father's shoes when he likes to scratch the couch. ",
  ' Is he well behaved? ',
  ' Yeah, he likes to scratch the couch but he likes to scratch the couch regularly. ',
  " He likes to scratch the couch, doesn't he? ",
  ' Yes, he likes to scratch the couch']

2 Bloom 中文每日问答生成器 🐰🌸:

from predict import *
from transformers import BloomTokenizerFast, BloomForCausalLM

model_path = "svjack/bloom-daliy-dialogue"
tokenizer = BloomTokenizerFast.from_pretrained(model_path)
model = BloomForCausalLM.from_pretrained(model_path)

obj = Obj(model, tokenizer)
obj.predict("这只狗很凶,", max_length=128)[0].split("\n-----\n")

将会输出:

['这只狗很凶, 它是邻居的宠物。',
 '那是一只小狗。你知道，它不是一个很好的宠物。但正是因为它的行动。',
 '这倒是真的。我在它们还是小狗的时候就养了它们。我每个月只能负担300磅左右的费用。这就像一个大狗，就像电视上的专业厨师一样！',
 '绝对的 据说他们每天要供应3000只狗呢',
 '不可思议啊 对了，盘子里的这些东西是什么？',
 '哦，我的盘子，镂空的芝麻包，以及黄油和面粉。我将告诉你如何做一个搅拌']

3 GPT 中文每日问答生成器 🐰:

from predict import *
from transformers import BertTokenizer, GPT2LMHeadModel, TextGenerationPipeline

model_path = "svjack/gpt-daliy-dialogue"
tokenizer = BertTokenizer.from_pretrained(model_path)
model = GPT2LMHeadModel.from_pretrained(model_path)

obj = Obj(model, tokenizer)
x = obj.predict("这只狗很凶,", max_length=128)[0]
list(map(lambda x: "".join(x).replace(" ", ""),batch_as_list(re.split(r"([。.？?])" ,x), 2)))

将会输出:

['这只狗很凶,你怎么知道的?',
 '我当然知道了，因为它是如此的凶。',
 '那是什么样的狗？',
 '他有一只小白猫哦，是吗?',
 '他还没有被抓到捕捕令呢我不相信他会抓到捕捕令他肯定在第二天早些时候就被抓到了好吧，我可以告诉他，但他必须在第二天早上给你打电话谢谢你对他的']

你可以看到上面列表的最后一行太长了，没有很好地分段。
通过使用 svjack/GLM-Open-Dialogue 中的 Context Reconstructor，我们可以尝试解决这个问题。

y = ['这只狗很凶,你怎么知道的?',
'我当然知道了，因为它是如此的凶。',
'那是什么样的狗？',
'他有一只小白猫哦，是吗?',
'他还没有被抓到捕捕令呢我不相信他会抓到捕捕令他肯定在第二天早些时候就被抓到了好吧，我可以告诉他，但他必须在第二天早上给你打电话谢谢你对他的']
from reconstructor import *
predict_split(y)

将会输出:

['这只狗很凶,你怎么知道的?',
 '我当然知道了,因为它是如此的凶。',
 '那是什么样的狗?',
 '他有一只小白猫',
 '哦,是吗?',
 '他还没有被捕捉到捕捕令呢',
 '我不相信他会抓到它',
 '捕捕令?他肯定在第二天早些时候就被抓到了',
 '好吧,我可以告诉他,但他必须在第二天早上给你打电话。',
 '谢谢你对他的到来']

Contact

svjack - https://huggingface.co/svjack - [email protected] - [email protected]

Project Link:https://github.com/svjack/Daliy-Dialogue

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
README.md		README.md
README_EN.md		README_EN.md
app_bl_en.py		app_bl_en.py
app_bl_zh.py		app_bl_zh.py
app_gpt_zh.py		app_gpt_zh.py
bloom_en.py		bloom_en.py
bloom_zh.py		bloom_zh.py
gpt_zh.py		gpt_zh.py
predict.py		predict.py
reconstructor.py		reconstructor.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Daliy-Dialogue

简要引述

HuggingFace 展示

模型展示

由上述模型生成的数据集展示

安装和结构

安装

结构

更多信息和讨论

Contact

Acknowledgements

About

Releases

Packages

Languages

svjack/Daliy-Dialogue

Folders and files

Latest commit

History

Repository files navigation

Daliy-Dialogue

简要引述

HuggingFace 展示

模型展示

由上述模型生成的数据集展示

安装和结构

安装

结构

更多信息和讨论

Contact

Acknowledgements

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages