【训练你自己的AI】训练你自己的教程 多图警告!

三级用户 zhaoxt 2月前 924

之前说了做这部分,如果哪里不对还希望大家指正,也不算教程了,就算分享吧

首先在做这部分任务之前,你需要掌握:

 

1.python的基础编程

2.熟悉生成式AI的一些原理

注意:本教程仅做娱乐,请勿应用于不好的场景

 

开搞!

第一步 搞定数据集

https://github.com/LC044/WeChatMsg

https://memotrace.cn

这是一个开源的聊天记录导出工具,支持导出自己的聊天记录到表里

大概格式是这样的

图片1.png

通过Type筛选过滤掉图片和系统信息,保留通话文本,然后开始做格式上的处理

图片2.png

正常的训练格式应该是这样(这是别人的数据),系统信息提供对模型的训练引导,user为提问方,assistant为模型学习的回答

 

所以我们需要对消息内容进行处理,把数据集按照对端人进行分离,分成每个不同的表(我是只训练我和我老婆的对话)

图片3.png

大体格式是这样的

图片4.png

首先我们需要判断哪些消息属于一段对话内的消息,我这边是判断如果一次消息和上次消息的时间差30分钟,视为一次新对话的开始

 

遍历你要的表开始获取对话块(如果你要训练多个表的对话的话)

图片5.png

这块写得很丑陋,就很简单,实现出来就好了,然后就是数据格式的整理

图片6.png

处理后的格式是这样

图片7.png

 

第二步 算法选型和模型训练

https://github.com/THUDM/ChatGLM3

因为尽量降低难度所以我们直接用开源的仓库,以展示此工作并没有大家想的那么难,这是清华大学开发的一个轻量级中文大语言模型,6B的版本一般家用显卡也可以运行

我们克隆下来,安装好环境依赖,然后到微调demo的文件夹。

图片8.png

图片9.png

将训练数据集放到data/data_fix下,train.jsondev.json是同样的内容

图片10.png

下载模型权重

https://modelscope.cn/models/ZhipuAI/chatglm3-6b/summary

图片11.png

放到上面的文件夹下

SFT的微调算法有很多,这里不一一赘述,选取比较有代表性且知名度较高的lora

修改训练参数

图片12.png

图片13.png

训练轮数10000轮,模型输出路径可以自定义

然后通过命令进行模型训练

python3 finetune_hf.py  data/data_fix  chatglm3-6b  configs/lora.yaml

图片14.png

训练完的总结:

图片15.png

此时的output文件夹:

图片16.png

到这一步模型就训练好了

 

第三步 模型推理和整花活

这里是实现一个web api服务的过程

图片17.png图片18.png

这里是你登录微信的PC执行的脚本,设置清除历史记录和提问的格式(如果你想自动回复别人信息,就把文件传输助手换成那个人,然后清除提问的格式判断)

图片19.png

这是服务端日志

图片20.png

这是PC

图片21.png 

实际效果如下:

图片22.png 

大成功!

PS:你还可以训练你的老婆,让你和你老婆仿真吵架:

图片23.png

目前数据集较少,效果还能看hhhh


上一篇:欧卡和美卡哪个好玩
下一篇:请问pdd那种几十的洛达苹果蓝牙耳机有买过的吗
最新回复 (11)
  • 五级用户 panndora 2月前
    1 2
    ?违背我“科技以懒惰为本”的原则。
    不玩。
  • 四级用户 销锋镝铸 2月前
    0 3
    快整成一键式读取微信、qq聊天记录然后全自动训练生成#(滑稽)
  • 四级用户 pzani1 2月前
    0 4
    感谢分享, 正在学python. 稍后试试看
  • 三级用户 zhaoxt 2月前
    0 5
    销锋镝铸 快整成一键式读取微信、qq聊天记录然后全自动训练生成#(滑稽)
    理论上可以
  • 三级用户 Siale 2月前
    0 6
    这不得累死
  • 四级用户 zchaos 2月前
    0 7
    glm是清华的那个吧,感觉和gpt之类的差距还很大,好在开源
  • 版主 老飞机 2月前
    0 8
    插个眼收藏先。。。感谢分享
  • 三级用户 zhaoxt 2月前
    0 9
    Siale 这不得累死

    还好,一天吧

  • 三级用户 zhaoxt 2月前
    0 10
    zchaos glm是清华的那个吧,感觉和gpt之类的差距还很大,好在开源
    是的
  • 四级用户 tizzyjude 2月前
    0 11
    需要全新的带ai处理器的CPU吗?
  • 三级用户 zhaoxt 2月前
    0 12
    tizzyjude 需要全新的带ai处理器的CPU吗?
    需要gpu
    • 老男人游戏网配套论坛
      13
        立即登录 立即注册
发新帖
本论坛禁止发布SWITCH和PS4相关资源,若有其他侵权内容,请致邮3360342659#qq.com(#替换成@)删除。