GPT本地化研究(JAVA版本)

1.我觉得gpt3 600多G个人是不可能部署得成功的,回想我自己个人不可能每一方面知识都知道,我只是知道最多的是我自己擅长的,百事通需要靠大公司才能解决,我们只是要关注这个gpt是哪个领域的, 我想做的是工业—>自动化gpt(貌似这个方向日本很专业了*_*)
它山之石可以攻玉
2.gpt3变得有智慧的原理是什么?什么是有智慧?

  1. 大数据训练(但是大数据不一定就意味着是正确的,比如现在的媒体为了博眼球夸大事实,所以训练的数据一定要可靠,不然gpt的结果就是马后炮,世界上没有绝对的东西)
    世界充满了比较,人和比自己强的人比较(自己LJ 有进步空间) 比自己稍微差的人(自己happy)
  2. transform注意力模型,根据上下文推断你要大概问什么
  3. 逻辑推理 gpt他具有一定推理,如果更加专业需要使用图推理神经网络
  4. fine-tuning 模型调优,如果遇到错误回答我可以对未来答案进行调整

3.怎么学习他并实现小型人工智能呢?
了解他—>使用他改进他---->实现他—> 改进他 哈哈哈…
4.如果我想要实现他怎么办?
规划

1.强逻辑(仅仅靠一块大硬盘可不行) 就像考试我带本书(没有提前学过)和身经百战的训练的学霸(有自己学习的方法套路),带书的可能使用索引的方法遍历整本书,奈何老师出的题不是书上可以抄到的需要推理(物理考试数学考试)
现在的gpt就是语文老师,让他教数学比较难,需要用到数据结构来解决逻辑问题

2.它山之石可以攻玉,抖音其他国内大厂直接也是调用gpt接口训练自己的gpt

3.大力出奇迹,胆子要大步子要稳,实时训练,不知为不知,有些事情不知道反而更好,坚定理想信念(初心),不要训练这训练这变成统治人类的gpt

5.逻辑学

  1. 一对0
    0对一
    一对一
    一对多
    多对一
    一对一或多
    小明喜欢(动作)吃屎 1—>1/多
    小明在湖里(地点)游泳(动作) 1---->1/多
    坤坤,外面全是阿sir 1–>多
    秦岭四周无人,小明进去看了一眼. 1---->0在这里插入图片描述
  1. 时间关系 缕清时间发生关系 不得不说链表是无敌的什么逻辑结构都能表达
//只训练了正确的选项,错误的选项岂不是浪费了(建立错误的知识库)
//每个插入的记录,标志可能出现错误等待删除

以国考公务员2009真题研究人工智能
下列历史时间排序正确的一组是:A
A、齐桓公称霸→商鞅变法→秦统一天下
B、司马迁修《史记》→文景之治→王莽篡汉
C、玄武门之变→黄巢起义→安史之乱
D、杯酒释兵权→岳飞抗金→王安石变法
//如果我输入A选项来训练模型,先
//创建齐桓公(key) 生 死三个成员,生就填入一个称霸(如果填入开始和结束太浪费空间了)
//齐桓公连接商鞅变法
//创建一个商鞅 生那里插入 变法,LLM可以提取关键字
//商鞅连接秦国统一(单链表)
//创建一个秦国 生那里插入 统一
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2定义型(作用 后果)
经济学上所推崇的“橄榄型”收入分配结构,是指低收入和高收入相对较少、中等收入占绝大多数的分配结
构。我国正在采取、实施“提低、扩中、调高、打非、保困”的方针,使收入分配朝着“橄榄型”方向发展。 这主要是为了促进:
A、生产的发展
B、效率的提高
C、社会的公平
D、内需的扩大

在这里插入图片描述

在这里插入图片描述
链表不存实际数据,只存指向数据的指针
在这里插入图片描述
//改进,我只记录主语,使用短句来训练,长句直接使用主句训练的结果
//还是不行

在这里插入图片描述
在这里插入图片描述
//解决全部的问题,where when what why how
在这里插入图片描述

//没有说完的话是重点, 一个完整的句子是 由问题+答案组成的,如果有问题,没有答案, 重点在问题那一句话
//怎么判断话没有说完整,语法结构主谓宾缺少了宾语2006 年元旦起我国政府正式取消了延续 2600 年的农业税。
我国农业税的征收始于:
A、春秋时期鲁国的初税亩
B、战国时期的商秧变法
C、秦朝的按亩纳税 
D、西汉的编户齐民
//主要的问题是你搜索了所有相关的都找不到农业税,还是需要提取问题的关键(注意力)才能解决问题:关键字是农业税 始于

//理解能力太拉胯了把
//总结是关键词的概率 sklearn

from sklearn.feature_extraction.text import TfidfVectorizer# 准备文本数据
documents = ["today is saturday,go  shopping,my mom and me ","This document is the second document.","And this is the third one.","Is this the first document?"
]# 创建TF-IDF向量化器
vectorizer = TfidfVectorizer()# 将文本数据转换为TF-IDF特征矩阵
tfidf_matrix = vectorizer.fit_transform(documents)# 获取关键字
feature_names = vectorizer.get_feature_names_out()# 输出关键字及其对应的TF-IDF权重
for i, doc in enumerate(documents):print(f"Document {i + 1}:")for j, feature_index in enumerate(tfidf_matrix[i].indices):print(f"   {feature_names[feature_index]}: {tfidf_matrix[i, feature_index]}")

6.化繁为简 化多为单一 (把多的关系放在存储的数据中),如果在中国能把中国的试卷的单题,多选题来训练模型,这是源源不断的训练数据,从小学到大学,我们都在做数据label的工作,训练图像识别也是这个道理,其实世界上也有很多这个应试模式,把他变成优势,现在流行的图片补全验证码也是这个原理(可以产生更多训练数据)

7.怎么生成自己的模型文件?而且搜索性能好呢?

8.文本人工智能,智能在可以替换近义词,反义词,把散装的单词变成完整的句子,

9.人工智能为什么是人工智能,从拼接Json串得到灵感,例如 我说 gpt我想要json格式的数据 {“key”:“value”},如果我说我想要key是name,value是小明, gpt开始拼接 “{'”+name+“‘:’”+value+“'}”,如果我说我要拼接多个 “{'”+name+“‘:’”+value+“',”+‘“+name+”’:‘“+value+”’}" 开头肯定是 “{'” 结尾肯定是 “'}”
中间多个连接肯定是"‘," 键值之间肯定是name+ "’:'"+value,那么怎么样通过少量的代码让机器拥有自主学习的能力呢?(自己有思想,普通人不可能什么都是万事通,遇到不会的东西就快速学习),在json例子拼接的过程,其实我们要摆脱用+号拼接的思维 {“xxxx”:“xxx”} 通过大量学习 机器会知道 json格式一定是{开始的,我用链表和 $%^来表达 变化的部分,直接生成文本
在这里插入图片描述
//我有大大的疑问,那我想要生成多个键值呢,和人的学习习惯有关的是 先从简单的开始–>复杂的
//假设他在学习过程中学习到这个2个键值的格式,增加了个逗号,但是我怎么确定多个键值对怎么生成
//答案是由于我对1个键值对和2个键值对做对比发现了可以重复使用的部分和不可重复的部分,系统判断可以使用循环进行复用
{“xxxx”:“xxx”}

在这里插入图片描述
10.接下来解决的是怎么识别出一句话的关键词
在这里插入图片描述
//要设计上在线人工纠错,不然生成的答案可能不可预料(虽然逻辑是可通的)
//事实上关键词也可以是 问题(where when what why how to do,)也可以是纯傻瓜式的问答
比如 观音庙 答案 : 观音庙是xxxxxxxxxxxx
为什么有观音庙 观音庙是xxxxxxxxxxxx,起源于xxxxxxxxxxxxxx,
为什么观音庙被人们朝拜 观音庙是 xxxxxxxxxxxxxxxx,被朝拜因为xxxxxxxxxxxx,所以xxxxxxxxxx
什么时候有观音庙 观音庙是xxxxxxxxxxxxxxxx,起源于元朝xxxxxxxxxxxxxxxxxxx,秦朝xxxxxxxxx(问题来了 多个时期有多个事件,需要封装为块)

//如果我的关键词识别器,识别不出关键词怎么办,直接说 我无法根据你的话推理出什么,如果识别不出答案呢,就直接往 是什么哪里插入(但是每一次的结果可能会覆盖之前的结果怎么办,关键词相同的几率还是比较小的,后期机器怎么学习也是个问题[实时学习],如果在系统中答案块的某个子模块相似度高得一批,那极有可能他们是同个问题的解,是不是可以通过合并关键词成为一个,然后通过关键词组织成为语言来解决后期学习的问题)(模拟大脑在睡觉过程中相似块的合并)(不过相似并不意味着就是相同的东西,有些东西只有细微的差别,比如原子和 中子和小黑子[坤坤] 人也不能识别出来,词语使用领域不同代表 意思不同娱乐圈和物理圈 化学圈 生物圈 计算机圈 机械圈 单片机圈 计算机网络圈 中国圈 美国圈 荷兰圈 韩国圈 日本圈 饭圈 。。。这么多 需要机器先了解是哪个圈的再去插入到圈的领域 加快查询 后期方案使用多个模型文件分类是哪个圈的)

1.? 为什么 吗 呀
例如 月亮为什么围着地球转,其实关键词就是问题,明显有个为什么 所以如果有答案就去找答案(我们如果是训练就提供训练接口,如果要回答就提供回答接口) 必须实现同义词字典,我先实现的是训练部分
2. 是什么 , 如果我说不是那搜索结果就会出错(必须提取问题中的否定和被动)
//例如 我的老鼠被猫打了 可能匹配到到 我的老鼠打了猫,我的猫打了老鼠,我的老鼠没有打猫,我的老鼠没有被猫打, 所以说要想要gpt智能还得靠 先做模糊查询,后进行顺序和提取关键词(被动和否定) 必须记录关键词头和尾的位置
在这里插入图片描述
3.一句相同语境的话既是训练数据(拆分为多句)也是整句是答案
在这里插入图片描述

11.训练的基本思路(好奇的猫,在某个领域有重要地位) 模板+变量+for+where Insert 后期添加模板类分析套路的类

在这里插入图片描述
12.我有个好的想法,每天的百度的热搜讨论数据来训练模型,国考试卷真题都可以训练(文字题)—>增强文字理解(数字题)(推理题)---->逻辑(图像题)—>简单的图形推理 (大作文)—>文本生成
//可以有人足够关注的一定不简单,而且不会有数据污染
13.遇到了个问题: 关键词是不是越长越好?
要是句子很长,count ++, 我的问题关键词很短就很容易匹配到不准确的句子

例如:
经济学上所推崇的“橄榄型”收入分配结构,是指低收入和高收入相对较少、中等收入占绝大多数的分配结构。我国正在采取、实施“提低、扩中、调高、打非、保困”的方针,使收入分配朝着“橄榄型”方向发展。这主要是为了促进社会的公平
1. 要是存在一个: 橄榄型橄榄型橄榄型橄榄型橄榄型橄榄型橄榄型橄榄型橄榄型橄榄型
(所以关键词要去重)
2.关键词要是存在 我国橄榄型收入分配结构为了干嘛? (这个明明更加可能是答案)
3.要是存在另外一个
我的提问: 我国橄榄型收入分配结构为了干嘛?
解决方案: 匹配率(匹配到的关键字个数/关键字全部词语)
解决方案的潜在问题 越短的越可能匹配到,但是长的也可能是答案(这种概率忽略不计,因为关键字重复的可能性很小) (关键字越长冲突可能性越小),最终解决方案:
在这里插入图片描述4. 处理的时候还是以.。句号切分,不然多个句子有多个为什么,一般来说一个句子有1个为什么就顶天了

14.思考我做这个有什么应用场景:

1.孩子共同成长的ai助手,可以成为话痨,也可以独立实时的思考
2.对小说等进行提取关键字—>生成独特个性的二次元动画(自动去找合适的素材)生成视频,我在思考为什么他们非得要生成一整张图片,我们可以根据像PS的图层
用生成多张图片合成一张图片(难度会小很多)
(二次元)多张图片的位置,什么情况下可以组合的条件,z-index的大小,图片被覆盖的位置,图片的动画修改的插入
3.自动化也有应用场景

在这里插入图片描述
在这里插入图片描述
我想要电机无人进行预训练,而不是天天打标签

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/512920.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

FreeRTOS操作系统学习——FreeRTOS工程介绍

FreeRTOS工程介绍 核心文件 FreeRTOS的最核心文件只有2个: FreeRTOS/Source/tasks.cFreeRTOS/Source/list.c 文件功能如下图: 头文件相关 内存管理文件 文件在 Middlewares\Third_Party\FreeRTOS\Source\portable\MemMang 下,它也是放…

118页Vue面试题总结,资深web前端开发

大厂面试真题整理 CSS: 1,盒模型 2,如何让一个盒子水平垂直居中? 3,css 优先级确定 4,解释下浮动和它的工作原理,清除浮动的方法? 5,CSS隐藏元素的几种方法 6&#xff0…

刷题笔记day27-回溯算法3

39. 组合总和 var path []int var tmp []int var result [][]int// 还是需要去重复,题目中要求的是至少一个数字备选的数量不同。 // 所以需要剪枝操作,右边的要比左边的> func combinationSum(candidates []int, target int) [][]int {// 组合问题pa…

49、WEB攻防——通用漏洞业务逻辑水平垂直越权访问控制脆弱验证

文章目录 前置知识点水平越权——YXCMS 前置知识点 逻辑越权原理: 水平越权:同级用户权限共享。用户信息获取时未对用户与ID比较判断直接查询等;垂直越权:低高级用户权限共享。数据库中用户类型编号接受篡改或高权限未作验证等。 …

langchain学习笔记(十一)

关于langchain中的memory,即对话历史(message history) 1、 Add message history (memory) | 🦜️🔗 Langchain RunnableWithMessageHistory,可用于任何的chain中添加对话历史,将以下之一作为…

微软最新Sora综述!!

一篇论文回顾 Sora 文生视频技术的背景、技术和应用。 追赶 Sora,成为了很多科技公司当下阶段的新目标。研究者们好奇的是:Sora 是如何被 OpenAI 发掘出来的?未来又有哪些演进和应用方向? Sora 的技术报告披露了一些技术细节&…

四平方和 刷题笔记

/* 四平方和 直接暴力搜索 可能会超时 使用二分辅助搜索 先枚举出 c*cd*d并存入数组 用式子算出 a*ab*b还剩下多少查找sum数组里面是否存在符合条件的数 查找方式使用二分搜索 当逼近答案后 检查一下是否为所需的数 如果是 直接输出 */ #include <cstring> #includ…

Linux网络编程——socket 通信基础

Linux网络编程——socket 通信基础 1. socket 介绍2. 字节序2.1 简介2.2 字节序举例2.3 字节序转换函数 3. socket 地址3.1 通用 socket 地址3.2 专用 socket 地址 4. IP地址转换&#xff08;字符串ip -> 整数&#xff0c;主机、网络字节序的转换 &#xff09;5. TCP 通信流…

文件操作与IO(3) 文件内容的读写——数据流

目录 一、流的概念 二、字节流代码演示 1、InputStream read方法 第一个没有参数的版本&#xff1a; 第二个带有byte数组的版本&#xff1a; 第三个版本 搭配Scanner的使用 2、OutputStream write方法 第一个版本&#xff1a; 第二个写入整个数组版本&#xff1a; …

JasperStudio中TextField文本框组件渲染之后,出现行间距不一致的问题

目录 1.1、问题描述 1.2、解决方案 1.1、问题描述 最近在处理线上遇到的一个问题,是有关JasperReports报表相关的问题,问题背景大概是这样的:我们的项目中使用了JasperReports来渲染报表,其中使用到了Text Field文本框组件,但是问题是渲染出来的数据直接会出现一些间距…

2024年不能错过的12个开发者网站

作为一名程序员&#xff0c;我们总是在研究如何提高技能并简化工作流程。这也是为什么每年都会诞生各种各样的创新工具&#xff0c;无论需要将代码转换为令人惊叹的视觉效果&#xff0c;还是简化浏览器测试过程&#xff0c;这些工具旨在帮助我们提高工作效率&#xff0c;提升编…

麒麟KYLINSOS服务器操作系统SP3安装

原文链接&#xff1a;安装麒麟服务器操作系统V10 SP3 在当今的IT环境中&#xff0c;内网仓库的部署对于确保网络安全、加快本地访问速度以及保持软件包的一致性至关重要。特别是对于企业和组织而言&#xff0c;内网仓库可以极大地提升工作效率和系统稳定性。今天&#xff0c;我…