概述:AI大模型
基础概念
幻觉现象 = 一本正经胡说八道
AI
幻觉,是指大语言模型【编造】它认为是真实存在的、甚至看起来合理或可信的信息。- 大模型出现幻觉,简而言之就是“胡说八道”。
- 准确而言,是指模型生成的内容与现实世界事实或用户输入不一致的现象。
- 研究人员将大模型的幻觉分为
- 事实性幻觉(Factuality Hallucination)
- 忠实性幻觉(Faithfulness Hallucination)。
- 致使大模型产生幻觉的原因主要有:
- 数据缺陷
- 数据中捕获的事实知识的利用率较低
- 长尾知识回忆不足
- 难以应对复杂推理的情况等
token = 划分方式取决于模型的分词器(tokenizer)
- 摘要
- 在
AI
大模型中,token
是指文本中的最小语义单元,通常是一个单词、一个字符或其他子字符串。token
在自然语言处理(NLP
)中扮演着至关重要的角色,它不仅是文本处理的基石,也是人类与机器对话的桥梁
- token的定义和作用
- token可以是一个单词、一个字符、一个子词单元(如前缀、后缀、词根等),甚至是一个特殊的标记(如换行符、标点符号等)
- 在大模型中,
token
的划分方式取决于模型使用的分词器(tokenizer
)
- 常见的分词策略包括:
+ 基于字符的分词:每个字符(包括字母、数字、标点符号等)都被视为一个单独的token。
例如,文本“hello, world!”会被分解为['h', 'e', 'l', 'l', 'o', ',', ' ', 'w', 'o', 'r', 'l', 'd', '!']
+ 基于单词的分词:每个单词被视为一个单独的token。
例如,文本“hello, world!”会被分解为['hello,', 'world!']。
这种方法在处理英文等以空格分隔单词的语言中比较常见,但在处理中文等没有明显单词分隔符的语言时会遇到困难
- 基于子词的分词:将单词分解为更小的子词单元。
例如,文本“unbelievable”可能会被分解为['un', 'believ', 'able']。
这种方法结合了基于字符和基于单词的分词的优点,能够更好地处理罕见单词和拼写错误,同时保持模型的效率
- token在不同场景中的应用
在大模型中,token的应用非常广泛。
例如,GPT-3等大语言模型使用token
来处理和生成文本。
token
不仅限于单词,还可以是一个字符或标点符号。
具体的划分方式依赖于模型使用的分词算法
此外,token
在图像生成和推理大模型中也有应用,自回归模型将图像数据量化为离散token,并通过逐步预测的方式进行生成
X 参考文献
- AI幻觉 - 百度百科
- 为什么对于同一个问题当多次询问时,大模型会给出不同答案? - Zhihu