Html/CSS
词向量 标签描述

要让LLMs(LargeLanguageModels,大型语言模型)生成文字,首先得让它们“懂”单词。 什么样算懂单词?可以续写单词就是: 视频:单词续写演示视频,续写:这是它如何?有多种选择可供续写的单词,应该用哪个呢? 单词首先会被拆分为Tokens(一种能够被编码的基础单元)。在不同的语言模型和分词系统中,Token的定义和分割方法可能会有所不同。 绝大多数情况下,一个单词对应一个Token, 上图是GPT-3.5和GPT-4的token,每种颜色对应一个token。来自https://platform.openai.com/tokenizer 但是也有很多情况单词和Token不能一...