当数据量大的时候,比如百万级别,使用ChatGLM3-6b推理的速度是很慢的。发现使用vLLM和ChatGLM3-6b批量推理极大的提高了推理效率。本文主要通过一个简单的例子进行实践。 1.安装vLLM和PyTorch[2] 除了Python(本文使用3.11)、CUDA(本文使用11.8)外,还要安装vllm、pytorch、xformers等库,特别注意版本要一致。官方提供类库版本主要是针对CUDA12.1版。如下所示:  用CUDA 11.8安装vLLM 指定vLLM版本export VLLM_VERSION=0.2.6 指定Pytho...

  12SYKiQlnAB7   2023年12月24日   21   0   0 大模型

RasaGPT结合了Rasa和Langchain这2个开源项目,当超出Rasa现有意图(out_of_scope)的时候,就会执行ActionGPTFallback,本质上就是利用Langchain做了一个RAG,调用LLMAPI。RasaGPT涉及的技术栈比较多而复杂,包括Rasa、Langchain、LlamaIndex、Telegram、PostgresSQL、PGVector、Ngrok、FastAPI、Docker、docker-compose、Dozzle等。尽管对项目做了简化[3],删除了不容易实现的部分,但仍是一次失败的实践,各种原因没有完整运行起来。不过RasaGPT为结合...

  12SYKiQlnAB7   2023年12月24日   24   0   0 AI综合

本文简要的介绍了卡方分布、卡方概率密度函数和卡方检验,并通过SPSS实现了一个卡方检验例子,不仅对结果进行了解释,而且还给出了卡方、自由度和渐近显著性的计算过程。本文用到的数据"2.2.sav"链接为:https://url39.ctfile.com/f/2501739-875711187-f3dbb8?p=2096(访问密码:2096) 一.卡方分布卡方分布是一种概率分布,若\(k\)个随机变量\(Z_1、......、Z_k\)是相互独立且符合标准正态分布的随机变量(数学期望为0、方差为1),那么随机变量\(Z\)的平方和\(X=\sum\limits_{i=1}^k{Z_i^2}\)被称...

  12SYKiQlnAB7   2023年11月01日   38   0   0 AI综合
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~