摩杜云开发者社区-摩杜云

大模型：高质量对话数据生成，Enhancing Chat Language Models by Scaling High-quality Instructional Conversations

EnhancingChatLanguageModelsbyScalingHigh-qualityInstructionalConversations 论文地址 1.导读不少工作已经意识到ChatGPT的秘密在于将指令微调和对其微调做到了极致，是继GPT-3后的又一次大力出奇迹。这篇文章来自清华大学5月份的工作，目的在于生成高质量的指令微调数据。 2.摘要和引言指令微调的有效性已经被多个工作验证，ChatGPT更是是其中的代表。这个工作旨在提高开源模型的性能上限，提供了一个系统设计的、多样化的、信息丰富的、大规模的教学对话数据集UltraChat。UltraChat包含150万个高质量的多...

FmrvKioKNQio 2023年12月22日 40 0 0 人工智能人工智能 ci ci chatgpt 数据 chatgpt 语言模型数据语言模型

分享一波chatgpt的常用prompt

act prompt LinuxTerminal Iwantyoutoactasalinuxterminal.Iwilltypecommandsandyouwillreplywithwhattheterminalshouldshow.Iwantyoutoonlyreplywiththeterminaloutputinsideoneuniquecodeblock,andnothingelse.donotwriteexplanations.donottypecommandsunlessIinstructyoutodoso.whenineedtotellyousomethingi...

FmrvKioKNQio 2023年12月15日 19 0 0 prompt sed ide ci ci ide prompt sed

大模型的全面回顾，看透大模型 | A Comprehensive Overview of Large Language Models

大模型的全面回顾：AComprehensiveOverviewofLargeLanguageModels 返回论文和资料目录论文地址 1.导读相比今年4月的中国人民大学发表的大模型综述，这篇综述角度更侧重于大模型的实现，更加硬核，更适合深入了解大模型的一些细节。 2.介绍下图给出了近几年开源或闭源的大模型趋势图。可以看到除了2023年闭源的大模型工作下降了，这些年的大模型不管开源，闭源，还是总量都是稳步提升。不过这篇论文还有很多大模型工作没有考虑到，例如，百川大模型、ChatGLM3和浦育大模型等等。今年以来，真实场景是百模大战！下图给出了作者看到近几年代表性大模型的时间轴。 ...

FmrvKioKNQio 2023年12月11日 21 0 0 数据深度学习语言模型自然语言处理人工智能数据语言模型人工智能自然语言处理深度学习

1B（10亿）的token大概需要多少磁盘空间存储

在深度学习中一般1个token是32个bit。因此，计算方式如下：总字节数=1000000000✖4=4000000000 依次转成总KB、MB、GB数=4000000000➗1024➗1024➗1024=3.725GB

FmrvKioKNQio 2023年12月10日 82 0 0 自然语言处理自然语言处理语言模型 python 语言模型深度学习字节数深度学习字节数 python

Slurm集群上单节点8卡全量微调大模型笔记

大模型选择选用了近期刚发布的ChatGLM3-6b作为基座模型，考虑想利用模型进行Chat微调后的能力，没有使用ChatGLM3-6b-Base进行改进。ChatGLM3-6b地址：https://github.com/THUDM/ChatGLM3 Slurm脚本编写 slurm脚本整个可分为A+B两部分，这两部分直接拼起来就能运行，sbatchjob.slurm可以提交作业。 A部分：作业提交命令部分（1行中第2个后的内容是注释） !/bin/bash SBATCH-Jgpt_zh_en作业名 SBATCH-pA800:8使用的机器的名字，这个机器里面有gpu1和gpu2两个节点 SB...

FmrvKioKNQio 2023年12月07日 22 0 0 Chrome 笔记文件路径 JSON 笔记 chrome 前端前端文件路径 JSON

怎么用python代码查看可用的gpu，然后指定可用的gpu运行

1.查看gpu （最好像下面这样代码里输出看下，nvidia-smi里gpu编号有时候对不上的） importtorch 检查CUDA是否可用 iftorch.cuda.is_available(): 获取GPU设备数量 device_count=torch.cuda.device_count() 列出可用的GPU设备 foriinrange(device_count): print(f"GPU{i}:{torch.cuda.get_device_name(i)}") else: print("CUDAisnotavailable.NoGPUdevicesfound.") 输出结果 ...

FmrvKioKNQio 2023年12月02日 30 0 0 CUDA pytorch 命令行 python 深度学习深度学习 Cuda python pytorch 命令行

Python中OS库的常用命令及示例

Python的os库是一个强大的库，用于与操作系统进行交互。它提供了许多功能，包括文件和目录管理、环境变量访问以及执行系统命令。在本篇博客中，我们将列举20个os库的常用命令，并为每个命令提供示例。 0.合并路径 os.path.join()方法的主要作用是将多个路径组合成一个完整的文件路径。这在操作文件和目录时特别有用，因为不同的操作系统使用不同的路径分隔符，例如在Windows中使用反斜杠（\），而在Unix/Linux和macOS中使用正斜杠（/）。os.path.join()方法会根据当前操作系统自动选择正确的分隔符，以确保路径的正确性。 importos path=os.pat...

FmrvKioKNQio 2023年12月01日 25 0 0 绝对路径开发语言绝对路径开发语言环境变量环境变量 python 文件名文件名 Python

python输出当前的IP地址

python输出当前的IP地址 importsocket print(socket.gethostbyname(socket.getfqdn(socket.gethostname())))

FmrvKioKNQio 2023年11月15日 24 0 0 tcp/ip IP tcp/ip 网络服务器 IP 服务器网络 python Python

source activate my_env 和conda activate my_env 有什么区别

sourceactivatemy_env和condaactivatemy_env有什么区别 sourceactivate和condaactivate是两个不同的命令，用于在Conda环境中激活特定的虚拟环境。它们的区别在于它们分别适用于不同版本的Conda。 sourceactivate：sourceactivate是在Conda的旧版本（Conda4.3以及更早的版本）中使用的方式。它用于激活（进入）一个特定的Conda虚拟环境，使您可以在该环境中运行安装的软件包。使用示例：sourceactivatemy_env，其中my_env是虚拟环境的名称。 condaactivate：conda...

FmrvKioKNQio 2023年11月15日 40 0 0 conda conda 虚拟环境虚拟环境新版本 linux python linux 新版本 Python

集群外访问计算节点gpu上的web链接

情况描述现在有一个程序，通过提交作业的方式在集群的计算节点C上运行，运行后给了一个web的地址,如下图所示然而，在自己电脑A上只能访问集群的管理节点B，无法直接访问计算节点。管理节点可以访问计算节点，计算节点无法访问自身外的网络。解决办法 ssh-L打算在自己电脑上访问的端口:计算节点上IP:计算节点应用给出的端口登录管理节点的用户@管理节点B的IP地址在自己电脑的cmd里输入下面的命令： ssh-L8888:10.10.10.10:8501stu52275901023@11.11.11.11 之后在自己电脑上浏览器上输入： 0.0.0.0:8888 即可访问。

FmrvKioKNQio 2023年11月15日 30 0 0 直接访问运维无法访问直接访问运维无法访问 IP 服务器 IP 服务器

怎么推算max_step和epoch之间关系，例如多少step一个epoch

怎么推算max_step和epoch之间关系，例如多少step一个epoch max_step（最大训练步数）和epoch（轮次）之间的关系取决于您的训练流程和超参数设置。通常情况下，一个step通常表示对一个batch的训练，而epoch则表示一次完整的数据集训练。因此，它们之间的关系可以用以下方式估算： max_step与epoch的关系：通常，您可以通过以下公式估算max_step与epoch的关系： max_step=(总训练样本数/batch_size)num_epochs 其中，总训练样本数是您的训练数据集中的样本总数，batch_size是每个batch的大小，num_ep...

FmrvKioKNQio 2023年11月15日 65 0 0 参数设置算法算法人工智能人工智能数据集数据集数据数据参数设置

windows的powershell中apt命令的替换命令

WindowsPackageManager(winget)：winget是微软推出的包管理工具，可以在Windows10及更高版本上使用。你可以使用winget来搜索、安装、更新和卸载应用程序。例如，要安装一个应用程序，你可以运行： wingetinstall应用程序名称实测：所以，如果你在Windows上需要安装、更新或卸载软件包，建议使用Chocolatey或winget，而不是apt命令，因为apt是专门为Linux系统设计的包管理工具。

FmrvKioKNQio 2023年11月13日 23 0 0 1024程序员节 Windows 人工智能人工智能 PowerShell PowerShell Windows 1024程序员节

为什么大模型计算的时候只会利用KVcache来存放KV矩阵，Q矩阵每次不一样？

大型神经网络计算中使用KVCache（Key-Value缓存）的概念主要涉及于注意力机制（self-attentionmechanism），通常用于Transformer架构中。KVCache的目的是为了减少计算复杂性，提高效率，并节省计算资源。这涉及到Transformer的推理（inference）阶段，而不是训练（training）阶段。在Transformer中，自注意力机制的操作包括Q（Query）、K（Key）和V（Value）的计算。这三者用于计算注意力分布以权衡不同位置的输入信息。在推理阶段，Q矩阵通常是由模型输入计算得出的，因此每次输入都不同，而K和V矩阵是通过编码器部分...

FmrvKioKNQio 2023年11月13日 23 0 0 1024程序员节神经网络计算复杂性计算复杂性神经网络 1024程序员节缓存缓存

Windows怎么在终端使用本地代理服务器

在本地已经有代理服务器的情况下，输入 sethttp_proxy=http://127.0.0.1:10809 sethttps_proxy=http://127.0.0.1:10809

FmrvKioKNQio 2023年11月13日 19 0 0 1024程序员节代理服务器代理服务器 Windows 1024程序员节 windows

Slurm集群常用命令

提交作业（需要先编写好slurm文件） sbatchjob_name.slurm 查看作业结合作业步状态 squeue 查询队列和节点状态 sinfo 3.显示运行的或已完成作业或作业步的记账信息 sacct 4.slurm文件编写常见参数

FmrvKioKNQio 2023年11月13日 23 0 0 服务器运维人工智能作业步人工智能运维 gpu算力 gpu算力作业步服务器

多模态大模型NextGPT整体结构图、模型示意图和使用模型时示意图

NextGPT模型整体结构项目地址论文地址模型示意图使用模型时示意图

FmrvKioKNQio 2023年11月02日 160 0 0 语言模型 agi 人工智能语言模型人工智能 agi

docker命令实例（举例子学习）

docker命令实例实例1 dockerbuild-tlinksoul/chinese-llama2-chat. 实例2 dockerrun--gpusall--ipc=host--ulimitmemlock=-1--ulimitstack=67108864--rm-it-v`pwd`/LinkSoul:/app/LinkSoul-p7860:7860linksoul/chinese-llama2-chat 实例3 dockerrun-it-p7860:78608c63ca905594/bin/bash 实例4 sudodockerrun--gpusall--ipc=...

FmrvKioKNQio 2023年11月02日 42 0 0 学习容器 3c docker docker 3c 容器 bash Bash 学习

没有root权限如何通过apt安装deb软件

一般来说使用apt安装软件，必须要有root权限，因为apt安装时需要写/usr/bin，/usr/lib，/usr/share等目录，而这些目录只有root用户(或有sudo权限)才有写入权限的。所以要另辟蹊径，换种安装方式。首先下载包 apt-getdownloadyour-package-name 安装到本地 dpkg-xyour-package.debyour-dir 之后一般会在指定目录下产生usr/bin/目录添加路径到.bashrc文件 vim/.bashrc输入i进入编辑模式 exportPATH=$PATH:/your_dir/usr/bin/在....

FmrvKioKNQio 2023年11月02日 27 0 0 服务器 bash Ubuntu linux linux 服务器 root用户 bash root用户 ubuntu

看源码逐行学习ChatGLM2-6B大模型，项目中的modeling_chatglm.py文件

模型代码地址 """PyTorchChatGLMmodel. ChatGLMModel模型结构(假设输入X大小为3x5)转载自： (embedding)Embedding(转置后5x3x4096) word_embeddings:Embedding(65024,4096) (rotary_pos_emb)RotaryEmbedding() (encoder)GLMTransformer (layers)ModuleList 0-27:28xGLMBlock (input_layernorm)RMSNorm()(输入输出大小:5x3x4096) (self_attention)SelfAtt...

FmrvKioKNQio 2023年11月02日 93 0 0 自定义数据类型 agi 人工智能 git 自定义数据类型 agi 人工智能 git

逐行代码学习ChatGLM2-6B大模型SFT微调（通过prompt ptune实现），项目中的ptune/main.py文件

项目地址 !/usr/bin/envpython coding=utf-8 """ Fine-tuningthelibrarymodelsforsequencetosequence. 下面给出了一个命令行运行微调main.py的例子 1.激活环境 2.执行torchrun --standalone这个标志指定使用“standalone”模式运行分布式训练。这意味着它不依赖于任何特定的集群管理器（如Slurm、Kubernetes等）。这通常是本地运行或简单的分布式设置的选择。 --nnodes=1这指定了参与分布式训练的节点（或机器）的数量。在这个例子中，它被设置为1，意味着只有一个节...

FmrvKioKNQio 2023年11月02日 90 0 0 学习语言模型 transformer agi 人工智能语言模型人工智能 transformer agi 学习