摩杜云开发者社区-摩杜云

LLM 学习笔记-transformers库的 PreTrainedModel 和 ModelOutput 到底是什么？

闲言碎语我在刚开始接触huggingface（后简称hf）的transformers库时候感觉很冗杂，比如就模型而言，有PretrainedModel,AutoModel，还有各种ModelForClassification,ModelForCausalLM,AutoModelForPreTraining,AutoModelForCausalLM等等；不仅如此，还设计了多到让人头皮发麻的各种ModelOutput，比如BaseModelOutput,BaseModelOutputWithPast,CausalLMOutput等等。拥有选择困难症的我选择退出，所以之前一直没怎么用过这个大名鼎...

MsJYt9YfNXiS 2023年12月11日 90 0 0 生成式语言模型语言模型输出格式输出格式生成式

LLM 学习笔记-Deepspeed-MoE 论文

论文DeepSpeed-MoE:AdvancingMixture-of-ExpertsInferenceandTrainingtoPowerNext-GenerationAIScale 1.Introduction 现有的MoE方法在正式使用场景中存在的挑战：场景局限：大都是encoder-decoder模型或者sequence-to-sequence任务；训练时的内存需求巨大：推理性能还不太行：通常单个GPU放不下MoE做推理。另一方面多GPU的MoE推理方法还欠缺研究。MoE推理还收到内存带宽的影响。 Deepspeed-MoE针对上述挑战做了下面的改进：把MoE的任务扩展到...

MsJYt9YfNXiS 2023年12月11日 21 0 0 ci 数据复杂度 ci 复杂度数据

AttributeError: module 'torch' has no attribute 'fx'解决办法

这个报错原因很好解决，只需要在引入包的时候调用下面的语句就可以了 importtorch.fx

MsJYt9YfNXiS 2023年12月11日 47 0 0 系统系统

LLM 入门笔记-Tokenizer

以下笔记参考huggingface官方tutorial：https://huggingface.co/learn/nlp-course/chapter6 下图展示了完整的tokenization流程，接下来会对每个步骤做进一步的介绍。 1.Normalization normalize其实就是根据不同的需要对文本数据做一下清洗工作，以英文文本为例可以包括删除不必要的空白、小写和/或删除重音符号。 fromtransformersimportAutoTokenizer tokenizer=AutoTokenizer.from_pretrained("bert-base-uncased"...

MsJYt9YfNXiS 2023年12月05日 21 0 0 初始化初始化数据数据集数据集数据

transformer模型训练、推理过程分析

复杂度分析推理过程图示 DoubleQLORA示意图

MsJYt9YfNXiS 2023年11月19日 42 0 0 推理过程复杂度分析复杂度分析推理过程

【转载】Macbook M1/M2如何调试c++代码？使用lldb即可

MacbookM1/M2无法安装gdb，但是可以使用lldb进行代码调试。使用方法和介绍如下：

MsJYt9YfNXiS 2023年11月05日 37 0 0 GDB 代码调试 GDB python 代码调试 Python

【转载】阮一峰：Make 命令教程

MsJYt9YfNXiS 2023年11月02日 55 0 0 HTML html