逐行代码学习ChatGLM2-6B大模型SFT微调（通过prompt ptune实现），项目中的ptune/main.py文件-摩杜云开发者社区

项目地址
#!/usr/bin/env python
# coding=utf-8
"""
Fine-tuning the library models for sequence to sequence.
下面给出了一个命令行运行微调main.py的例子

#1.激活环境

#2.执行torchrun
#--standalone 这个标志指定使用“standalone”模式运行分布式训练。这意味着它不依赖于任何特定的集群管理器（如Slurm、Kubernetes等）。这通常是本地运行或简单的分布式设置的选择。
#--nnodes=1 这指定了参与分布式训练的节点（或机器）的数量。在这个例子中，它被设置为1，意味着只有一个节点（很可能是本地机器）参与训练
#--nproc-per-node=1:这指定了每个节点上要运行的进程数量。这通常与你想要使用的GPU数量相关。在这个例子中，它被设置为1，这意味着在指定的节点上只有一个进程运行。
#如果你在一台有4个GPU的机器上设置--nproc-per-node=4，那么会在该机器上启动4个进程，每个进程使用一个GPU

具体命令如下
source /public1/home/stu52275901023/anaconda3/bin/activate ptune
torchrun --standalone --nnodes=1 --nproc-per-node=1 main.py \
    --do_train \
    --train_file ../brain_data/brain_data_tra.json \
    --validation_file ../brain_data/brain_data_val.json \
    --preprocessing_num_workers 10 \
    --prompt_column prompt \
    --response_column response \
    --history_column history \
    --overwrite_cache \
    --model_name_or_path ../model/chatglm2-6b \
    --output_dir ../ptune_point_V1/ \
    --overwrite_output_dir \
    --max_source_length 512 \
    --max_target_length 512 \
    --per_device_train_batch_size 6 \
    --per_device_eval_batch_size 1 \
    --gradient_accumulation_steps 16 \
    --predict_with_generate \
    --max_steps 500 \
    --logging_steps 10 \
    --save_steps 100 \
    --learning_rate 1e-2 \
    --pre_seq_len 512 \

"""
# You can also adapt this script on your own sequence to sequence task. Pointers for this are left as comments.
#基础库
import logging
import os
import sys
import json

import numpy as np
from datasets import load_dataset
import jieba 
from rouge_chinese import Rouge
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
import torch

#transformer库
import transformers
from transformers import (
    AutoConfig,
    AutoModel,
    AutoTokenizer,
    DataCollatorForSeq2Seq,
    HfArgumentParser,
    Seq2SeqTrainingArguments,
    set_seed,
)
from trainer_seq2seq import Seq2SeqTrainer

#注意，注意，从当前目录下的arguments.py导入ModelArguments, DataTrainingArguments数据参数类
from arguments import ModelArguments, DataTrainingArguments

logger = logging.getLogger(__name__)


def main():
    #导入相关参数，√ 表示刚才命令行例子中用到了
    """
        ModelArguments（自己定义的）:
            这个类可能包含与模型配置和加载有关的参数。

          √ model_name_or_path: 预训练模型的名称（如"bert-base-uncased"）或模型文件的路径。
            config_name: 可选的配置名称或路径，如果没有设置，则默认使用model_name_or_path。
            tokenizer_name: 可选的分词器名称或路径。
          √ pre_seq_len:这个参数很重要，表示前缀编码器prefixencode层的第一层参数数量，同时设定了这个参数表示微调时只会修改prefixencode层参数
            ptuning_checkpoint：可以设定这个值，该值是一个路径，如果有则会接着检查点继续训练


        DataTrainingArguments（自己定义的）:
            这个类通常定义了与训练数据相关的参数。

          √ train_file: 训练数据的路径。
          √ validation_file: 验证数据的路径。
          √ max_source_length: 输入序列的最大长度,需要注意的是多轮对话下，这个长度应该大于当前轮的qurey+history。
          √ max_target_length：目标序列的最大长度，这个长度应该大于任一一轮的response。
          √ overwrite_cache: 如果设置为True，则在处理数据时覆盖现有的缓存。
          √ preprocessing_num_workers ：用于预处理的进程数
          √ prompt_column：表示训练的json文件中，prompt的关键字
          √ response_column: 表示训练的json文件中，response的关键字
          √ history_column: 表示训练的json文件中，history的关键字
        
        Seq2SeqTrainingArguments（API在transformer下的trainer里：https://huggingface.co/docs/transformers/main_classes/trainer#transformers.TrainingArguments.gradient_accumulation_steps）:
            这个类可能专为序列到序列模型定义了参数，如T5、Bart等。
            
          √ output_dir：模型输出路径
          √ overwrite_output_dir ：是否重写模型输出路径内容
          √ learning_rate: 学习率。
            num_train_epochs: 训练时代数。
          √ max_steps : 最大训练步数，会覆盖num_train_epochs
          √ predict_with_generate:是否使用generate计算指标
          √ per_device_train_batch_size: 每个设备上的训练时批次大小。
          √ per_device_eval_batch_size: 每个设备上的评估时批次大小。
          √ gradient_accumulation_steps (int, optional, defaults to 1):更新梯度时累计的梯度次数
            weight_decay: 权重衰减。
          √ logging_steps: 多少步进行一次日志记录。
          √ save_steps: 多少步保存一次模型。
          √ do_train :bool 是否训练
          √ do_eval  :bool 是否评估
            do_predict :bool 是否预测
    """
    #Hf是Huggingface的缩写
    parser = HfArgumentParser((ModelArguments, DataTrainingArguments, Seq2SeqTrainingArguments))

    #如果是json参数文件，则有两个参数，第二个参数是json的路径
    if len(sys.argv) == 2 and sys.argv[1].endswith(".json"):
        # If we pass only one argument to the script and it's the path to a json file,
        # let's parse it to get our arguments.
        model_args, data_args, training_args = parser.parse_json_file(json_file=os.path.abspath(sys.argv[1]))
    else:
        #否则直接命令行读取参数
        model_args, data_args, training_args = parser.parse_args_into_dataclasses()

    # Setup logging
    logging.basicConfig(
        format="%(asctime)s - %(levelname)s - %(name)s - %(message)s",
        datefmt="%m/%d/%Y %H:%M:%S",
        handlers=[logging.StreamHandler(sys.stdout)],
    )
    #看下训练参数里是否说要输出log
    if training_args.should_log:
        # The default of training_args.log_level is passive, so we set log level at info here to have that default.
        transformers.utils.logging.set_verbosity_info()

    log_level = training_args.get_process_log_level()
    logger.setLevel(log_level)
    # datasets.utils.logging.set_verbosity(log_level)
    transformers.utils.logging.set_verbosity(log_level)
    transformers.utils.logging.enable_default_handler()
    transformers.utils.logging.enable_explicit_format()

    # Log on each process the small summary:
    logger.warning(
        f"Process rank: {training_args.local_rank}, device: {training_args.device}, n_gpu: {training_args.n_gpu}"
        + f"distributed training: {bool(training_args.local_rank != -1)}, 16-bits training: {training_args.fp16}"
    )
    logger.info(f"Training/evaluation parameters {training_args}")

    # Set seed before initializing model.
    set_seed(training_args.seed)

    # Load dataset
    data_files = {}
    if data_args.train_file is not None:
        data_files["train"] = data_args.train_file
        extension = data_args.train_file.split(".")[-1]
    if data_args.validation_file is not None:
        data_files["validation"] = data_args.validation_file
        extension = data_args.validation_file.split(".")[-1]
    if data_args.test_file is not None:
        data_files["test"] = data_args.test_file
        extension = data_args.test_file.split(".")[-1]

    #做成原始数据
    raw_datasets = load_dataset(
        extension,
        data_files=data_files,
        cache_dir=model_args.cache_dir,
        use_auth_token=True if model_args.use_auth_token else None,
    )

    # Load pretrained model and tokenizer
    config = AutoConfig.from_pretrained(model_args.model_name_or_path, trust_remote_code=True)
    #重新设定pre_seq_len的值
    config.pre_seq_len = model_args.pre_seq_len
    #重新设定prefix_projection的值，这个是个bool类型，true表示有前缀
    config.prefix_projection = model_args.prefix_projection

    tokenizer = AutoTokenizer.from_pretrained(model_args.model_name_or_path, trust_remote_code=True)

    #是否有额外前缀编码层状态
    if model_args.ptuning_checkpoint is not None:
        # Evaluation
        # Loading extra state dict of prefix encoder
        #在模型文件目录下有个config.json,里面完成了"AutoModel"到"modeling_chatglm.ChatGLMForConditionalGeneration"的映射
        #所以下面的代码会导入modeling_chatglm.py文件里的ChatGLMForConditionalGeneration
        model = AutoModel.from_pretrained(model_args.model_name_or_path, config=config, trust_remote_code=True)
        prefix_state_dict = torch.load(os.path.join(model_args.ptuning_checkpoint, "pytorch_model.bin"))
        new_prefix_state_dict = {}
        for k, v in prefix_state_dict.items():
            if k.startswith("transformer.prefix_encoder."):
                new_prefix_state_dict[k[len("transformer.prefix_encoder."):]] = v
        model.transformer.prefix_encoder.load_state_dict(new_prefix_state_dict)
    else:
        model = AutoModel.from_pretrained(model_args.model_name_or_path, config=config, trust_remote_code=True)
    
    #是否量化
    if model_args.quantization_bit is not None:
        print(f"Quantized to {model_args.quantization_bit} bit")
        model = model.quantize(model_args.quantization_bit)
    if model_args.pre_seq_len is not None:
        # P-tuning v2
        model = model.half()
        model.transformer.prefix_encoder.float()
    else:
        # Finetune
        model = model.float()
    
    #有前缀则取出前缀
    prefix = data_args.source_prefix if data_args.source_prefix is not None else ""

    # Preprocessing the datasets.
    # We need to tokenize inputs and targets.
    if training_args.do_train:
        column_names = raw_datasets["train"].column_names
    elif training_args.do_eval:
        column_names = raw_datasets["validation"].column_names
    elif training_args.do_predict:
        column_names = raw_datasets["test"].column_names
    else:
        logger.info("There is nothing to do. Please pass `do_train`, `do_eval` and/or `do_predict`.")
        return

    # Get the column names for input/target.
    prompt_column = data_args.prompt_column
    response_column = data_args.response_column
    history_column = data_args.history_column
    
    # Temporarily set max_target_length for training.
    max_target_length = data_args.max_target_length

    def preprocess_function_eval（examples):
        inputs, targets = [], []
        for i in range(len(examples[prompt_column])):
            if examples[prompt_column][i] and examples[response_column][i]:
                query = examples[prompt_column][i]
                history = examples[history_column][i] if history_column is not None else None
                prompt = tokenizer.build_prompt(query, history)
                inputs.append(prompt)
                targets.append(examples[response_column][i])

        inputs = [prefix + inp for inp in inputs]
        model_inputs = tokenizer(inputs, max_length=data_args.max_source_length, truncation=True, padding=True)
        labels = tokenizer(text_target=targets, max_length=max_target_length, truncation=True)

        if data_args.ignore_pad_token_for_loss:
            labels["input_ids"] = [
                [(l if l != tokenizer.pad_token_id else -100) for l in label] for label in labels["input_ids"]
            ]
        model_inputs["labels"] = labels["input_ids"]

        return model_inputs

    def preprocess_function_train(examples):
        #最大训练长度
        max_seq_length = data_args.max_source_length + data_args.max_target_length + 1

        #初始化训练时模型输入
        model_inputs = {
            "input_ids": [],#history+prompt
            "labels": [],#response
        }
        
        '''
            #遍历每一条数据,数据示例如下
            {
            "prompt": "翻译论语吾日三省吾身",
            "response": "好的。\n 【译文】曾子说:\"我每天多次地反省自己:替别人办事是不是尽心竭力呢？跟朋友交往是不是诚实呢？老师传授的知识是不是复习过了呢？ \"",
            "history": []
            },
            {
                "prompt": "我想学习欧阳修的醉翁亭记",
                "response": "好的。【原文】醉翁亭记  宋 欧阳修环滁皆山也。其西南诸峰，林壑(hè)尤美。望之蔚然而深秀者，琅琊也。山行六七里，渐 闻水声潺潺而泻出于两峰之间者，酿泉也。峰回路转，有亭翼然临于泉上者，醉翁亭也。作亭 者谁？山之僧智仙也。名之者谁？太守自谓也。太守与客来饮于此，饮少辄(zhé)醉，而年又 最高，故自号曰醉翁也。醉翁之意不在酒，在乎山水之间也。山水之乐，得之心而寓之酒也。若夫日出而林霏开，云归而岩穴暝，晦明变化者，山间之朝暮也。野芳发而幽香，佳木秀 而繁阴，风霜高洁，水落而石出者，山间之四时也。朝而往，暮而归，四时之景不同，而乐亦 无穷也。至于负者歌于途，行者休于树，前者呼，后者应，伛（yǔ）偻（lǚ）提携，往来而不绝者， 滁人游也。临溪而渔，溪深而鱼肥。酿泉为酒，泉香而酒洌；山肴野蔌（sù），杂然而前陈者，太守宴也。宴酣之乐，非丝非竹，射者中，弈者胜，觥（gōng）筹交错，起坐而喧哗者，众宾欢也。苍颜白发，颓然乎其间者，太守醉也。已而夕阳在山，人影散乱，太守归而宾客从也。树林阴翳（yì），鸣声上下，游人去而禽鸟乐也。然而禽鸟知山林之乐，而不知人之乐；人知从太守游而乐，而不知太守之乐其乐也。醉能同其乐，醒能述以文者，太守也。太守谓谁？庐陵欧阳修也。【译文】环绕着滁州城的都是山。它西南面的各个山峰，树林、山谷尤其优美，远远望去那树木茂盛，又幽深又秀丽的，是琅琊山。沿着山路走六七里，就渐渐听到潺潺的水声，从两座山峰中间飞泻出来的，是酿泉。山势回环，路也跟着拐弯，有亭子四角翘起，像鸟张开翅膀一样，坐落在泉水边上的，是醉翁亭。修建亭子的人是谁？是山中的和尚智仙。给它命名的人是谁？是太守用自己的号（醉翁）来命名的。太守和客人到这里来喝酒，喝一点就醉了，而且年龄又最大，所以给自己取个别号叫醉翁。醉翁的情趣不在于喝酒，而在于秀丽的山水之间。欣赏山水的乐趣，领会在心里，寄托在喝酒上。像那太阳出来，树林中的雾气消散，暮云回聚拢来，山里就昏暗了，或明或暗，变化不一，这是山间的早晨和傍晚。野花开放，散发清幽的香气，好的树木枝叶繁茂，形成浓郁的绿阴，秋高气爽,霜色洁白，水位低落，石头显露，这是山里的四季的景色。早晨上山，傍晚返回，四季的景色不同，因而乐趣也没有穷尽。至于背着东西的人路上唱歌，走路的人在树下休息，前面的人呼唤，后面的人答应，老人小孩络绎不绝，这是滁州人出游。到溪水捕鱼，溪水深，鱼儿肥，用酿泉的水酿酒，泉水香而酒色清澈，山中野味，野菜，交错地在前面摆着，这是太守举行的酒宴。酒宴上饮酒的乐趣，不在于音乐。投壶的人中了目标，下棋的人得胜了，酒杯和酒筹交互错杂，人们有时站立，有时坐着，大声喧哗，宾客们（尽情）欢乐。脸色苍老，头发花白，醉醺醺地在宾客们中间的是喝醉了的太守。不久夕阳落山，人影纵横散乱，太守回归而宾客跟从。这时树林里浓荫遮蔽，鸟儿到处鸣叫，游人离开后禽鸟就快乐了。然而禽鸟只知道山林的乐趣，却不知道人的乐趣，人们只知道跟随太守游玩的乐趣，却不知道太守因为他们的快乐而快乐。醉了能够和大家一起享受快乐，醒来能够用文章记述这乐事的人，是太守。太守是谁？是庐陵的欧阳修。",
                "history": [
                    [
                        "我想学习一下杜牧的泊秦淮",
                        "好的。【原文】泊秦淮 唐 杜牧烟笼寒水月笼沙，夜泊秦淮近酒家。商女不知亡国恨，隔江犹唱后庭花。【译文】迷离月色和轻烟笼罩着寒水白沙，夜晚船只停泊在秦淮河边靠近岸上的酒家。卖唱的歌女不知道什么是亡国之恨，隔着江水仍在高唱着《玉树后庭花》。【注释】选自冯集梧《樊川文集》卷四。（上海古籍出版社1978年版）。秦淮，即秦淮河，发源于江苏句容大茅山与溧（lì）水东庐山两山间，经南京流入长江。相传为秦始皇南巡会稽时开凿的，用来疏通淮水，故称秦淮河。泊：停泊。商女：以卖唱为生的歌女。犹：副词。还，仍然。后庭花：歌曲《玉树后庭花》的简称。南朝陈皇帝陈叔宝（即陈后主）溺于声色，作此曲与后宫美女寻欢作乐，终致亡国，所以后世称此曲为“亡国之音”。"
                    ],
                    [
                        "翻译一下诸葛亮的出师表",
                        "好的。【译文】臣诸葛亮上表进言：先帝开创大业未完成一半，竟中途去世。如今天下分成三国，我益州地区人力疲惫、 民生凋敝，这真是处在万分危急、存亡难料的时刻。但是，宫廷里侍奉守卫的臣子，不敢稍有懈怠；疆场上 忠诚有志的将士，舍身忘死的作战，这都是追念先帝的特殊恩遇，想报答给陛下的缘故。陛下确实应该广开 言路听取群臣意见，发扬光大先帝遗留下来的美德，振奋鼓舞志士们的勇气，绝不应随便看轻自己，说出无 道理的话，从而堵塞了忠诚进谏的道路。宫里身边的近臣和丞相府统领的官吏，本都是一个整体，升赏惩罚， 扬善除恶，不应标准不同。如有作坏事违犯法纪的，或尽忠心做善事的，应该一律交给主管部门加以惩办或 奖赏，以显示陛下在治理方面公允明察，切不应私心偏袒，使宫廷内外施法不同。 侍中、侍郎郭攸之、费、董允等，这都是些品德良善诚实、情志意念忠贞纯正的人，因而先帝才选留下 来辅佐陛下。我认为宫内的事情，事无论大小，都要征询他们的意见，然后再去施行。这样一定能够补正疏 失，增益实效。将军向宠，性情德行平和公正，了解通晓军事，当年试用，先帝曾加以称赞，说他能干，因 而经众人评议荐举任命为中部督。我认为军营里的事情，事情无论大小，都要征询他的意见，就一定能够使 军伍团结和睦，德才高低的人各有合适的安排。亲近贤臣，远避小人，这是汉朝前期所以能够兴盛的原因； 亲近小人，远避贤臣，这是汉朝后期所以衰败的原因。先帝在世的时候，每次跟我评论起这些事，对于桓帝、灵帝时代，没有不哀叹和憾恨的。侍中郭攸之、费，尚书陈震，长史张裔，参军蒋琬，这些都是忠贞、坦直，能以死报国的节义臣子，诚愿陛下亲近他们，信任他们，则汉王室的兴盛，就时间不远了。我本是个平民，在南阳郡务农亲耕，在乱世间只求保全性命，不希求诸侯知道我而获得显贵。先帝不介意我的卑贱，委屈地自我降低身份，接连三次到草庐来访看我，征询我对时局大事的意见，因此我深为感激，从而答应为先帝驱遣效力。后来正遇危亡关头，在战事失败的时候我接受了任命，在危机患难期间我受到委任，至今已有二十一年了。先帝深知我做事谨慎，所以临去世时把国家大事嘱托给我了。接受遗命以来，日夜担忧兴叹，只恐怕托付给我的大任不能完成，从而损害先帝的英明。所以我五月率兵南渡泸水，深入荒芜之境。如今南方已经平定，武库兵器充足，应当鼓励和统率全军，北伐平定中原地区，我希望竭尽自己低下的才能，消灭奸邪势力，复兴汉朝王室，迁归旧日国都。这是我用来报答先帝，并尽忠心于陛下的职责本分。至于掂量利弊得失，毫无保留地进献忠言，那就是郭攸之、费、董允的责任了。希望陛下责成我去讨伐奸贼并取得成效，如果不取得成效，那就惩治我失职的罪过，用来上告先帝的神灵。如果没有发扬圣德的言论，那就责备郭攸之、费、董允等人的怠慢，公布他们的罪责。陛下也应该自己思虑谋划，征询从善的道理，明察和接受正直的进言，远念先帝遗诏中的旨意，我就受恩、感激不尽了。如今正当离朝远征，流着泪写了这篇表文，激动得不知该说些什么话。"
                    ],
                    [
                        "介绍一下王维的使至塞上",
                        "好的。【原文】使至塞上 唐 王维单车欲问边，属国过居延。 征蓬出汉塞，归雁入胡天。 大漠孤烟直，长河落日圆。 萧关逢候骑，都护在燕然。【译文】轻车简从将要去慰问边关，我要到远在西北边塞的居延。像随风而去的蓬草一样出临边塞，北归大雁正翱翔云天。浩瀚沙漠中孤烟直上云霄，黄河边上落日浑圆。到萧关时遇到侦察骑兵，得知主帅尚在前线未归。【注释】使至塞上：奉命出使边塞。使：出使。单车：一辆车，车辆少，这里形容轻车简从。问边：到边塞去察看，指慰问守卫边疆的官兵。属国：有几种解释：一指少数民族附属于汉族朝廷而存其国号者。汉、唐两朝均有一些属国。二指官名，秦汉时有一种官职名为典属国，苏武归汉后即授典属国官职。唐人有时以“属国”代称出使边陲的使臣。居延：地名，汉代称居延泽，唐代称居延海，在今内蒙古额济纳旗北境。又西汉张掖郡有居延县（参《汉书·地理志》），故城分布在今内蒙古自治区额济纳旗和甘肃省金塔县的境内。又东汉凉州刺史部有张掖居延属国，辖境在居延泽一带。此句一般注本均言王维路过居延。然而王维此次出使，实际上无需经过居延。因而林庚、冯沅君主编的《中国历代诗歌选》认为此句是写唐王朝“边塞的辽阔，附属国直到居延以外”。征蓬：随风飘飞的蓬草，此处为诗人自喻。归雁：雁是候鸟，春天北飞，秋天南行，这里是指大雁北飞。胡天：胡人的领空。这里是指唐军占领的北方地方。大漠：大沙漠，此处大约是指凉州之北的沙漠。孤烟：赵殿成注有二解：一云古代边防报警时燃狼粪，“其烟直而聚，虽风吹之不散”。二云塞外多旋风，“袅烟沙而直上”。据后人有到甘肃、新疆实地考察者证实，确有旋风如“孤烟直上”。又：孤烟也可能是唐代边防使用的平安火。长河：黄河。萧关：古关名，又名陇山关，故址在今宁夏固原东南。候骑：负责侦察、通讯的骑兵。王维出使河西并不经过萧关，此处大概是用何逊诗“候骑出萧关，追兵赴马邑”之意，非实写。都护：唐朝在西北边疆置安西、安北等六大都护府，其长官称都护，每府派大都护一人，副都护二人，负责辖区一切事务。这里指前线统帅。燕然：燕然山，即今蒙古国杭爱山。东汉窦宪北破匈奴，曾于此刻石记功。这里代指前线。“单车”两句：一作“衔命辞天阙，单车欲问边”。候骑：骑马的侦察兵。"
                    ]
                ]
            }
        '''
        for i in range(len(examples[prompt_column])):
            #如果有prompt和response
            if examples[prompt_column][i] and examples[response_column][i]:
                query, answer = examples[prompt_column][i], examples[response_column][i]
                #如果有history
                history = examples[history_column][i] if history_column is not None else None
                '''
                    将当前对话prompt/query和历史对话history制作成新的prompt,源码如下
                    prompt = ""
                    for i, (old_query, response) in enumerate(history):
                        prompt += "[Round {}]\n\n问：{}\n\n答：{}\n\n".format(i + 1, old_query, response)
                    prompt += "[Round {}]\n\n问：{}\n\n答：".format(len(history) + 1, query)
                '''
                prompt = tokenizer.build_prompt(query, history)
                
                #有前缀则加在前面
                prompt = prefix + prompt
                #将prompt变成id列表
                a_ids = tokenizer.encode(text=prompt, add_special_tokens=True, truncation=True,
                                         max_length=data_args.max_source_length)
                #将response变成id列表
                b_ids = tokenizer.encode(text=answer, add_special_tokens=False, truncation=True,
                                         max_length=data_args.max_target_length)
                #记录prompt长度
                context_length = len(a_ids)
                #prompt和response的ids组成新ids，最后加上结束符用以训练。
                input_ids = a_ids + b_ids + [tokenizer.eos_token_id]
                #tokenizer.pad_token_id 是Hugging Face transformers库中tokenizer的一个属性，它返回用于padding的token的ID。
                #实际训练时这个值为100。
                labels = [tokenizer.pad_token_id] * context_length + b_ids + [tokenizer.eos_token_id]
                
                #input_ids和labels扩充到最大训练长度
                pad_len = max_seq_length - len(input_ids)
                input_ids = input_ids + [tokenizer.pad_token_id] * pad_len
                labels = labels + [tokenizer.pad_token_id] * pad_len

                if data_args.ignore_pad_token_for_loss:
                    labels = [(l if l != tokenizer.pad_token_id else -100) for l in labels]

                model_inputs["input_ids"].append(input_ids)
                model_inputs["labels"].append(labels)

        return model_inputs
    
    def print_dataset_example(example):
        print("input_ids", example["input_ids"])
        print("inputs", tokenizer.decode(example["input_ids"]))
        print("label_ids", example["labels"])
        print("labels", tokenizer.decode(example["labels"]))

    #如果训练
    if training_args.do_train:
        if "train" not in raw_datasets:
            raise ValueError("--do_train requires a train dataset")
        train_dataset = raw_datasets["train"]
        
        #是否设定了训练数据条数，如果有的话就选随机选择max_train_samples条数据
        if data_args.max_train_samples is not None:
            max_train_samples = min(len(train_dataset), data_args.max_train_samples)
            train_dataset = train_dataset.select(range(max_train_samples))
        #开会话调用刚才preprocess_function_train映射成数据集
        with training_args.main_process_first(desc="train dataset map pre-processing"):
            train_dataset = train_dataset.map(
                preprocess_function_train,
                batched=True,
                num_proc=data_args.preprocessing_num_workers,
                remove_columns=column_names,
                load_from_cache_file=not data_args.overwrite_cache,
                desc="Running tokenizer on train dataset",
            )
        #输出第一个训练实例
        print_dataset_example(train_dataset[0])

    if training_args.do_eval:
        max_target_length = data_args.val_max_target_length
        if "validation" not in raw_datasets:
            raise ValueError("--do_eval requires a validation dataset")
        eval_dataset = raw_datasets["validation"]
        if data_args.max_eval_samples is not None:
            max_eval_samples = min(len(eval_dataset), data_args.max_eval_samples)
            eval_dataset = eval_dataset.select(range(max_eval_samples))
        with training_args.main_process_first(desc="validation dataset map pre-processing"):
            eval_dataset = eval_dataset.map(
                preprocess_function_eval,
                batched=True,
                num_proc=data_args.preprocessing_num_workers,
                remove_columns=column_names,
                load_from_cache_file=not data_args.overwrite_cache,
                desc="Running tokenizer on validation dataset",
            )
        print_dataset_example(eval_dataset[0])

    if training_args.do_predict:
        max_target_length = data_args.val_max_target_length
        if "test" not in raw_datasets:
            raise ValueError("--do_predict requires a test dataset")
        predict_dataset = raw_datasets["test"]
        if data_args.max_predict_samples is not None:
            max_predict_samples = min(len(predict_dataset), data_args.max_predict_samples)
            predict_dataset = predict_dataset.select(range(max_predict_samples))
        with training_args.main_process_first(desc="prediction dataset map pre-processing"):
            predict_dataset = predict_dataset.map(
                preprocess_function_eval,
                batched=True,
                num_proc=data_args.preprocessing_num_workers,
                remove_columns=column_names,
                load_from_cache_file=not data_args.overwrite_cache,
                desc="Running tokenizer on prediction dataset",
            )
        print_dataset_example(predict_dataset[0])

    # Data collator
    label_pad_token_id = -100 if data_args.ignore_pad_token_for_loss else tokenizer.pad_token_id
    #DataCollatorForSeq2Seq对象是用于处理和准备序列到序列任务的数据的数据整理器
    data_collator = DataCollatorForSeq2Seq(
        tokenizer,
        model=model,
        label_pad_token_id=label_pad_token_id,
        pad_to_multiple_of=None,
        padding=False
    )

    # Metric
    def compute_metrics(eval_preds):
        preds, labels = eval_preds
        if isinstance(preds, tuple):
            preds = preds[0]
        decoded_preds = tokenizer.batch_decode(preds, skip_special_tokens=True)
        if data_args.ignore_pad_token_for_loss:
            # Replace -100 in the labels as we can't decode them.
            labels = np.where(labels != -100, labels, tokenizer.pad_token_id)
        decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)

        score_dict = {
            "rouge-1": [],
            "rouge-2": [],
            "rouge-l": [],
            "bleu-4": []
        }
        for pred, label in zip(decoded_preds, decoded_labels):
            hypothesis = list(jieba.cut(pred))
            reference = list(jieba.cut(label))
            rouge = Rouge()
            scores = rouge.get_scores(' '.join(hypothesis) , ' '.join(reference))
            result = scores[0]
            
            for k, v in result.items():
                score_dict[k].append(round(v["f"] * 100, 4))
            bleu_score = sentence_bleu([list(label)], list(pred), smoothing_function=SmoothingFunction().method3)
            score_dict["bleu-4"].append(round(bleu_score * 100, 4))

        for k, v in score_dict.items():
            score_dict[k] = float(np.mean(v))
        return score_dict

    # Override the decoding parameters of Seq2SeqTrainer
    #设置最大生成长度
    training_args.generation_max_length = (
        training_args.generation_max_length
        if training_args.generation_max_length is not None
        else data_args.val_max_target_length
    )

    #设置beam search数量
    training_args.generation_num_beams = (
        data_args.num_beams if data_args.num_beams is not None else training_args.generation_num_beams
    )
    # Initialize our Trainer
    trainer = Seq2SeqTrainer(
        model=model,
        args=training_args,
        train_dataset=train_dataset if training_args.do_train else None,
        eval_dataset=eval_dataset if training_args.do_eval else None,
        tokenizer=tokenizer,
        data_collator=data_collator,
        compute_metrics=compute_metrics if training_args.predict_with_generate else None,
        save_changed=model_args.pre_seq_len is not None
    )

    # Training
    if training_args.do_train:
        checkpoint = None
        #是否从历史检查点恢复
        if training_args.resume_from_checkpoint is not None:
            checkpoint = training_args.resume_from_checkpoint
        # elif last_checkpoint is not None:
        #     checkpoint = last_checkpoint
        #Gradient Checkpointing 是一种内存优化技巧，允许你用更少的GPU内存进行训练，尤其是对于大型模型和长序列
        #它的原理是不保存每一层的所有中间激活，而是只保存一部分，并在反向传播时重新计算其他激活。这样可以节省内存，但可能会增加计算时间。
        model.gradient_checkpointing_enable()
        #tensor有一个属性叫requires_grad，它决定是否在反向传播时计算这个tensor的梯度。通常，模型的权重会设置requires_grad=True，因为我们需要它们的梯度来更新权重
        model.enable_input_require_grads()
        #训练
        train_result = trainer.train(resume_from_checkpoint=checkpoint)
        # trainer.save_model()  # Saves the tokenizer too for easy upload

        metrics = train_result.metrics
        max_train_samples = (
            data_args.max_train_samples if data_args.max_train_samples is not None else len(train_dataset)
        )
        metrics["train_samples"] = min(max_train_samples, len(train_dataset))

        trainer.log_metrics("train", metrics)
        trainer.save_metrics("train", metrics)
        trainer.save_state()

    # Evaluation
    results = {}
    max_seq_length = data_args.max_source_length + data_args.max_target_length + 1
    if training_args.do_eval:
        logger.info("*** Evaluate ***")
        metrics = trainer.evaluate(metric_key_prefix="eval", do_sample=True, top_p=0.7, max_length=max_seq_length, temperature=0.95)
        max_eval_samples = data_args.max_eval_samples if data_args.max_eval_samples is not None else len(eval_dataset)
        metrics["eval_samples"] = min(max_eval_samples, len(eval_dataset))

        trainer.log_metrics("eval", metrics)
        trainer.save_metrics("eval", metrics)

    if training_args.do_predict:
        logger.info("*** Predict ***")
        predict_results = trainer.predict(predict_dataset, metric_key_prefix="predict", max_length=max_seq_length, do_sample=True, top_p=0.7, temperature=0.95)
        metrics = predict_results.metrics
        max_predict_samples = (
            data_args.max_predict_samples if data_args.max_predict_samples is not None else len(predict_dataset)
        )
        metrics["predict_samples"] = min(max_predict_samples, len(predict_dataset))

        trainer.log_metrics("predict", metrics)
        trainer.save_metrics("predict", metrics)

        if trainer.is_world_process_zero():
            if training_args.predict_with_generate:
                predictions = tokenizer.batch_decode(
                    predict_results.predictions, skip_special_tokens=True, clean_up_tokenization_spaces=True
                )
                predictions = [pred.strip() for pred in predictions]
                labels = tokenizer.batch_decode(
                    predict_results.label_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True
                )
                labels = [label.strip() for label in labels]
                output_prediction_file = os.path.join(training_args.output_dir, "generated_predictions.txt")
                with open(output_prediction_file, "w", encoding="utf-8") as writer:
                    for p, l in zip(predictions, labels):
                        res = json.dumps({"labels": l, "predict": p}, ensure_ascii=False)
                        writer.write(f"{res}\n")
    return results


def _mp_fn(index):
    # For xla_spawn (TPUs)
    main()


if __name__ == "__main__":
    main()