参考:李宏毅老师课件 PPO:DefaultreinforcementlearningalgorithmatOpenAI PPO=PolicyGradient从On-policy到Off-policy,再加一些constraint PolicyGradient BasicConception Actor:动作执行者(智能体) Env:环境 RewardFunction:奖励函数 Policy\(\pi\):anetworkwithparameter\(\theta\).Input:当前的Env.Output:actor要采取的下一个action的分布. Trajectory\(\tau\):...

  sSp2nwHrS2lq   2023年11月01日   103   0   0 大模型

LEA:ImprovingSentenceSimilarityRobustnesstoTyposUsingLexicalAttentionBias论文阅读 KDD2023原文地址 Introduction 文本噪声,如笔误(Typos),拼写错误(Misspelling)和缩写(abbreviations),会影响基于Transformer的模型.主要表现在两个方面: Transformer的架构中不使用字符信息. 由噪声引起的词元分布偏移使得相同概念的词元更加难以关联. 先前解决噪声问题的工作主要依赖于数据增强策略,主要通过在训练集中加入类似的typos和misspelling进行训练....

  sSp2nwHrS2lq   2023年11月01日   109   0   0 AI综合
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~