摩杜云开发者社区-摩杜云

强化学习 Proximal Policy Optimization (PPO)

参考:李宏毅老师课件 PPO:DefaultreinforcementlearningalgorithmatOpenAI PPO=PolicyGradient从On-policy到Off-policy,再加一些constraint PolicyGradient BasicConception Actor:动作执行者(智能体) Env:环境 RewardFunction:奖励函数 Policy\(\pi\):anetworkwithparameter\(\theta\).Input:当前的Env.Output:actor要采取的下一个action的分布. Trajectory\(\tau\):...

sSp2nwHrS2lq 2023年11月01日 103 0 0 大模型

LEA: Improving Sentence Similarity Robustness to Typos Using Lexical Attention Bias 论文阅读

LEA:ImprovingSentenceSimilarityRobustnesstoTyposUsingLexicalAttentionBias论文阅读 KDD2023原文地址 Introduction 文本噪声，如笔误(Typos),拼写错误(Misspelling)和缩写(abbreviations),会影响基于Transformer的模型.主要表现在两个方面: Transformer的架构中不使用字符信息. 由噪声引起的词元分布偏移使得相同概念的词元更加难以关联. 先前解决噪声问题的工作主要依赖于数据增强策略,主要通过在训练集中加入类似的typos和misspelling进行训练....

sSp2nwHrS2lq 2023年11月01日 109 0 0 AI综合

关注更多

空空如也 ~ ~

粉丝更多

空空如也 ~ ~