转载请备注出处:https://www.cnblogs.com/zhiyong-ITNote 概述 在做微调训练时,鉴于业务场景的需要,可能会存在微调数据集中含有敏感词汇,譬如:自杀、跳楼等。而开源模型可能没有做敏感词汇的屏蔽工程。因此可能就会出现不可预控的现象,而我遇到的是,当我输入敏感词汇时,模型(基于ChatGLM3)大多数时候返回空,继续正常提问,还是空的。此时模型相当于已经挂了。普遍来看,敏感词汇的覆盖场景是比较多的,尤其是控制不了用户的输入,很有可能就会恶意或无意的输入敏感词,而模型如果不能正常的回复,或是屏蔽这类词汇,很容易就会出现我的问题。 解决策略 从整个流程分析来看,敏...
一、LinearModels'Bias 上篇学习机器学习一文中,所构造的$y=b+wx_0$函数是一个linearmodel亦即线性模型,但是linearmodels有缺陷的——它过于简单了。实际应用中,我们所面临的不会只是一个简单的linearmodel,因此我们需要更复杂的models。 比如上图中的红色曲线,如何找到它的表达式呢? 可以通过许多条蓝色的函数相加得到红色曲线的函数。所有的PiecewiseLinearCurves都可以用一组类似的“蓝色函数+常数”来表达出来,即使是曲线也可以,如下图: 二、如何找“蓝色函数”? SigmoidFunction$y=c\...
1. 创造力 1.1. 创造力是一种原动力,它驱使人们产生新的、令人惊讶的、有价值的想法,并积极地将这些想法付诸实践 1.2. 创造出在表面上看似新的东西相对容易 1.3. 在遇到偶然间的创造性行为时,都会表现得异常兴奋、急迫和匆忙 1.4.&n...
CodeGeeX在升级到第三代模型时,就引入了RAG检索增强生成的能力。即模型会根据检索到的相关背景知识生成回答,大幅减轻生成内容的幻觉性。在CodeGeeX插件中,是通过侧边栏对话框中输入“@repo”触发RAG技术。用户可以对开源代码仓库进行提问,更准确地获得指定开源代码库相关的内容检索和生成。 近期CodeGeeX通过对检索算法的优化,以及新增流行代码仓库的支持,使得插件中的@repo功能效果获得提升。如果你已经在IDE中安装了v2.7.0版本之后的CodeGeeX插件,那么,现在重新启动IDE,就可以体验性能提升后的“@repo”功能。 一、搜索算法优化,检索效果提升 使用@repo...
说明:本人正在跟随台大李宏毅老师的课程学习,为了加强学习效果,特写成blog来记录,所有博客中的图片均截取自李宏毅老师的PPT。 一、机器学习是在干什么? 以中学时代所学的函数为例,做应用题时我们都会建立相应的正比例函数、二次函数等来解决,给定一个自变量x都能得到唯一的因变量y。现在我想找到一个函数ƒ,它的输入并不是数字,而是一段语音,最后相应的文字,亦或输入的是一副图片,最后输出的是图片中的内容,那么如何求解该函数?显然,人类做不到,那就交给机器(计算机)来找! 二、不同类型的函数(亦即不同的任务) Regression(回归问题类):输出的是scalar(标量),标量只有大小...
近来以为,使用GPT的一个方便之处就是,问题往往是自己主动问的(不论是临时受到的刺激还是长期依赖的困惑)。 在这种条件下,主动问的东西,得到了相当量(且在一些情况下还是有质的保证的)的回应的时候,难免就会在头脑中碰撞出更多的问题。 最近在学习一些东西(虽然初级但是面较广)的时候,就时常能感觉到,问题一个接着一个出来,甚至为了避免影响主对话的进行,我还要再开两个窗口用来分岔或者补充(甚至用两个只是我方便操作和避免断联的临时上限)。 甚至有时候问题记了几十个,在Evernote便签里用了个列表(也许后面可以改为滴答,主要因为大象对我还是用来做随记),虽然后面也会挨个去查,但是分支的效果是没能实线的...
1. 民营部门 1.1. 障碍最大的一步,与履行协议所需要的人才和技能有关 1.2. 多样性很好,不要过分依赖任何一种资源,因为政府会出于政治原因淡化问题,不尊重科学,甚至退出协议 1.2.1. 民营部门和非政府组织的强大联盟可能在这方面发挥至关重要的作用 1.2.2. 由于不少美国商界领袖支持《巴黎协定》的目标,如果这些商界领袖和公民领袖能够参与谈判,那么特朗普总统退出该协定的可能性也会大大降低 1.3. 就目前的情况来看,很少有人工智能和先进技术方面的问题能够吸引公众足够的注意力,从而为国际治理提供一条清晰的途径 1.4.&nb...
一、写在前面 随着深度学习技术的不断发展,模型的训练成本也越来越高。训练一个高效的通用模型,需要大量的训练数据和算力。在很多非大模型相关的常规任务上,往往也需要使用多卡来进行并行训练。在多卡训练中,最为常用的就是分布式数据并行(DistributedDataParallel,DDP)。但是现有的有关DDP的教程和博客比较少,内容也比较分散繁琐。在大多数情况下,我们只需要学会如何使用即可,不需要特别深入地了解原理。为此,写下这个系列博客,简明扼要地介绍一下DDP的使用,抛开繁杂的细节和原理,帮助快速上手使用(Allinoneblog)。 篇幅较长,分为上下两篇:这篇简要介绍相关背景和理论知识,下...
一、简要回顾DDP 在上一篇文章中,简单介绍了Pytorch分布式训练的一些基础原理和基本概念。简要回顾如下: 1,DDP采用Ring-All-Reduce架构,其核心思想为:所有的GPU设备安排在一个逻辑环中,每个GPU应该有一个左邻和一个右邻,设备从它的左邻居接收数据,并将数据汇总后发送给右邻。通过N轮迭代以后,每个设备都拥有全局数据的计算结果。 2,DDP每个GPU对应一个进程,这些进程可以看作是相互独立的。除非我们自己手动实现,不然各个进程的数据都是不互通的。Pytorch只为我们实现了梯度同步。 3,DDP相关代码需要关注三个部分:数据拆分、IO操作、和评估测试。 二、DDP训练框架...
简介 Lancedb是一个用于人工智能的开源矢量数据库,旨在存储、管理、查询和检索大规模多模式数据的嵌入。Lancedb的核心是用Rust编写的,并构建在Lance之上,专为高性能ML工作负载和快速随机访问而设计。 快速开始 安装 pipinstalllancedb 目前0.6.8需要pyarrow-12.0.0及以上,亲测15.0会报错。 创建客户端 importlancedb importpandasaspd importpyarrowaspa uri="data/sample-lancedb" db=lancedb.connect(uri) 异步客户端 async_db=awaitl...
1. 解决方案 1.1. 全球人工智能的环境错综复杂,它严重依赖于价值观,且关系重大 1.2. 即使是与大家同仇敌忾的问题做斗争,也往往无法在国际社会中取得最佳效果 1.3. OPCW(禁止化学武器组织)已经帮助限制了化学武器的开发和部署,但没有协议是百分百奏效的 1.4. 如果《核不扩散条约》有完美的历史记录,我们就不会面临当前Y朗和C鲜核问题的紧张局势 1.5. 全球形势变幻莫测,世界人民需要应对更加复杂的挑战,新型或实验性的治理形式正在出现 1.5.1. 由于这些新模式促进了广泛参与者之间的持续互动,它们寻求获得一种...
前面我们已经聊过众多指令微调的方案,这一章我们重点讨论下如何注入某一类任务或能力的同时,尽可能不损失模型原有的通用指令理解能力。因为在下游或垂直领域应用中,我们设计的推理任务风格或形式,往往很难通过prompt来稳定实现。这种情况下就会依赖微调来注入稳定的推理风格,但同时在部分场景下我们又需要模型微调前的通用指令理解能力。虽然理论上说有得必有失,但成年人真的不想做选择!这里我们讨论两种方案,来尽可能降低通用能力的损失,一种数据方案,一种训练方案。 TwoStageFinetuneProMoT PreservingIn-ContextLearningabilityinLargeLanguag...
1. 大宪章 1.1. 1215年会议开启了一个艰难的谈判过程,充满了紧张和对权力与道德权威的争夺 1.1.1. 这部宪章会赋予各方一系列的权力,对国王的自由裁量权进行制衡 1.2. 《大宪章》还需要300多年的时间和多次迭代,才能成为财产权、公平税收、司法程序和政府最高法律的参考文件 1.3. 当殖民者到达北美海岸时,他们为殖民地制定了自己的宪章,并最终通过了《宪法》和《权利法案》,这使得《大宪章》中的理想得以实现,无论贵贱贫富,每个公民都享有他们应有的权利 1.4. 很少把《大宪章》看作一个具有约束力的法典范例,而是更多地把它看...
一简介 Chroma是一款AI开源向量数据库,用于快速构建基于LLM的应用,支持Python和Javascript语言。具备轻量化、快速安装等特点,可与Langchain、LlamaIndex等知名LLM框架组合使用。 二基本用法 1安装 安装方式非常简单,只需要一行命令 pipinstakkchromadb 2创建一个客户端 importchromadb chroma_client=chromadb.Client() 3创建一个集合 这里面的集合用于存放向量以及元数据的信息,可以理解为传统数据库的一张表 collection=chroma_client.create_collection...
FaceFusion是一款多功能的AI换脸软件,它不仅能图片、视频换脸,还可以直播换脸,换脸效果真实、自然 与大多数换脸软件不同的是,FaceFusion不仅支持N卡处理程序(Azure),还额外提供了CPU处理模式(渣机必备) FaceFusion最新中文版: 百度网盘:https://pan.baidu.com/s/1Xwif-_sMpmdbavVT2yizHw?pwd=i422 FaceFusion提供了人脸替换、人脸高清修复和背景高清修复3种策略(可多选),每种策略下包含多个模型可自由切换 FaceFusion可以自定义——执行线程、执行队列...
本文分享自华为云社区《“大模型驱动的软件研发”华为云助推企业研发智能化升级》,作者:华为云PaaS服务小智。 随着人工智能的发展,AI大模型在各个行业开始广泛应用。利用AI大模型打通工具链,提高产业价值已成为趋势。在全球科技竞争加剧的情况下,软件工具链的发展成为国家信息安全与科技创新的关键。如何利用AI大模型推动软件工具链发展,加速软件研发,成为当前的研究热点。 为进一步推进产学研用深度融合,聚焦软件工具链的研发与应用,4月9日下午,由华为云计算技术有限公司、北京中关村科学城创新发展有限公司主办,中国北京(海淀)留学人员创业园、北京中关村科学城科创服务有限公司协办的“大模型驱动的软件研发新...
1. 医疗保健 1.1. 人工智能在我们的身心健康护理中的使用可能会显得更有侵略性,这也是迄今为止人类医生仍然在大部分医疗相关体系中占据着核心地位的原因之一 1.2. 人工智能在医疗保健领域的力量在于,认知机器可以以比人脑更快、更准确的方式处理海量的数据流,并且识别复杂的模式 1.2.1. &...
本文分享自华为云社区《如何基于香橙派AIpro将开源框架模型转换为昇腾模型》,作者:昇腾CANN。 在前面的介绍中,我们知道了如何基于香橙派AIpro开发AI推理应用,也大致了解到在推理之前,需要把原始网络模型(可能是PyTorch的、TensorFlow,可能是Caffe的等等)转换成.om模型,然后才能调用昇腾的aclmdlExecute等模型执行接口在香橙派AIpro进行模型推理。这个模型转换的过程就要用到ATC工具,目前ATC工具直接支持从Caffe、ONNX、TensorFlow以及MindSpore模型的转换,所以如果你的训练框架是PyTorch,则需要做torch.onnx.ex...
简介 官网:MealPY官网 开源许可:(GPL)V3 MEALPY简介 官网简介翻译 MEALPY(MEta-heuristicALgorithmsinPYthon)是一个提供最新自然启发式元启发算法的Python模块,它是最大的此类Python模块之一。这些算法模仿自然界中的成功过程,包括生物系统以及物理和化学过程。mealPy的目标是免费向所有人分享元启发领域的知识,帮助各领域的研究者尽快接触到优化算法,并且实现从经典到最先进的元启发算法,涵盖了元启发算法的全部历史。 MEALPY的用途广泛,你可以使用它来分析算法参数、进行算法的定性和定量分析、分析算法的收敛速率、测试和分析算法的可扩展...
1. 直通心智 1.1. 如今,科学家已经可以诱发触觉、压觉、痛觉和大约250种其他感觉 1.1.1. DARPA支持的触觉技术第一次让一位受伤的人能够用假肢和手指感知到被触碰的物体 1.1.2. 可以建立人工系统,来替换和弥补受损大脑的部分区域 1.1.3. 神经科学家能够识别出大脑对各种想法的抽象概念 1.2. 我们可以不在文字层面进行交流,而是在概念和思想层面进行交流。我们的交流没有理由被限制在视觉或感知层面。我们没有理由不能在感觉或情感层面进行交流 1.2.1. 菲利普·阿尔维尔达(PhilipAlvelda) 1...