前面2篇文章,我们使用文生文、文生图和文生音频三个大模型共同实现了图文并茂的儿童绘本故事和绘本故事音频需求: 第一篇根据主题生成儿童绘本故事:GLM-4-Flash大模型API免费了,手把手构建“儿童绘本”应用实战(附源码) 第二篇根据儿童绘本故事生成长音频:ChatTTS长音频合成和本地部署2种方式,让你的“儿童绘本”发声的实战教程(文末有福利) 友情提示:第二篇有送书活动,活动还在继续,欢迎大家参与 我们可以看出,儿童绘本故事的整个流程如下: 在整个流程中,其实我们核心就做了2件事:设定主题明确需求、编排整个流程让应用跑起来。而其他的包括构思文案、故事内容、图片生成、长音频合并等,其...
接上文(GLM-4-Flash大模型API免费了,手把手构建“儿童绘本”应用实战(附源码)),老牛同学通过GLM-4-Flash文生文和CogView-3文生图大模型,和大家一起编写了一个图文并茂的儿童绘本应用,并且以《黑神话·悟空》当前热门游戏为背景,做了一本名为《悟空探秘之旅》的儿童小绘本。 绘本我们是做好了,可是还得我们读给小朋友们听,老牛同学懒虫又犯了:能不能把绘本转换成音频,直接播放给小朋友们听(顺便我也跟着听听)? 这让老牛同学想到了之前写的关于ChatTTS详细介绍的文章:ChatTTS开源文本转语音模型本地部署、API使用和搭建WebUI界面(建议收藏) 老牛同学打开之前写的C...
老牛同学刚刷到了一条劲爆的消息,GLM-4-Flash大模型推理API免费了:https://bigmodel.cn/pricing 老牛同学一直觉得上次阿里云百炼平台为期1个月免费额度的“羊毛”已经够大了(太卷了,阿里云免费1个月大模型算力额度,玩转Llama3.1/Qwen2等训练推理),但经过老牛同学在智谱AI官网反复确认之后,竟然不是标题党,它是真的免费,感觉大模型厂商的“羊毛”简直是没有最大,只有更大(老牛同学这次要站智谱AI这边)! 老牛同学本地部署推理和体验的大模型有很多,且第一个就是GLM-4-9B(是的,比Qwen2-7B还要早一些),也一直关注着智谱AI推出的大模型: ...
老牛同学之前偶尔刷到过InternLM大模型相关的介绍文章,因为在老牛同学心中,Qwen2千问才是国内开源模型中最适合自己的大模型,原因是自己在本地部署和应用Qwen2都非常满意,所以没有在意InternLM大模型,也就没有动力去了解它。 今天老牛同学又刷到InternLM大模型发布1.8B新开源版本的文章,同时还知道了书生·浦语是它的中文名。因老牛同学在上海生活了十几年了,当看到浦字时有点敏感,猜测想是不是代表上海浦东的意思?所以特意去查了一下,官网介绍:书生·浦语(InternLM)大语言模型由上海人工智能实验室联合多家机构共同推出。官网并没有解释浦字的含义,因此老牛同学就算自己的猜测是对...
MiniCPM-V2.6是清华和面壁智能最新发布的多模态模型,亦称面壁“小钢炮”,它是MiniCPM-V系列中最新、性能最佳的模型。该模型基于SigLip-400M和Qwen2-7B构建,仅8B参数,但却取得20B以下单图、多图、视频理解3SOTA成绩,一举将端侧AI多模态能力拉升至全面对标GPT-4V水平。 MiniCPM-V2.6的主要特点包括: 仅8B参数,单图、多图、视频理解全面超越GPT-4V! 小钢炮一口气将实时视频理解、多图联合理解、多图ICL等能力首次搬上端侧多模态模型。 端侧友好:量化后端侧内存仅占6GB,个人笔记本电脑可部署和推理。 更多性能和功能介绍,参见GitHub...
老牛同学在前面文章中,介绍了不同大模型的部署和推理方式。有网友给老牛同学留言,希望老牛同学能写一篇使用vLLM通过CPU和GPU推理Qwen2等大语言模型的文章,老牛同学决定本期安排起来。 由于vLLM默认并不支持CPU部署和推理,为了验证和演示CPU部署和推理过程,老牛同学肝了周六1个晚上和周日大半天,目前都成功了。因vLLM通过CPU部署推理的文档少之又少,官网有些地方也不是很明确,导致老牛同学在执行过程中走了不少弯路。因此,老牛同学希望通过本文,能帮助大家避免踩坑和走弯路。 通过本文,老牛同学将介绍vLLM的3部分内容: CPU模式下,如果编译打包vLLM框架(你没有看错:CPU模式需...
在前面的文章中,老牛同学介绍了不少大语言模型的部署、推理和微调,也通过大模型演示了我们的日常的工作需求场景。我们通过大语言模型,实实在在的感受到了它强大的功能,同时也从中受益颇多。 今天,老牛同学想和大家一起来训练一个自定义的、但是功能齐全的简单的神经网络模型。这个模型虽然在参数规模、训练数据集、应用场景等方面均无法与大语言模型相媲美,但是我们旨在通过这个模型的训练过程,一窥神经网络模型的训练全貌。正所谓“麻雀虽小,五脏俱全”,同时老牛同学也希望能通过本文,与大家一起学习加深对训练神经网络的理解,逐步做到“肚里有货,从容不迫”! 由于模型训练过程的代码可能会反复调试和修改,老牛同学强烈建议大家...
早上收到朋友转发的阿里云公众号推文,阿里云为用户免费提供1个月的训练推理等算力额度(上阿里云,免费玩转Llama405B「超大杯」!)。想想上周老牛同学为了制作微调技术教程,演示训练Qwen2-0.5B小尺寸大模型就跑了一个晚上(基于Qwen2大模型微调技术详细教程(LoRA参数高效微调和SwanLab可视化监控)),如今阿里云竟然免费提供1个月训练推理算力,而且还支持Llama3.1-405B超大尺寸模型,标题和内容确实把老牛同学给够吸住了。 虽然老牛同学非常相信阿里云在中国市场的地位,但还是有那么一点点担心是标题党,因此老牛同学决定验证一下,走一遍完整开通和使用流程,最后给出自己的感受给大...
自ChatGPT发布以来,大型语言模型(LargeLanguageModel,LLM,大模型)得到了飞速发展,它在处理复杂任务、增强自然语言理解和生成类人文本等方面的能力让人惊叹,几乎各行各业均可从中获益。 然而,在一些垂直领域,这些开源或闭源的通用基础大模型也暴露了一些问题,主要体现在以下3个方面: 知识的局限性:大模型的知识源于训练数据,目前主流大模型(如:通义千问、文心一言等)的训练数据基本来源于网络公开的数据。因此,非公开的、离线的、实时的数据大模型是无法获取到(如:团队内部实时业务数据、私有的文档资料等),这些数据相关的知识也就无从具备。 幻觉问题:大模型生成人类文本底层原理是基于...
老牛同学在前面有关大模型应用的文章中,多次使用了Ollama来管理和部署本地大模型(包括:Qwen2、Llama3、Phi3、Gemma2等),但对Ollama这个非常方便管理本地大模型的软件的介绍却很少。 目前,清华和智谱AI联合发布开源的GLM4-9B大模型也能支持Ollama进行本地部署了(本地部署GLM-4-9B清华智谱开源大模型方法和对话效果体验),Ollama支持的大模型越多越普及,对于的应用也就越多。为了降低大家查阅资料等学习时间,老牛同学今天尝试着对Ollama进行一次详细完整介绍。毕竟老牛同学也在不断学习中,若有疏漏或者错误之处,还请各位朋友多多指正,谢谢大家。 本文将分为以...
看到上面面部表情动态图片,是不是感觉挺有有意思?它就是通过快手、中科大和复旦大学联合研发的图生视频开源大模型LivePortrait(灵动人像)生成的视频。通过LivePortrait大模型,我们只需要一张人脸正面图片和一段文字或音频,即可制作专业的视频内容,例如产品介绍、教学课程、趣味视频等。 有关LivePortrait更多的展示样例参见:https://liveportrait.github.io/ 老牛同学将和大家一起,在本地部署LivePortrait图生视频大模型,并且生成我们自己的视频。本文将包括以下几部分: 基础环境准备:与我们之前部署LLM大模型不同,LivePort...
老牛同学在之前的介绍大模型Prompt提示词的文章中(高效编写大模型Prompt提示词,解锁AI无限创意潜能),曾把大模型比作成一位无所不能无所不知且不知疲惫的“大师”。我们在日常工作、学习中等一些通用知识方面的问题,通常情况下,我们均可通过Prompt提示词就能从“大师”那里得到期望的结果。 但是,在某些垂直场景的特定任务(包括:个性化服务、内部私有数据等)中,这位“大师”可能就不一定能胜任了: 数据隐私安全:保密项目、创业团体和企业内部数据是需要保证绝对安全的,“大师”的知识来自预训练的公开数据,在推理时就缺乏这方面知识。 Prompt长度和截取:使用清晰详细的Prompt提示词,确实能...
6月27日,全球知名的开源平台HuggingFace的联合创始人兼首席执行官Clem在社交平台激动宣布,阿里Qwen2-72B成为了开源模型排行榜的王者。 这是一件大好事,说明了我们在大模型领域从先前的追赶,逐渐走向了领导,未来完全有可能会引领着全球开源模型的发展潮流,这是我们的骄傲! 不过话说回来,Qwen2序列有5个参数版本,分别是Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。本次排行榜第一的是Qwen2-72B参数版本,那么其他参数版本的评测结果如何呢?老牛同学查看了Qwen2的官方文档,有一些比较评测:https://...
Gemma2是Google最新发布的开源大语言模型。它有两种规模:90亿(9B)参数和270亿(27B)参数,分别具有基础(预训练)和指令调优版本,拥有8KTokens的上下文长度: Gemma-2-9b:90亿参数基础模型版本 Gemma-2-9b-it:90亿参数基础模型的指令调优版本 Gemma-2-27B:270亿参数基础模型版本 Gemma-2-27B-it:270亿参数基础模型的指令调优版本 Gemma2模型的训练数据量约为其第一代的两倍,总计13万亿Tokens(270亿模型)和8万亿Tokens(90亿模型)的网页数据(主要是英语)、代码和数学数据。同时,相比较第一代,G...
目前市面上有不少基于大模型的CodeCopilot产品,部分产品对于个人开发者来说可免费使用,比如阿里的通义灵码、百度的文心快码等。这些免费的产品均通过API的方式提供服务,因此调用时均必须联网、同时需要把代码、提示词等内容作为API的入参在网络中传输和API服务器中进行处理,这里就涉及到一个比较重要的问题:隐私安全 针对小团队私有保密项目、创新团队孵化新产品,隐私安全问题就显得格外重要。因此,团队内部部署私有的CodeCopilot方案就应运而出了: 今天老牛同学和大家一起来使用Qwen2-7构建个人或者团队专属的私有化CodeCopilot,除了代码生成之外,还可以是支持AI问答、代码...
老牛同学之前使用的MacBookPro电脑配置有点旧(2015年生产),跑大模型感觉有点吃力,操作起来有点卡顿,因此不得已捡起了尘封了快两年的MateBookPro电脑(老牛同学其实不太喜欢用Windows电脑做研发工作)。此文注意是记录配置新电脑的内容,一来给老牛同学留个备忘,同时也特别希望能给其他朋友一些帮助。 配置一台方便用于大模型应用研发的新电脑,最基础的需要包括以下配置内容: Miniconda包管理工具的安装和配置(兼容pip) Python虚拟环境配置(指定Python版本且无需单独下载Python安装) JupyterLabPython研发WebIDE配置 Ollama本地大...
前面几篇博文,老牛同学和大家一起在个人电脑部署了Qwen2、GLM4、Llama3、ChatTTS和StableDiffusion等LLM大模型,也通过API和WebUI的方式完成了体验。 但是这些大模型因为部署在个人电脑本地,不能够随时携带。如果能在手机上部署大模型的话,老牛同学感觉很有意义,手机与我们的生活更为密切相关,并且手机上也有大量的个人数据,与大模型交互起来也更加方便。同时,在手机上跑个大模型,还是很酷! 老牛同学期望能通过本文,和大家一起完成这项很酷且有意义的事情。老牛同学用的是小米10Pro手机,其配置参数如下: 选择Phi-3微软开源模型 受限于手机CPU和内存等硬件配置,...
AI资讯 「网红」周鸿祎,要为AI带货 突发!OpenAI收购数据公司 盘古5.0重磅发布!华为云大模型年度杀招来了,人形机器人现场整活 GPT-4o一夜被赶超!Anthropic推出Claude3.5,网友3分钟克隆马里奥游戏 中国人自己的操作系统!余承东掏出纯血鸿蒙,华为AI大招硬刚苹果 Claude3.5突然发布!GPT-4o不香了 无论真实还是AI视频,「摩斯卡」都能重建恢复4D动态可渲染场景 抢疯了,腾讯给大模型人才,定了一个前所未有的标准 华为发布会杀疯了:盘古大模型跳级发布,编程语言仓颉首次亮相 美政府再发AI禁令!限制美国人对华AI技术和产品投资 「网红」周鸿祎,要为AI带...
备受期待的StableDiffusion3(以下亦简称SD3)如期向公众开源了(StableDiffusion3Medium),作为StabilityAI迄今为止最先进的文本生成图像的开源大模型,SD3在图像质量、文本内容生成、复杂提示理解和资源效率方面有了显著提升,被誉为AI文生图领域的开源英雄。 StableDiffusion3Medium特点包括: 模型仅包含20亿参数,具有体积小、适合在个人PC和笔记本电脑上运行的优点,所以我们也可以将其部署到自己的电脑上使用。 图像质量整体提升,能生成照片般细节逼真、色彩鲜艳、光照自然的图像;能灵活适应多种风格,无需微调,仅通过提示词就能生成动漫、...
AI资讯 陕西推出AI千亿级发展计划,五大产业集群,智算超3000P 试了快手的视频AI,竟然有点领先 “技术故障”背刺巴菲特,金融大模型到底靠不靠谱? Gemini视频推理遥遥领先GPT-4o,首个视频多模态基准Video-MME 国产视频大模型PixVerse发布运动笔刷,网友:效果超Runway AI研究的主要推动力是什么?ChatGPT团队科学家:算力成本下降 LLM最全「怪癖」首曝光!马里兰OpenAI等30+学者祭出75页提示报告 大模型「幻觉」全无?图神经网络成破解核心,精准预测因果消除「幻觉」 为什么你的iPhone,肯定用不上「苹果AI」? 答案抽取正确率达96.88%,x...