最近Mac系统在运行大语言模型(LLMs)方面的性能已经得到了显著提升,尤其是随着苹果M系列芯片的不断迭代,本次我们在最新的MacOs系统Sonoma中本地部署无内容审查大语言量化模型Causallm。 这里推荐使用koboldcpp项目,它是由c编写的kobold项目,而MacOS又是典型的Unix操作系统,自带clang编译器,也就是说MacOS操作系统是可以直接编译C语言的。 首先克隆koboldcpp项目: gitclonehttps://github.com/LostRuins/koboldcpp.git 随后进入项目: cdkoboldcpp-1.60.1 输入make命令,...

  xvI3oTgzRc2D   2024年03月09日   34   0   0 大模型

目前流行的开源大语言模型大抵都会有内容审查机制,这并非是新鲜事,因为之前chat-gpt就曾经被“玩”坏过,如果没有内容审查,恶意用户可能通过精心设计的输入(prompt)来操纵LLM执行不当行为。内容审查可以帮助识别和过滤这些潜在的攻击,确保LLM按照既定的安全策略和道德标准运行。 但我们今天讨论的是无内容审查机制的大模型,在中文领域公开的模型中,能力相对比较强的有阿里的Qwen-14B和清华的ChatGLM3-6B。 而今天的主角,CausalLM-14B则是在Qwen-14B基础上使用了Qwen-14B的部分权重,并且加入一些其他的中文数据集,最终炼制了一个无内容审核的大模型版本,经过...

  xvI3oTgzRc2D   2024年02月29日   49   0   0 大模型

公元2024年2月24日18时许,笔者的个人网站突然遭遇不明身份者的DDOS攻击,且攻击流量已超过阿里云DDos基础防护的黑洞阈值,服务器的所有公网访问已被屏蔽,由于之前早已通过Nginx屏蔽了所有国外IP,在咨询了阿里云客服之后,阿里网安的老同事帮助分析日志并进行了溯源,客服建议笔者选择立刻报警处理! 我国《刑法》二百八十六条规定,违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,处五年以下三年以上有期徒刑或者拘役;后果特别严重的,处五年以上有期徒刑。 但口说无凭,没有证据无法立案,于是立刻登录阿里云后台,调取后台日志 随后点击DD...

  xvI3oTgzRc2D   2024年02月26日   16   0   0 网络安全

制作双语字幕的方案网上有很多,林林总总,不一而足。制作双语字幕的原理也极其简单,无非就是人声背景音分离、语音转文字、文字翻译,最后就是字幕文件的合并,但美中不足之处这些环节中需要接口api的参与,比如翻译字幕,那么有没有一种彻底离线的解决方案?让普通人也能一键制作双语字幕,成就一个人的字幕组? 人声背景音分离 如果视频不存在嘈杂的背景音,那么大多数情况下是不需要做人声和背景音分离的,但考虑到背景音可能会影响语音转文字的准确率,那么人声和背景音分离还是非常必要的,关于人声抽离,我们首先想到的解决方案当然是spleeter,但其实,阿里通义实验室开源的大模型完全不逊色于spleeter,它就是F...

  xvI3oTgzRc2D   2024年02月19日   16   0   0 AI综合

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战,但实际上,Whisper的使用者完全可以针对中文的语音做一些优化的措施,换句话说,Whisper的“默认”形态可能在中文领域斗不过FunAsr,但是经过中文特殊优化的Whisper就未必了。 中文文本标注优化 Whisper经常被人诟病的一点是对中文语音转写后标点符号的支持不够完备。首先安装whisper: pipinstall-Uopenai-whisper 编写转写脚本: importwhisper device="cuda:0"iftorch.cuda.is_available()else"cpu" audio=w...

  xvI3oTgzRc2D   2024年01月25日   16   0   0 AI综合

快就一个字,甚至比以快著称于世的Sublime4编辑器都快,这就是Zed.dev编辑器。其底层由Rust编写,比基于Electron技术微软开源的编辑器VSCode快一倍有余,性能上无出其右,同时支持多人编辑代码。 安装和配置Zed.dev Zed.dev编辑器还在灰度测试阶段,暂时只释出了Mac版本,在Zed.dev官网下载,安装成功后,进入Zed.dev编辑器,使用组合键Command+,调出编辑器的配置文件: //Zedsettings // //ForinformationonhowtoconfigureZed,seetheZed //documentation:https://zed...

  xvI3oTgzRc2D   2024年01月20日   18   0   0 R语言

HuggingFace是一个机器学习(ML)和数据科学平台和社区,帮助用户构建、部署和训练机器学习模型。它提供基础设施,用于在实时应用中演示、运行和部署人工智能(AI)。用户还可以浏览其他用户上传的模型和数据集。HuggingFace通常被称为机器学习界的GitHub,因为它让开发人员公开分享和测试他们所训练的模型。 本次分享如何快速部署本地训练的Bert-VITS2语音模型到HuggingFace。 本地配置HuggingFace 首先注册HuggingFace平台: https://huggingface.co/join 随后在用户的设置界面新建token,也就是令牌: 这里令牌有两...

  xvI3oTgzRc2D   2024年01月15日   15   0   0 AI综合

君不言语音识别技术则已,言则必称Whisper,没错,OpenAi开源的Whisper确实是世界主流语音识别技术的魁首,但在中文领域,有一个足以和Whisper相颉顽的项目,那就是阿里达摩院自研的FunAsr。 FunAsr主要依托达摩院发布的Paraformer非自回归端到端语音识别模型,它具有高精度、高效率、便捷部署的优点,支持快速构建语音识别服务,最重要的是,FunASR支持标点符号识别、低语音识别、音频-视觉语音识别等功能,也就是说,它不仅可以实现语音转写,还能在转写后进行标注,一石二鸟。 FunAsr和Whisper对比Mediumvsspeech_paraformer 首先配置好...

  xvI3oTgzRc2D   2024年01月10日   22   0   0 AI综合

最好的中文TTS项目Bert-vits2更新了中文特化分支,但可能由于时间仓促,代码中存在不少的bug,作为普通用户,有的时候也想为自己喜欢的开源项目做一点点贡献,帮助作者修改一些简单的bug,那么该如何开始? 本次我们以Bert-vits2项目为例子,分享正确提交PR(PullRequests)的方式。 FORK项目 首先面对一个开源项目,作为普通用户我们有三个选项: 点击Watch可以关注该项目,项目有了更新会提醒关注者,点击Star可以给作者鼓励,类似点赞之类的操作,这里最重要的是Fork,可以把项目拷贝一份到自己的项目库中: 在项目列表中可以看到明确标出了该项目是fork自fis...

  xvI3oTgzRc2D   2024年01月07日   19   0   0 项目与团队管理

Bert-vits2项目又更新了,更新了一个新的分支:中文特化,所谓中文特化,即针对中文音色的特殊优化版本,纯中文底模效果百尺竿头更进一步,同时首次引入了大模型,使用国产IDEA-CCNL/Erlangshen-MegatronBert-1.3B大模型作为Bert特征提取,基本上完全解决了发音的badcase,同时在情感表达方面有大幅提升,可以作为先前V1.0.1纯中文版本更好的替代。 更多情报请参见Bert-vits2项目官网: https://github.com/fishaudio/Bert-VITS2/releases/tag/Extra 本次我们基于Bert-vits2中文特化版...

  xvI3oTgzRc2D   2024年01月07日   24   0   0 大模型

按照固有的思维方式,如果想要语音克隆首先得有克隆对象具体的语言语音样本,换句话说,克隆对象必须说过某一种语言的话才行,但现在,coqui-aiTTSV2.0版本做到了,真正的跨语种无需训练的语音克隆技术。 coqui-aiTTS实现跨语种、无需训练克隆语音的方法是基于Tacotron模型,该模型使用了一种音素输入表示来鼓励在不同语种之间共享模型容量。此外,还引入了对抗损失项,以鼓励模型将说话者身份与语音内容进行解耦。这使得模型能够在不同语种之间进行语音合成,而无需在任何双语或平行示例上进行训练。 具体来说,coqui-aiTTS首先使用音素输入表示:采用音素(语音的基本发音单位)作为输入表示...

  xvI3oTgzRc2D   2024年01月04日   31   0   0 AI综合

AI换脸已经不是什么时新的技术了,从DeepFace到Facesweap,再到Roop。AI换脸技术中出现了一种名为“一键换脸”的方法,它不需要训练模型。这种方法利用了名为“GHOST”的技术,它是一种新的一键换脸方法,可以用于图像和视频领域。 这种技术采用了先进的生成对抗网络(GAN)、自动编码器等方法,可以实现精确和稳健的换脸效果。GHOST技术的特点是可以在不需要训练模型的情况下进行换脸,从而实现快速、简单的操作。这种方法的优势在于可以快速生成换脸图像或视频,而无需进行复杂的训练过程。 本次我们基于Rope-Ruby来进行换脸,把复联4中惊奇队长的脸型进行替换。 Rope-Ruby是基...

  xvI3oTgzRc2D   2024年01月03日   8   0   0 AI综合

日语因为存在假名,会导致翻译软件进行翻译时机翻味道过重的问题,比如積ん読(つんどく)这个词,大多数软件会翻译成:堆积的读,但其实是明明买了书却不读,光放着的意思。有时候也需要单独查句子中的单词释义来理解句子的意思,但一看下去全是假名,无法像中文或者英文那样进行简单的分词操作。 本次我们基于Python3.10的三方库Mecab来对日语进行分词和词性分析。 安装和配置Mecab 首先下载最新的Mecab0.996的64位安装包: https://github.com/ikegami-yukino/mecab/releases 随后双击进行安装,注意编码选择国标码utf-8: 默认的Shif...

  xvI3oTgzRc2D   2024年01月02日   12   0   0 AI综合

之前我们介绍了如何使用嵌入式Python3环境给项目制作一键整合包,在使用嵌入式Python环境时,通常是作为另一个应用程序的一部分,而Python3虚拟环境是为了在开发过程中隔离项目所需的Python环境。虚拟环境允许我们在同一台计算机上的不同项目中使用不同的Python版本和软件包,而不会相互干扰。 本次我们利用Python3自带的虚拟环境(venv)功能来给项目制作一键整合包。 创建虚拟环境 首先确保本地环境已经安装好了Python3开发环境,如果没有,请移步:一网成擒全端涵盖,在不同架构(Intelx86/Applem1silicon)不同开发平台(Win10/Win11/Mac/U...

  xvI3oTgzRc2D   2023年12月31日   16   0   0 Python

在音视频领域,把已经发布的混音歌曲或者音频文件逆向分离一直是世界性的课题。音波混合的物理特性导致在没有原始工程文件的情况下,将其还原和分离是一件很有难度的事情。 言及背景音人声分离技术,就不能不提Spleeter,它是一种用于音频源分离(音乐分离)的开源深度学习算法,由Deezer研究团队开发。使用的是一个性能取向的音源分离算法,并且为用户提供了已经预训练好的模型,能够开箱即用,这也是Spleeter泛用性高的原因之一,关于Spleeter,请移步:人工智能AI库Spleeter免费人声和背景音乐分离实践(Python3.10),这里不再赘述。 MVSEP-MDX23背景音人声分离技术由De...

  xvI3oTgzRc2D   2023年12月29日   12   0   0 AI综合

对于深度学习初学者来说,JupyterNoteBook的脚本运行形式显然更加友好,依托Python语言的跨平台特性,JupyterNoteBook既可以在本地线下环境运行,也可以在线上服务器上运行。GoogleColab作为免费GPU算力平台的执牛耳者,更是让JupyterNoteBook的脚本运行形式如虎添翼。 本次我们利用Bert-vits2的最终版Bert-vits2-v2.3和JupyterNoteBook的脚本来复刻生化危机6的人气角色艾达王(adawong)。 本地调试JupyterNoteBook 众所周知,GoogleColab虽然可以免费提供GPU让用户用于模型训练和推理,...

  xvI3oTgzRc2D   2023年12月27日   12   0   0 AI综合

近日,Bert-vits2发布了最新的版本2.3-final,意为最终版,修复了一些已知的bug,添加基于WavLM的Discriminator(来源于StyleTTS2),令人意外的是,因情感控制效果不佳,去除了CLAP情感模型,换成了相对简单的BERT融合语义方式。 事实上,经过2.2版本的测试,CLAP情感模型的效果还是不错的,关于2.2版本,请移步: Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko) 更多情报请关注Bert-vits2官网: https://github.com/fishaudio/Bert-VITS2/releases/tag/...

  xvI3oTgzRc2D   2023年12月22日   80   0   0 AI综合

假如我们一定要说深度学习入门会有一定的门槛,那么设备成本是一个无法避开的话题。深度学习模型通常需要大量的计算资源来进行训练和推理。较大规模的深度学习模型和复杂的数据集需要更高的计算能力才能进行有效的训练。因此,训练深度学习模型可能需要使用高性能的计算设备,如图形处理器(GPU)或专用的深度学习处理器(如TPU),这让很多本地没有N卡的同学望而却步。 GoogleColab是由Google提供的一种基于云的免费Jupyter笔记本环境。它可以帮助入门用户轻松地进行机器学习和深度学习的实验。 尽管GoogleColab提供了很多便利和免费的功能,但也有一些限制。例如,每个会话的计算资源可能是有限...

  xvI3oTgzRc2D   2023年12月22日   65   0   0 AI综合

近日,Bert-vits2-v2.2如约更新,该新版本v2.2主要把Emotion模型换用CLAP多模态模型,推理支持输入textprompt提示词和audioprompt提示语音来进行引导风格化合成,让推理音色更具情感特色,并且推出了新的预处理webuI,操作上更加亲民和接地气。 更多情报请参见Bert-vits2官网: https://github.com/fishaudio/Bert-VITS2/releases/tag/v2.2 与此同时,基于FastApi的推理web界面项目也同步适配了Bert-vits2-v2.2版本,官网如下: https://github.com/jian...

  xvI3oTgzRc2D   2023年12月18日   11   0   0 AI综合

一代人有一代人的经典回忆,1994年由周海媚、马景涛、叶童主演的《神雕侠侣》曾经风靡一时,周海媚所诠释的周芷若凝聚了汉水之钟灵,峨嵋之毓秀,遇雪尤清,经霜更艳,俘获万千观众,成为了一代人的共同记忆。 如今美人仙去,回望经典,雪肤依然,花貌如昨,白璧微瑕之处是九十年代电视剧的分辨率有些低,本次我们利用百度自研框架PaddleGan的视频超分SOTA算法来对九十年代电视剧进行4K修复。 配置PaddlePaddle框架 PaddlePaddle框架需要本地环境支持CUDA和cudnn,具体请参照:声音好听,颜值能打,基于PaddleGAN给人工智能AI语音模型配上动态画面(Python3.10)...

  xvI3oTgzRc2D   2023年12月15日   14   0   0 AI综合
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~