作者|Puck项目组 导读 Puck是百度自研的开源ANN检索引擎。Puck开源项目包含两种百度自研的检索算法,以高召回、高准确、高吞吐为目标,适用于多种数据规模和场景。随着业务发展不断的优化和迭代,进行充分的技术开发和测试,确保了技术的可靠性和成熟度。该项目于2019年厂内开源,广泛应用于内部多条产品线,支撑万亿级数据和海量请求。在benchmark上显示,Puck在千万、亿、十亿等多个数据集上,性能优势明显。 全文2682字,预计阅读时间7分钟。 ANN全称近似最近邻检索(ApproximateNearestNeighbor),目标是从全量向量数据中寻找距离最近的TopK个向量,同时需...

  lApWUL8vHsOW   2023年11月02日   57   0   0 开源ANN搜索引擎

作者|百度移动生态质效工程师们 导读 在降本增效、以chatGPT为代表的大模型技术横空出世的背景下,对软件质量和软件测试的领域也带来了巨大冲击,也使得软件质量工作者开始变得焦虑,主要体现在:公司对软件质量从业者的不重视加剧,一些追求临时交付的开发或质量行为屡见不鲜。基于此,近期对10多年以来从事软件质量工作的相关思路总结起来,希望帮助从业者在复杂多变的环境下看清楚些方向和做出更加合理的判断。 文章希望能够用通俗的语言,来阐述对软件质量和测试的理解,以便更好的引导从业者开展软件质量和测试工作,也可以理解作为软件质量工作者平时工作的内容和意义,甚至理解为什么这样做,先说明以下几点: 1、文章...

  lApWUL8vHsOW   2023年11月02日   91   0   0 测试评估智能测试软件质量

「百度产品内测」招募内测体验官啦!! 参与百度内测,不仅可以直接接触百度运营官,还能拿礼物拿京东卡拿百度大礼包!什么你说你没接触过内测?贴心如我,给大家带来一份史上最全的新手入门指南!(文章末尾有报名方式,快来加入百度内测吧!) 一、内测详细介绍 什么是内测呀? 内测就是下载安装内测测试版本,优先体验新功能,发现BUG后去反馈,每个版本的内测结束后都可以获得相应的奖励! 那什么又是BUG呀? Bug就是不能正常使用的功能。 举例:一些页面空白,长时间刷不出,使用某个功能突然卡死/闪退,某个按钮突然消失了等等。 内测耗时间吗?要工作/上学怎么办呀? 事实上,百度内测都是双周众测,时间差不多12...

  lApWUL8vHsOW   2023年11月02日   35   0   0 百度测试

作者|百度APP云原生技术研发组 导读 随着云计算的技术的不断迭代演进,百度内部服务逐渐搬迁到云环境中,部署成本和效率取得明显收益,但一些可观测能力的短板和缺失逐渐显露,传统的方式往往通过植入代码进行修改来实现,但在业务形态和技术栈多样性的背景下,面临业务被侵入、沟通协调、性能、稳定性等方面的诸多问题。本文中我们介绍百度基于eBPF实现的网络框架:DeeTune,包含构建服务拓扑、流量录制、无侵入指标监控等能力,进一步提升了SRE和质量保障的工作效率。 全文3733字,预计阅读时间10分钟。 云计算的进步以及基础设施、架构改进和其他相关技术的不断迭代发展,促进了百度内部服务向云环境的迁移...

  lApWUL8vHsOW   2023年11月02日   35   0   0

作者|浮生若梦的石头 导读 随着实时计算技术在大数据中的广泛应用,数据的时效性得到大幅度,但是实际应用场景中,除了时效性,还面临着更高的技术要求。 本文结合实时计算的水位技术在流批一体数据仓库中的探索和实践,重点阐述了水位技术的概念和相关理论实践,尤其就水位在实时计算系统中的特性、边界定义和应用,最后重点描述了一种改进的精准水位的设计和实现。该技术架构目前在百度实际业务场景下表现成熟和稳定,借此分享给大家,希望对大家有参考价值。 全文7118字,预计阅读时间18分钟。 01业务背景 为了提升产品研发、策略迭代、数据分析以及运营决策的效率,业务对数据的时效性要求越来越高。 虽然我们很早就基...

  lApWUL8vHsOW   2023年11月02日   43   0   0

作者|百度消息中台团队 导读 消息中台为百度App以及厂内百度系产品提供即时通讯的能力,提供包括私聊、群聊、聊天室、直播弹幕等用户沟通场景,并帮助业务通过消息推送触达用户。百度App存在需要以『低用户打扰』的形式触达全量用户的场景,而现有基于用户『私有信箱』通知拆分的机制,很难低成本、高时效的满足该场景诉求。基于上述问题,本文介绍了现有消息系统的主要组成,对比多种实现方案的差异,提出以『公有信箱』通知读扩散的方式,低成本、高时效的实现全量用户通知推送。 全文5515字,预计阅读时间14分钟。 01全量消息提出背景 百度App存在需要触达全量用户的诉求,比如:2022年12月7日解除疫情管...

作者|  百度MEG离线优化团队 导读 近些年移动互联网的高速发展驱动了数据爆发式的增长,各大公司之间都在通过竞争获得更大的增长空间,大数据计算的效果直接影响到公司的发展,而这背后其实依赖庞大的算力及数据作为支撑,因此在满足业务迭代的前提下如何控制成本是公司非常重要的一环。 本文将介绍百度MEG(移动生态事业群组)在离线资源降本增效方面用到的一些技术以及取得的一些成果。 全文4478字,预计阅读时间12分钟。 01业务背景 随着百度App的日活用户的持续增长,为了满足广大用户对信息资讯更加精准的需求,MEG的各个业务模块对于离线算力和存储的需求也不断增加通过其驱动上层...

作者|彭阳 导读 性能中台负责MEG端研发数据的接入、传输、管理、应用等各个环节。为了应对移动应用领域中端技术的快速迭代和线上突增问题的挑战,中台提出了实时拦截与问题的分发机制,旨在在端上线的不同阶段及时发现并拦截异常上线,最大程度减少线上变更对用户体验的不良影响。本文在数据建设的时效性和准确性上进行深入的探讨,包括:变更上线的染色过程、基于染色ID的性能核心数据指标的监控、线上问题实时分发至相关模块组件和人员等。 全文7719字,预计阅读时间20分钟。 01背景 1.1业务背景 在快速发展的移动应用领域中,持续的技术迭代是保持APP竞争力的关键因素。然而,对于规模庞大、用户众多的APP...

导读:相信无论是前端还是后端开发,都或多或少地被接口文档折磨过。前端经常抱怨后端给的接口文档与实际情况不一致。后端又觉得编写及维护接口文档会耗费不少精力,经常来不及更新。其实无论是前端调用后端,还是后端调用后端,都期望有一个好的接口文档。但是随着时间推移,版本迭代,接口文档往往很容易就跟不上代码了,更会出现之前的同学没有把接口文档交接清楚就离职,留下一个繁重复杂的项目,重新啃起来异常艰难,不亚于自己从头写一遍。因此仅仅只通过强制来规范大家是不够的。我们研究了Swagger到Yapi的打通方法。 有了它之后,我们可以做到每次写完代码,只需要顺便修改注释,然后提交,Yapi上就能自动更改我们的接...

  lApWUL8vHsOW   2023年11月02日   106   0   0 swaggryapı接口文档

作者|文库App 导读ID在我们的开发工作和日常生活中使用的非常频繁,几乎只要是在开发就会天天打交道,它的应用场景十分广泛,比如:身份证号,下单生成的订单号,购买的联合会员商品的兑换券码。不同场景对ID生成服务的要求不同,以下我们逐个分析。 全文6863字,预计阅读时间18分钟。 01什么是分布式ID生成服务 在业务开发中,大量场景需要唯一ID来进行标识:用户独一无二的身份认证、超市售卖的商品、微信的即时消息,它们都需要标识来确定唯一性。需要在特定范围内保证ID具备唯一性,这是ID生成服务最基本的要求。 生成ID的方式多种多样,可以使用Redis键自增,UUID,或者基于雪花算法实现的I...

  lApWUL8vHsOW   2023年11月02日   83   0   0 数据分布式redis分布式redis数据

作者|百度智能小程序团队 导读 本文首先介绍了分布式服务下日志服务建设的挑战,然后介绍了下业内ELK的通用解决方案及与天眼日志服务的差异性,接下来详细介绍了天眼日志服务平台的整体架构,如何做采集、传输、检索、隔离、清理等机制的,最后对日志服务与大模型进行结合,不断探索效能的提升。 全文11796字,预计阅读时间30分钟。 01分布式服务下日志服务挑战 分布式服务系统中,每个服务有大量的服务器,而每台服务器每天都会产生大量的日志。我们面临的主要挑战有: 1、日志量巨大:在分布式服务环境中,日志分散在多个节点上,每个服务都会产生大量的日志,因此需要一种可靠的机制来收集和聚合日志数据。 2、多样...

在AIGC浪潮席卷的当下,百度商业AI技术创新大赛正如火如荼地进行,与极具创造力的年轻学子共同探讨AI技术的创新应用,挖掘AIGC在商业领域发展的更多可能性。 据了解,百度商业AI技术创新大赛是由百度商业联合中国人工智能学会举办、NVIDIA提供战略支持的全国性技术创新大赛。本次大赛聚焦“商业转化行为预测”与“AIGC推理性能优化”两大热点议题,以探索商业前沿技术、挖掘和培育优秀人才为主旨,促进业内人员交流沟通,推动领域内算法和技术应用创新。 7月13日,百度商业AI技术创新大赛区域赛阶段正式结束,来自东部、南部、西部、北部四大赛区共计2414支队伍报名参加了本次比赛,其中506支队伍提交了...

AIGC在人工智能领域爆火,人工智能技术引领代际变革,⽣成式AI在多个场景落地应用,其中⽣成式⼤语⾔模型(LLM)在通⽤性、多轮对话理解、推理任务中的表现,让世界惊艳。 当前AIGC落地应用进展究竟如何?未来AIGC又将如何引领商业模式的变革?作为百度商业研发首席架构师,李双龙在首届百度商业AI技术创新大赛火热进行的同时,从技术层面分享了AIGC发展的现状,以及自己对AIGC商业应用前景的观察。 不同领域各有优势 AIGC落地应用快速发展 目前,AIGC技术已经在⼀些场景应用落地且创造了真实的价值。李双龙分析道,在NLP、多模态和数字人这三大主要的AI应用方向上,我国的技术发展非常...

今天给大家分享的主题是百度智能云在「GPU容器虚拟化」方面的最新进展和全场景实践,希望通过这次分享和大家一起探讨如何在实际业务场景更好的应用GPU容器虚拟化技术。 本次分享将首先介绍百度智能云GPU容器虚拟化2.0的升级变化,然后介绍新版本中的技术实现方法并演示具体功能,最后介绍在各类业务场景的实践和探索。 一、双引擎GPU容器虚拟化2.0 我们去年发布了业内首个双引擎GPU容器虚拟化架构,采用了「用户态」和「内核态」两种引擎,以满足用户对隔离性、性能、效率等多方面不同侧重的需求。 在隔离引擎之上是资源池化层,该层次主要基于远程调用实现资源的解耦和池化。 在资源池化层之上是K8s统一资源调度...

这是AI大底座系列云智公开课的第三期内容。前两期我的两位同事已经向大家介绍了高性能网络和GPU容器虚拟化的相关内容。今天我们把目光聚焦在存储方向,一起来看看面向大模型的存储加速方案的设计和实践。 今天将从以下三个方面来展开这次分享: 介绍大模型全流程对存储带来的全新挑战; 深入大模型全流程各个环节,看一看有哪些具体的存储问题以及对应的解决思路; 分享百度沧海·存储的加速方案及实践经验。 一、模型对存储的全新挑战 从过去的经典AI,到今天人人谈论的大模型,我们看到AI模型的参数规模呈现出指数级的爆发增长。一方面,大模型的应用效果开始给大家带来非常大的惊喜,另一方面,也给整个基础设施带来巨大...

一、向量检索应用简介 向量是多维数学空间里的一个点,在各维度上的坐标的一串数字。这个点就是来源于真实世界的物体进行数字化之后在数学空间的投影。那么不同点之间有一个数学关系,就是距离,距离远近就代表两个物体的相似程度。 非结构化数据转换成向量的过程称为embedding。通过深度学习的训练,可以将真实世界数字化后的离散特征提取出来,投影到数学空间上,成为一个数学意义上的向量,同时很神奇的保留着通过向量之间的距离表示语义相似度的能力,这就是embedding的效果。 在大语言模型出现之前(2020 年以前),向量检索这项技术就已经发展成熟。随着深度学习的技术,广泛应用于图片、音频、视频...

近年来人工智能领域迅猛发展,随着AIGC概念的走红,生成式大模型技术领域硕果累累,尤其在自然语言处理(NLP)领域,生成式AI的大语言模型实现了理解人类意图的技术跨越。 值此行业变革的关键节点,深耕人工智能领域十余年的百度,举办首届百度商业AI技术创新大赛,广邀高校及全社会青年人才共同探索AIGC领域前沿技术,就商业转化行为预测、AIGC推理性能优化两大热点议题展开技术攻坚探讨,点燃AIGC革新“星火”。 本次赛事为何聚焦这两大议题?AIGC未来有哪些应用方向?AI技术发展会为商业生态带来哪些影响?百度商业研发总监、商业AIGC负责人刘林从技术层面分享了此次大赛举办的深层意义,并分析了AIG...

2023年,生成式AI在全球范围内的热议引爆了AIGC前沿技术快速迭代。人工智能从辨别式AI走向生成式AI的方向性改变,进一步革新了社会生产力,各行各业的生产模式发生了翻天覆地的变化。 值此关键变革之际,作为国内人工智能领域的佼佼者,百度不断加速AI技术从科技创新到落地应用的步伐。今年3月,百度开启新一代知识增强大语言模型『文心一言』测试邀请,迈出国产人工智能的重要一步;6月百度营销推出AIGC营销创意平台擎舵,帮助企业和营销人解决灵感枯竭、低效低质等内容生产方面的难题,为营销场景提供了文本、图片、视频创作三大创意生产力。 与此同时,百度商业联合中国人工智能学会及NVIDIA共同发起了首届百度...

作者|内容生态端团队 导读 大语言模型(LLM)指包含数百亿(或更多)参数的语言模型,这些模型通常在大规模数据集上进行训练,以提高其性能和泛化能力。在内容创作工具接入文心一言AI能力后,可以为用户提供更加智能化、个性化的服务,帮助作者降低创作难度和创作成本、提升创作效率,更好地创作自己的作品。本文简述了基于文心一言大模型,落地AI文本创作的基本流程,也是内容创作与AI结合的初步尝试,随着生成式AI创新应用的持续推进,将陆续发布基于图片和视频的更多特色玩法,敬请期待! 全文4732字,预计阅读时间12分钟。 01背景 随着科技的飞速发展,人工智能领域的大模型技术也日益引人注目。在大模型的广...

本文整理自2023年9月5日百度云智大会智能计算&大模型技术分论坛,百度智能云AI&大数据平台总经理忻舟的主题演讲《百度智能云千帆大模型平台2.0产品技术解析》。 这是关于技术主题的论坛,我首先问大家三个开发者的小问题。 第一个问题:蒸汽机的发明者是谁? 是18世纪著名的开发者瓦特?其实是比瓦特更早60年的纽可门。瓦特在纽可门蒸汽机的基础上做了大量改进,大幅提升了效率,开启了第一次工业革命。 再继续提问,大家知道发电机是谁发明的吗? 法拉第在1831年发明了世界上第一台直流电发电机,而50多年后的1887年特斯拉发明了交流电发电机。交流电发电机使得电力传输的效率更高,因此能够...

  lApWUL8vHsOW   2023年11月02日   78   0   0 百度数据AI百度AI数据
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~