摩杜云开发者社区-摩杜云

百度搜索展现服务重构：进步与优化

作者| 瞭东导读本文将简单介绍搜索展现服务发展过程，以及当前其面临的三大挑战：研发难度高、架构能力欠缺、可复用性低，最后提出核心解决思路和具体落地方案，期望大家能有所收货和借鉴。全文4736字，预计阅读时间12分钟。 01背景百度搜索展现服务的主要职责是请求检索系统获取结果，并依次进行模板选择、实时摘要补充、数据适配和结果渲染，将检索结果能以丰富多样的形式精准地展示给用户。在初期，这项服务基于C语言进行开发，迭代效率不尽人意。随着产品的迅速迭代和业务的不断拓展，研发效率问题逐渐凸显，为了解决这一瓶颈，搜索展现服务进化为由PHP开发、HHVM运行的服务。目前，搜索展现服务...

lApWUL8vHsOW 2023年12月15日 64 0 0 迭代重构搜索搜索数据重构迭代数据

从 MLOps 到 LMOps 的关键技术嬗变

本文整理自2023年9月3日QCon全球软件开发大会2023·北京站——从MLOps到LMOps分论坛的同名主题演讲。本次分享的内容结构如下：从MLOps到LMOps； MLOps概述、挑战与解决方案； LMOps实施挑战与关键技术（大模型推理性能优化、Prompt构建和自动优化、上下文长度扩展）；未来展望。 1从MLOps到LMOps 众所周知，目前我们实现人工智能的主要技术手段是机器学习技术，特别是其中基于深层神经网络的深度学习技术。机器学习的本质是通过具有学习能力的算法、对数据进行建模的技术。深度学习借助大规模的算力，解决了机器学习中特征表示的人工干预的瓶颈，在效果上取得...

lApWUL8vHsOW 2023年12月07日 19 0 0 数据 LMOps MLOps 数据大模型大模型 LMOps MLOps prompt prompt

百度APP iOS端包体积50M优化实践(七)编译器优化

一.前言百度APPiOS端包体积优化系列文章的前六篇重点介绍了包体积优化整体方案、图片优化、资源优化、代码优化、无用类优化、HEIC图片优化实践和无用方法清理，图片优化是从无用图片、AssetCatalog和HEIC格式三个角度做深度优化；资源优化包括大资源优化、无用配置文件和重复资源优化，代码优化包括无用类优化、无用模块瘦身、无用方法瘦身、精简重复代码、工具类瘦身和AB实验固化。本文重点介绍编译器优化，在百度APP实践中，编译器优化包括GCC语言编译优化、Swift编译优化、LTO优化、剥离调试符号、剥离符号表、剔除未引用的代码、Asset优化、C虚函数优化和三方SDK编译器方向瘦身。此...

lApWUL8vHsOW 2023年12月05日 19 0 0 百度 ios 编译优化百度编译优化 ios

大模型时代，“人人可AI”的百度开发者平台长什么样？

导读大模型时代的开发者平台，不仅要提供AI原生能力，还要具备生态打造和商业化闭环能力。全文6115字，预计阅读时间16分钟。提及“灵境”，人们在脑海中往往会呈现出自己旅行过的风景名胜。然而，当身处在通用大模型“智力涌现”的语境下，对准备在这里探索AI世界的开发者而言，能够提供机遇的“灵境”平台，又会是什么样？这个问题不好回答，毕竟运营一个开发者平台，涉及产品打磨、规则建立、持续运营等多个维度。而一个新时代的开启，势必有着更多不可预测的变量。但在此时，我们同样也看到有些先行者正试图给出自己的答卷。比如，在国内率先推出“文心一言”的百度，在今年9月也快速上线了自己的“灵境矩阵”开发...

lApWUL8vHsOW 2023年11月30日 17 0 0 开发者百度大模型人工智能

百度搜索内容HTAP表格存储系统

作者|Chaos 导读本文主要介绍百度搜索内容存储团队应对海量互联网数据分析计算需求时，在构建HTAP表格存储系统方向上的一些技术思考。全文4683字，预计阅读时间12分钟。 01业务背景百度搜索内容存储团队主要负责各类数据，如网页、图片、网页关系等，的在线存储读写(OLTP)、离线高吞吐计算(OLAP)等工作。原有架构底层存储系统普通采用百度自研表格存储（Table）来完成数据的读、写、存工作，此存储系统更偏向于OLTP业务场景。随着近几年大数据计算、AI模型训练的演进，对存储系统OLAP业务场景的依赖越来越重，如数据关系分析、全网数据分析、AI样本数据管理筛选。在OLTP存储...

lApWUL8vHsOW 2023年11月30日 17 0 0 存储引擎存储系统存储系统存储引擎数据数据

数十万QPS，百度热点大事件搜索的稳定性保障实践

作者|文燕导读在互联网行业里，业务迭代很快，系统变更频繁，尤其长青业务随着时间会积累越来越多历史包袱。阿拉丁作为百度搜索垂直化的产品，业务历经多年更迭，历史包袱很多，在应对大事件比如高考、东京奥运会、北京冬奥会的大流量时业务集群面临很大挑战。以高考来说，从2013年开始百度做高考，经过11年的坚持和沉淀，如今高考阿拉丁直接承接用户搜索高考相关内容的数十亿pv的流量，积累多年的系统因其复杂度而面临巨大的稳定性风险。为了应对高考等大事件的巨大流量，联合多方快速建立了保障机制，本文结合实践做了归纳和总结。全文3087字，预计阅读时间8分钟。 01保障思路大事件的流量很大且有很强时效性，...

lApWUL8vHsOW 2023年11月24日 16 0 0 链路搜索数据数据链路搜索

百度搜索万亿规模特征计算系统实践

作者|Jay 导读本文主要介绍百度搜索在全网万亿级规模内容做内容理解的工程实践，涉及机器学习工程化、资源调度、存储优化等多个Topic。全文6648字，预计阅读时间17分钟。 01业务背景百度收录了互联网海量内容，要索引这些内容，需要先对内容做深度理解，提取包括内容语义、内容质量、内容安全等多维度信息，从而进一步支持内容筛选过滤、语义建库等需求。对全网海量内容做深度理解，挑战是非常大的，主要是体现在成本和效率上。在成本上，计算量非常大，除了因全网内容数据量大（万亿规模）、特征数多外，有两个趋势也加剧了计算压力，一方面是互联网内容图文化、视频化比例持续大幅增长，图片/视频的计算量远...

lApWUL8vHsOW 2023年11月22日 16 0 0 服务框架服务框架 python Python

UBC SDK日志级别重复率优化实践

作者|wunan 导读日志中中台每日传输的日志PV量级可达千亿级，在上报过程中减少冗余日志数据，能够降低下游数据处理的难度和成本，提高数据的准确性和质量，更好地支持业务系统的运行和优化。本文介绍了UBCSDK对日志重复打包的优化实践，通过对数据库、进程和打点机制进行优化，有效地将日志级别重复率由千分之三降低至万分位。全文8525字，预计阅读时间22分钟。 01引言文章首先对日志中台的去重背景和UBCSDK的打点机制进行了介绍，然后说明了重复问题的定位难点和手段，最后重点围绕重复问题的分析和解决实践进行说明。 1.1日志中台去重背景日志中台聚焦端日志全生命周期的能力建设，包括日志...

lApWUL8vHsOW 2023年11月19日 18 0 0 大数据大数据 SDK SDK 日志日志

文生图大型实践：揭秘百度搜索AIGC绘画工具的背后故事！

作者|Tianbao 导读 2023年以来，AIGC技术已催生了新一轮人工智能浪潮。AI绘画作为大模型最引人瞩目的应用领域之一，近年来也取得了重大突破。AI绘画系统可以根据用户的输入或提示生成各种风格的图像，这为艺术家、设计师和创作者提供了强大的工具，也为数字创意领域带来了新的可能性。近日，百度搜索主任架构师Tianbao应邀参加了知名技术媒体InfoQ的“极客有约”对话节目，与主持人和观众们就图像生成技术进行了深入探讨，包括百度搜索的应用场景、相关技术的思考，以及在搜索业务场景的应用落地经验。本文详细记录了访谈内容。全文10034字，预计阅读时间26分钟。亮点： 1、这是一...

lApWUL8vHsOW 2023年11月19日 17 0 0 AIGC AIGC 搜索 AI绘图 AI绘图搜索

BES 在大规模向量数据库场景的探索和实践

导读本文整理自2023年9月5日QCon全球软件开发大会2023·北京站——向量数据库分论坛的同名主题演讲《BES在大规模向量数据库场景的探索和实践》。全文5989字，预计阅读时间15分钟。向量数据库是一种专门用于存储和查询向量数据的数据库系统。通过Embedding技术，可以将图像、声音、文本等数据的特征提取出来，用向量的形式表达。而向量之间的距离，表达了原始数据之间特征的相似程度。因此，可以将原始数据等特征向量存储到向量数据库，然后通过向量检索的技术，找到相似的原始数据，例如进行以图搜图的应用等。一、向量数据库应用简介在大模型出现之前，向量检索这项技术就已经发展成熟。随着深度...

lApWUL8vHsOW 2023年11月19日 24 0 0 数据数据库聚类聚类数据数据库

百度搜索深度学习模型业务及优化实践

作者|Xin 导读百度搜索架构部模型架构组，致力于将最新的人工智能技术以更低的成本被百度数亿用户体验到。这个过程中会面临非常多的系统、工程层面的问题，甚至在深度学习模型领域，我们看到越来越多的工作并不拘泥于工程本身。本文主要分享模型架构组的日常工作，希望感兴趣的同学，可以把简历投给我们。欢迎社招、实习同学投递简历，备注【投递搜索架构组】，邮箱：sti01@baidu.com。全文5361字，预计阅读时间14分钟。 01搜索深度学习模型业务及架构演进如下图所示，我们问一个河流的长度，搜索结果精确返回了河流的长度，而不是返回有答案信息的网页链接让用户依次查找。能做到这样，是深度学习起...

lApWUL8vHsOW 2023年11月19日 22 0 0 人工智能架构搜索人工智能深度学习深度学习架构搜索

百度搜索智能化算力调控分配方法

作者|泰来导读随着近年深度学习技术的发展，搜索算法复杂度不断上升，算力供给需求出现了爆发式的增长。伴随着AI技术逐步走到深水区，算法红利在逐步消失，边际效应日益显著，算力效能的提升尤为重要，同时随着宏观经济影响，大规模的算力需求供给也遭遇到了瓶颈。同时随着流量、时间或系统故障时带来的容量变化，总算力约束也在时刻改变，周期性的出现波峰、波谷，以及会因为流量突增、网络抖动等原因导致系统出现稳定性问题。在此背景下，需要一种更加智能化、个性化的算力调控分配方法，不断提高系统的自适应性，使得在给定资源上限的情况下，最大化资源投入的性价，同时在故障时刻发生时自适应的调整算力分配，降低系统负载。 ...

lApWUL8vHsOW 2023年11月19日 14 0 0 人工智能深度学习深度学习算法人工智能算法

通过Python脚本支持OC代码重构实践（三）：数据项使用模块接入数据通路的适配

作者|刘俊启导读在软件开发中，经常会遇到一些代码问题，例如逻辑结构复杂、依赖关系混乱、代码冗余、不易读懂的命名等。这些问题可能导致代码的可维护性下降，增加维护成本，同时也会影响到开发效率。这时通常通过重构的方式对已有代码结构进行改进和优化。在重构的工作中，大部分的工作是人工的方式完成，是一个耗时且容易出错的过程。对于研发人员来讲，在不改变软件的功能和行为的前提下，保证质量和效率完成对已有功能的重构，是一个极大的挑战。本系列以Python实现自动化的工具，支持代码重构过程的实践。在第一篇《通过Python脚本支持OC代码重构实践（一）：模块调用关系分析》的内容中，介绍了使用Python...

lApWUL8vHsOW 2023年11月17日 20 0 0 自动化数据通路自动化脚本 python 重构脚本重构数据通路 Python

大模型在代码缺陷检测领域的应用实践

作者|小新、车厘子导读静态代码扫描(SA)能快速识别代码缺陷，如空指针访问、数组越界等，以较高ROI保障质量及提升交付效率。当前扫描能力主要依赖人工经验生成规则，泛化能力弱且迭代滞后，导致漏出。本文提出基于代码知识图谱解决给机器学什么的问题，以及基于代码大模型解决机器怎么学的问题，让计算机像人一样看懂代码，并自动发现代码中的缺陷，给出提示，以期达到更小的人力成本，更好的效果泛化和更高的问题召回。全文3519字，预计阅读时间9分钟。 01代码缺陷检测背景介绍静态代码扫描(SA)指在软件工程中，程序员写好源代码后，在不运行计算机程序的条件下，对程序进行分析检查。通过在代码测试之前，在...

lApWUL8vHsOW 2023年11月14日 17 0 0 知识图谱大模型

基于FFmpeg和Wasm的Web端视频截帧方案

作者|小萱导读基于实际业务需求，介绍了自定义Wasm截帧方案的实现原理和实现方案。解决传统的基于canvas的截帧方案所存在的问题，更高效灵活的实现截帧能力。全文10103字，预计阅读时间26分钟。 01项目背景在视频编辑器里常见这样的功能，在用户上传完视频后抽取关键帧，提供给用户以便快捷选取封面，如下图：在本文中，我们将探讨一种使用FFmpeg和WebAssembly（Wasm）的Web端视频截帧方案，以解决传统的基于canvas的截帧方案所存在的问题。通过采用这种新方法，我们可以克服video标签的限制，实现更高效、更灵活的视频截帧功能。首先，我们需要了解一下传统的Web...

lApWUL8vHsOW 2023年11月13日 17 0 0 WebAssembly 视频截帧 ffmpeg

对话InfoQ，聊聊百度开源高性能检索引擎 Puck

近日，百度宣布在Apache2.0协议下开源自研检索引擎Puck，这也是国内首个适用于超大规模数据集的开源向量检索引擎。向量检索算法在个性化推荐系统、多模态检索、自然语言处理等应用场景中都发挥着重要作用，特别是在处理大规模数据和高维特征数据时。名称“Puck”取自经典MOBA游戏DOTA中的智力英雄Puck，象征着飘逸和灵动。这个项目经过多年在百度内部的精心打磨，而且在2021年底Nerulps举办的全球首届向量检索大赛BIGANN比赛中，Puck参与的四个项目均获得第一名。InfoQ采访了百度搜索内容技术部主任架构师Ben，以了解该项目的发展历程和核心优势。开源地址：https://g...

lApWUL8vHsOW 2023年11月05日 25 0 0 检索引擎开源

浅谈搜索展现层场景化技术 -tanGo 实践

作者|搜索技术平台导读本文为搜索展现层相关技术，主线会先通过介绍搜索阿拉丁的产品形态，让读者初步了解什么是阿拉丁，及相关展现概念。之后会聚焦场景化产品，场景化是搜索构建沉浸式完美体验（重新组合整页阿拉丁和自然结果）的方案之一，相关检索技术繁多，不能完全覆盖到，本文主要介绍下背后的开发框架支撑tanGo，会详细介绍下建设过程中的思考、遇到的问题及对应的解决方案。希望读者读完本文，有所收获。全文4412字，预计阅读时间12分钟。 01相关背景介绍了解下什么是阿拉丁，阿拉丁是百度搜索推出的垂直化产品，用户使用搜索的过程中，提到的如百科、天气、POI、影视、体育、股票、汉语、翻译等等Qu...

lApWUL8vHsOW 2023年11月02日 34 0 0 展现层技术阿拉丁阿拉丁展现层技术

CVPR2023优秀论文 | AIGC伪造图像鉴别算法泛化性缺失问题分析

作者|搜索内容技术部导读深度伪造检测算法无法检出未知伪造算法生成的攻击数据。以往算法采取手动建模伪造特征的方式提升模型泛化性，然而这种方式限制了算法可行域，影响了模型泛化性进一步提升，同时这类方法参数量巨大，无法满足工业实时检测要求。本文发现过往采取二分类训练检测算法的方式，使模型过多关注了样本中的用户身份信息，从而导致深伪检测模型无法检出未知伪造数据，我们称其为“隐式的身份泄漏现象”。为解决此问题，本文提出了一种忽略样本身份特征的深度伪造检测算法。实验证明，当抑制了模型对图片身份信息的学习，模型可以自主学习不同伪造特征之间所存在的共性特征，即使基于最简单的二分类模型，检测精度也远超现...

lApWUL8vHsOW 2023年11月02日 39 0 0 数据集 AIGC 数据集 AIGC

一文搞定专属码的设计与开发

作者|木白导读本文将为您介绍百度码的译码技术，包括关键的译码流程和关键的优化手段。百度码目前已经在高考等活动中进行应用，在未来的发展中，百度码的译码技术将继续升级和完善，以满足更多场景的需求。百度码的译码技术将在现有的基础上不断演进和完善，以提供更为优质、便捷、安全的译码体验，从而为人们的生活和工作带来更多便利。全文2797字，预计阅读时间7分钟。 01大家熟悉的二维码 1.1什么是二维码二维码，起源于汽车制造业，是一种方形的矩阵型条形码。它以黑白像素点的不同排列方式来存储信息。与传统的一维条码相比，二维码可以存储更多的信息，并且占用的空间更小。由于其高效、经济和易于扫描的特点...

lApWUL8vHsOW 2023年11月02日 27 0 0 计算机视觉百度 AI 计算机视觉异形码异形码百度 AI

AI原生应用速通指南

作者|百度文库APP 导读百度创始人、董事长兼首席执行官李彦宏早在今年年初所预测的：大模型时代最大的机会在于应用层，会出现“杀手级”应用。全文4448字，预计阅读时间12分钟。前言 “我们要让AI走下技术的“神坛”，深入应用的“土壤”。 01AI原生思维在揭秘AI原生应用之前，我们首先需要培养下AI原生思维。它是指在设计和开发应用时，以人工智能技术为出发点，将人工智能作为核心驱动力，重新设计和构建应用。从人工智能技术的发展趋势来看，AI时代的原住民至少应该具备以下思维： 1、数据驱动思维：AI时代的原住民需要具备数据驱动思维，能够通过数据分析和挖掘来发现问题、解决问题； 2、跨...

lApWUL8vHsOW 2023年11月02日 42 0 0 aigc 百度人工智能 AIGC 百度 App App 人工智能