01 背景 StableDiffusion模型自从发布以来在互联网上发展迅猛,它可以根据用户输入的文本描述信息生成相关图片,用户也可以提供自己喜爱的风格的照片,来对模型进行微调。例如当我们输入"Aphotoofsksdoginabucket",StableDiffusion模型会生成类似下面的图片: 02 PAI-Blade加速PyTorch训练 PAI-Blade使用编译优化技术提高PyTorch程序的执行效率,其代码已经开源在 Github:https://github.com/alibaba/BladeDISC. PAI-BladeAPI 使用PAI-Blade对PyTorch程序进...

  o039aR8HerHN   2023年12月23日   36   0   0 AIAI

本文根据2023云栖大会演讲实录整理而成,演讲信息如下: 演讲人:姜伟华 | 阿里云计算平台事业部资深技术专家、阿里云实时数仓Hologres研发负责人 演讲主题:HologresServerless之路——揭秘弹性计算组 实时化成为了大数据平台的核心演进趋势,而其中Serverless技术可以让企业在实时场景取的性能、成本、高可用之间的平衡。2023年云栖大会上,阿里云实时数仓Hologres研发负责人姜伟华介绍了一站式实时数仓Hologres在6年研发期间的Serverless演进之路,让客户实时数仓成本降低70%-120%,开发效率提升100%,性能提升100-...

  o039aR8HerHN   2023年12月23日   36   0   0 PAIPAI

近日,阿里云人工智能平台PAI与华南理工大学朱金辉教授团队、达摩院自然语言处理团队合作在自然语言处理顶级会议EMNLP2023上发表基于机器翻译增加的跨语言机器阅读理解算法X-STA。通过利用一个注意力机制的教师来将源语言的答案转移到目标语言的答案输出空间,从而进行深度级别的辅助以增强跨语言传输能力。同时,提出了一种改进的交叉注意力块,称为梯度解缠知识共享技术。此外,通过多个层次学习语义对齐,并利用教师指导来校准模型输出,增强跨语言传输性能。实验结果显示,我们的方法在三个多语言MRC数据集上表现出色,优于现有的最先进方法。 论文: TingfengCao,ChengyuWang,Chuanqi...

近日,阿里云人工智能平台PAI与华东师范大学张伟教授团队合作在自然语言处理顶级会议EMNLP2023上发表了基于认知理论所衍生的CogTree认知树生成式语言模型。通过两个系统:直觉系统和反思系统来模仿人类产生认知的过程。直觉系统负责产生原始问题的多个分解假设,反思系统对直觉系统产生的假设进行验证,并选择更有可能的假设进行后续生成,直到达到最终结果。通过上述双系统的迭代式生成,可以提升大模型的解题准确度。 论文: JunbingYan,ChengyuWang,TaolinZhang,XiaofengHe,JunHuang,WeiZhang.FromComplextoSimple:Unravel...

近日,阿里云人工智能平台PAI与华南理工大学朱金辉教授团队合作在自然语言处理顶级会议EMNLP2023上发表了BeautifulPrompt的深度生成模型,可以从简单的图片描述中生成高质量的提示词,从而使文生图模型能够生成更美观的图像。BeautifulPrompt通过对低质量和高质量的提示进行微调,并进一步提出了一种基于强化学习和视觉信号反馈的技术,以最大化生成提示的奖励值。 论文: TingfengCao,ChengyuWang,BingyanLiu,ZihengWu,JinhuiZhu,JunHuang.BeautifulPrompt:TowardsAutomaticPromptEngi...

近日,阿里云人工智能平台PAI与华东师范大学数据科学与工程学院合作在自然语言处理顶级会议EMNLP2023上发表基于双曲空间和对比学习的垂直领域预训练语言模型。通过比较垂直领域和开放领域知识图谱数据结构的不同特性,发现在垂直领域的图谱结构具有全局稀疏,局部稠密的特点。为了补足全局稀疏特点,将垂直领域中分层语义信息通过双曲空间注入到预训练模型中。为了利用局部图结构稠密特点,我们利用对比学习构造图结构不同难度的正负样本来进一步加强语义稀疏的问题。 论文: RuyaoXu,TaolinZhang,ChengyuWang,ZhongjieDuan,CenChen,MinghuiQiu,DaweiChe...

近日,阿里云人工智能平台PAI与华东师范大学数据科学与工程学院合作在自然语言处理顶级会议EMNLP2023上发表基于双曲空间和对比学习的垂直领域预训练语言模型。通过比较垂直领域和开放领域知识图谱数据结构的不同特性,发现在垂直领域的图谱结构具有全局稀疏,局部稠密的特点。为了补足全局稀疏特点,将垂直领域中分层语义信息通过双曲空间注入到预训练模型中。为了利用局部图结构稠密特点,我们利用对比学习构造图结构不同难度的正负样本来进一步加强语义稀疏的问题。 论文: RuyaoXu,TaolinZhang,ChengyuWang,ZhongjieDuan,CenChen,MinghuiQiu,DaweiChe...

作者:放纵 引言 在当今数字化世界中,如何充分挖掘和发挥数据价值已经成为了企业成功的关键因素,大数据也成为企业决策和运营的重要驱动力。在《当我们在谈论DataOps时,我们到底在谈论什么》一文中也提到,企业在面对到数据量巨大、数据种类繁多、数据急剧增长的困境时,如果不能对数据进行有序的组织和管理,非但不能产生数据价值,反而会引起企业的“数据灾难”,这也正是DataOps存在的价值。将DataOps思想进行工程化落地实践,统一建设高效规范的数据模型和数据体系,基于数据驱动的思想,真正解决生产过程中遇到的痛点问题。 但在真实的大数据运维实践中,我们也深刻的感受到,即使按照DataOps的数据管理和...

大家好,我叫邢少敏,目前负责阿里云开放搜索OpenSearch的研发,很高兴在此跟大家分享OpenSearch在向量检索和大模型方面做的一些工作。 基于向量检索的分布式智能搜索引擎 通常,数据大致可以分为结构化数据和非结构化数据两种类型。结构化数据的搜索问题我们一般用数据库来解决,非结构化数据的搜索,通常把它转化成向量检索的问题,例如图片搜索、视频搜索、语音搜索。首先把这些非结构化数据转化成向量,然后用向量检索的方式做搜索。还有一种情况,文本搜索也对应两种形式,可以用倒排索引的方式搜索,也可以用向量的方式搜索。 在大模型出现以后,越来越多的人开始使用向量检索的方式做文本搜索。所以现在来说的话...

阿里云检索分析服务Elasticsearch版云上演进之路 2017年,阿里云与Elastic开启开源战略合作,正式发布阿里云检索分析服务Elasticsearch版,100%兼容开源Elasticsearch,开箱即用,提供开放兼容的云上检索分析服务。 2019年,阿里云实现ElasticStack云上全托管,是国内首个将整个生态组件在云上做全托管的产品服务商,提供端到端的检索分析解决方案,助力开源用户快速上云,规模化支撑万核云上用户。 2021年,面向市场推出了基于Elasticsearch内核引擎优化的版本,阿里内核深度优化,自研读写分离、存算分离架构,助力企业降本增效,并持续将版本背后...

  o039aR8HerHN   2023年11月25日   15   0   0 Elastic运维Server

本文整理自Flink数据通道的Flink负责人、FlinkCDC开源社区的负责人、ApacheFlink社区的PMC成员徐榜江在云栖大会开源大数据专场的分享。本篇内容主要分为四部分: CDC数据实时集成的挑战 FlinkCDC核心技术解读 基于FlinkCDC的企业级实时数据集成方案 实时数据集成Demo演示 CDC数据实时集成的挑战 首先介绍一下CDC技术,CDC就是ChangeDataCapture的缩写,意思是变更数据捕获。如果有一个数据源的数据随着时间一直在变化,这种能够捕获变更数据的技术就称之为CDC。但是在真正的业务生产实践过程中,通常说的CDC都是指面向数据库的变更,用于捕获...

  o039aR8HerHN   2023年11月24日   14   0   0 数据数据集成mysql

本文整理自阿里云智能开源表存储负责人,FounderofPaimon,FlinkPMC成员李劲松在云栖大会开源大数据专场的分享。本篇内容主要分为四部分: 数据分析架构演进 介绍ApachePaimon Flink+Paimon流式湖仓 流式湖仓Demo演示 数据分析架构演进 目前,数据分析架构正在从Hive到Lakehouse的演变。传统数仓包括Hive、Hadoop正在往湖、Lakehouse架构上演进,Lakehouse架构包括Presto、Spark、OSS,湖格式 (Delta、Hudi、Iceberg) 等等架构,这是现在比较大的趋势。Lakehouse架构...

  o039aR8HerHN   2023年11月24日   13   0   0 数据hiveapache

本文根据2023云栖大会演讲实录整理而成,演讲信息如下: 演讲人:陈守元|阿里云计算平台事业部开源大数据产品总监 演讲主题:阿里云开源大数据产品年度发布 随着云计算的不断发展,未来数据处理和应用的趋势将围绕CloudNative、Severless和Data+AI展开。其中,云原生架构已成为主流趋势,因为它可以提高数据处理和应用程序的可伸缩性和灵活性,支持大规模部署和更快的响应时间。同时,Serverless作为一种新型计算模式,可以提高处理效率、降低运营成本并减少资源浪费,其独特的特点使得其成为处理大规模数据的理想选择。此外,Data与AI融合正在快速发展,不断提高智能化和自动化程度,同时需...

  o039aR8HerHN   2023年11月22日   14   0   0 Data大数据Server

随着大模型掀起AI技术革新浪潮,大数据也进入了与AI深度结合的创新时期。2023年云栖大会上,阿里云DataWorks产品负责人田奇铣发布了DataWorksCopilot、DataWorksAI增强分析、DataWorks湖仓融合数据管理等众多新产品能力,让DataWorks这款已经发展了14年的大数据开发治理平台产品,从一站式向智能化不断升级演进。 Data+AI双轮驱动 进入AIGC时代,AIforData和DataforAI成为当下的热词。AIforData,这个比较好理解,通过大模型驱动的AI智能助手,可以提升数据平台工具的效率。DataWorks为企业搭建了一站式、全链路的工具链,...

本文根据2023云栖大会演讲实录整理而成,演讲信息如下: 演讲人:林伟|阿里云研究员,阿里云计算平台事业部首席架构师,阿里云人工智能平台PAI和大数据开发治理平台DataWorks负责人 演讲主题:大数据AI一体化的解读 今年是AI大爆发的一年,大语言模型的诞生推动了席卷整个行业的大模型热潮,许多人认为“AI的iPhone时代”到来了。训练大模型其实不简单,因为模型参数量的增加意味着需要更好的算力、更多的数据去锤炼,并且需要合适的工具让开发者快速迭代模型,只有这样才能更快地提高模型精度。这几年来阿里云一直在宣传AI工程化和规模化,其实是这轮AI爆发的主要推手。 我们看一个典型的模型开发过程,...

简介: 本文根据2023云栖大会演讲实录整理而成,演讲信息如下 演讲人:张治国|阿里云智能计算平台研究员、阿里云MaxCompute负责人 演讲主题:MaxCompute架构升级及开放性解读 活动:2023云栖大会 MaxCompute发展经历了三个阶段:MaxCompute1.0,主旨是达到大规模的数据处理能力,在性能和规模上提供给用户一个分布式处理平台;MaxCompute2.0,主旨是Serverless,强调弹性和性价比;MaxCompute3.0阶段主旨一体化,包括湖仓一体、离线实时一体化等。 在整个MaxCompute发展过程中,可以从五个维度看一下数仓的发展趋势; ...

本文根据2023云栖大会演讲实录整理而成,演讲信息如下: 演讲人:王峰|阿里云研究员,阿里云计算平台事业部开源大数据平台负责人 演讲主题:开源大数据平台3.0技术解读 实时化与Serverless是开源大数据3.0时代的必然选择 阿里云开源大数据平台孵化于阿里巴巴集团内部业务。早在2009年,我们就开始采用开源Hadoop技术体系来服务阿里内部快速发展的电商业务。在阿里巴巴内部这套Hadoop技术体系,当时叫云梯一,当发展成熟后,开始上云。我们在阿里云上推出了第一款开源大数据产品E-MapReduce,简称EMR。我们把这个定义为开源大数据平台的第一阶段,也就是1.0的时代,从此刻开始,真正...

本文根据2023云栖大会演讲实录整理而成,演讲信息如下: 演讲人:黄博远|阿里云计算平台事业部资深产品专家、阿里云人工智能平台PAI产品负责人 演讲主题:阿里云人工智能平台PAI年度发布 AIGC是我们这个时代的新机遇 今年云栖大会,阿里云机器学习平台PAI正式发布升级为人工智能平台PAI。在过去的12个月,AI生态发生了巨大的变化,AIGC已经成为继互联网时代的下一个产业时代风口,带来了很多新的机遇和挑战。 在整个市场当中,AIGC领域可以分为三类:预训练大模型、开源生态和下游应用。 AI研发新范式和新挑战 在新局势下,整个AI研发进入到新范式: 从预训练模型开始,快速定制、快速落...

简介: 本文根据2023云栖大会演讲实录整理而成,演讲信息如下: 演讲人:刘一鸣|阿里云自研大数据产品负责人 演讲主题:Data+AI时代大数据平台应该如何建设 今天分享的主题是Data+AI时代大数据平台应该如何建设,这个话题既是对我们过去一年工作的反思和总结,同时也是希望通过这个反思和总结,不管大家是否使用阿里云的平台和技术,在未来大数据平台的选型、运维、创新上都可以有一些启发,同时也会思考未来大数据人的角色、工作方式是否有一些新的变化。 阿里云大数据的核心是两款分布式计算引擎,在ODPS(OpenDataProcessingPlatform)品牌之下,今天的分享也会更多围绕OD...

近日在2023云栖大会上,阿里云开源大数据产品进行了年度发布:E-MapReduce、Elasticsearch 等开源大数据产品全面 Serverless 化;创新性推出 Flink 与 Paimon 搭档的新一代流式湖仓;拥抱 AI,推出 Milvus 全托管服务,升级智能运维工具 EMR Doctor 以及 Flink Advisor。 核心组件全面Serverless化 在大会上,阿里云开源大数据平台负责人王峰,回顾了阿里云开源大数据技术...

  o039aR8HerHN   2023年11月19日   14   0   0 开源开源
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~