官方学习资料         主要是的学习资料是, 官方文档和官方博客。相关文章还是挺多挺不错的他们更新也比较及时。有最新的东西都会更新出来。es官方博客 这里简单列一些,还有一些其他的,大家自己感兴趣去看。 什么是向量数据库 Elasticsearch:向量数据库的真相 什么是向量嵌入 什么是大语言模型(LLM) 什么是语义搜索 向量搜索的优势 什么是机器学习 关于多模态         这个是多模态检索。目前es只能做文...

        之前写过一篇文章,是我个人到目前阶段的认知,所做的判断。我个人是做万亿级数据的搜索优化工作的。一直在关注任何和搜索相关的内容。 下一代搜索引擎会什么?     这篇文章再来讲讲为什么要使用向量搜索。 在阅读这篇文章之前呢,最好已经知道向量检索是怎么回事。如果还不知道,可以学习这篇文章。 什么是向量数据库 向量数据库的真相   大幅提升搜索相关性         如...

    现在是北京时间23年12月10日。当前es最新版本还是es8.11版本。我们可以期待一下不久的将来,es的8.12版本看到大幅度的检索性能提升。受益于Lucene9.9版本,内核带来的大幅提升!   此次向量检索利用底层指令fma会性能提升5%。并且还提供了向量点积的能力。重点较大幅度提升了多关键词匹配topK的搜索场景。 核心提升两个场景 一次检索中。很多个检索关键词(例如(term_1ORterm_2OR...ORterm_n)),之间and或者or操作的检索在topK召回的时候大幅提速。 向量线索提速。 详细提升细节 ...

第一章:从小乡村的游戏梦到大都市的计算机奇迹 小时候,我是那个沉迷于虚拟游戏的小乡村少年。生活在宁静的村庄,我把大部分时间都花在了游戏上。然而,有一款游戏改变了我的一生,从此我不再只是沉迷于玩乐,而是开始追逐游戏背后的技术奥秘。 第二章:游戏中的编程启蒙 在游戏的世界里,我渐渐对编程产生了浓厚的兴趣。我开始学习编写脚本,改善游戏体验。每一次成功的代码运行都让我兴奋不已,这不再是简单的娱乐,而是一场对计算机科学的探险。 第三章:小乡村的计算机梦 逐渐地,我从自娱自乐的脚本编写者转变为小乡村的游戏开发者。我开始尝试开发自己的小游戏,每一个项目都是对技术的突破和自我的挑战。这个阶段,我发现计算机...

        需求,日志收集的时候,时间格式是国际标准时间格式。形如yyyy-MM-dd'T'HH:mm:ss.SSS。(2023-12-05T02:45:50.282Z)这个时区也不对,那如何将此类型的时间,进行格式化呢?         本篇文章体统一个案例,可以格式化各种类型的时间,已经调整到各个时区。 先看效果  如何做到?        ...

什么是Zero-ShotClassification https://huggingface.co/tasks/zero-shot-classification hugging face上的零样本分类模型 facebook/bart-large-mnli https://huggingface.co/facebook/bart-large-mnli 当然这是一个英文模型,我们要去用一些多语言的模型。 可以在这里找更多适合自己的 https://huggingface.co/models 零样本分类能力测试效果 当然这是一个英文模型,我们要去用一些多语言的模型。 可...

 语义检索的效果确实不错,特别是在非关键词命中的情况下。就像我这个案例。通过做数据的文本嵌入,然后用向量的做召回。实现了语义的搜索。虽然我搜索的是“中国的首都”,但是把命中北京的也给我召回了,大大提升了召回效果。  其中我用全文模糊匹配。召回top10,命中的数据完全不相关。但是用语义搜索召回10条数据,有8条都是在描述北京。这大概就是语义检索的魅力。 普通搜索搜索 问题:中国的首都 POSTmy_index/_search { "query":{ "match":{ "title":"中国的首都" } }, "_source":["title"] } 普通搜索...

分块的主要目的是为了确保嵌入的内容噪音尽可能少,但语义仍然保持关联。在做文本嵌入的时候,选择合适的模型,可以提升搜索的效果。但是模型再好,在数据切分的时候,丢失了语义信息,肯定不会有好多召回效果。看到这篇文章还不错。可以读英文的,可以直接看英文原文。 原文链接:ChunkingStrategiesforLLMApplications|Pinecone 在构建大语言模型应用的上下文中,分块指的是将大段文本切分成更小片段的过程。这是一项重要的技术,一旦使用大语言模型关联一些附加内容,分块可以帮助优化向量数据库返回内容的相关度。这篇文章将探讨分块是否可以以及如何帮助提高大语言模型相关应用的效率...

需求 将写好的json数据。导入到es集群 数据说明 文件JSON数据,一行一个JSON。 {"id":"d2716ae8fba4e026c4bd9445c3f49e2c","lang":"zh","title":"吉美旅馆","content":"吉美..."} {"id":"d2716ae8fba4e026c4bd9445c3f49e2d","lang":"zh","title":"大话西游","content":"大话西游..."} 背景说明 ES版本8.X,开启了密码认证 使用elasticsearchDump工具把json数据导入到ES集群中。 遇到的坑与解决方法 方案1:du...

一、看点 在2022年2月11日,Elasticsearch(ES)正式发布了8.0版本,而截止到2023年10月,历经一年半时间,ES官方已经连续发布了多个版本,最新版本为8.10.4。这一系列的更新引入了众多引人注目的新特性,按照功能模块和重要性进行整理,下面我们将介绍一些核心且引人瞩目的新功能。整体有以下看点: 向量检索 可以在集群中嵌入NLP模型 ES适合做时序数据处理 开箱即用的安全配置功能 底层存储优化 更丰富的地图搜索功能 二、最引人注目的就是向量检索 在8.0版本中,提供新的kNN搜索API。这是一个里程碑的版本,在此之前,ES虽然支持向量检索,但是是以脚本的方式...

ElasticObservability8.10introducesthegeneralavailabilityreleaseofElasticUniversalProfiling™ andenhancementstotheElasticAIAssistantforObservability. Elastic® UniversalProfilingisawhole-system,always-on,continuousprofilingsolutionthateliminatestheneedforcodeinstrumentation,recompilation,o...

先看一下官网给我们提供的全部的参数配置项 官网地址 官方文档链接:注意版本是8.1ConfiguringElasticsearch|ElasticsearchGuide[8.1]|Elastic编辑https://www.elastic.co/guide/en/elasticsearch/reference/current/settings.html 重要(基本)参数 ImportantElasticsearchconfiguration 关于分片和路由的配置 Cluster-levelshardallocationandroutingsettings 分片的配置,用于集群重启时候的...

ES数据迁移最佳实践与讲解        数据迁移是Elasticsearch运维管理和业务需求中常见的操作之一。以下是不同数据迁移方法的最佳实践和讲解: 一、数据迁移需求梳理 二、数据迁移方法梳理 三、各方案对比 方案 优点 缺点(限制) 适用场景 是否有版本要求 开发程序 灵活,方便,可以定制。例如es的搜索快照是一个付费API,可以用程序实现同样的功能,把不需要的索引关闭掉,节省资源,减缓堆压力。等需要的时候再逐个打开,取出数据。 开发成本大 最大迁移速度,为滚动查询的速度。 跨...

 向量检索不仅在的跨模态检索场景中应用广泛,随着chatgpt的火热,es的向量检索,在Ai领域发挥着越来越大的作用。  本文,主要测试es的向量检索性能。我从8.x就开始关注ES的向量检索了。当前ES已经发布到8.10版本。以下是官方文档的链接:   https://www.elastic.co/guide/en/elasticsearch/reference/current/release-highlights.html  本文,在测试的时候使用的是8.3版本(因为测试的时候只发布到这里 )。  在本文中,妥妥滴都是干货...

先在这个网站上生成自己所需需要的log: http://patorjk.com/software/taag/  在网站上可以随意快速生成。这里只限英文单词。 然后复制即可 这里一以一个以脚本为例 !/bin/bash echo" __________________ /____|__\/\|__\||// |(___||__)/\||__)|'/ \___\|___//\\|_/|< ____)||/____\||\\|.\ |_____/|_|/_/\_\_|\_\_|\_\ "

  oGEad7UlSFFQ   2023年11月13日   13   0   0 1024程序员节1024程序员节bashBash

        Elasticsearch是被广泛使用的搜索引擎技术,它的应用领域远不止搜索引擎,还包括日志分析、实时数据监控、内容推荐、电子商务平台、企业级搜索解决方案以及许多其他领域。其强大的全文搜索、实时索引、分布式性能和丰富的插件生态系统使其成为了许多不同行业和领域的首选技术。         虽然Elasticsearch是一款强大的搜索引擎技术,但在超大规模数据检索中,尤其是在处理大量检索关键词(150个以上)、对多个...

 当涉及管理和优化千亿级数据时,性能优化是至关重要的。在这篇文章中,我们将探讨一些关键的性能优化方向,结合我积累的上百个优化参数的经验,为大规模数据管理提供有价值的见解。  千亿级数据的管理和优化是一项复杂而挑战性的任务。然而,通过有效的性能优化策略,结合数据分区、压缩、索引、缓存、并行处理、资源管理以及数据清洗等方法,我们可以实现卓越的性能,提高数据处理效率,同时确保数据的安全性和合规性。这些优化方向的结合将为大规模数据管理提供可行的解决方案,为数据驱动的决策和应用提供可靠的支持。 希望这篇文章为您提供了有关性能优化的重要见解,帮助您更好地管理千亿级数据。无论您是...

一、问题描述:IK分词器版本和ES版本不一致,无法找到和自己ES版本匹配的分词器。 IK分词器,提供的插件版本,远赶不上ES的更新版本,在使用过程中,不一定能顺利的找到与自己使用的ES版本相对应。在ES集群中使用与当前版本不同版本的Ik分词器,集群在启动的过程中,会校验版本,无法通过则节点停止运行! Releases·medcl/elasticsearch-analysis-ik·GitHub 如下:从8.7.0版本直接到了8.8.1版本。中间都都找不到对应版本的分词器。 二、问题解决方案 最简单的方式就是,选一个最接近的版本,然后下载分词器。然后修改一个配置即可。操作步骤如下 进入到...

我是在centos7下升级安装git的,centos7默认的1.8版本的 需要在有网的前提下安装! 需要联网! 1.查看git版本,卸载旧版本 git--versionyumremovegit 2.安装git仓库 rpm-ivhhttp://opensource.wandisco.com/centos/7/git/x86_64/wandisco-git-release-7-1.noarch.rpm 3.安装新版本git yum-yinstallgit  

  oGEad7UlSFFQ   2023年11月02日   17   0   0 服务器gitlinux运维CentOS

 问题描述,拿到服务器,部署服务,然后测试,发现服务拒绝链接了。首先使用 telnet 10.10.10.10 5566 (ip是服务器的ip 端口 是5566)测试服务是否能连接上。果然不通,查看了防火墙的状态,竟然是关着的,于是打开的防火墙,并对外开放端口。  程序员的思维,万物皆可增删改查  操作的对象就是防火墙。  centos默认是没有启动的,所以需要启动一下,才能操作    查看防火墙状态 systemctlstatusfirewalld 下边的 ...

  oGEad7UlSFFQ   2023年11月02日   33   0   0 服务器增删改查CentOS
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~