Greenplum全文检索——GPtext的安装
  7uk9nQQzKLJb 2023年11月13日 28 0

1GPtext简介

GPText是作为数据库的文本分析的扩展。在数据库里面,特别是GPDB是非常擅长于处理各种结构化的数据,MPP的方式可以高效地处理结构化数据。但是对于半结构化的或者是纯文本的数据,它有搜索需求,这种处理就不是那么高效。

GPText可以将Greenplum数据库集群与Apache SolrCloud集群相结合,对大规模的文本分析进行支持。它可以支持半结构化的数据、纯文本的数据,可以提供友好的SQL接口。基于对数据库和对SQL语法的熟悉,我们提供SQL的接口,让用户通过SQL的方式进行文本的处理。

GPText对文本的机器学习的支持,也是做了很无缝的衔接。MADlib我们有专门为开通的函数,所以GPText能够很方便的做文本类型的数据。

并且GPText可以做深度的定制,因为每个应用场景、应用需求都是不一样的。文本类型也是不一样的。所以我们除了提供基本的文本处理的

功能之外,包括文本的分词等处理之外,用户可以根据他们的需求来深度定制。

2、安装jdk

tar -zxvf jdk-8u181-linux-x64.tar.gz

vim /etc/profile

Greenplum全文检索——GPtext的安装_vim

source /etc/profile

Greenplum全文检索——GPtext的安装_vim_02

3、安装netcat、lsof

yum -y install nc

yum -y install lsof

4、安装zookeeper

cd /usr/local

tar -zxvf zookeeper-3.4.13.tar.gz

cd zookeeper-3.4.13

mkdir data

mkdir logs

touch data/myid

vim data/myid             //分别在不同的主机上写入

1             >> mdw

2             >> swd1

3             >> swd2

mv conf/zoo_sample.cfg conf/zoo.cfg

vim conf/zoo.cfg

dataDir=/usr/local/zookeeper-3.4.13/data

dataLogDir=/usr/local/zookeeper-3.4.13/logs

server.1=mdw:2888:3888

server.2=sdw1:2888:3888

server.3=sdw2:2888:3888

vim /etc/profile

# ZOOKEEPER_HOME

export ZOOKEEPER_HOME=/usr/local/zookeeper-3.4.13

export PATH=$ZOOKEEPER_HOME/bin:$PATH

source /etc/profile

./zkServer.sh start

5、上传gptext文件

下载gptext:https://network.pivotal.io/products/pivotal-gpdb/#/releases/253113/file_groups/1331

cd /home/gpadmin

tar -zxvf greenplum-text-3.1.0-rhel6_x86_64.tar.gz

[root@node1 gpadmin]# ll

Greenplum全文检索——GPtext的安装_数据_03

6、链接其他主机

source $GPHOME/greenplum_path.sh

vim hostlist.txt                         //创建hostaname文件,用于链接其他主机

mdw

sdw1

sdw2

gpssh -f hostlist.txt  

=> mkdir /usr/local/greenplum-text-3.1.0

=> mkdir /usr/local/greenplum-solr

=> chown gpadmin:gpadmin /usr/local/greenplum-text-3.1.0

=> chmod 775 /usr/local/greenplum-text-3.1.0

=> chown gpadmin:gpadmin /usr/local/greenplum-solr

=> chmod 775 /usr/local/greenplum-solr

=> mkdir /data/gptext

=> chown -R gpadmin:gpadmin /data/gptext

=> chmod 775 /data/gptext

=> exit

chown gpadmin:gpadmin greenplum-text-3.1.0-rhel6_x86_64.bin

chown gpadmin:gpadmin gptext_install_config

su - gpadmin

7、修改配置文件gptext_install_config

vim gptext_install_config

declare -a GPTEXT_HOSTS=(mdw swd1 sdw2)                                 //声明集群的主机名

declare -a DATA_DIRECTORY=(/data/gptext/primary /data/gptext/primary)   //设置数据存储路径

JAVA_OPTS="-Xms1024M -Xmx2048M"                                         //设置SolrCloud JVM的最大值和最小值

GPTEXT_PORT_BASE=18983                                                  //设置端口的范围

GP_MAX_PORT_LIMIT=28983

ZOO_CLUSTER="mdw:2181,sdw1:2181,sdw2:2181"     //zookeeper

ZOO_GPTXTNODE="gptext"

ZOO_PORT_BASE=2188

ZOO_MAX_PORT_LIMIT=12188

GPTEXT_JAVA_HOME=/usr/local/jdk1.8.0_191     //所有节点的jdk都是这个路径

8、运行安装文件

./greenplum-text-3.1.0-rhel6_x86_64.bin -c gptext_install_config

9、启动gptext

source $GPHOME/greenplum_path.sh

source /usr/local/greenplum-text-3.1.0/greenplum-text_path.sh

gptext-installsql bigdata                            //在数据库安装gptext实例,bigdata是本地数据库

gptext-start                                         //启动gptext

gpconfig -c custom_variable_classes -v 'gptext'      //配置greenplum数据库

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月13日 0

暂无评论

推荐阅读
  eHipUjOuzYYH   2023年12月07日   27   0   0 数据乐观锁redis
  jnZtF7Co41Wg   2023年12月09日   27   0   0 客户端服务端数据