基于ubuntu系统部署FateLLM1.3.0

天翼云开发者社区
• 阅读 34

本文分享自天翼云开发者社区《基于ubuntu系统部署FateLLM1.3.0》,作者:刘****阳 一、基础环境

本次测试是基于K8S集群管理的两个POD节点进行部署,软硬件信息如下:

   服务器规格:  CPU:8c80G    GPU:V100/40G * 2

   系统环境:   ubuntu18.04-cuda11.7-deepspeed0.9.5

二、基础配置

1、安装基础依赖

apt-get update
apt-get install -y language-pack-en net-tools supervisor cron iputils-ping ansible openssh-server sudo vim strace
service ssh start
service ssh status

2、配置用户及权限

groupadd  apps
useradd -s /bin/bash -g apps -d /home/app app
passwd app
# 输入app用户密码
# -----------------------------------------------
# 配置app用户sudo权限
vi /etc/sudoers.d/app
# 添加内容
app ALL=(ALL) ALL
app ALL=(ALL) NOPASSWD: ALL
Defaults !env_reset
# 给文件sudoers文件增加写入权限
chmod u+w /etc/sudoers
vim /etc/sudoers
# 在root ALL=(ALL) ALL下面追加:
root ALL=(ALL) NOPASSWD: ALL
app ALL=(ALL) ALL
app ALL=(ALL) NOPASSWD: ALL
# 删除写入权限
chmod u-w /etc/sudoers
# ------------------------------------------------
# 配置自身免密登录
su app
ssh-keygen -t rsa

cat /home/app/.ssh/id_rsa.pub >>/home/app/.ssh/authorized_keys
chmod 600 /home/app/.ssh/authorized_keys

3、创建文件目录并赋予权限

mkdir -pv /data/projects /data/temp /data/logs /data/soft /home/app
chown -R app:apps /data/* /home/app

4、下载软件包

# 使用Ansible方式进行部署
su app
cd /data/soft/
wget ****************************/AnsibleFATE_1.11.3_LLM_1.3.0_release_offline.tar.gz
# 解压文件
cd /data/soft/AnsibleFATE_1.11.3_LLM_1.3.0_release_offline
#安装fate所需的基础环境
bash tools/install_base.sh

可以将基础步骤打包成镜像,分发到其余节点。

三、FateLLM框架安装

1、初始化

cd /data/soft/AnsibleFATE_1.11.3_LLM_1.3.0_release_offline
# 在host节点初始化host
bash deploy/deploy.sh init -h="10000:XXX.XXX.XXX.XXX"
# 在guest节点初始化guest
bash deploy/deploy.sh init -g="9999:XXX.XXX.XXX.XXX"
# 初始化后会在deploy/conf文件夹下生成conf文件,可配置安装的组件

2、生成ansible配置文件

cd /data/soft/AnsibleFATE_1.11.3_LLM_1.3.0_release_offline
# 在host节点初始化host
bash deploy/deploy.sh render
# 会生成var_files/prod文件夹
# 各组件的用户密码可在此进行修改

3、进行部署操作

cd /data/soft/AnsibleFATE_1.11.3_LLM_1.3.0_release_offline
# 在host节点和guest节点分别进行部署
bash deploy/deploy.sh deploy
# 安装部署日志提示无报错后,安装成功

4、进行基础测试

# 单边测试
# host节点执行
source /data/projects/fate/bin/init_env.sh
flow test toy -gid 10000 -hid 10000
# guest节点执行
source /data/projects/fate/bin/init_env.sh
flow test toy -gid 9999 -hid 9999
# 执行成功后会返回正确结果

(2)配置route_table
# 在host节点添加guest路由信息
vim /data/projects/fate/eggroll/conf/route_table.json
在路由信息中添加
"9999":
    {
      "default":[
        {
          "port": XXXX,
          "ip": "XXX,XXX,XXX,XXX"
        }
      ]
    }
# 同理在guest节点添加host信息
(3)进行双边基础测试
flow test toy -gid 9999 -hid 10000
# 注意在哪个节点执行哪个节点为guest
点赞
收藏
评论区
推荐文章
创建本地yum仓库
本文分享自天翼云开发者社区《》,作者:zzzzgj;背景有的部署环境不通外网,但希望继续使用yum命令下载依赖包而不修改部署脚本逻辑。因此记录一个本地repo的建立方法。1、获取依赖包如在通网的机器上下载openssldevel所有依赖yumdownloa
RPM常用命令以及组合使用场景
本文分享自天翼云开发者社区《》,作者:邬祥钊当涉及到管理基于RedHat系的Linux系统时,RPM(RedHatPackageManager)是一个常用的软件包管理器。以下是一些常用的RPM命令以及它们的组合使用场景:常用命令:1.rpmivhpacka
云平台监控指标的设定
本文分享自天翼云开发者社区@《》,作者:AE86上山了为了确保存储和服务器能应付不断增长的业务需求,对磁盘资源、内存和CPU资源、宿主操作系统进行监控是必要的。1.磁盘资源服务器硬盘是磁盘资源中最慢的组件,在企业数据中心,仔细设计存储子系统,不要让它成为主
基于Linux系统的PXE搭建方法
本文分享自天翼云开发者社区《》,作者:tn一、底层环境准备1、安装RedHat7.6系统2、关闭防火墙和Selinuxsystemctlstopfirewalldchkconfigfirewalldoffvim/etc/sysconfig/selinux修
Dummynet简单部署
本文分享自天翼云开发者社区《Dummynet简单部署》,作者:凸凹部署流程^准备内核版本 ^参看系统内核版本unamer 我们需要将ipfw编译成内核模块,请确保ipfw用到的内核源码版本同你linux系统运行内核版本一致。
RabbitMQ集群部署(一)——单机模式部署
本文分享自天翼云开发者社区《》,作者:芋泥麻薯RabbitMQ是一种开源消息队列系统,是AMQP的标准实现,用erlang语言开发。RabbitMQ具有良好的性能和时效性,同时还能够非常好的支持集群和负载部署,非常适合在较大规模的分布式系统中使用。Rabb
RabbitMQ集群部署(二)——普通集群模式部署
本文分享自天翼云开发者社区《》,作者:芋泥麻薯RabbitMQ普通集群模式即在多个服务器上部署多个MQ实例,每台机器一个实例.创建的每一个queue,只会存在一个MQ实例上.但是每一个实例都会同步queue的元数据(即queue的标识信息).当在进行消费的
Knative Autoscaler 自定义弹性伸缩
本文分享自天翼云开发者社区@《》,作者:我是小朋友背景如今各大云厂商都开始提供ServerlessKubernetes服务,简化集群管理,降低运维管理负担,让Kubernetes更加简单。那么问题来了,一个系统到底需要具备怎样的能力才能更好地支撑Serve
基于Casbin的ABAC授权模型设计与开发踩坑实录
本文分享自天翼云开发者社区《》,作者:upclose最近因项⽬需求,需要寻求⼀个好⽤强⼤的权限管理⽅案。天翼云安全实验室经过仔细调研,最终选择了ABAC(AttributeBasedAccessControl,基于标签的访问控制)作为授权模型的基础,在具体
云计算之-弹性伸缩
本文分享自天翼云开发者社区@《》,作者:AE86上山了弹性伸缩弹性伸缩为用户提供高效管理计算资源的策略。用户可设定时间周期性地执行管理策略或创建实时监控策略,来管理VM实例数量,并完成对实例的环境部署,保证业务平稳顺利运行。在需求高峰时,弹性伸缩自动增加V
天翼云开发者社区
天翼云开发者社区
Lv1
天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。
文章
866
粉丝
16
获赞
40