数据可用不可见,百度新版本联邦学习PaddleFL来了

极客逐浪客
• 阅读 1336

伴随着智能化时代的迈进,AI无处不在,万事皆可智能化,很多企业走到了时代的风口,也不断有着更多的企业想跻身队伍,跨上AI大时代的战车。大家都深知人工智能的三大基石是:算法、算力与数据。传统企业有着丰富的数据基础,却缺乏技术能力;新型企业的技术能力紧跟时代步伐却苦于数据贫瘠。算力可以花钱买到,算法可以通过培养招聘技术人才来补齐,但是数据匮乏却使人在人工智能赛道上举步维艰。

在国内外监管环境日渐完善的今天,大家都在加强数据保护意识,很多有巨大价值的数据即使在公司内部都无法流通,从而形成数据孤岛。我国在今年9月推行的《中华人民共和国数据安全法》、将在11月1日起施行《中华人民共和国个人信息保护法》,都进一步要求数据在安全合规的前提下进行流动,这也让联邦学习再次掀起一波浪潮。

百度点石提供数据安全融合与应用服务、大数据核心技术能力,基于联邦学习、多方安全计算、可信执行环境等主流隐私计算技术,安全高效实现数据赋能,助力客户提升数据价值。
其中,基于百度飞桨开发的开源联邦学习框架PaddleFL,让企业之间的合作能够在数据层面安全开展。开发人员很容易在大规模分布式集群中部署PaddleFL联邦学习系统。PaddleFL提供多种联邦学习策略(横向联邦学习、纵向联邦学习)及其在计算机视觉、自然语言处理、推荐算法等领域的应用。

最近,PaddleFL新版本PaddleFL v1.1.2版本正式发布,在前期三方安全计算协议之上,新增了面向两方场景的安全计算协议以及安全联邦学习实现。新增特性描述如下:

1. 两方安全计算协议PrivC实现

PrivC协议实现总体参考了ABY协议,支持两方peer-to-peer计算模型以及外包计算模型,提供了半诚实模型下的计算安全性。在ABY协议混合电路计算的思想上,PrivC进行了一系列实现优化,如以tensor为单位聚合通信提升吞吐量,使用FreeXOR、HalfGate等方法降低加密电路运算开销,使用全同态加密计算乘法三元组等,并对非线性机器学习算子进行了近似实现,有效地提升了两方安全学习的性能。

2. 基于PrivC的两方安全联邦学习

PaddleFL在PrivC协议的基础上,为只有两个参与方情况下的联邦学习场景提供了针对性的解决方案。PaddleFL目前提供了纯两方的矩阵乘法、fc、relu、sigmoid、softmax等机器学习常用算子及其梯度计算实现,支持两方场景下的线性回归、对率回归、多层感知机等模型的训练与预测,具有优良的性能。

数据可用不可见,百度新版本联邦学习PaddleFL来了
图 1 PaddleFL with PrivC运行示意图

PaddleFL在两方条件下的训练性能如下:

2.1 场景一 线性回归:

数据集与训练参数:
UCI波士顿房价,epoch = 20,batch_size = 10,lr = 0.1;
数据量:506行,80%用于训练,20%用于测试

数据可用不可见,百度新版本联邦学习PaddleFL来了

2.2 场景二 逻辑回归:

数据集与训练参数:
MNIST数据集(label修改为二分类,“1”为1,其余为0),epoch = 1,batch_size = 128,lr = 0.01;
数据量:50 000条训练样本,10 000条测试样本

数据可用不可见,百度新版本联邦学习PaddleFL来了

3. 在线数据切片与分发

在1.1.2版本中,新增了对数据在线切片(secret-share)与分发的支持。在以前版本中,各实体间只能通过离线方式对数据进行切片,然后单独传输到计算方上。而在PaddleFLv1.1.2中,各实体间可以通过在线方式对明文数据进行切片与分发,免去了中间数据存储的步骤。

4. 增加对gRPC通信模式的支持

在1.1.2版本中,新增了对gRPC协议的支持,用户可以根据需要指定采用Gloo通信模式或是gRPC通信模式。利用gRPC通信协议,可以有效应对网络不稳定造成的闪断等情况,并对未来实现网络隔离条件下的端口收敛与单向通信提供了条件。

百度点石联邦学习平台兼容PaddleFL,为跨机构数据流通提供“可用不可见,相逢不相识”的极致安全体验。以此解决金融、政府、医疗、互联网等客户在联合风控、联合营销、联合分析等场景的数据安全和隐私保护需求,实现数据价值极大释放。
点击进入获得更多技术信息~~

点赞
收藏
评论区
推荐文章
Wesley13 Wesley13
3年前
AI智能电话机器人源码搭建揭秘!
随着人工智能的普及,AI已经渗透到各行各业,本文就为大家介绍了利用最前沿的AI技术实现电话机器人的原理。智能电话机器人就是充分的利用了人工智能语音识别技术和大数据的精准分析定位,完全是对传统模式是一次颠覆性的变化,是智能化的人海战术还是时代化的“人工智能语音”的一种方式,智能电话机器人是企业的福音!帮企业降低成本,提高工作效率,提升公司业绩!电话机器人
玩转云端 | 看天翼云iBox智能盒子如何实现边缘侧的“神机妙算”
在昨日播出的《坐标中国》系列主题片中国速度之《神机妙算》中中国高达150EFlops的总算力规模以及在20毫秒内传输2200公里的算力超高速我国算力发展除了体现在超高速与大规模上更体现在智能化发展中在AI和算力调度平台的赋能下智算能力不断
ChatGPT 背后的英雄——AI芯片
AI芯片能为人工智能应用提供所需的基础算力;按技术架构主要分为GPU、FPGA和ASIC。ChatGPT有着大量复杂计算需求的AI模型,AI芯片专门用于处理人工智能应用中的大量计算任务,是不可或缺的底层硬件
数据处理巅峰体验:HANA助力企业飞跃
在数字化时代,数据处理能力已成为企业竞争力的核心要素。然而,随着数据量的爆炸式增长和复杂性的不断提升,传统数据处理方式已难以满足企业的需求。在这一背景下,SAP以其卓越的性能和智能化功能,为企业带来了数据处理的巅峰体验,助力企业实现飞跃式发展。一、数据处理
美凌格栋栋酱 美凌格栋栋酱
5个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
京东云开发者 京东云开发者
4个月前
DeepSeek的开源之路:一文读懂从V1-R1的技术发展,见证从开源新秀到推理革命的领跑者
作者:京东科技蔡欣彤一、引言:AI时代的挑战与DeepSeek的崛起在大模型时代,AI技术的飞速发展带来了前所未有的机遇,但也伴随着巨大的挑战。随着模型规模的不断扩大,算力需求呈指数级增长,训练成本飙升,而性能提升的边际收益却逐渐递减,形成了所谓的“Sca
京东云开发者 京东云开发者
3个月前
DeepSeek的开源之路:一文读懂从V1-R1的技术发展,见证从开源新秀到推理革命的领跑者
作者:京东科技蔡欣彤一、引言:AI时代的挑战与DeepSeek的崛起在大模型时代,AI技术的飞速发展带来了前所未有的机遇,但也伴随着巨大的挑战。随着模型规模的不断扩大,算力需求呈指数级增长,训练成本飙升,而性能提升的边际收益却逐渐递减,形成了所谓的“Sca
“人工智能+”智赋千行百业!
今年,DeepSeek在AI赛道一骑绝尘以“火炎焱燚”之势迅速延伸开启中国AI黄金时代如今,中国的AI故事正在书写新篇中国的科技强国之路也正越走越宽在DeepSeek引领的人工智能热潮中作为云服务国家队天翼云“息壤”智算平台率先完成国产算力与DeepSee
天翼云出席DCIC2025,“翼立方”创新力拉满!
近日,由中国通信企业协会主办的DCIC2025(第14届)数据中心产业发展大会在北京召开。大会以“共筑算力基石,护航产业生态”为主题,邀请众多知名算力企业代表以及生态合作伙伴代表,共探算力基础设施高质量发展路径。天翼云科技有限公司基础架构事业部研发专家刘伟
天翼云出席中国系统架构师大会,以科技创新引领产业升级!
紧跟时代趋势与用户需求的变化,天翼云以息壤一体化智算服务平台为核心,构建“算力、平台、数据、模型、应用”五位一体的智能云能力体系,为全社会提供人工智能基础设施服务。
以“息壤”一体化智算服务平台夯实新质生产力,助力千行百业实现高质量发展!
全国一体化算力网建设是国家战略和时代需求。一是满足爆发的算力需求。人工智能大模型、量子计算等前沿技术催生算力需求指数级增长,通过国产算力集群化供给,可满足前沿技术算力缺口。二是要破解国内算力资源与需求的结构性矛盾。国内算力存在区域失衡,东部算力需求大,但能