Skip to content

Triumphhh/LDP-Afterreading

Repository files navigation

image# Differential Privacy Learning Repository of Privacy-preserving Big Data Analytics Group, CIAT, GZHU.

前言

该学习库中包括差分隐私相关研究的汇总,以及小组工作汇报内容

Overview of Differential Privacy in Practice

Title Team/Main Author Year Key Description
Differential Privacy in Practice: Expose your Epsilons! Cynthia Dwork 2019 文章针对差分隐私落地面临诸多阻碍的问题,使用访谈的方式,与部署了差分隐私的企业的相关人士进行了深入系统性的沟通交流,并对访谈结果进行了归纳整理。文中重点探讨了隐私预算在实际应用中的选择,提出Epsilon Registry.(知乎:https://zhuanlan.zhihu.com/p/641373746)
Privacy at Scale: Local Differential Privacy in Practice Graham Cormode, Ninghui Li, Tianhao Wang 2018 文章概述了LDP的应用场景以及行业发展方向,对LDP的各个方面进行了详细介绍.
本地化差分隐私研究综述 Qingqing Ye, Xiaofeng Meng 2018 文章介绍了LDP的原理和特性,总结和归纳了当前研究工作以及阐述LDP的研究热点,指出了LDP的未来研究挑战.

Differential Privacy Open-source Project

Name Team/Corporation Year Key Description
RAPPOR: Randomized Aggregatable Privacy-Preserving Ordinal Response Google 2015 项目地址:https://github.com/google/rappor
博客:https://www.cnblogs.com/sftsgly/articles/17501447.html
google-differential-privay Google 2019 项目地址:https://github.com/google/differential-privacy
IBM-differential-privacy-library IBM 2018 项目地址https://github.com/IBM/differential-privacy-library/blob/main/
博客:https://research.ibm.com/blog/ibm-differential-privacy-library-the-single-line-of-code-that-can-protect-your-data
learning-privacy-at-scale Apple 2017 项目地址https://github.com/Samuel-Maddock/Apple-Differential-Privacy
博客:https://machinelearning.apple.com/research/learning-with-privacy-at-scale
Collecting Telemetry Data Privately Microsoft 2017 项目地址:None
博客:https://www.microsoft.com/en-us/research/blog/collecting-telemetry-data-privately/
Jeddak-DPSQL Bytedance 2023 项目地址:https://github.com/bytedance/Jeddak-DPSQL/
博客:https://zhuanlan.zhihu.com/p/571766114
OpenDP OpenDP 2020 项目地址:https://github.com/opendp/opendp
Opacus Meta AI(Facebook) 2021 项目地址:https://github.com/pytorch/opacus
博客:https://zhuanlan.zhihu.com/p/212862132

~ Some other useful DP tool libraries

Name Author Key Description
LDP_protocols Tianhao Wang 本地化差分隐私在Python中的简单应用,包括HIO、PEM、SVSM等。
项目地址:https://github.com/vvv214/LDP_Protocols
pure_LDP Samuel Maddock 本地化差分隐私频率估计算法在Python中的简单应用,包括LH、DE、HM、AppleCMS/HCMS等。
项目地址:https://github.com/Samuel-Maddock/pure-LDP

Federated Learning Open-source Project

Name Team/Corporation Year Key Description
FATE FedAI 2019 项目地址:https://github.com/FederatedAI/FATE
博客:https://zhuanlan.zhihu.com/p/424465305
FederatedScope Alibaba DAMO 2023 项目地址:https://github.com/alibaba/FederatedScope
博客:https://www.jiqizhixin.com/articles/2022-05-09-7
视频讲解:https://www.bilibili.com/video/BV1Sv4y197ju/?spm_id_from=333.788&vd_source=406c96d7ba3d57a6cbbe36c50b5a1b75

LDP and DP下数据分析

Title Team/Main Author Journal/Conference Key Description
Collecting And Analyzing Data Jointly From Multiple Services under Local Differential Privacy Alibaba, Min Xu, Bolin Ding, Tianhao Wang 2020/VLDB Endowment 针对多服务器场景下的本地化差分隐私数据收集与分析。
- 实验代码:无
- ☑️ 组内汇报:
RAPPOR: Randomized Aggregatable Privacy-Preserving Ordinal Response. Google, Úlfar Erlingsson 2014/CCS 文章提出了基于两阶段随机响应机制的本地化差分隐私算法,用于保护客户端数据上的人口统计信息和隐私。其中随机响应机制是利用布隆过滤器实现的。
- 实验代码:https://github.com/google/rappor
- ☑️ 组内汇报:
Building a RAPPOR with the Unknown: Privacy-Preserving Learning of Associations and Data Dictionaries G. Fanti, Vasyl Pihur, Ú. Erlingsson 2015/Priv.Enhancing Technol 文章提出新颖的解码算法在未知关系和词典的情况下构建RAPPOR,并且开发了估计RAPPOR收集的两个或多个变量的联合分布的方法。
- 实验代码:https://github.com/google/rappor
- ☑️ 组内汇报:
DPSAaS: Multi-Dimensional Data Sharing and Analytics as Services under Local Differential Privacy Alibaba, Min Xu, Tianhao Wang, Bolin Ding 2019/VLDB Endow 由阿里提出的本地化差分隐私下的多维数据共享和分析云服务。
- 实验代码:无
- ☑️ 组内汇报:
Heavy Hitter Estimation over Set-valued Data with Local Differential Privacy Qin Z,Yang Y 2016/CCS 本地差分隐私下对集值数据的频繁项估计。
- 实验代码:https://github.com/Jun-Zhang-32108/GFIM_LDP
- ☑️ 组内汇报:
Locally DIfferentially Private Heavy Hitters Identification Tianhao Wang, Ninghui Li 2021/TDSC 本地化差分隐私下的频繁项识别:提出了前缀扩展方法(Prefix Extending Method,PEM)。
- 实验代码:https://github.com/vvv214/LDP_Protocols
- ☑️ 组内汇报:
Budget Sharing for multi-analyst differential privacy David Pujol, Yikai Wu 2021/PVLDB 本文首次研究了多分析师场景下的差分隐私预算共享,并针对此问题提出了三种机制:共享激励,不干涉和适应性。
- 实验代码:https://github.com/yikai-wu/Multi-Analyst-DP
- ☑️ 组内汇报:
Multi-analyst differential privacy for online query answering David Pujol, Albert Sun 2022/PVLDB 本文基于作者们之前的研究,将多分析师差分隐私预算分配问题扩展到了在线查询回答的情况下。
- 实验代码:无
- ☑️ 组内汇报:
DDRM: A Continual Frequency Estimation Mechanism With Local Differential Privacy Qiao Xue, Qingqing Ye,Haibo Hu 2023/TKDE 本文提出了一种时间序列数据收集方案,即动态差异报告机制DDRM,用于连续频率估计,解决了记忆技术存在的两个问题,同时保持高精度,提出了为连续频率估计分配隐私预算的最佳解决方案,实现了效用增强.
- 实验代码:https://github.com/Joy-Xue/DDRM
- ☑️ 组内汇报:
Local Differentially Private Fuzzy Counting in Stream Data using Probabilistic Data Structures D. Vatsalan, R. Bhaskar and M. A. Kaafar 2023/TKDE 本文研究实时流数据中项目频率的隐私保护问题,目标是为计数查询功能的实时处理提供改进,其中计数查询需要实时和在线地进行响应,提出一种用于实时流应用的差分隐私计数方法.
- 实验代码:无
- ☑️ 组内汇报:
Heavy Hitter Identification Over Large-Domain Set-Valued Data With Local Differential Privacy Youwen Zhu,Qihui Wu 2024/Inf. Forensics Secur 本文基于前缀扩展方法PEM提出了解决大域场景下集值数据收集频繁项估计的问题,结合先前方法研究了多重集的保护方案,保证可靠的精度的同时提升了效率.
- 实验代码:https://github.com/Joy-Xue/PemSet.
- ☑️ 组内汇报:

LDP and DP下数据发布

Title Team/Main Author Venue and Year Key Description
AHEAD: Adaptive Hierarchical Decomposition for Range Query under Local Differential Privacy Linkang Du 2021/CCS 主要讲述的是针对LDP下响应范围查询的问题,作者提出了一种自适应构建多层次分析树的方案来提升在LDP下响应范围查询的精度。
- 实验代码:无
- ☑️ 组内汇报:
Answering Multi-Dimensional Analytical Queries under Local Differential Privacy Tianhao Wang 2019 pure-LDP概念。三种频率估计机制:单维和多维下的HIO机制、SC拆分再联接机制。
- 实验代码:https://github.com/vvv214/LDP_Protocols
- ☑️ 组内汇报:
Continuous Release of Data Streams under both Centralized and Local Differential Privacy Tianhao Wang 2019 主要描述的是在数据流发布环境下如何使用DP和LDP对数据流施加差分隐私保护,同时作者提出了两个框架,一个是基于DP的ToPS框架,一个是基于LDP的ToPL框架。
- 实验代码:https://github.com/dp-cont/dp-cont
- ☑️ 组内汇报:
Empirical Risk Minimization in the Non-interactive Local Model of Differential Privacy Di Wang 2020 这篇文章提出使用内积多项式的形式释放函数,一般是用于分布式学习和联邦学习下,但在响应边缘查询(k-way Margin Query)时也提出了使用内积多项式的形式去简化查询函数(使用数学去定义查询函数),从而提升查询精度。
- 实验代码:无
- ☑️ 组内汇报:

DP/LDP and Optimization techniques 优化技术

Title Team/Main Author Venue and Year Key Description
The Matrix Mechanism: optimizing liner counting queries under differential privacy Chao Li 2015 本文提出的矩阵机制(MM)可以更准确回答计数查询集,并可以通过迭代求解半定规划计算最优策略。
- 实验代码:无
- ☑️ 组内汇报:
Query optimization for differentially private datamanagement system Peng, Shangfu 2013 本文提出了 Pioneer,这是一种适用于 DP 兼容 DBMS 的有效且高效的查询优化器,其构建了一个重用历史查询的执行方案,以尽量减少隐私预算的使用。它还包括一种有效的算法,用于选择有助于回答新传入查询的历史查询,并且方案计算和历史查询选择的计算成本可忽略。
- 实验代码:无
- ☑️ 组内汇报:

DP and LDP与机器学习相结合

Title Team/Main Author Venue and Year Key Description
Empirical Risk Minimization in the Non-interactive Local Model of Differential Privacy Di Wang 2020 这篇文章基于前人工作(伯恩斯坦多项式机制、非交互式差分隐私方面等提出了使用内积多项式的方法释放函数,还提出了1-bit的通信方法,能够使泛化误差的上界更为紧致,且对样本量n的依赖度降为多项式级别,但是问题在于这只是理论上的,作者也表明了不知道在现实中的应用效果是怎么样的)。
- 实验代码:无
- ☑️ 组内汇报:
Optimal Algorithms for Mean Estimation under Local Differential Privacy Hilal Asi, V. Feldman, Kunal Talwar 2022/ICML 用于处理聚合过程中的均值估计的问题,开发了一种基于高斯机制的PrivUnit方法,通过采样的方式降低噪声引入带来的误差。
- 实验代码:无
- ☑️ 组内汇报:

DP and LDP与联邦学习相结合

Title Team/Main Author Venue and Year Key Description
LDP-FL: Practical Private Aggregation in Federated Learning with Local Differential Privacy Lichao Sun 2021/IJCAI 本文针对在多层神经网络中存在隐私预算爆炸的问题提出了LDP-FL框架,不仅很好的保护了隐私,而且通过分割洗牌机制降低了隐私预算在多层迭代中的激增.
- 实验代码:无
- ☑️ 组内汇报:
LDP-Fed: Federated Learning with Local Differential Privacy Stacey Truex 2020/EdgeSys 本文提出了LDP-Fed框架,LDP 模块为在多个个体参与者的私有数据集上的大规模神经网络联合训练中模型训练参数的重复收集提供了正式的差分隐私保证。其次,LDP-Fed实现了一套选择和过滤技术,用于扰动和与参数服务器共享选择的参数更新.
- 实验代码:无
- ☑️ 组内汇报:

Join queries under DP 隐私保护数据库连接查询

Title Team/Main Author Venue and Year Key Description
Residual Sensitivity for Differentially Private Multi-way joins Wei Dong, Ke Yi 2021/SIGMOD 为了解决连接查询下差分隐私噪声敏感度过大以及计算效率的问题,本文提出残差查询和残差敏感度或最大边界,使敏感度计算满足高效率、高效用以及可一体化.
- 实验代码:https://github.com/hkustDB/ResidualSensitivity
- ☑️ 组内汇报:
Better than Composition:How to Answer Multiple Relational Queries under Differential Privacy Wei Dong, Dajun Sun, Ke Yi 2023/ACM Maanage.Data 将单查询机制扩展到多个查询的标准解决方案是通过隐私组合。然而,这可能会产生一个误差范围,该误差范围可能比最优值差根号d因子,其中d是查询数量。在本文中,提出了一种不同的、更全面的方法来缩小这一差距.
- 实验代码:https://github.com/hkustDB/PMSJA
- ☑️ 组内汇报:
Join query ootimization techniques (Non-Private): ↘️
Wander join and XDB: Online aggregation via random walks Feifei Li, Bin Wu, Ke Yi, Zhuoyue Zhao 2017/SIGMOD 本文提出了一种新颖的采样算法对数据库连接进行采样,基于在线聚集利用随机游走的方式针对不同场景下的连接查询进行连接采样,得到独立非均匀地样本,具有高效性.
- 实验代码:https://github.com/InitialDLab/XDB
- ☑️ 组内汇报:
Random Sampling over Joins Revisited Zhuoyue Zhao, Feifei Li, Ke Yi 2018/SIGMOD 本文对数据库连接采样的问题进行了回顾,总结了前人的方法与缺陷,并基于此提出改进。构建了连接随机采样框架统一化先前方法,并在更复杂场景下给出更加优化的方案来解决连接的随机采样.
- 实验代码:https://github.com/InitialDLab/SampleJoin
- ☑️ 组内汇报:

AQP近似查询处理/Sketches 草图技术

流算法(Streaming algorithms):使用次线性的时间、空间成本,以很高的计算速度快速响应大型流数据的处理。缺点是只能得到近似真实值的结果,但是很多算法会给出相应估计误差界限。

Title Team/Main Author Venue and Year Key Description
Persistent Data Sketching Zhewei Wei, Ke Yi 2015/SIGMOD 本文的是使草图持久化,从而使流式算法能够在历史上的任何先前时间回答查询,并且仍然有一个小的ε错误.
- 实验代码:无
- ☑️ 组内汇报:
At-the-time and Back-in-time Persistent Sketches Benwei Shi, Zhuoyue Zhao, Feifei Li 2021/SIGMOD 本文提出了当时持久性(ATTP)和回溯性持久性(BITP)草图的概念,这些草图可以用小空间近似回答对先前版本的数据的查询.
- 实验代码:无
- ☑️ 组内汇报:

Our works

Title Team/Main Author Venue and Year Key Description
Local differentially private frequency estimation based on learned sketches Sixin Lin, Meifan Zhang 2023/Inf. Sci 在本文中,我们提出了一种基于 LDP 学习草图的大域数据的两阶段频率估计框架,该框架将高频项和低频项分开,以避免哈希冲突引起的误差.
- 实验源码:待发布

数据与代码

机器学习相关论文查询:https://paperswithcode.com/
数据集查找:https://snap.stanford.edu/data/
https://www.kaggle.com/datasets

Releases

No releases published

Packages

No packages published