题 目:差分隐私在机器学习和统计学中的问题选讲
主讲人:王帝 阿卜杜拉国王科技大学 助理教授
时 间:
2021年1月5(周二)上午 08:30-11:30
2021年1月6(周三)下午 13:00-16:00
2021年1月7(周四)上午 08:30-11:30
地 址:中北理科大楼A510
个人简介:
王帝将于2021年1月入职阿卜杜拉国王科技大学担任助理教授. 在此之前, 他于2020年毕业于纽约州立大学布法罗分校并取得计算机博士学位,2015年毕业于加拿大西安大略大学取得数学硕士学位, 2014年毕业于山东大学数学与应用数学专业。在博士期间他曾访问哈佛大学,波士顿大学,加州大学伯克利分校和西蒙斯计算理论研究所。
他的研究领域是隐私保护和可靠性机器学习。在近些年他主要从事差分隐私,鲁棒统计学习,对抗性机器学习,因果学习,高维统计和大规模数据优化等领域的研究。在博士期间他以第一作者的身份发表24篇文章于IEEE Transactions on Information Theory, Journal of Machine Learning Research, Theoretical Computer Science, Machine Learning, ICML, NeurIPS/NIPS, ALT, AAAI, IJCAI等顶级机器学习,人工智能,理论计算机会议和期刊。
摘 要:
机器学习已成为从大数据中提取有用信息的最强大工具之一。它在许多应用中起着至关重要的作用,尤其是在社会科学,金融,医学和基因组学等研究领域。但是,由于敏感信息的存在,我们无法直接在此类数据上直接实现机器学习算法。传统的方法(如匿名化)遭受了许多隐私泄露。因此,我们迫切需要具有更大的隐私保护能力的方法。为此,近些年很多学者将研究重点放在差分隐私(DP)上,这是一种强大的数学机制,用于植根于密码学中的隐私保护。它允许进行丰富的统计和机器学习分析,并且现在正成为私有数据分析的标准。尽管理论上差分隐私发展迅速,但它在机器学习中的进展仍然缓慢。这四单元的短期课程介绍差分隐私以及在在机器学习和统计学中的一些最新发展。在课程中我们先介绍基本概念和机制,以及一些高级的技巧和理论。之后我们会专注在一些机器学习和统计的经典问题,例如经验风险最小化(ERM), 泛化风险最小化(SCO),深度学习 (Deep Learning),均值估计 (Mean Estimation),稀疏线性回归 (Sparse linear regression),在不同的差分隐私模型的上的最新进展。 同时我们会提出一些未解决问题。听众所需的预备知识:概率论,统计学,机器学习的一般基础知识。
第一讲:差分隐私的基础知识以及高级理论
在这一讲中我们会学习差分隐私的定义以及意义,基本的性质与机制,例如Laplace机制,Gaussian机制,Exponential机制。之后我们会学习一些其他的差分隐私模型,例如局部差分隐私(Local DP),洗牌差分隐私模型 (Shuffled DP)。之后我们会涉及到差分隐私的高级技巧,例如合成定理 (Composition Theorem),隐私扩大 (Privacy Amplification),光滑敏感度 (Smooth Sensitivity),PTR机制,Sparse Vector机制等。这些高级技巧同时带来了新的问题,为了解决这些问题,我们会介绍一些新的差分隐私定义。
第二讲:差分隐私与统计学习
在这一讲中我们会专注于传统机器/统计学习的最经典的问题:经验风险最小化(Empirical Risk Minimization) 在差分隐私中的表现。1)我们首先解决差分隐私模型上的低维问题,我们会介绍输出扰动法,目标函数扰动法以及梯度扰动法。2)继而我们考虑差分隐私模型上的高维问题。 3)接着我们要解决在(交换/无交换)局部差分隐私模型中的问题。4)最后我们要涉及到如何解决泛化风险最小化(SCO)以及重尾数据等问题。
第三讲:差分隐私与现代机器学习
在这一讲中我们会介绍差分隐私在深度学习中的发展。我们主要介绍一些研究方向和最新的发现与进展,例如隐私的代价,PATE模型,Moment Accountant,在隐私下的深度学习和非隐私深度学习的区别,以及差分隐私所带来的其他可靠性问题。
第四讲:差分隐私与统计估计
在最后一讲我们会介绍差分隐私在一些统计问题上的进展。我们重点会讲两个统计学中的最基本的问题:均值估计和稀疏线性回归。我们会涉及到均值估计和稀疏线性回归在(局部)差分隐私模型的最优界,以及一些常用的证明下界的技巧。通过这些模型我们可以了解隐私在统计估计中的代价,以及与非隐私统计学的区别。