首页 文学文摘 时政新闻 科技科普 经济法律 健康生活 管理财经 教育教学 文化艺术 社科历史

选择性聚合算法对在线用户行为数据的隐私保护

作者:陈嘉霖 周宏志 陈倩 来源:电子技术与软件工程

摘 要 为解决在线用户行为数据隐私泄露问题,本文提出一种隐私保护选择聚合算法(PPSAA),通过采用BGN密码系统和添加噪声法对用户的敏感数据进行加密,并支持在线用户行为分析的选择性聚合功能,将同态加密和差分隐私机制相结合,使个人隐私得到较好保护。最后,通过对真实在线行为数据集的跟踪驱动,仿真表明,该算法有效地支持总体聚合查询和各种选择性聚合查询,与仅添加噪声算法相比,PPSAA算法具有较小的计算开销。

【关键词】在线用户行为 选择性聚合 隐私保护 PPSAA算法

1 引言

随着在线用户规模的日益扩大,在线行为数据分析已成为众多领域的研究热点,如经济、学术以及社会事务等领域。通过分析用户的在线行为,挖掘出用户个人属性和倾向,具有较大的商业价值。然而,数据聚合任务被外包给第三方聚合器进行,尽管第三方的分析员和聚合者带来了巨大的收益与价值,但也造成用户隐私的泄露,即在防止用户隐私信息泄露的同时也牺牲了数据分析的能力。因此,如何高效准确的保护数据隐私和加强数据分析能力成为目前的研究热点。

本文提出一种隐私保护选择聚合算法(Privacy protection selection aggregation algorithm),通过采用BGN密码系统和添加噪声法对用户的敏感数据进行加密,并支持在线用户行为分析的选择性聚合,将同态加密和差分隐私相结合,使用户隐私得到较好保护。最后,通过真实数据集的跟踪对其性能进行评估,结果表明,该算法有效地支持了总体聚合和各种选择性聚合查询,并与仅添加噪声算法相比,PPSAA算法具有可接受的计算和通信开销。

2 系统模型

2.1 模型建立

本文提出一个隐私保护数据聚合系统,该系统由n个用户,一个中介和分析员组成,用户部署在客户端,主要收集数据,检测并删除异常值。中介负责从客户端汇总用户数据,计算并评估分析员发出的聚合查询,分析员查询用户个人或机构的数据。

4 仿真分析

为评估算法性能,将使用加密库(PBC)来实现BGN密码系统,参数t=80,根据1000个全国用户的人口统计数据和在线行为数据集进行跟踪模拟。

4.1 准确性度量

如图1 所示,显示了樣本大小随相对误差的变化示意图,随着样本大小的增加,相对误差值逐渐减小。由于相对误差是由附加噪声所引起的,且取决于隐私参数ε和查询的真实结果。因此,当ε=0.1时,相对误差最小,准确性最优。

4.2 计算开销分析

如图2所示,显示了PPSAA算法和PPOAA算法和直接添加噪声算法(D-AN)在不同采样量时的运行时间。随着样本量的增加,PPOAA算法消耗的时间几乎为零,而PPSAA和D-AN算法的消耗时间为正比例增加。

5 结论

为解决在线用户行为数据隐私泄露问题,本文提出一种隐私保护选择聚合算法(PPSAA),通过采用BGN密码系统对用户的敏感数据进行加密,并支持在线用户行为分析的选择性聚合功能,将同态加密和差异隐私机制相结合,使个人隐私得到较好保护。最后,结果表明,该算法有效地支持总体聚合查询和各种选择性聚合查询,并与仅添加噪声算法相比,PPSAA算法具有可接受的计算和通信开销。

(通讯作者:陈倩)

参考文献

[1]杨善林,王佳佳,代宝等.在线社交网络用户行为研究现状与展望[J].中国科学院院刊,2015,30(02):200-215.

[2]Chen D,Dong Y,Huang X,et al. A community finding method for weighted dynamic online social network based on user behavior[J]. International Journal of Distributed Sensor Networks,2015,2015:97.

[3]刘怀进,陈永红,田辉等.一种可检测数据完整性的安全数据聚合协议[J].计算机科学,2016,43(S1):353-356.

[4]Ebadi H,Sands D,Schneider G. Differential Privacy[J].Acm Sigplan Notices,2015,50(01):69-81.

作者简介

陈嘉霖(1973-)男,云南省人。云南大学硕士。从事信息化研究。

陈倩(1994-),女,云南省人。硕士研究生。研究方向为数据安全。

作者单位

云南省能源投资集团有限公司 云南省昆明市 650500