分类筛选
分类筛选:

关于隐私保护论文范文资料 与大数据环境下的隐私保护问题评估分析有关论文参考文献

版权:原创标记原创 主题:隐私保护范文 科目:发表论文 2024-02-01

《大数据环境下的隐私保护问题评估分析》:该文是关于隐私保护论文范文,为你的论文写作提供相关论文资料参考。

摘 要:人类已步入大数据时代,大数据时代下的商业价值较高,通过实现对大数据的挖掘及分析,能够得到具有较高经济利益及价值的数据.在大数据技术不断进步的过程中,企业能够在个人不知情或者无法控制的情况下对个人数据进行收集及分析并且使用.在没有通过用户允许的情况下获得个人数据的行为对个人隐私进行了侵犯,所以目前人们在大数据环境下对于个人的隐私保护问题越来越担心,隐私问题也得到了人们的广泛关注,国内外的企业及政府在隐私保护方面也进行了全新的研究及尝试.在此背景下,该文就对大数据中的隐私保护问题进行全面的研究.

关键词:大数据;隐私保护;评估

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2017)27-0001-02

在网络技术和通信技术不断成熟,并且网络通信带宽不断增加的过程中,大量的客户信息、医疗信息、交易信息等和个人隐私相关的信息都通过电子化的方式进行存储及管理,以此成为了大数据系统,现代相应学术界对于大数据的分析使用及深入挖掘的研究,并且得到了一定的研究成果.但是因为大数据分析及整合使用的研究使大数据问题被人们所重视,尤其是个人数据隐私保护问题,其是大数据研究过程中的重点内容.比如数据库服务层的安全隐私保护与数据完整性、机密性方面问题,隐私保护查询和访问控制问题等.在此背景下,隐私保护数据挖掘也成了全新的研究方向,人们也逐渐提出了全新的隐私保护数据挖掘的方法.现代大部分的隐私保护数据挖掘都是在分布式环境中使用,但是还是存在保护程度较低、计算量较大及通信造价较高的问题.那么本文就面向分布式情况下,研究隐私数据的挖掘及保护.

1 隐私保护数据挖掘的方法

在数据挖掘技术不断发展的过程中,其中的隐私问题也备受人们的关注,隐私泄露会导致个人人身及财产安全出现威胁,那么如何保证数据挖掘的精准度,并且对数据敏感信息进行有效保护是现代研究人员需要考虑的问题,其主要目的是使用某项技术对原始数据进行修改和加密,导致数据在通过挖掘之后不会被泄露[1],其主要方式包括:

其一,数据分布.根据数据分布的方式将隐私数据保护技术分为集中式及分布式两种,集中式数据是指所有的数据都在一个站点中集中.分布式又分为水平及垂直两种划分方式,水平划分指的是数据在多站点中,不同站点包括部分属性的记录.垂直划分指的是数据在多站点中,不同站点记录所有属性.

其二,数据修改.数据修改指的是将原来的原始数据的值进行修改,主要包括扰动、取样、阻塞、聚合及交换.

其三,数据挖掘算法.主要包括分类、聚类、关联规则挖掘及决策树,是通过不同数据挖掘算法进行分类.

其四,隐私保护.主要包括基于重建、基于加密及基于启发式三种技术.

其五,隐私保护对象.即对敏感的规则及数据进行隐藏[2].

图1为敏感数据的隐藏模型.目前使用较多的技术为敏感数据隐藏、数据扰动技术和安全计算等,数据扰动技术是在数据公布之前对其进行改变,从而使其伪装成敏感数据,并且将其中的属性进行部分保留,其主要目的是攻击人员无法得到敏感信息,从而有效提高数据挖掘结果和原始数据结果的精准度[3].

2 分布式数据挖掘

在计算技术及通信技术不断发展及进步的过程中,数据的数量也在不断地增长,但是大部分数据都是在不同场所进行存储,以此提高了分布式存储数据对数据模型寻找的需求,分布式数据挖掘指的是对不同场所的数据进行挖掘.在分布式数据挖掘中,各方都贡献自己的数据,从而能够通过合并数据对模型进行完善.为了能够得到全面的数据模型,那么要求分布式数据挖掘对不同区域中的问题进行解决[4].

在数据挖掘中,能够根据数据分布将其分为集中式和分布式,分布式数据挖掘就是在分布式数据环境中使用的技术,是数据挖掘方面的主要内容,分为水平及垂直两种分布方式,其中的数据表集合为全局数据表.参与方在分布式数据挖掘中要求自身数据不被共享,因为暴露数据就表示隐私被暴露,自身利益会受到威胁.所以传统集中式的隐私保护挖掘在分布式环境中已经不使用,被现代面向分布式的数据挖掘隐私保护替代,其主要优点为:其数据拥有者较多,能够通过消息实現信息传递;站点资源受到限制;数据存在敏感信息.在分布式数据挖掘中的衡量指标为通信量,部分面向分布式的隐私保护都要降低通信次数,在分布式环境中将站点信息传送到其他站点,比如直接传输、网络传输等[5].

3 面向Hadoop的数据挖掘平台

3.1 数据挖掘的步骤

数据挖掘会在不同领域中展现出不同的流程,不同数据挖掘技术的特性及使用步骤都各不相同,从而导致数据挖掘存在一定的差异.所以,数据挖掘过程中的形式化、标准化及系统化具有重要的作用,图2为一般数据挖掘步骤.

3.2 数据挖掘模型

面向Hadoop数据挖掘平台是在传统数据挖掘基础上使用云计算平台实现算法,以此进行并行化的数据挖掘算法,其主要优点为提高了数据处理的规模;具有良好的扩展性;具有较强的容错计算性等[6].

3.2.1 平台结构

平台是以Hadoop为基础,使用自顶向下的方式实现,顶层是业务应用平台,其主要目的为用户和系统的相互交互,中间层是数据挖掘平台,包括数据挖掘及预处理模块.图3为基于Hadoop的数据平台.

3.2.2 平台模块

底层:分布式计算层,主要包括并行编程环境、HDFS及分布式系统管理.并行编程环境中包括编程环境,其能够根据需求实现程序的开发,并且还具有任务执行及调试的功能;HDFS可存储分布式文件,并且具有较高的可靠性及稳定性;分布式管理系统能够对平台的系统进行管理.

中间层:数据挖掘平台层,主要对数据挖掘的进度进行调度;处理源数据,对噪声进行清除,从而得到合法的挖掘数据;在对平台提交任务之后就能够进行计算,然后得到结果,并且对计算结果进行反馈.

隐私保护论文参考资料:

保护环境论文

环境保护类期刊

生态环境的保护论文

关于环境保护的论文

环境保护杂志

生态环境保护论文3000

结论:大数据环境下的隐私保护问题评估分析为关于对写作隐私保护论文范文与课题研究的大学硕士、相关本科毕业论文隐私保护论文开题报告范文和相关文献综述及职称论文参考文献资料下载有帮助。

和你相关的