摘" 要:移动应用迅速发展的同时违规收集个人信息、过度索权、频繁骚扰用户等移动应用侵害用户权益问题突出。为加强用户个人信息保护,提升行业合规能力,针对目前人工检测效率低、大数据分析能力不足、信息可视化展示不友好等问题,设计了基于Hadoop的移动应用大数据检测平台,实现对移动应用的实时监测、自动化个人信息安全检测、海量检测数据及违规应用数据分析、态势感知及预警、多主题可视化展示,并通过数据应用程序接口提供数据共享服务。
关键词:移动应用;个人信息保护;检测平台;态势感知
中图分类号:TP311" 文献标识码:A" 文章编号:2096-4706(2024)18-0094-05
Design and Implementation of Big Data Detection Platform for Mobile Application Based on Hadoop
WU Yi1,2, SONG Kai1,2, SANG Mingchen1,2, LIU Tao1,2, WANG Yuxiao1,2
(1.China Academy of Information and Communications Technology, Beijing" 100191, China;
2.Key Laboratory of Mobile Application Innovation and Governance Technology, Beijing" 100191, China)
Abstract: While mobile application is developing rapidly, problems such as the illegal collection of personal information, excessive claims of authority, and frequent harassment by mobile application that infringe on user rights are prominent. In order to strengthen the protection of user personal information and improve industry compliance capabilities, and in view of the current problems of low efficiency of manual detection, insufficient big data analysis capability, and unfriendly visual display of information, a big data detection platform for mobile application based on Hadoop is designed to achieve real-time monitoring of mobile application, automated personal information security testing, analysis of mass testing data and data on offending applications, situational awareness and early warning, visual display of multiple themes, and it provides data sharing services through a data application programming interface.
Keywords: mobile application; personal information protection; detection platform; situation awareness
0" 引" 言
随着移动互联网产业影响力持续上升,移动应用(Mobile Application, APP)正逐渐渗透人们生活、工作中的各个领域。移动互联网及移动应用在丰富数字生活的同时,也扩大了网络暴露面,带来新威胁和新风险。目前,移动应用违规收集个人信息、过度索权、频繁骚扰用户等侵害用户权益问题突出[1-2]。
为切实加强用户个人信息保护,为用户提供更安全、更健康的移动互联网环境,构建了移动应用大数据检测平台。该平台旨在提升移动应用用户个人信息保护合规自动化检测能力,汇集多源数据并通过数据分析挖掘建立用户个人信息保护合规监测态势感知及预警能力,构建能力开放平台提供公共服务,提升行业治理能力和水平。
1" 平台设计
1.1" 总体架构设计
移动应用大数据检测平台采用基于Hadoop的大数据存储和处理架构。Hadoop是对大量数据进行分布式处理的软件框架,包含数据存储、数据集成、数据处理及数据分析等大量组件[3]。作为Hadoop生态系统的基础组件,分布式文件系统(Hadoop Distributed File System, HDFS)可以将海量数据部署到计算机集群之上,提供高吞吐量的数据访问能力,适合大规模数据的存储[4]。MapReduce作为主要的执行框架能有效进行分布式并行运算,为移动应用大数据检测平台数据采集及数据分析提供支持[5]。数据仓库Hive支持数据查询,实时分布式数据库HBase支持处理和存储大规模数据,同时提供针对大规模数据的实时读写访问[6]。
如图1所示,移动应用大数据检测平台总体技术架构为三级结构,分为业务平台层、数据中台层、数据应用层。
业务平台层通过主动全网监测引擎和应用程序接口(Application Programming Interface, API)报送接口获取移动应用上架、更新等监测数据,并将其同各种渠道报送的数据一起汇聚到检测引擎,进行引擎调度、规则扫描和结果采集,为后续数据应用的实现提供数据基础。
数据中台层是数据处理中心,根据统一规范的数据标准,将监测系统、检测引擎、业务系统收集到的数据进行归类整理,形成统一格式的数据,将其送入数据仓库实施存储、汇聚、整合,留待后续分析处理。利用HDFS大数据分布式存储技术,集中存储经汇聚处理层归类整理过的规范化数据。针对数据应用层的数据分析要求,利用MapReduce离线计算技术[7]、聚类分析、神经网络等大数据分析挖掘及知识发现技术,对海量相关数据进行计算、索引、深度分析挖掘,形成知识化数据,为数据应用层提供数据结果支撑。根据数据分析挖掘结果,为追踪溯源、事件处置、舆论等态势感知相关业务流程的实施提供数据支持。
数据应用层利用可视化技术,将看似混乱无序的各类安全数据转化成直观的可视化信息,形成明晰且直观的主题分析,包括自动化检测数据分析、违规应用分析、通报与处置信息、态势感知与预警。提供多渠道、多维度的协同服务能力,通过数据API对平台对接方提供数据资产共享服务。
1.2" 功能设计
移动应用大数据检测平台的功能架构如图2所示,由全网监测系统、自动化检测系统、APP大数据中心、APP公共服务系统组成。
全网监测系统对主流应用分发平台上的每日新增和每日更新应用,以及用户关注度高、投诉多、问题严重的应用开展常规监测,通过API调取、主动采集、引擎、爬取等方式实现上架、更新数据及舆论、投诉信息采集,形成主动发现获取移动应用基础数据、违法违规线索、投诉举报信息的能力。
自动化检测系统集成多个自动化检测引擎。其中,智能调度检测引擎进行动态检测任务分配,检测引擎进行规则扫描及自动化检测,多引擎交叉检测提升检测效率,智能复测提升自动化检测准确率,形成交叉验证、大规模的移动应用个人信息保护合规自动检测能力。
APP大数据中心由数据资源管理系统、数据分析挖掘系统、大数据可视化系统组成,通过建立中心式数据处理和数据服务体系,数据资源管理系统汇聚历史检测结果数据、应用分发报送数据、投诉报送数据、外部线索数据以及其他来源数据,形成移动应用基本信息、统计信息、态势信息库等多维数据库。数据分析挖掘系统实现数据清洗汇聚、关联标识与挖掘分析,通过对移动应用相关数据的综合分析与研判,实现移动应用态势感知和跟踪预警。大数据可视化系统通过数据API实现大数据主题可视化应用。
APP公共服务系统向APP开发者、应用分发服务提供者、软件开发工具包(Software Development Kit, SDK)提供者等移动互联网行业用户提供统一接入门户,实现检测数据同步共享。
2" 平台实现
2.1" 平台创建
统一服务器的基础环境配置。服务器操作系统采用CentOS 7.6,并配置适当的静态IP地址和子网掩码,配置服务器的主机名和域名,以便在网络中识别。配置防火墙规则,确保只有必要的端口对外开放,同时配置安全外壳协议(Secure Shell, SSH)密钥身份验证。同步服务器的系统时间,使用网络时间协议(Network Time Protocol, NTP)服务,确保各个服务器的时间保持一致。通过统一的服务器基础环境配置,可以确保所有服务器的运行环境和配置都是一致的,从而降低由于环境差异导致的系统故障和问题。统一的服务器基础环境配置使得管理员可以更方便地对所有的服务器进行管理和维护,而不需要为每台服务器单独设置和维护。
完成服务器基础环境配置后,接下来是Hadoop集群规划,Hadoop集群的服务器规划方案是确保平台高效稳定运行的关键。服务器规划方案综合考虑高可用性、高性能和扩展性,在确保Hadoop集群能够满足数据处理和分析需求的同时,提供持续稳健的服务。将集群划分为不同的角色:主节点、数据节点和资源管理节点。配置2台主节点服务器,分别用作活跃的主NameNode和ResourceManager,实现高可用性,如图3所示。采用主备模式,在主节点的基础上,配置2台备用节点,分别作为备用的从NameNode和ResourceManager,这些服务器在主节点发生故障时能够快速接管服务,确保服务不会中断。配置多台服务器作为数据节点和NodeManager。这些节点负责存储数据和执行任务。配置Hive MetaStore数据库服务器,以存储元数据和表结构信息。
平台创建过程旨在实现一个稳定、高可用、高性能的Hadoop集群,同时满足Hive数据仓库的需求。高可用架构通过冗余设计,使得系统具备较高的故障容错能力,即使部分组件出现故障,也不会影响整体系统的运行。高可用架构能够最大限度地保证服务的稳定性和连续性,避免因服务器宕机而造成的服务不可用。在配置硬件、网络和存储时,综合考虑各个组件的需求,以确保整个平台能够有效地运行和扩展。
2.2" 平台部署实现
在大数据分析中,数据采集起着至关重要的作用。它是大数据生命周期中的首个环节,也被视为大数据分析的入口。数据采集是分析和挖掘有价值信息的前提。只有采集到大量有价值的数据,我们才能对其进行智能处理,从中分析和挖掘出有价值的信息。移动应用大数据检测平台中数据采集的内容涵盖了各主流移动应用商店和具有应用分发功能的网站,以实现全面的移动应用数据覆盖。采集的移动应用数据包括了来自各渠道的应用基础信息、用户评分、下载量、应用分类、开发者信息、安装包等多维度数据,提供了全面的移动应用数据。
利用爬虫技术从各分发网站上抓取应用信息。编写Scrapy爬虫脚本,根据网站结构自动化地收集应用数据。对于主流移动应用分发平台,通过接口获取每日新上架和更新的数据。通过调用API,平台可以获取应用的完整信息。平台已实现华为、小米、vivo等多家主流应用商店的数据采集覆盖,如图4所示。
爬虫和接口获取的数据将传输到安全文件传输协议(SSH File Transfer Protocol, SFTP)服务器,并通过定时任务推送给对接的自动化检测引擎。Flume负责监控SFTP服务器上的业务数据存储目录,在监控到有数据的情况下及时向Hive数据仓库同步,确保数据的安全性和完整性,并为后续数据处理和分析提供了清晰的数据源。平台针对采集的数据智能调配自动化检测引擎进行用户个人信息保护检测,日均检测能力超过万次,实现了对主流应用商店在架移动应用检测的全覆盖。
Hive是基于Hadoop的分布式数据仓库技术,Hive数据仓库的分层设计,包括三个主要层级:原始数据层(Operational Data Store, ODS)、数据仓库层(Data Warehouse, DW)和应用层(Application Data Store, ADS),如图5所示。ODS原始数据层是数据仓库的最底层,数据来自Flume、数据接口和自动化检测引擎的检测结果。在这一层中,数据被保存为原始格式,以确保数据的完整性和可追溯性。DW数据仓库层,由下到上又分为数据明细层(Data WareHouse Detail, DWD)、数据服务层(Data WareHouse Servce, DWS)。在数据明细层,是将ODS层中的数据按照主题建立数据模型,对ODS层做一些数据清洗和规范化的操作,包含去除空值、脏数据、极值等,从而保证数据的质量和完整性,方便后续的特征分析[8]。DWS数据服务层,基于DWD上的数据,对数据进行聚合,整合汇总成分析各个主题域的服务数据层,包括APP基本信息、DAU及渗透率、APP家族、版本演化、检测信息等。按照业务进行划分,用于提供后续的业务查询、数据在线分析处理(On-Line Analysis Processing, OLAP)分析等[9]。ADS应用层,主要是提供数据产品和数据分析使用的数据,将数据组织成易于理解和使用的形式,如报表、可视化仪表盘等,存储在MySQL系统中。应用层的数据是为了满足业务分析和决策需求而准备[10]。
每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解。通过将复杂的任务分解成多个步骤来完成,每一层解决特定的问题,使得整个数据处理过程更加清晰易懂。规范数据分层,开发一些通用的中间层数据,能够极大地减少重复计算。这在大数据处理中尤为重要,可以大大提高数据处理效率。在数据仓库的基础上,进行可视化分析,为用户提供直观、易于理解的数据展示。通过整合数据可视化工具,可以在平台上创建交互式的仪表板和报表,以更深入地了解移动应用的运行状况、用户行为趋势、潜在风险等方面的信息。这种可视化分析有助于业务决策者快速做出准确的决策。通过进行数据仓库的分层设计结合可视化分析,移动应用大数据检测平台能够更好地组织和管理数据,提供更高效的查询性能和更方便的数据分析,为移动应用的治理提供更有价值的洞察和决策支持。应用商店数据可视化分析如图6所示。
3" 结" 论
在本次基于Hadoop的移动应用大数据检测平台的设计与实现中,我们深入探索构建一个强大而高效的移动应用数据处理和分析系统。通过设计总体架构、明确功能规划,一方面,有效提升移动应用合规自动化检测能力,推进移动应用监测检测、高效智能运行,另一方面,构建移动应用大数据计算分析能力和数据管理能力,为应对移动应用领域的大数据挑战提供了坚实基础。在平台创建和部署方面,通过采用分布式架构和自动化部署工具,确保了平台在面对不断增长的数据负荷时依然保持稳定运行,并能够灵活应对未来的扩展需求。通过可视化仪表盘、报表和数据挖掘工具,用户可以轻松地探索数据、发现趋势,不仅可以满足移动应用领域的大数据检测需求,还为移动应用治理提供了强大的数据分析和决策支持工具。
参考文献:
[1] 杨昕雨,徐国爱.移动应用安全生态链构建方法 [J].软件学报,2017,28(11):3058-3071.
[2] 魏昂,李东格,吕尧.基于APP的个人隐私安全保护研究 [J].网络空间安全,2019,10(8):31-35.
[3] 李泽慧,徐沛东,邬阳,等.基于大数据的网络安全态势感知平台应用研究 [J].计算机应用与软件,2023,40(7):337-341.
[4] 张春霞,王新猛,张晓熙.基于Hadoop的森林公安网络舆情监测系统设计与实现 [J].信息网络安全,2018(12):82-86.
[5] 蔡逆水,石屹嵘,邱晨旭.移动应用安全深度检测能力开放平台及部署关键技术 [J].电信科学,2018,34(3):41-49.
[6] 石方夏,高屹.Hadoop大数据技术应用分析 [J].现代电子技术,2021,44(19):153-157.
[7] 吴信东,嵇圣硙.MapReduce与Spark用于大数据分析之比较 [J].软件学报,2018,29(6):1770-1791.
[8] 刘嵩鹤,舒益彰,岳鸿飞.移动APP的信息安全问题与开发策略研究 [J].网络安全技术与应用,2021(6):32-33.
[9] 张勃.移动APP的信息安全问题与开发策略研究 [J].信息通信,2019(12):250-251.
[10] 赵康,杨余旺.基于Hadoop的物联云监控系统的设计与实现 [J].计算机与数字工程,2019,47(7):1738-1742.
作者简介:吴怡(1986—),女,汉族,安徽合肥人,高级工程师,硕士,主要研究方向:信息安全、移动应用安全、数据安全;宋恺(1983—),男,汉族,北京人,高级研究员,硕士,主要研究方向:信息安全、移动应用安全、数据安全、人工智能;桑明臣(1989—),男,汉族,江苏连云港人,高级工程师,本科,主要研究方向:移动应用安全、信息安全、大数据技术应用;刘陶(1984—),女,汉族,湖北荆门人,高级研究员,博士,主要研究方向:信息安全、移动应用安全;王宇晓(1990—),女,汉族,河北保定人,高级工程师,硕士,主要研究方向:信息安全、移动应用安全、人工智能。