摘要
每年都有越来越多的用户在手机上遇到跟踪软件 [84]。他们中的许多人是亲密伴侣监视 (IPS) 的受害者,他们不确定如何从手机中识别或删除跟踪软件 [49]。一种直观的方法是从应用商店中选择反跟踪软件。然而,用户期望和技术能力之间的不匹配会产生安全和风险补偿行为的错觉(即佩尔兹曼效应)。我们将用户对反跟踪软件的看法与技术现实进行比较。首先,我们将主题分析应用于应用评论,以分析用户的看法。然后,我们对 Google Play 商店中两个著名的反跟踪软件应用程序进行了认知演练,并对它们进行了逆向工程以了解它们的检测功能。我们的结果表明,用户的信任基于应用程序的外观和感觉、警报的数量和类型以及应用程序的功能。我们还发现,应用功能与用户的感知和期望不符,影响了他们的实际效果。我们讨论了不同利益相关者的选择,以解决这些挑战并更好地将用户感知与技术现实保持一致。
1.介绍
大约五分之一的成年人,甚至更多的年轻人参与窥探他人手机的攻击 [54]。亲密伴侣监视 (IPS) 是这些攻击的一个特定子集 [13, 88]。基于工具的 IPS 通常涉及一种间谍软件,称为跟踪软件(或监视软件),用于实时收集根据反跟踪软件联盟 [84],2019 年有 67,500 名移动用户面临跟踪软件,与一年前。兰德尔等人。 [76] 估计,从 2020 年 3 月到 2020 年 5 月,美国至少有 5,758 人成为公开跟踪软件的目标。他们研究的 22 个应用程序中有两个可在 Google Play 商店中获得,其余的只能从第三方获得。 2020 年 10 月,谷歌禁止其商店中的监控应用程序 [37]
现在只允许在家长控制和企业管理应用程序中进行监视,前提是它们不隐藏或混淆其监视实践。因此,stalkerware 经常将自己重新命名为家长控制应用程序或转移到第三方网站。临床计算机安全 [43] 咨询中出现的大多数跟踪软件都包含此类“双重用途”应用程序 [15]。对在线家庭虐待论坛的分析和对跟踪软件应用程序 (app) 行业的评估发现,IPS 幸存者不确定如何识别和删除跟踪软件 [49, 66]。从 Google Play 商店安装反跟踪软件应用程序是一种可能的方法。用户可以从各种应用程序中进行选择,从提供通用移动安全解决方案的传统反病毒公司到检测跟踪软件和其他间谍软件的专用应用程序。价格差异很大,有些价格与 e 5(或 $)一样便宜,但应用内购买价格高达 e 100(或 $)并不少见。然而,这些应用程序在 Android 上存在严重限制,因为它们通常使用简单的基于名称的阻止列表运行,跟踪软件可以轻松绕过 [10]。更令人担忧的是,谷歌 Play 商店中也出现了假冒反病毒应用程序的实例,这些应用程序被限制为根本没有功能 [22、45、63、97]。因此,识别跟踪软件的市场承诺与许多这些应用程序的能力不一致,构成了预期能力差距。这个问题会影响用户做出明智决策的能力。应该让幸存者意识到这些问题,让他们质疑他们对这些问题的依赖。我们使用两个反跟踪软件应用程序进行了探索性案例研究,以了解过去的期望和能力。我们专注于以下研究问题:(RQ1)用户之间的差异是什么?用户的安全感知与反跟踪软件应用程序的能力有什么区别? (RQ2) 研究和设计如何开始纠正这种不匹配并促进用户的反跟踪软件决策?我们将主题分析应用于应用商店评论,以研究对这些应用的看法。我们还对各个应用程序进行认知演练,然后对它们进行逆向工程以了解它们的检测机制是如何工作的。因此,我们通过将定性用户研究与逆向工程方法相结合来引发期望与现实的不匹配。根据应用评论,我们确定了五种用户方法来建立对他们的反跟踪软件选择的信心,所有这些方法都可以直观地应用并具有一定程度的合法性。然而,将这些方法与认知演练和逆向工程结果进行对比表明,它们未能告知用户应用程序减轻暴力、虐待和骚扰的能力。我们的工作通过建议设计方向、提出工具包支持的用户决策以及讨论打击亲密伴侣监视的系统性平台级方法来帮助改善反跟踪软件的当前状态。
2.背景及相关工作
本节介绍了有关亲密伴侣监视的背景信息和先前的工作以及我们的方法。
2.1 亲密伴侣监视
内部人员,即受害者熟悉的人,对智能手机用户构成威胁,安全专家在过去低估了 [60]。内部人员对受害者设备的访问差异很大。然而,根据美国的一项研究,31% 的参与者在未经他人许可的情况下浏览他人的智能手机 [54]。亲密伴侣之间的监视是一种特定的内部攻击,通常在技术上并不复杂,并且依赖于 UI 绑定攻击或现成的应用程序 [27]。贝里尼等人。 [13] 和曾等人。 [88] 分析了在线论坛上关于性不忠的故事。施虐者用他们对性不忠的怀疑来为他们的监视辩护。他们想要收集证据、理解行为和控制行为 [13]。贝里尼等人。 [13] 确定了一个四阶段的虐待循环:设定施虐者的期望、态度改变、升级和反思。曾等人。 [88] 根据物理和非物理访问要求对 IPS 攻击进行分类。他们发现在线社区是 IPS 威胁情报的良好来源,因为他们的用户协作创建新的 IPS 攻击。查特吉等人。 [15] 确定了在 IPS 环境中危险的应用程序。他们发现了明显的间谍软件应用程序和具有合法用例的更微妙的双重用途应用程序(例如,Find-MyFriend)。通常,反间谍软件不会将后者识别为威胁。家长控制应用程序是双重用途的经典示例,它也存在其他隐私问题,例如,在未经同意的情况下收集敏感数据并将其分发给第三方 [24]。为了了解“蠕变”生态系统,Roundy 等人。 [80]开发了基于关联内疚的creerank算法。 结果,数百个应用程序被从官方应用程序商店中删除,并可能转移到了第三方存储库。 根据幸存者的故事,Matthews 等人。 [57] 确定了分离和技术使用的不同阶段。 幸存者在“分开生活”阶段的安全取决于识别跟踪软件。 哈夫隆等人。 [43] 和弗里德等人。 [26] 为 IPS 幸存者创建了一个计算机安全诊所,他们欣然接受了这种格式的支持。 然而,由于反跟踪软件应用程序的进入门槛很低,幸存者大概也将它们用作其保护合奏的一部分。 李等人。 [48] 扩展了计划行为理论,以了解导致反间谍软件采用的因素。
2.2 用户的安全行为
由于缺乏结构化的安全教育,用户从各种来源随意学习他们的安全行为。媒体、负面经历、家庭、同龄人、工作场所、IT 专业人员和服务提供商是常见的建议来源 [79]。然而,所有这些来源都集中在威胁的不同方面[72]。因此,没有单一来源是足够的。在受到虐待的情况下向个人提供安全建议尤其敏感:防止攻击者访问数据的积极措施表明缺乏信任,并可能使虐待情况恶化 [50]。埃姆斯等人。 [23] 提出了提高幸存者在持续虐待情况下避免痕迹的能力的方法。没有特别适合在滥用情况下使用的反跟踪软件应用程序可能只能在分居阶段安全使用。 IPS 幸存者在在线论坛上寻求其他幸存者的帮助和支持 [49]。然而,十个论坛用户缺乏适当的技术知识,因此很难推荐安全有效的反跟踪软件应用程序。评论通常会影响在线消费者的决策。评论内容的质量和排名对消费者决策的影响大于评论数量和来源的可信度[25]。评论也会影响安全决策,例如,一些用户在做出更新决定之前会检查应用商店评论 [87]。大多数人还从家人和朋友的故事中学习安全课程 [73]。然而,故事的内容、地点和讲故事的人会影响课程的有效性。来自同行的社会影响会影响安全功能的采用,具体取决于功能对其他人的可见性 [18]。卢卡等人。 [19] 确定来自朋友的同伴压力是安全即时通讯采用的主要因素。个人的负面经历也会影响未来的安全决策。瓦尼亚等人。 [89] 发现用户在糟糕的更新体验后会避免更新。然而,建议并不是行为的唯一来源——软件提示和自动安全决策也会影响用户的安全行为 [78]。马蒂亚森等人。 [55] 发现安全的行为并不一定会带来安全的体验。据他们说,专注于创造安全体验的精心设计可以提高安全功能的采用率。迪斯特勒等人。 [21] 发现在电子投票过程中包含与安全相关的信息可以改善用户的安全体验。他们讨论了尽管提高了可用性,但快速和顺畅的安全机制如何阻碍用户的安全体验——他们在安全增强摩擦的框架中扩展了这一想法[20]。用户对潜在攻击者的心理模型会影响他们采用的保护行为[92],因为每类攻击都需要不同的保护机制。邹等人。 [99] 研究了用户采用和放弃安全和隐私行为的原因。他们发现,在低收入参与者中,重复性交互实践的采用率较低,而隐私实践的采用率较高。当用户发现安全和隐私实践不切实际、不再看到其价值或认为风险降低时,他们就放弃了这些实践。同样,当用户发现防火墙等保护措施很复杂时,他们会关闭它们 [75]。
2.3 回顾挖掘与分析
应用商店评论会告知用户应用的质量,但还开发人员关于错误和功能请求,以及研究人员获得有关应用程序的详细见解。鉴于这些评论的绝对数量、非正式性和简短性,研究人员要么挖掘评论以获得广泛的概述,要么使用主题分析来详细检查子样本。软件工程社区探索自动化挖掘用户评论以进行可操作开发的方法反馈。先前的工作讨论了几种不同的自动在应用程序重新识别信息性投诉的方法意见 [16, 30, 53, 69]。哈立德等人。 [47] 使用手动 qualita-进行分析以识别有关 iOS 应用程序的投诉。其他人则专注于自动检索功能来自评论的请求 [46,53] 使用自然语言处理——ing、情绪分析和 LDA 模型。自动分析的应用评论还可以告知开发人员关于可用性的信息和用户体验问题 [12, 44, 58, 64]。顾等人。 [38] 和古兹曼等人。 [39] 应用情感分析来理解用户对应用程序和个别功能的感受。研究人员还使用评论来研究安全性和应用程序的隐私相关方面。哈等人。 [40] 手动编码审查以查找安全和隐私投诉并发现大约 1% 的人关注应用权限。阮等。 [61] 分析了与安全和隐私相关的评论报告并追踪了 61% 的安全和隐私更新相应的用户评论。 Voskobojnikov 等人。 [91] 安娜-lyzed 加密货币钱包的评论以了解安全性-和隐私相关的用户体验问题。他们确定了一个子样本使用机器学习和自然语言的相关评论量表处理,然后应用主题分析。天哪人。 [32, 33] 定性分析了家长控制的评论应用程序来了解孩子们对他们的反应。他们使用关键字搜索过滤儿童评论并应用主题分析。孩子们发现应用程序过于严格和侵犯隐私。他们批评父母的依赖在这些应用程序上作为一种糟糕的育儿技巧。
2.4 间谍软件检测
一般来说,有两种基本的检测方法和分析恶意软件,包括跟踪软件:静态和动态分析[5]。静态分析是对程序的理解在句法源代码或二进制级别[31]。动态的分析侧重于应用程序的运行时行为,包括系统调用和网络流量。为此,研究人员在受控环境中执行和观察应用程序 [52]。
了解设备上反恶意软件扫描的可靠性ners(俗称杀毒)对于结束至关重要
用户的安全。这些扫描仪基于其检测机制无论是静态分析还是动态分析。然而,相比桌面操作系统、移动端安全解决方案由于 ex- curity 应用程序对其他应用程序的可见性有限紧张的沙盒,使行为启发式不可行ble [17, 51, 70, 71]。因此,安全解决方案必须依赖基于代码级特征或使用机器的签名学习 [9, 51]。相关工作深入调查了如何逃避这些签名很容易 [11, 41, 71, 77, 98]。还没有迄今为止的研究比较了检测机制的稳健性信任用户投入这些安全解决方案。
3 方法论
我们探讨了用户对应用程序功能的期望与应用程序技术能力之间的差距。 了解这种不匹配有助于提高用户对跟踪软件的保护。 首先,我们将主题分析 [14] 应用于两个案例研究应用的应用商店评论,以了解用户的安全感知和期望。 根据产生的主题,我们对应用程序进行认知演练并分析它们以了解它们如何检测跟踪软件。
3.1 Anti-Stalkerware 应用程序的选择
间谍软件对 Android 用户的危害越来越大与 iPhone 用户相比 [42, 66]。 Apple 的 iOS 声称有更严格的安全控制 [7],并且不允许应用程序具有“它实际上不提供的功能(例如,基于 iOS 的病毒和恶意软件扫描程序)”[8]。因此,我们专注于 Android 应用程序。为了在我们的定性分析中涵盖各种应用功能和用户期望,我们根据 Chatterjee 等人的反间谍软件列表 [15] 进行选择。从下载次数最多的反跟踪软件应用程序中,我们选择了两个进行静态分析:由 Lookout1 提供的 Mobile Security、Antivirus & Cleaner(超过 1 亿次安装)[86]。从长尾来看,我们阅读了应用商店页面,并选择了一个适合进一步定性分析的数据丰富的示例:Anti Spy Mobile PRO2(100k+ 次安装)[85]。欺诈性评论和被操纵的评级困扰着免费应用程序 [74, 95, 96]。因此,我们更喜欢分析付费应用的评论。 Lookout Mobile Security 可在 Google Play 商店免费下载,并使用应用内订阅模式。
我们无法区分订阅和未订阅用户的评论。 因此,我们还分析了未订阅用户的评论。 Lookout Mobile Security 比 Anti Spy Mobile PRO 更广泛、更复杂。 Lookout Mobile Security 将自己定位为成熟的安全解决方案,反间谍软件只是其功能之一。 相比之下,Anti Spy Mobile 在 Google Play 商店中以免费或付费版本(例如 4.90 或 3.99 美元)的形式提供。 唯一的区别是付费版本有自动的每日后台扫描。 我们只分析了付费版本的评论。 对这两个应用程序的关注对结果有双重影响:首先,它们的功能并不代表所有作为反跟踪软件销售的安全应用程序。 其次,Lookout Mobile 是为部分用户预装的,因此缺乏选择可能会影响用户的评论。 因此,评论者对这两个应用程序的看法并不能推广到所有将自己标榜为反跟踪软件的安全应用程序。
3.2 应用商店评论分析
为了了解用户如何看待我们案例研究的反跟踪软件应用程序并建立对它们的信任,我们将主题分析 [14] 应用于他们的应用程序商店评论样本。我们从 Google Play 商店获取了所有评论。3 我们从每个应用程序中随机抽取了 200 条德语和英语评论,所有相关研究人员都熟悉这些语言。为了确保评论有足够的内容,我们只考虑了至少十个字的评论。我们分析了 Lookout 的 400 条评论。 Anti Spy Mobile PRO,只有不到 200 条评论符合我们的标准,因此我们分析了该应用程序的 13 条德语评论和 102 条英语评论。在主题分析开始时,一位研究人员阅读了所有评论并创建了一个初始密码本。有了它,两位研究人员都对整个评论样本进行了编码。在编码过程中,两位研究人员都记录了数据中的潜在主题。这导致了 Krippen-dorff 的 alpha = 0.86 的编码器间一致性,这表明一致性很好。之后,研究人员讨论了所有不匹配以及他们确定的主题。具有多种有效解释的模糊评论引起了大多数分歧。解决冲突将 Krippendorff 的 alpha 增加到 α = 0.98。附录中的表 1 给出了初始码本。讨论使两位研究人员同意将重点放在安全和安保观念上。我们重复上述过程并构建了一个额外的码本。在第一轮编码之后,Krippendorff 的 alpha 为 α = 0.78,这表明编码器间有实质性的一致性。讨论所有不匹配将 Krippendorff 的 alpha 增加到 α = 0.96。在讨论开始时,研究人员添加了“体验时间”代码,并在适当的时候应用它。附录中的表 2 显示了修改后的码本。之后,两位研究人员讨论了确定的主题和结果的呈现。
3.3 Anti-Stalkerwares 的技术能力
在确定安全认知和期望后,我们使用理论抽样来了解这些应用程序的技术能力。因此,我们收集了有关用户界面和应用程序内部检测机制的数据。我们对这两个应用程序进行了认知演练,以提高我们对关注用户体验的评论的理解。基于先前发现的主题,我们重点关注以下内容:(1)调用扫描的方法(手动、计划、事件触发),(2)报告中信息的类型和数量,(3)误报在一般使用场景中,(4) 常规使用下可见的用户交互。我们截取案例研究应用程序的这些部分,并使用审查分析中的代码簿对它们进行演绎编码。此外,我们对案例研究应用程序进行了逆向工程,以了解它们如何检测跟踪软件。在这两种情况下,我们都从静态分析开始,即反编译和检查它们的源代码。我们使用动态分析来验证结果并了解运行时行为。这使我们能够观察和检查应用程序的扫描和评估功能的输出,以发现潜在的有害行为。
3.4 用户感知与应用能力
最后,我们将可信度和安全感知与来自每个案例研究应用程序的理论样本并列,以指出感知与技术现实之间的不匹配。 我们尽可能将感知和理论样本嵌入到相关工作中,以提供更广泛的背景。 我们评估了用户选择反跟踪软件策略的优缺点。
3.5 道德和法律考虑
在未经明确同意的情况下使用公共数据进行研究是一项道德挑战,尤其是在亲密伴侣虐待方面。即使用户可以删除他们的公开评论,我们也会谨慎处理所有数据,以尽量减少潜在危害。如果用户名包含滥用行为的暗示,我们会省略用户名并改写引号,从而导致识别困难。逆向工程是一个合法的灰色地带。在美国,诚信安全研究不受版权法和 DMCA [65] 的约束。在欧盟,明确允许反编译以确保与其他软件的互操作性 [90]。欧盟版权法只保护源代码的具体表达,而不保护基本思想和原则。我们仔细审查了我们的结果,以避免发布可能被视为具体表达的信息。我们希望最大限度地减少发布我们的技术分析结果的潜在危害。经过仔细审查,我们
确定了三种可能有害的信息:
(1) 应用程序无法正确识别的知名跟踪软件,
(2) 检测跟踪软件的一般方法存在缺陷,以及
(3) 威胁分类的具体实施细节。
我们向应用程序提供商通报了著名的跟踪软件
我们向应用程序提供商通报了他们的应用程序在发布前没有识别出的著名跟踪软件。我们发现的一般缺陷是众所周知的;现有的间谍软件和最先进的反间谍软件已经将它们考虑在内。因此,发布这些一般性缺陷不会带来新的危害。有关应用程序如何对威胁进行分类的具体实施细节超出了这项工作的范围。由于 stalkerware 可以利用这些发现来逃避检测,因此我们不会发布它们。我们机构的伦理审查委员会 (ERB) 批准了这项研究。
4 用户对 Anti-Stalkerware 的看法
为了了解用户如何看待反跟踪软件应用程序的安全性,我们在案例研究中分析了两个应用程序的应用商店评论。 我们在研究中总共纳入了 518 条评论,并进行了主题分析,以在数据中找到更高层次的主题和模式。 在下文中,我们报告了该分析的结果,即我们对用户在反跟踪软件应用程序中产生信任的方法、一般观察结果以及与用户期望相矛盾的结果。 我们确定了用户用来说服其他人相信反跟踪软件应用程序的有用性和可信赖性的五种方法。
潜在的有害事件。 应用程序保护的第一手体验是用户建立信任的流行方式。 这种建立信任的方法涵盖了各种不同的特征。 其中,我们发现了对广告软件检测的赞誉,例如,“已经发现并删除了 3 次广告软件”。 (R326),间谍软件检测,例如,“有人在我的手机上安装了一个跟踪应用程序 […] 我在大约 10 分钟内就搞定了!” (R425) 和防盗,例如,“它 […]
使我免于将手机丢给小偷一次,而是两次。”(R132)。 有趣的是,评论者似乎并不担心应用程序在其他领域的潜在缺陷。 一次出色的第一手体验可能足以让用户相信应用程序的总体有效性。然而,我们也反过来观察到了这种效应。 一旦用户对核心功能有负面体验,他们就会失去信心。 在一个案例中,审阅者知道前合作伙伴监视了他们,但反跟踪软件没有检测到任何恶意应用程序:“永远不要购买这个! 我的前任仍在阅读我的信息——这是一种耻辱”(R477)。 同样,当这位评论者意识到他们无法找到被盗手机时,他们的信任就消失了:“我拥有这个应用程序的全部原因是为了以防我丢失了手机。” (R069)。 虽然有效的安全应用程序必须在发生攻击时保护用户,但一次受阻的攻击并不能很好地表明安全应用程序的有效性。
放心的用户体验。 安全应用的用户体验会影响用户对这些应用的看法。 威胁、更新或计划扫描的频繁提醒让用户了解应用程序的活动。 一般来说,对用户安全的攻击很少见。 因此,这些正在进行的保护工作的提醒可以为用户增加一种安全感:“得到通知,我的手机是安全的。 这让我感觉好多了。”(R165)。 其他用户可能会将这些提醒视为对他们常规电话使用的干扰,例如,“通知在状态栏中永久可见。 这令人不安和烦人。” (R202)。 对于应用程序可能很少需要干预的安全用例,有必要让用户体验放心,以传达应用程序仍然存在并完成其工作。 但是,确保用户体验与实际安全无关。 因此,应用程序开发人员可能会滥用这个概念。
随着时间的推移建立信任。通常,应用程序使用的历史会影响信任。与人际关系类似,长时间使用该应用程序可以让用户放心并增加他们对安全应用程序的信任。我们发现了三种类型的时间参考:通过陈述经验来建立权威,随着时间的推移提供的保护证据不足,以及对没有发生事件的满意度。在确立权威的情况下,审阅者通常会说他们已经使用该应用多年,然后才告诉我们他们的结论,例如,“所宣传的作品已经使用了多年”(R173)。一些审阅者希望安全应用程序能够证明其有效性。 R476 认为该应用程序是一个骗局,因为他们无法确定它的作用:“我无法判断这对我的手机有什么作用,所以我认为这是一个骗局”。然而,当安全应用程序没有找到任何东西时,其他评论者很高兴并感到更安全:“还没有找到任何东西,但那是件好事!!感觉安全多了。” (R475) 这些相互矛盾的立场很有趣,因为它们展示了用户考虑应用程序安全性的两种基本方式。在第一个中,用户需要功能证据,即使他们的智能手机没有任何问题。另一种方法在没有证据的情况下假设安全应用程序的有效性。尽管两位审阅者都使用了同一个应用程序,但他们最终得到了不同的信任评估。
测试应用程序的能力。许多用户没有等待日常生活中的事件来建立信任。他们决定测试应用程序的能力。他们比较了不同反跟踪软件应用程序的能力,例如,“这个应用程序错过了其他人检测到的两个间谍软件应用程序。” (R470)。有些人知道他们安装了间谍软件,并检查了特定的反跟踪软件是否可以将其删除:“找不到明显安装在我手机上的间谍软件。” (R512) R291 报告使用 EICAR 测试文件检查安全应用程序是否会检测到它:“垃圾。未检测到 Eicar 测试抗病毒药物”(R291)。在这种情况下,审阅者成功测试了“手机丢失”功能:“定位/警报等在测试时始终有效”(R344)。通常,测试安全功能是建立信任的可靠方法。然而,全面测试应用程序的恶意软件检测能力是很困难的。其他安全功能,例如“手机丢失”功能,比恶意软件检测的有效性更容易测试。因此,即使在测试之后,评论者也可能对他们的应用程序的能力产生误导性的印象。
第三方推荐。 评论很少提及第三方资源来证明他们对反跟踪软件应用程序的信任。 在一个案例中,一位 IT 安全领域的朋友推荐了一个应用程序:“我的一位从事 IT 安全领域的朋友向我推荐了这个应用程序”(R131)在另一个案例中,一位评论者提到了一项研究:“看到一项研究表明,这是最好的 间谍软件检测率(但也有误报)”(R423)。 从第三方获得反跟踪软件建议的用户已委托建立信任。 对他们来说,安全应用程序的用户体验并不像其他用户那么重要——他们已经对其安全性充满信心。
4.1 观察
在我们的分析过程中,我们还在评论中观察到其他值得注意的趋势:情感语言、安全工具的组合以及跟踪家庭成员的案例。我们发现审稿人经常使用情绪化的语言。正面评价,如 R145,将保护应用描述为一种守护天使:“它是守护我的东西的守护者”。我们案例研究中的一个应用程序的名称,即 Lookout,可能可以解释为什么审阅者会建立这种联系。在谈论应用程序的缺点时,负面评论通常使用强烈的语言。比如 R114,他抱怨该应用程序的恶意软件检测能力:“可怜的病毒支持”,或者 R014,他只想完全删除该应用程序:“把这个 Crappy off [my phone]。”但是,由于应用程序商店的评论是自愿,这些观察结果可能是由于自我选择偏差,即感觉被应用背叛或受到良好保护的用户提交了更多评论。一些评论者没有独立于其他人评估该应用程序。相反,他们考虑了应用程序如何适合他们的安全工具组合,例如,“对任何安全设置都很好的补充”。 (R402) 或“Lookout(基本许可证)非常适合与 Avast Mobile Security 和 CCleaner 搭配使用。” (R098)。在这种情况下,用户较少关注特定工具的功效,而是关注整个组合的功能集。但是,其中一些工具预计是独立工具,这可能会影响最终的用户体验。一位评论者明确地将他们的应用程序用例描述为跟踪家庭成员。 “我们没有改变任何东西,但每当我尝试定位我的儿子时,都会出现错误。” (R155) 我们假设像这样的父母对孩子的安全只有最好的意图。然而,Gosh 等人。 [32] 发现受影响的儿童认为父母的监视过于严格和侵犯隐私。我们的案例还说明了用户如何使用安全应用程序来颠覆他们的预期用例。
4.2 与用户期望相矛盾
在我们的案例研究中,我们发现了两种信任应用程序的方法:(1) 信任,基于没有对应用程序的负面体验,以及 (2) 没有证明应用程序按预期工作的不信任。使用第一种方法可以增加对安全应用程序的信任,因为它运行的时间越长而没有发生事故。采用第二种方法的用户要么等到应用程序检测到问题,要么挑战应用程序以触发警报。 R260 是第一种方法的典范:“多年来,我在所有设备上都安装了这个应用程序,没有任何问题” R215 是第二种方法的一个例子:“我还没有从中获得任何积极影响所以很难说这款应用的好坏。”该应用程序的用户交互以两种相互矛盾的方式影响用户的信任:一些用户认为该应用程序在他们无法观察到任何用户交互时认为该应用程序没有做任何事情,即他们对可见的 UI 元素感到放心。其他人将缺少的用户交互解释为安全指标,期望应用程序仅响应安全问题。当 Lookout 传达它正在工作时,R121 感到放心:“它让我知道他们在不同时间间隔更新我并在您不考虑它们时弹出在您的屏幕上”(R121)如果使用 Anti,R250 会感觉更受保护Spy Mobile 将表明其正在进行的操作:“主屏幕上的图标应该有一个反间谍保护。这将增强用户的安全感和安全感”(R250)相反,R065 很高兴该应用程序在后台保持静音:“它可以在幕后默默地检查我的手机”(R065)
5 反跟踪软件的 UI 演练
在我们对应用商店评论的主题分析中,我们确定了用户如何根据用户界面与反跟踪软件应用建立信任的两种方法:(1) 具有潜在危害的事件和体验应用如何处理这种情况建立用户信任; (2) 除了潜在的有害事件外,用户还欣赏反跟踪软件在日常使用中令人放心的安全体验。本节报告了重点关注这两种信任建立方法的认知演练 [82, 93] 的结果。出于本演练的目的,我们假设恶意方以前可能直接访问过手机,但此时他们不再这样做。当恶意方仍然可以直接访问时,有必要在之后删除反跟踪软件使用的电子痕迹,以确保其用户的安全 [23]。我们通过在为此目的预留的智能手机上安装多个间谍软件应用程序来模拟有害事件。在由此产生的用户交互中,我们记录和检查 UI 流程的所有部分,并回答有关对用户信任影响的指导性问题。我们通过使用安装了案例研究应用程序的智能手机作为我们的普通手机使用 48 小时来模拟日常体验。我们浏览网页、下载数据和安装应用程序。我们记录和检查用户交互,并回答有关对用户信任影响的指导性问题。
5.1 潜在有害事件
反间谍移动专业版。打开应用程序会显示三种不同类别的应用程序(作为按钮): (1) 用于知名黑名单间谍软件应用程序的间谍软件; (2) 对所有未列入黑名单的可疑应用发出警告; (3) 所有其他应用程序的所有应用程序。 Anti Spy Mobile 在用户首次打开应用程序时自动开始扫描。用户可以使用立即扫描按钮手动触发扫描,或在首选项中启用自动每日扫描(这是默认设置)。每次扫描后,都会出现一个对话框,显示已识别的知名间谍软件应用程序的数量。如果没有找到,它会显示可疑应用程序的数量。确认对话框让用户查看相关应用程序(如图 1 和图 2 所示)。为了测试 Anti Spy Mobile 对知名间谍软件应用程序的反应,我们在测试手机上安装了 MobiUcare(电话定位器)。图 1 显示了生成的“SpyWare found”对话框。确认后,Anti Spy Mobile 会显示检测到的间谍软件应用程序的名称、侵犯隐私的权限和安装日期。 “更多信息”按钮通常会指向 Google Play 商店中的相应列表。但是,这会导致出现错误消息,因为该应用已从商店中删除。我们安装了另外两个间谍软件应用程序:mSpy Cellphone Tracker 和 SpyFone。 FTC 于 2021 年 9 月禁止后者 [29]。图 2 表明它不认为它们是众所周知的间谍软件。相反,它会通知用户他们手机上的可疑应用程序。文本描述了基于请求权限的分类,并建议如何处理这些应用程序:“如果您不熟悉它们的存在,您应该仔细查看它们并卸载它们”。选择可疑应用程序会显示有关它们的更多详细信息(图 3),例如它们的名称、可疑权限和安装时间。此视图为用户提供三个响应。首先,用户可能想了解有关应用程序的更多信息。但是,相应的按钮会指向 Google Play Store 网站,该网站可能无法为用户提供足够的威胁信息。使用 MobiUcare,该按钮会生成错误,因为该应用程序不再在应用程序商店中。其次,用户可以通过单击按钮直接卸载应用程序。但是,如果它涉及管理应用程序,则会导致错误消息:“卸载 MobiUcare 不成功”。在这种情况下,应用程序不提供任何指导,并且就像用户一开始就没有按下按钮一样。第三,如果用户不想采取进一步行动,他们会将有问题的应用程序标记为“安全”。然后 Anti Spy Mobile 将停止通知他们有关该应用程序的信息。图 3 显示威胁响应界面独立于已识别的威胁。 Anti Spy Mobile 对待仅具有可疑权限的应用程序(在本例中为 Signal messenger)的方式与其知名间谍软件列表中的应用程序相同。
了望移动安全。 Lookout Mobile 会在安装后自动扫描所有已安装的应用程序。用户可以随时手动启动扫描(参见图 5)。为了测试 Lookout 对跟踪软件的响应,我们安装了 MobiUcare、mSpy Cellphone Tracker 和 SpyFone。 Lookout Mobile 正确识别了所有这三个并将它们归类为 Surveillanceware。在图 4 中,一个弹出窗口显示了所有 identifieapps,可以选择查看详细信息或设置提醒。稍后提醒选项不要求用户指定更适合他们的时间。这种承诺设备可以提高安全合规性[28]。在详细概述中,Lookout 显示每个已识别威胁的分类(例如,监视软件)、徽标、名称、版本、检测时间和应用程序报告。报告包括三部分:应用程序是否为商业监控软件(如果适用)的声明、人类可读权限列表以及关于第三方未经同意监控用户活动的一般说明。如果有问题的应用程序是商业监控软件,唯一与上下文相关的信息似乎是 Lookout 的分析。 Lookout 为用户提供三种针对检测到的威胁的响应。首先,用户可以点击应用信息和选项,引导他们进入系统对相关应用的概览。其次,突出显示的卸载按钮。虽然 Lookout 没有明确建议对威胁做出适当的反应,但突出显示的按钮强烈建议卸载。最后,它提供了忽略威胁的选项。 Lookout 没有为用户提供这些选项的明确讨论,即使它识别出商业监控软件也是如此。此外,用户可以访问扫描历史记录(参见图 5)。在检测到监控软件后,此视图为用户提供“了解更多有关监控软件的信息”,从而将他们引导至内置的威胁百科全书。该百科全书提供了监控软件功能的一般概述,只提到了一个模糊的威胁模型,即“监控软件应用程序通常由对目标设备具有物理访问权限的人直接安装”。百科全书避免讨论适当的用户反应。
5.2 令人安心的日常体验
反间谍移动专业版。 除了应用程序本身的手动扫描外,Anti Spy Mobile 几乎不与用户互动。 付费版本会自动扫描所有应用程序,并每天一次将结果通知用户(参见图 6)。 此通知不会就可疑应用发出警告。 Anti Spy Mobile 不会干预日常活动,例如浏览网页、下载文件或安装应用程序(来自 Google Play 商店或第三方存储库)。
了望移动安全。一般来说,Lookout Mobile 专注于让用户交互放心。状态栏中的粘性图标和永久通知(如图 7 所示)通知用户 Lookout 处于活动状态并且“一切正常”。 Lookout 用户交互的另一个方面是它对用户行为的反应。它分别在下载或安装恶意文件或应用程序后立即警告用户。此外,Lookout 有一个设置,可以在连接时通知用户 WiFi 网络的安全性。当通知链接因果时,立即响应会改善用户的心理模型[83]。启用 Lookout 基于 VPN 的安全浏览功能不会影响冲浪体验。默认情况下,Lookout 会分析下载的文件是否存在威胁(根据设置中的描述)。下载常规文件不会从 Lookout 创建响应。但是,当它在下载的 .apk 文件(Android 包,即 Android 应用程序分发格式)中检测到间谍软件时,它会做出反应。安装应用程序总是会产生响应,无论来源如何。有趣的是,Lookout 认为 Find My Kids 应用程序是安全的(参见图 7),而 Anti Spy Mobile 则认为它是众所周知的间谍软件。
6 引擎盖下的反跟踪软件
我们的主题分析确定了用户应用于反跟踪软件的两种信任建立方法。首先,他们在看到应用程序捕获了哪些威胁以及没有及时捕获到哪些威胁后,随着时间的推移建立了信任。其次,审阅者通过在手机上安装已知的间谍软件来积极挑战反跟踪软件的能力。这两种方法都是基于用户对如何评估检测机制的部分正确理解。
为了更深入地了解我们案例研究应用程序的检测机制并了解它们如何确定哪些已安装应用程序是威胁,我们执行了静态代码分析和动态运行时分析。我们遵循已建立的最佳实践(如 OWASP [62] 所述)进行移动应用程序测试,并依赖于选定的开源工具。 Android 应用程序通常用 Java 编写,编译为 Dalvik 字节码,然后打包为 .apk 文件(本质上是压缩存档)[34]。常见的第一步是将此字节码转换回 Java 源代码以便于理解。为此,我们使用 Dalvik-to-Java 反编译器 jadx [3]。为了监控案例研究应用程序的运行时行为,我们将它们安装在 Nexus 5 手机上,并使用 Frida [2] 对其进行检测。该工具允许逆向工程师在分析的应用程序中注入和执行 JavaScript。我们使用此功能来检查应用程序的类、方法和数据字段,并根据静态分析的结果进行指导。我们进一步使用 Web 代理 Fiddler [1] 来拦截和检查到应用程序后端服务器的网络流量(如果有)。
反间谍移动专业版。我们首先定位应用程序的主要活动,代表用户首次打开应用程序时显示的 UI。 AntiSpyActivity.java 类表示此活动并加载以 XML 格式 (/resources/res/layout/start.xml) 定义的开始屏幕。此屏幕包含“立即扫描”按钮,该按钮触发扫描仪活动 (ScannerService.java)。该活动实现了 Anti Spy Mobile PRO 的核心功能:它调用 Android PackageManager [36] 以获取安装在设备上的所有应用程序的包名称并对其进行迭代。该应用程序区分两种相关类型的已安装应用程序:间谍软件应用程序和可疑应用程序。它通过将应用程序的包名称与知名间谍软件应用程序列表进行匹配来识别第一类。这个包名称的阻止列表作为 XML 文件嵌入到应用程序中(资源/res/values/arrays.xml 中的 blackListPackagesDefs)。对于第二类,Anti Spy Mobile PRO 检索应用程序请求的权限,以检查与位置、麦克风和 SMS 访问相关的“可间谍”权限。如果这些加权权限的总和超过某个阈值,则会将应用标记为可疑。包含阻止列表的 XML 文件还包含应用程序包名称 (whiteListPackagesDefs) 的允许列表,这些应用程序可能会根据其权限触发误报。此列表包含例如不同的浏览器,但有趣的是,还包含诸如 Lookout Mobile Security 之类的安全解决方案。在其当前版本中,阻止列表包含 494 个条目,而允许列表包含 146 个条目,其中 30 个包名称分别与 Google Play 商店中可用的应用程序匹配。我们对免费版本(Anti Spy Mobile Basic)进行了逆向工程,并确认唯一的区别是安排自动后台扫描的选项。我们进一步执行 Anti Spy Mobile PRO 以确认我们从静态代码分析中发现的结果,并检查其在实际扫描过程中的行为。在此实验期间,该应用程序没有将这两个间谍软件应用程序 mSpy 和 SpyFone 归类为 SpyWare,因为它的阻止列表不包括它们。但是,它根据他们的权限将他们归类为可疑。
了望移动安全。这个应用程序在代码和 UI 方面都比 Anti Spy Mobile PRO 更复杂。在本例中,我们首先在仪表板 UI 中查找 Scan Now 按钮(参见图 5)。此按钮触发对先前扫描的已存储结果的 SQL 查询。然后,我们查看了填充该数据库的代码,该数据库分为许多不同的类。我们发现 Lookout Mobile Security 还从 Android PackageManager [36] 收集有关每个已安装应用程序的信息。此外,对于被归类为恶意的应用程序,它还存储了一个评估,包括分类类别、评估 ID、威胁的严重性和响应类型。实际的扫描机制是作为本地扫描和云扫描来实现的。在本地扫描的情况下,它会检查 Policy.FLX 中的评估。此策略通过无线 (OTA) 更新分发,即更新自动推送到应用程序,无需任何活跃的用户交互。对于云扫描,该应用程序会向 https://appintel.mobilethreat.net 创建一个请求,其中包含有关正在评估的应用程序的散列信息。使用 Fiddler 监控应用程序的网络流量,我们观察到在第一次扫描期间它从 https://ota.lookout.com 接收数据。我们将此确定为 OTA 策略的来源,但无法确定其格式。因此,我们使用 Frida 将 JavaScript 注入到流程中,以检查从该策略文件中读取的评估列表。大多数评估似乎采用基于签名的检测方法的形式,即作为阻止列表。 Lookout 根据此阻止列表将两个间谍软件应用程序(mSpy 和 SpyFone)检测为监控软件。
检测机制的比较。 Anti Spy Mobile PRO 和 Lookout Mobile Security 都可以检测间谍软件应用程序 mSpy 和 SpyFone。但是,第一个应用程序仅将这两个间谍软件应用程序归类为可疑软件,而第二个应用程序则准确地将两者都识别为监视软件。 Anti Spy Mobile PRO 主要与块和
软件包名称的许可名单。但是,包名称是 Android 应用程序的弱标识符。 Google Play 商店使用它来唯一标识应用程序,并建议遵循 Java 包命名约定,即“使用 Internet 域所有权作为包名称的基础(相反以避免与其他开发人员发生冲突”[35])。尽管如此,开发人员仍然可以为他们的应用程序选择任意或冲突的包名称,特别是当它们通过第三方存储库分发时。众所周知,恶意软件作者使用模仿良性应用程序包名称的策略,或随机生成包名称来逃避检测 [52]。 mSpy (core.update.framework) 和 Spy Fone (com.rzjzmlrm.vhqpmgzo) 的包名称似乎遵循这种模式。从技术上讲,stalkerware 分销商甚至可以为每个客户自动生成新的包名称。此外,这些列表是嵌入在 .apk 文件中的资源的一部分,并且应用程序没有实现任何更新此文件的功能。因此,阻止列表中的任何更改都需要作为应用程序更新的一部分通过 Google Play 商店进行推送——用户可能安装也可能不安装 [59, 87]。更新历史确实包括 [UPDATE] 间谍软件定义更新,但自 2018 年以来更新很少 [6]。除了基于包名称的检测外,Anti Spy Mobile PRO 还会在应用程序请求可用于间谍活动的权限时将其标记为可疑。尽管如此,Anti Spy Mobile PRO 并未向用户提供比请求权限更多的有关这些应用程序的信息,也没有描述或解释这些应用程序的作用。另一方面,Lookout Mobile Security 从服务器动态获取基于签名的阻止列表,并在每次启动期间检查更新版本。但是,在这种情况下,扫描是一个“黑匣子”:我们无法了解 Lookout 服务器上执行的扫描类型以及它们检测所依据的功能。
7 讨论
我们将我们的主题分析结果(即用户对其安装的反跟踪软件建立信任的策略)与我们的用户界面演练和逆向工程结果进行比较——突出了预期能力差距。 然后我们讨论不同利益相关者的选择,以减少这种差距并在未来改进用户的反跟踪软件决策。
7.1 对比用户期望与实际保护能力
潜在的有害事件。审阅者决定信任反跟踪软件应用程序的一种方式取决于他们的事件响应。这种方法依赖于应用程序检测事件的能力。用户的信任取决于应用提供的信息和用户代理。我们的演练显示,Anti Spy Mobile PRO 的可疑应用程序产生了易于识别的误报——可能会降低用户的信任度。此外,我们发现结果不一致:Anti Spy Mobile 认为 Find my Kids 是知名间谍软件,而 Lookout Mobile 认为它是安全的。这种不匹配凸显了对上下文敏感分类的需求,尤其是对于两用应用程序。这两个应用程序都没有很好地告知用户特定威胁并提供适合上下文的用户代理选项。例如,Anti Spy Mobile PRO 提供相同的信息和响应选项,无论是涉及知名间谍软件还是仅涉及可疑应用程序。对应用程序进行逆向工程显示,Anti Spy Mobile PRO 使用了知名间谍软件应用程序的软件包名称列表和知名良性应用程序列表。更新这些列表需要应用程序更新应用程序。 Lookout Mobile 根据本地 OTA 政策检查应用程序,并定期从 Lookout 的服务器更新。 Anti Spy Mobile PRO 进一步使用基于权限的方法来识别不在知名应用程序列表中的可疑应用程序,从而导致容易识别的误报。因此,依靠潜在有害事件作为与反跟踪软件应用程序建立信任的策略会带来风险。它依靠用户识别有害事件的能力来了解应用程序是否应该检测并阻止它们。等待这样的时刻是有风险的。理想情况下,用户在面临攻击之前信任他们的反跟踪软件应用程序。最后,以这种方式授予信任可能会欺骗用户。应用程序保护他们的一种情况可能会导致用户过度概括假设的保护。
放心的用户体验。分析的评论包含对在良性日常场景中令人放心的用户交互的赞誉。除了针对威胁的定期警报外,Lookout Mobile 还包含传达当前积极安全状态的用户界面元素,例如“一切正常”。向用户展示威胁期间和良性情况下的安全机制有助于建立用户的心理模型[83]。 Distler 等人的研究 [21] 表明,可视化安全机制可以改善用户体验。值得注意的是,在我们的案例研究中,Lookout Mobile 似乎总是对其安全评估充满信心。相比之下,Anti Spy Mobile 依赖于基于权限的分类——导致误报。此外,Lookout Mobile 的反应非常灵敏,会立即通知用户其行为的安全后果。隐私和安全通知的时间安排可能会影响用户的一般决策 [4]。观察因果之间的联系形成了用户的心理模型,使行动和响应之间的这种直接性变得有益[83]。然而,适度延迟的隐私反馈可能是最小化中断的妥协[67]。在良性情况下,令人放心的用户体验会带来好处。它们改善了用户的心智模型,并似乎改善了整体用户体验。对潜在威胁的即时反应可以通过联系因果关系来改善用户的心理模型。反跟踪软件判决的确定性,无论是否有根据,都可能提高用户的信任度。最终,令人放心的用户体验不会使应用程序更安全。因此,依赖这种信任建立方法的用户很容易受到欺骗。
关于应用程序检测能力的假设。 评论包含两种基于反跟踪软件检测能力假设的方法。 首先,评论者随着时间的推移评估应用程序的能力,建立类似于个人关系的信任。 其次,审阅者使用选定的间谍软件或测试病毒明确测试和挑战应用程序的检测能力。 两种方法都有缺陷。 使用第一种方法,用户假设他们可以检测到应用程序无法检测到的威胁。 由于他们可能无法识别应用程序何时无法检测到威胁,因此他们可能只知道应用程序保护他们的事件。 使用第二种方法,用户将他们的测试结果从单一测试概括为应用程序检测其他恶意软件的能力,这可能会严重误导用户。 更糟糕的是,由于他们亲自测试了应用程序的能力,他们对自己的评估非常信任。
依赖第三方评估。一些评论者完全依赖第三方对反跟踪软件应用程序的评估。依赖第三方可能是建立信任的最安全选择。但是,它也有缺点。首先,需要对第三方的信任——将信任建立问题从应用程序转移到第三方。然后,第三方必须审查用户选择的应用程序。这种方法的有效性依赖于信誉良好的第三方。理想情况下,受信任的第三方以提供公平的评估而闻名。但是,社会影响可能会影响受信任第三方的选择。用户依赖精通技术的家人和朋友,即使他们无法提供公平的评估。在任何情况下,用户都无法影响甚至可能不知道第三方会考虑哪些方面来进行评论(例如,可用性、用户代理、检测率)。依靠第三方评论,用户无法体验应用程序在发生事件时的反应,这可能会影响他们的舒适度、理解力,并最终影响他们的安全。
7.2 影响和未来工作