用户评分是移动app的命脉,从2星升至3星能使app下载量增长306%。但是基于行为心理学的各种评分操纵术,正在让评分的含金量贬值。



 | 帕特里克•麦吉 旧金山报道

OR--商业新媒体 】给一款iPhone app打分只需要一秒钟,也许两秒。一个弹窗弹出来,问道:“喜欢Skype吗?”然后你点击一串星星,给出1至5星的评分。数以百万计的人会不假思索地回应这些请求。

然而,在这些场景背后,有一整个产业花费无数时间和代码来精心策划这一刻。那个看上去随机出现的弹窗,可能被精心安排在你最可能给出5星评分时,在你的屏幕上弹出。

游戏app会在你刚刚达到一个高分后请求评分。银行app会在你的发薪日请求评分。赌博app会在用户拿到“21点”(Blackjack)的好牌后弹出弹窗。运动app只会在用户的球队胜利在望时发出请求。

10年来,苹果(Apple)一直在打击“评分工厂”和“下载机器人”——企业用它们获取虚假的5星评分、操纵App Store排名。苹果取得了一些成功。但这些是试图欺骗系统的笨拙工具,明显违反了苹果的规则。更具技术含量的方法在规则界限内操作,但它们利用行为心理学来理解你的情绪、情感和行为——它们没有侵入系统;它们是在侵入你的大脑。

“所用的这些算法都非常神神秘秘。”分析网上评分真实性的服务商Fakespot的首席执行官沙特•哈利法(Saoud Khalifah)表示,“它们可以在你非常欣喜、大脑产生大量多巴胺的时候瞄准你……它们可以运用机器学习来决定(什么时候)用户更有可能留下积极评论。”

在另一方面,开发者知道什么时候不该请求评论:新闻app不会在用户阅读有关死亡和破坏的报道时请求评分。一再搞错密码的用户肯定不会被要求评分。这有助于防止负面评分公开化,从而提高整体平均分。

“我们称之为潜在价值感测(latent value sensing)。”帮助企业驾驭移动经济的Robots and Pencils的首席执行官迈克尔•西科尔斯基(Michael Sikorsky)表示,“当你知道某个用户陷入这款app的一个阴暗角落时,那就不是请求评分的时机。”

咨询公司Mobiquity的战略与分析副总裁布赖恩•莱文(Brian Levine)表示,这类策略——不对公众公开,但在开发者中是个公开的秘密——引发了广泛的评分通胀,而且已变得如此普遍,以至于“很难找到不这样做的大型企业”。

他补充道,即使是那些不情愿这样做的企业,也意识到这是进入苹果精选市场的代价。“所以,实际发生的情况是,App Store评分已经变得对客户毫无意义。”

评分通胀的影响很深远。数以百万计的企业利用某种移动app来接触苹果的近10亿名用户。App Store上的商务去年增长至逾5000亿美元——超过多数国家的国内生产总值(GDP)。

根据移动数据和分析提供商App Annie的数据,全球而言,一般的用户平均每天将27%的清醒时间花费在移动设备上。苹果对开发者通过App Store所得的收入抽成30%的做法,使其受到批评——《堡垒之夜》(Fortnite)开发商Epic Games还就此提起诉讼。但这只适用于收费的16% app,而评分通胀影响每一款app。

app之间的竞争很激烈,所以获得高分十分关键。声誉管理公司Apptentive将评分称为“移动app世界的命脉”。其研究表明,从2星跃升至3星能使下载量增长306%,而从3星提升至4星能带来92%的提振。帮助企业优化App Store表现的Gummicube表示,五分之四的用户不信任评分低于4星的app。

“大家都有动机来描绘这个‘正能量’世界,”哈利法表示,“开发者能得到更多安装量,苹果得到更多佣金——这种雪球效应能让你得到越来越多的正面反馈。

“问题在于,”他补充说,“真相被掩盖了。”

“app内弹窗”的兴起

引发这场评分通胀的是苹果在2017年9月发布的一个看上去无害的更新,其目的是提振用户参与度。用户不再需要主动到App Store给app打分——在此机制下,往往只有不满意的用户才会评分。

相反,在推出iOS 11时,苹果授予开发者提供“app内弹窗”的能力。这些弹窗的优点在于,它们带来了参与度,而且可以说克服了“回应者偏向”(responder bias),即不满意的人的声音更容易被听到。瞄准更广泛人群的初衷是提高准确度。

在某种意义上说,此举很成功。用户参与度激增。根据Apptentive的数据,每款app平均得到的评分数量从2017年的1.9万次增至2019年的逾10万次。相比之下,同期不提供app内评分功能的谷歌(Google) Play Store中每款app平均得到的评分数量仅从3.3万次增至4.3万次。

但是,批评者称,苹果对这一系统的设计让开发者得以利用许多漏洞,诱导消费者给出偏高的评分。由于苹果允许开发者请求在他们选定的时间弹出app内弹窗,所以开发者可以通过聚焦于他们的粉丝、避免请求被视为有风险的用户,来达成“样本偏差”(sample bias)。

苹果要求开发者利用一个标准界面请求1至5星的评分,称这样设计是为了收集诚实的反馈。然而,开发者可以运用“框架影响偏差”(framing bias)。如果他们先给用户弹出一条积极的提示——例如“恭喜你拿到高分!”——然后紧接着请求用户评分,获得5星评分的可能性就提高了。

苹果禁止开发者先向用户弹出信息“你如何评价这款app?”,看见回答后再请求用户给出App Store的正式评分。然而,开发者仍可以通过改动这个问题来“指点”消费者。视频会议app可以询问“你的通话质量如何?”,以试探出5星评分——并且仅在这种情况下才请求苹果弹出正式的评分弹窗。

“他们所做的就是在公开评分中,让天平向有利于他们的方向倾斜。”贝恩(Bain & Company)咨询顾问、净推荐值(Net Promoter Score)——一套帮助企业评估、管理并加强客户忠诚度的衡量标准——的联合创建者罗布•马基(Rob Markey)表示,“随着企业越来越善于操纵分数,评分系统本身变得对消费者越来越无用。”

其他平台也体会到了评分通胀的问题。亚马逊(Amazon)正在调查其英国网站上那些最“高产”的评论者,此前英国《金融时报》调查发现的证据表明,他们通过发布成千上万份5星评分来谋利。

苹果允许用户选择不接收app内弹窗。此外,用户可以在任何时候进入App Store,撰写负面评论,而且苹果不允许开发者屏蔽这些评论。然而,苹果确实允许app开发者“重置”app评分,由于app内弹窗在让普通用户打5星方面如此有效,所以负面评价是可以被淹没的。Robots and Pencils的西科尔斯基举例道,一家客户的app曾有1090个1星评分,但在改变反馈机制后的数周内,这款app收到逾3.5万个评分——其中90%给出了5星。

咨询公司Publicis Sapient的用户体验设计师温迪•约翰森(Wendy Johansson)表示:“它在很大程度上是精心设计出来的。”

苹果已试图阻止开发者诱导用户给出高分,并威胁要禁止违反规则的开发者。在回应记者的提问时,苹果表示,它已从App Store下架了一些app,并将一些开发者从苹果开发者计划(Apple Developer Program)除名,理由是违反苹果的规则。

苹果补充说:“我们的《App Store审核指南》(App Store Review Guidelines)清楚地说明,如果任何开发者试图欺骗系统,例如操纵评分或app在搜索结果中的显示方式,其app就可能会被移除,他们可能会从开发者计划除名。”

“反竞争行为”

然而有证据表明,开发者已经在不违反苹果规则的前提下,找到了许多方法来操纵系统。在被问及他们的策略时,开发者指向苹果自己的app内弹窗指南,其中规定:“当用户最有可能对你的app感到满意时——比如完成一项操作、达到一个级别或完成一项任务——提出请求。”

对哈利法来说,苹果框架的一个意想不到的后果是限制开发者最多每年三次请求一个用户对一款app给出评分。这是为了避免惹恼消费者,但实际上它让app内弹窗成为稀缺商品。他说,这激励开发者打造“黑镜风格算法”——此言指的是英国反乌托邦科技电视系列剧《黑镜》(Black Mirror)——以找出用户最开心的时候。

莱文说,其结果是App Store的评分有水分,让占据主导地位的开发商受益。“这是反竞争的,因为只有资金比较雄厚的公司才能有效利用这种情况,”他补充道。

他提出,评分通胀会扼杀创新,因为开发者可能开发一款平庸的app,而仍能获得4.5星的平均评分。“很多app没有得到应有的开发努力,因为所有迹象都表明顾客喜欢他们。”

很难确定评分究竟飙升了多少,因为苹果并不提供完整的评分数据和历史。但是第三方记录了iOS 11推出后的普遍评分通胀。

在美国七大银行app中,2007年初评分在1.2到4.9星级的现在全都是4.8星。在面向Android设备的Google Play商店,这些app最高的评分是4.7,最低为4.4。

甚至在最受欢迎的购物、生活方式、金融、旅游和娱乐类app排行榜上排名第50位的app,在App Store中的评分全都至少4.8星。根据App Annie的数据,在谷歌Play Store,排名相同的app的评分介于3.8星和4.7星之间。

莱文曾分析8款采用了app内评分弹窗的流行app,他发现它们的平均分数在6个月内从3星攀升至4.7星,而用户评分数量激增62倍。

三明治连锁店赛百味(Subway)曾多年疲于应对糟糕的app评分。在2018年初的两周内,其app评分从1.7星跃升至4星。针对那次软件更新的说明称,它解决了一些小错误,而主要的新功能是“(让用户)更容易对app进行评分和提供反馈。”

数据显示,附有文字评论的评分丝毫没有出现通胀,这与更高评分只是反映了iPhone和iPad app质量更好的说法是矛盾的。

App Annie的高级市场洞察经理莱克西•赛多(Lexi Sydow)表示:“我们实际上看到了iOS所有app和游戏的平均评论评分下降,从2017年8月的4.2降至2017年9月的3.9,到2020年7月进一步降至3.4。”

“你只有一份工作”

文字评论已经不再具有多大的价值,因为开发者可以过滤掉许多1星评分,放大较高的分数,这样做甚至不需要使用复杂的方法。

客户包括eBay、美国有线电视新闻网(CNN)和阿拉斯加航空(Alaska Airlines)的Apptentive表示,最简单的方法就是使用“喜爱度对话框”。

它建议开发者用一条简单的信息来指点用户。“你喜欢(这款app)吗?”当用户点击“不喜欢”时,他们会被导向一个私下的反馈渠道。而当他们点击“喜欢”时,他们就会进入“给这款app评分”的苹果官方界面。

Apptentive的内容主管阿什利•塞弗曼(Ashley Sefferman)表示,她并不认为这是一种“操纵”,相反,它可以帮助开发者梳理“可操作的”反馈,并更多地听到他们的粉丝的声音。

然而,Apptentive的统计数据显示,在“喜爱度对话框”中点击了“不喜欢”的大约五分之二用户,被视为一种风险,他们被引向与发表公开评论相反的方向。塞弗曼至少从2016年起就开始推荐这种方法,称其非常有效,以至于app几乎没有理由会获得低评分。

Apptentive的一份线上“如何使用”指南表示:“你的app没有获得5星评分的原因是,你寻求app内反馈的方式不对。”

尽管面临来自开发者的压力,但谷歌的Android系统曾多年拒绝提供app内评分。2017年之前,在Apptentive追踪的所有五个app类别中,从Play Store下载的Android app的5星评分比例都高于苹果。但2017年以后,App Store的app评分占据了绝对的领先优势。

如今,这种情况很可能会发生改变。8月5日,Android软化了态度,开始提供app内评分提示。与苹果一样,Android表示,其目的是让开发者获得更多“诚实和公正”的反馈。但Android也引用了开发者对该工具的称赞,正如其中一个开发者所说的,“在我们实施app内评分一周后,就获得了历史最高评分”——这相当于明确承认,不管开发者是否真的改进了他们的app,其app的评分都能得到大幅提升。

贝恩的马基表示,创建一个评分公平的市场对任何平台提供商来说都是至关重要的。“这就像是,你只有一份工作。”他表示,“如果不这样做,你最终要么会失去买家,要么会失去卖家。”

但开发者和消费者都面临着同样的问题:智能手机用户除了苹果和谷歌之外,没有其他选择。■


(注:本文仅代表作者个人观点。责编邮箱    info@or123.net)



分享到:

移动应用的评分方法论

发布日期:2020-09-11 06:17
用户评分是移动app的命脉,从2星升至3星能使app下载量增长306%。但是基于行为心理学的各种评分操纵术,正在让评分的含金量贬值。



 | 帕特里克•麦吉 旧金山报道

OR--商业新媒体 】给一款iPhone app打分只需要一秒钟,也许两秒。一个弹窗弹出来,问道:“喜欢Skype吗?”然后你点击一串星星,给出1至5星的评分。数以百万计的人会不假思索地回应这些请求。

然而,在这些场景背后,有一整个产业花费无数时间和代码来精心策划这一刻。那个看上去随机出现的弹窗,可能被精心安排在你最可能给出5星评分时,在你的屏幕上弹出。

游戏app会在你刚刚达到一个高分后请求评分。银行app会在你的发薪日请求评分。赌博app会在用户拿到“21点”(Blackjack)的好牌后弹出弹窗。运动app只会在用户的球队胜利在望时发出请求。

10年来,苹果(Apple)一直在打击“评分工厂”和“下载机器人”——企业用它们获取虚假的5星评分、操纵App Store排名。苹果取得了一些成功。但这些是试图欺骗系统的笨拙工具,明显违反了苹果的规则。更具技术含量的方法在规则界限内操作,但它们利用行为心理学来理解你的情绪、情感和行为——它们没有侵入系统;它们是在侵入你的大脑。

“所用的这些算法都非常神神秘秘。”分析网上评分真实性的服务商Fakespot的首席执行官沙特•哈利法(Saoud Khalifah)表示,“它们可以在你非常欣喜、大脑产生大量多巴胺的时候瞄准你……它们可以运用机器学习来决定(什么时候)用户更有可能留下积极评论。”

在另一方面,开发者知道什么时候不该请求评论:新闻app不会在用户阅读有关死亡和破坏的报道时请求评分。一再搞错密码的用户肯定不会被要求评分。这有助于防止负面评分公开化,从而提高整体平均分。

“我们称之为潜在价值感测(latent value sensing)。”帮助企业驾驭移动经济的Robots and Pencils的首席执行官迈克尔•西科尔斯基(Michael Sikorsky)表示,“当你知道某个用户陷入这款app的一个阴暗角落时,那就不是请求评分的时机。”

咨询公司Mobiquity的战略与分析副总裁布赖恩•莱文(Brian Levine)表示,这类策略——不对公众公开,但在开发者中是个公开的秘密——引发了广泛的评分通胀,而且已变得如此普遍,以至于“很难找到不这样做的大型企业”。

他补充道,即使是那些不情愿这样做的企业,也意识到这是进入苹果精选市场的代价。“所以,实际发生的情况是,App Store评分已经变得对客户毫无意义。”

评分通胀的影响很深远。数以百万计的企业利用某种移动app来接触苹果的近10亿名用户。App Store上的商务去年增长至逾5000亿美元——超过多数国家的国内生产总值(GDP)。

根据移动数据和分析提供商App Annie的数据,全球而言,一般的用户平均每天将27%的清醒时间花费在移动设备上。苹果对开发者通过App Store所得的收入抽成30%的做法,使其受到批评——《堡垒之夜》(Fortnite)开发商Epic Games还就此提起诉讼。但这只适用于收费的16% app,而评分通胀影响每一款app。

app之间的竞争很激烈,所以获得高分十分关键。声誉管理公司Apptentive将评分称为“移动app世界的命脉”。其研究表明,从2星跃升至3星能使下载量增长306%,而从3星提升至4星能带来92%的提振。帮助企业优化App Store表现的Gummicube表示,五分之四的用户不信任评分低于4星的app。

“大家都有动机来描绘这个‘正能量’世界,”哈利法表示,“开发者能得到更多安装量,苹果得到更多佣金——这种雪球效应能让你得到越来越多的正面反馈。

“问题在于,”他补充说,“真相被掩盖了。”

“app内弹窗”的兴起

引发这场评分通胀的是苹果在2017年9月发布的一个看上去无害的更新,其目的是提振用户参与度。用户不再需要主动到App Store给app打分——在此机制下,往往只有不满意的用户才会评分。

相反,在推出iOS 11时,苹果授予开发者提供“app内弹窗”的能力。这些弹窗的优点在于,它们带来了参与度,而且可以说克服了“回应者偏向”(responder bias),即不满意的人的声音更容易被听到。瞄准更广泛人群的初衷是提高准确度。

在某种意义上说,此举很成功。用户参与度激增。根据Apptentive的数据,每款app平均得到的评分数量从2017年的1.9万次增至2019年的逾10万次。相比之下,同期不提供app内评分功能的谷歌(Google) Play Store中每款app平均得到的评分数量仅从3.3万次增至4.3万次。

但是,批评者称,苹果对这一系统的设计让开发者得以利用许多漏洞,诱导消费者给出偏高的评分。由于苹果允许开发者请求在他们选定的时间弹出app内弹窗,所以开发者可以通过聚焦于他们的粉丝、避免请求被视为有风险的用户,来达成“样本偏差”(sample bias)。

苹果要求开发者利用一个标准界面请求1至5星的评分,称这样设计是为了收集诚实的反馈。然而,开发者可以运用“框架影响偏差”(framing bias)。如果他们先给用户弹出一条积极的提示——例如“恭喜你拿到高分!”——然后紧接着请求用户评分,获得5星评分的可能性就提高了。

苹果禁止开发者先向用户弹出信息“你如何评价这款app?”,看见回答后再请求用户给出App Store的正式评分。然而,开发者仍可以通过改动这个问题来“指点”消费者。视频会议app可以询问“你的通话质量如何?”,以试探出5星评分——并且仅在这种情况下才请求苹果弹出正式的评分弹窗。

“他们所做的就是在公开评分中,让天平向有利于他们的方向倾斜。”贝恩(Bain & Company)咨询顾问、净推荐值(Net Promoter Score)——一套帮助企业评估、管理并加强客户忠诚度的衡量标准——的联合创建者罗布•马基(Rob Markey)表示,“随着企业越来越善于操纵分数,评分系统本身变得对消费者越来越无用。”

其他平台也体会到了评分通胀的问题。亚马逊(Amazon)正在调查其英国网站上那些最“高产”的评论者,此前英国《金融时报》调查发现的证据表明,他们通过发布成千上万份5星评分来谋利。

苹果允许用户选择不接收app内弹窗。此外,用户可以在任何时候进入App Store,撰写负面评论,而且苹果不允许开发者屏蔽这些评论。然而,苹果确实允许app开发者“重置”app评分,由于app内弹窗在让普通用户打5星方面如此有效,所以负面评价是可以被淹没的。Robots and Pencils的西科尔斯基举例道,一家客户的app曾有1090个1星评分,但在改变反馈机制后的数周内,这款app收到逾3.5万个评分——其中90%给出了5星。

咨询公司Publicis Sapient的用户体验设计师温迪•约翰森(Wendy Johansson)表示:“它在很大程度上是精心设计出来的。”

苹果已试图阻止开发者诱导用户给出高分,并威胁要禁止违反规则的开发者。在回应记者的提问时,苹果表示,它已从App Store下架了一些app,并将一些开发者从苹果开发者计划(Apple Developer Program)除名,理由是违反苹果的规则。

苹果补充说:“我们的《App Store审核指南》(App Store Review Guidelines)清楚地说明,如果任何开发者试图欺骗系统,例如操纵评分或app在搜索结果中的显示方式,其app就可能会被移除,他们可能会从开发者计划除名。”

“反竞争行为”

然而有证据表明,开发者已经在不违反苹果规则的前提下,找到了许多方法来操纵系统。在被问及他们的策略时,开发者指向苹果自己的app内弹窗指南,其中规定:“当用户最有可能对你的app感到满意时——比如完成一项操作、达到一个级别或完成一项任务——提出请求。”

对哈利法来说,苹果框架的一个意想不到的后果是限制开发者最多每年三次请求一个用户对一款app给出评分。这是为了避免惹恼消费者,但实际上它让app内弹窗成为稀缺商品。他说,这激励开发者打造“黑镜风格算法”——此言指的是英国反乌托邦科技电视系列剧《黑镜》(Black Mirror)——以找出用户最开心的时候。

莱文说,其结果是App Store的评分有水分,让占据主导地位的开发商受益。“这是反竞争的,因为只有资金比较雄厚的公司才能有效利用这种情况,”他补充道。

他提出,评分通胀会扼杀创新,因为开发者可能开发一款平庸的app,而仍能获得4.5星的平均评分。“很多app没有得到应有的开发努力,因为所有迹象都表明顾客喜欢他们。”

很难确定评分究竟飙升了多少,因为苹果并不提供完整的评分数据和历史。但是第三方记录了iOS 11推出后的普遍评分通胀。

在美国七大银行app中,2007年初评分在1.2到4.9星级的现在全都是4.8星。在面向Android设备的Google Play商店,这些app最高的评分是4.7,最低为4.4。

甚至在最受欢迎的购物、生活方式、金融、旅游和娱乐类app排行榜上排名第50位的app,在App Store中的评分全都至少4.8星。根据App Annie的数据,在谷歌Play Store,排名相同的app的评分介于3.8星和4.7星之间。

莱文曾分析8款采用了app内评分弹窗的流行app,他发现它们的平均分数在6个月内从3星攀升至4.7星,而用户评分数量激增62倍。

三明治连锁店赛百味(Subway)曾多年疲于应对糟糕的app评分。在2018年初的两周内,其app评分从1.7星跃升至4星。针对那次软件更新的说明称,它解决了一些小错误,而主要的新功能是“(让用户)更容易对app进行评分和提供反馈。”

数据显示,附有文字评论的评分丝毫没有出现通胀,这与更高评分只是反映了iPhone和iPad app质量更好的说法是矛盾的。

App Annie的高级市场洞察经理莱克西•赛多(Lexi Sydow)表示:“我们实际上看到了iOS所有app和游戏的平均评论评分下降,从2017年8月的4.2降至2017年9月的3.9,到2020年7月进一步降至3.4。”

“你只有一份工作”

文字评论已经不再具有多大的价值,因为开发者可以过滤掉许多1星评分,放大较高的分数,这样做甚至不需要使用复杂的方法。

客户包括eBay、美国有线电视新闻网(CNN)和阿拉斯加航空(Alaska Airlines)的Apptentive表示,最简单的方法就是使用“喜爱度对话框”。

它建议开发者用一条简单的信息来指点用户。“你喜欢(这款app)吗?”当用户点击“不喜欢”时,他们会被导向一个私下的反馈渠道。而当他们点击“喜欢”时,他们就会进入“给这款app评分”的苹果官方界面。

Apptentive的内容主管阿什利•塞弗曼(Ashley Sefferman)表示,她并不认为这是一种“操纵”,相反,它可以帮助开发者梳理“可操作的”反馈,并更多地听到他们的粉丝的声音。

然而,Apptentive的统计数据显示,在“喜爱度对话框”中点击了“不喜欢”的大约五分之二用户,被视为一种风险,他们被引向与发表公开评论相反的方向。塞弗曼至少从2016年起就开始推荐这种方法,称其非常有效,以至于app几乎没有理由会获得低评分。

Apptentive的一份线上“如何使用”指南表示:“你的app没有获得5星评分的原因是,你寻求app内反馈的方式不对。”

尽管面临来自开发者的压力,但谷歌的Android系统曾多年拒绝提供app内评分。2017年之前,在Apptentive追踪的所有五个app类别中,从Play Store下载的Android app的5星评分比例都高于苹果。但2017年以后,App Store的app评分占据了绝对的领先优势。

如今,这种情况很可能会发生改变。8月5日,Android软化了态度,开始提供app内评分提示。与苹果一样,Android表示,其目的是让开发者获得更多“诚实和公正”的反馈。但Android也引用了开发者对该工具的称赞,正如其中一个开发者所说的,“在我们实施app内评分一周后,就获得了历史最高评分”——这相当于明确承认,不管开发者是否真的改进了他们的app,其app的评分都能得到大幅提升。

贝恩的马基表示,创建一个评分公平的市场对任何平台提供商来说都是至关重要的。“这就像是,你只有一份工作。”他表示,“如果不这样做,你最终要么会失去买家,要么会失去卖家。”

但开发者和消费者都面临着同样的问题:智能手机用户除了苹果和谷歌之外,没有其他选择。■


(注:本文仅代表作者个人观点。责编邮箱    info@or123.net)



用户评分是移动app的命脉,从2星升至3星能使app下载量增长306%。但是基于行为心理学的各种评分操纵术,正在让评分的含金量贬值。



 | 帕特里克•麦吉 旧金山报道

OR--商业新媒体 】给一款iPhone app打分只需要一秒钟,也许两秒。一个弹窗弹出来,问道:“喜欢Skype吗?”然后你点击一串星星,给出1至5星的评分。数以百万计的人会不假思索地回应这些请求。

然而,在这些场景背后,有一整个产业花费无数时间和代码来精心策划这一刻。那个看上去随机出现的弹窗,可能被精心安排在你最可能给出5星评分时,在你的屏幕上弹出。

游戏app会在你刚刚达到一个高分后请求评分。银行app会在你的发薪日请求评分。赌博app会在用户拿到“21点”(Blackjack)的好牌后弹出弹窗。运动app只会在用户的球队胜利在望时发出请求。

10年来,苹果(Apple)一直在打击“评分工厂”和“下载机器人”——企业用它们获取虚假的5星评分、操纵App Store排名。苹果取得了一些成功。但这些是试图欺骗系统的笨拙工具,明显违反了苹果的规则。更具技术含量的方法在规则界限内操作,但它们利用行为心理学来理解你的情绪、情感和行为——它们没有侵入系统;它们是在侵入你的大脑。

“所用的这些算法都非常神神秘秘。”分析网上评分真实性的服务商Fakespot的首席执行官沙特•哈利法(Saoud Khalifah)表示,“它们可以在你非常欣喜、大脑产生大量多巴胺的时候瞄准你……它们可以运用机器学习来决定(什么时候)用户更有可能留下积极评论。”

在另一方面,开发者知道什么时候不该请求评论:新闻app不会在用户阅读有关死亡和破坏的报道时请求评分。一再搞错密码的用户肯定不会被要求评分。这有助于防止负面评分公开化,从而提高整体平均分。

“我们称之为潜在价值感测(latent value sensing)。”帮助企业驾驭移动经济的Robots and Pencils的首席执行官迈克尔•西科尔斯基(Michael Sikorsky)表示,“当你知道某个用户陷入这款app的一个阴暗角落时,那就不是请求评分的时机。”

咨询公司Mobiquity的战略与分析副总裁布赖恩•莱文(Brian Levine)表示,这类策略——不对公众公开,但在开发者中是个公开的秘密——引发了广泛的评分通胀,而且已变得如此普遍,以至于“很难找到不这样做的大型企业”。

他补充道,即使是那些不情愿这样做的企业,也意识到这是进入苹果精选市场的代价。“所以,实际发生的情况是,App Store评分已经变得对客户毫无意义。”

评分通胀的影响很深远。数以百万计的企业利用某种移动app来接触苹果的近10亿名用户。App Store上的商务去年增长至逾5000亿美元——超过多数国家的国内生产总值(GDP)。

根据移动数据和分析提供商App Annie的数据,全球而言,一般的用户平均每天将27%的清醒时间花费在移动设备上。苹果对开发者通过App Store所得的收入抽成30%的做法,使其受到批评——《堡垒之夜》(Fortnite)开发商Epic Games还就此提起诉讼。但这只适用于收费的16% app,而评分通胀影响每一款app。

app之间的竞争很激烈,所以获得高分十分关键。声誉管理公司Apptentive将评分称为“移动app世界的命脉”。其研究表明,从2星跃升至3星能使下载量增长306%,而从3星提升至4星能带来92%的提振。帮助企业优化App Store表现的Gummicube表示,五分之四的用户不信任评分低于4星的app。

“大家都有动机来描绘这个‘正能量’世界,”哈利法表示,“开发者能得到更多安装量,苹果得到更多佣金——这种雪球效应能让你得到越来越多的正面反馈。

“问题在于,”他补充说,“真相被掩盖了。”

“app内弹窗”的兴起

引发这场评分通胀的是苹果在2017年9月发布的一个看上去无害的更新,其目的是提振用户参与度。用户不再需要主动到App Store给app打分——在此机制下,往往只有不满意的用户才会评分。

相反,在推出iOS 11时,苹果授予开发者提供“app内弹窗”的能力。这些弹窗的优点在于,它们带来了参与度,而且可以说克服了“回应者偏向”(responder bias),即不满意的人的声音更容易被听到。瞄准更广泛人群的初衷是提高准确度。

在某种意义上说,此举很成功。用户参与度激增。根据Apptentive的数据,每款app平均得到的评分数量从2017年的1.9万次增至2019年的逾10万次。相比之下,同期不提供app内评分功能的谷歌(Google) Play Store中每款app平均得到的评分数量仅从3.3万次增至4.3万次。

但是,批评者称,苹果对这一系统的设计让开发者得以利用许多漏洞,诱导消费者给出偏高的评分。由于苹果允许开发者请求在他们选定的时间弹出app内弹窗,所以开发者可以通过聚焦于他们的粉丝、避免请求被视为有风险的用户,来达成“样本偏差”(sample bias)。

苹果要求开发者利用一个标准界面请求1至5星的评分,称这样设计是为了收集诚实的反馈。然而,开发者可以运用“框架影响偏差”(framing bias)。如果他们先给用户弹出一条积极的提示——例如“恭喜你拿到高分!”——然后紧接着请求用户评分,获得5星评分的可能性就提高了。

苹果禁止开发者先向用户弹出信息“你如何评价这款app?”,看见回答后再请求用户给出App Store的正式评分。然而,开发者仍可以通过改动这个问题来“指点”消费者。视频会议app可以询问“你的通话质量如何?”,以试探出5星评分——并且仅在这种情况下才请求苹果弹出正式的评分弹窗。

“他们所做的就是在公开评分中,让天平向有利于他们的方向倾斜。”贝恩(Bain & Company)咨询顾问、净推荐值(Net Promoter Score)——一套帮助企业评估、管理并加强客户忠诚度的衡量标准——的联合创建者罗布•马基(Rob Markey)表示,“随着企业越来越善于操纵分数,评分系统本身变得对消费者越来越无用。”

其他平台也体会到了评分通胀的问题。亚马逊(Amazon)正在调查其英国网站上那些最“高产”的评论者,此前英国《金融时报》调查发现的证据表明,他们通过发布成千上万份5星评分来谋利。

苹果允许用户选择不接收app内弹窗。此外,用户可以在任何时候进入App Store,撰写负面评论,而且苹果不允许开发者屏蔽这些评论。然而,苹果确实允许app开发者“重置”app评分,由于app内弹窗在让普通用户打5星方面如此有效,所以负面评价是可以被淹没的。Robots and Pencils的西科尔斯基举例道,一家客户的app曾有1090个1星评分,但在改变反馈机制后的数周内,这款app收到逾3.5万个评分——其中90%给出了5星。

咨询公司Publicis Sapient的用户体验设计师温迪•约翰森(Wendy Johansson)表示:“它在很大程度上是精心设计出来的。”

苹果已试图阻止开发者诱导用户给出高分,并威胁要禁止违反规则的开发者。在回应记者的提问时,苹果表示,它已从App Store下架了一些app,并将一些开发者从苹果开发者计划(Apple Developer Program)除名,理由是违反苹果的规则。

苹果补充说:“我们的《App Store审核指南》(App Store Review Guidelines)清楚地说明,如果任何开发者试图欺骗系统,例如操纵评分或app在搜索结果中的显示方式,其app就可能会被移除,他们可能会从开发者计划除名。”

“反竞争行为”

然而有证据表明,开发者已经在不违反苹果规则的前提下,找到了许多方法来操纵系统。在被问及他们的策略时,开发者指向苹果自己的app内弹窗指南,其中规定:“当用户最有可能对你的app感到满意时——比如完成一项操作、达到一个级别或完成一项任务——提出请求。”

对哈利法来说,苹果框架的一个意想不到的后果是限制开发者最多每年三次请求一个用户对一款app给出评分。这是为了避免惹恼消费者,但实际上它让app内弹窗成为稀缺商品。他说,这激励开发者打造“黑镜风格算法”——此言指的是英国反乌托邦科技电视系列剧《黑镜》(Black Mirror)——以找出用户最开心的时候。

莱文说,其结果是App Store的评分有水分,让占据主导地位的开发商受益。“这是反竞争的,因为只有资金比较雄厚的公司才能有效利用这种情况,”他补充道。

他提出,评分通胀会扼杀创新,因为开发者可能开发一款平庸的app,而仍能获得4.5星的平均评分。“很多app没有得到应有的开发努力,因为所有迹象都表明顾客喜欢他们。”

很难确定评分究竟飙升了多少,因为苹果并不提供完整的评分数据和历史。但是第三方记录了iOS 11推出后的普遍评分通胀。

在美国七大银行app中,2007年初评分在1.2到4.9星级的现在全都是4.8星。在面向Android设备的Google Play商店,这些app最高的评分是4.7,最低为4.4。

甚至在最受欢迎的购物、生活方式、金融、旅游和娱乐类app排行榜上排名第50位的app,在App Store中的评分全都至少4.8星。根据App Annie的数据,在谷歌Play Store,排名相同的app的评分介于3.8星和4.7星之间。

莱文曾分析8款采用了app内评分弹窗的流行app,他发现它们的平均分数在6个月内从3星攀升至4.7星,而用户评分数量激增62倍。

三明治连锁店赛百味(Subway)曾多年疲于应对糟糕的app评分。在2018年初的两周内,其app评分从1.7星跃升至4星。针对那次软件更新的说明称,它解决了一些小错误,而主要的新功能是“(让用户)更容易对app进行评分和提供反馈。”

数据显示,附有文字评论的评分丝毫没有出现通胀,这与更高评分只是反映了iPhone和iPad app质量更好的说法是矛盾的。

App Annie的高级市场洞察经理莱克西•赛多(Lexi Sydow)表示:“我们实际上看到了iOS所有app和游戏的平均评论评分下降,从2017年8月的4.2降至2017年9月的3.9,到2020年7月进一步降至3.4。”

“你只有一份工作”

文字评论已经不再具有多大的价值,因为开发者可以过滤掉许多1星评分,放大较高的分数,这样做甚至不需要使用复杂的方法。

客户包括eBay、美国有线电视新闻网(CNN)和阿拉斯加航空(Alaska Airlines)的Apptentive表示,最简单的方法就是使用“喜爱度对话框”。

它建议开发者用一条简单的信息来指点用户。“你喜欢(这款app)吗?”当用户点击“不喜欢”时,他们会被导向一个私下的反馈渠道。而当他们点击“喜欢”时,他们就会进入“给这款app评分”的苹果官方界面。

Apptentive的内容主管阿什利•塞弗曼(Ashley Sefferman)表示,她并不认为这是一种“操纵”,相反,它可以帮助开发者梳理“可操作的”反馈,并更多地听到他们的粉丝的声音。

然而,Apptentive的统计数据显示,在“喜爱度对话框”中点击了“不喜欢”的大约五分之二用户,被视为一种风险,他们被引向与发表公开评论相反的方向。塞弗曼至少从2016年起就开始推荐这种方法,称其非常有效,以至于app几乎没有理由会获得低评分。

Apptentive的一份线上“如何使用”指南表示:“你的app没有获得5星评分的原因是,你寻求app内反馈的方式不对。”

尽管面临来自开发者的压力,但谷歌的Android系统曾多年拒绝提供app内评分。2017年之前,在Apptentive追踪的所有五个app类别中,从Play Store下载的Android app的5星评分比例都高于苹果。但2017年以后,App Store的app评分占据了绝对的领先优势。

如今,这种情况很可能会发生改变。8月5日,Android软化了态度,开始提供app内评分提示。与苹果一样,Android表示,其目的是让开发者获得更多“诚实和公正”的反馈。但Android也引用了开发者对该工具的称赞,正如其中一个开发者所说的,“在我们实施app内评分一周后,就获得了历史最高评分”——这相当于明确承认,不管开发者是否真的改进了他们的app,其app的评分都能得到大幅提升。

贝恩的马基表示,创建一个评分公平的市场对任何平台提供商来说都是至关重要的。“这就像是,你只有一份工作。”他表示,“如果不这样做,你最终要么会失去买家,要么会失去卖家。”

但开发者和消费者都面临着同样的问题:智能手机用户除了苹果和谷歌之外,没有其他选择。■


(注:本文仅代表作者个人观点。责编邮箱    info@or123.net)




读者评论


最新资讯
OR


分享到:

移动应用的评分方法论

发布日期:2020-09-11 06:17
用户评分是移动app的命脉,从2星升至3星能使app下载量增长306%。但是基于行为心理学的各种评分操纵术,正在让评分的含金量贬值。



 | 帕特里克•麦吉 旧金山报道

OR--商业新媒体 】给一款iPhone app打分只需要一秒钟,也许两秒。一个弹窗弹出来,问道:“喜欢Skype吗?”然后你点击一串星星,给出1至5星的评分。数以百万计的人会不假思索地回应这些请求。

然而,在这些场景背后,有一整个产业花费无数时间和代码来精心策划这一刻。那个看上去随机出现的弹窗,可能被精心安排在你最可能给出5星评分时,在你的屏幕上弹出。

游戏app会在你刚刚达到一个高分后请求评分。银行app会在你的发薪日请求评分。赌博app会在用户拿到“21点”(Blackjack)的好牌后弹出弹窗。运动app只会在用户的球队胜利在望时发出请求。

10年来,苹果(Apple)一直在打击“评分工厂”和“下载机器人”——企业用它们获取虚假的5星评分、操纵App Store排名。苹果取得了一些成功。但这些是试图欺骗系统的笨拙工具,明显违反了苹果的规则。更具技术含量的方法在规则界限内操作,但它们利用行为心理学来理解你的情绪、情感和行为——它们没有侵入系统;它们是在侵入你的大脑。

“所用的这些算法都非常神神秘秘。”分析网上评分真实性的服务商Fakespot的首席执行官沙特•哈利法(Saoud Khalifah)表示,“它们可以在你非常欣喜、大脑产生大量多巴胺的时候瞄准你……它们可以运用机器学习来决定(什么时候)用户更有可能留下积极评论。”

在另一方面,开发者知道什么时候不该请求评论:新闻app不会在用户阅读有关死亡和破坏的报道时请求评分。一再搞错密码的用户肯定不会被要求评分。这有助于防止负面评分公开化,从而提高整体平均分。

“我们称之为潜在价值感测(latent value sensing)。”帮助企业驾驭移动经济的Robots and Pencils的首席执行官迈克尔•西科尔斯基(Michael Sikorsky)表示,“当你知道某个用户陷入这款app的一个阴暗角落时,那就不是请求评分的时机。”

咨询公司Mobiquity的战略与分析副总裁布赖恩•莱文(Brian Levine)表示,这类策略——不对公众公开,但在开发者中是个公开的秘密——引发了广泛的评分通胀,而且已变得如此普遍,以至于“很难找到不这样做的大型企业”。

他补充道,即使是那些不情愿这样做的企业,也意识到这是进入苹果精选市场的代价。“所以,实际发生的情况是,App Store评分已经变得对客户毫无意义。”

评分通胀的影响很深远。数以百万计的企业利用某种移动app来接触苹果的近10亿名用户。App Store上的商务去年增长至逾5000亿美元——超过多数国家的国内生产总值(GDP)。

根据移动数据和分析提供商App Annie的数据,全球而言,一般的用户平均每天将27%的清醒时间花费在移动设备上。苹果对开发者通过App Store所得的收入抽成30%的做法,使其受到批评——《堡垒之夜》(Fortnite)开发商Epic Games还就此提起诉讼。但这只适用于收费的16% app,而评分通胀影响每一款app。

app之间的竞争很激烈,所以获得高分十分关键。声誉管理公司Apptentive将评分称为“移动app世界的命脉”。其研究表明,从2星跃升至3星能使下载量增长306%,而从3星提升至4星能带来92%的提振。帮助企业优化App Store表现的Gummicube表示,五分之四的用户不信任评分低于4星的app。

“大家都有动机来描绘这个‘正能量’世界,”哈利法表示,“开发者能得到更多安装量,苹果得到更多佣金——这种雪球效应能让你得到越来越多的正面反馈。

“问题在于,”他补充说,“真相被掩盖了。”

“app内弹窗”的兴起

引发这场评分通胀的是苹果在2017年9月发布的一个看上去无害的更新,其目的是提振用户参与度。用户不再需要主动到App Store给app打分——在此机制下,往往只有不满意的用户才会评分。

相反,在推出iOS 11时,苹果授予开发者提供“app内弹窗”的能力。这些弹窗的优点在于,它们带来了参与度,而且可以说克服了“回应者偏向”(responder bias),即不满意的人的声音更容易被听到。瞄准更广泛人群的初衷是提高准确度。

在某种意义上说,此举很成功。用户参与度激增。根据Apptentive的数据,每款app平均得到的评分数量从2017年的1.9万次增至2019年的逾10万次。相比之下,同期不提供app内评分功能的谷歌(Google) Play Store中每款app平均得到的评分数量仅从3.3万次增至4.3万次。

但是,批评者称,苹果对这一系统的设计让开发者得以利用许多漏洞,诱导消费者给出偏高的评分。由于苹果允许开发者请求在他们选定的时间弹出app内弹窗,所以开发者可以通过聚焦于他们的粉丝、避免请求被视为有风险的用户,来达成“样本偏差”(sample bias)。

苹果要求开发者利用一个标准界面请求1至5星的评分,称这样设计是为了收集诚实的反馈。然而,开发者可以运用“框架影响偏差”(framing bias)。如果他们先给用户弹出一条积极的提示——例如“恭喜你拿到高分!”——然后紧接着请求用户评分,获得5星评分的可能性就提高了。

苹果禁止开发者先向用户弹出信息“你如何评价这款app?”,看见回答后再请求用户给出App Store的正式评分。然而,开发者仍可以通过改动这个问题来“指点”消费者。视频会议app可以询问“你的通话质量如何?”,以试探出5星评分——并且仅在这种情况下才请求苹果弹出正式的评分弹窗。

“他们所做的就是在公开评分中,让天平向有利于他们的方向倾斜。”贝恩(Bain & Company)咨询顾问、净推荐值(Net Promoter Score)——一套帮助企业评估、管理并加强客户忠诚度的衡量标准——的联合创建者罗布•马基(Rob Markey)表示,“随着企业越来越善于操纵分数,评分系统本身变得对消费者越来越无用。”

其他平台也体会到了评分通胀的问题。亚马逊(Amazon)正在调查其英国网站上那些最“高产”的评论者,此前英国《金融时报》调查发现的证据表明,他们通过发布成千上万份5星评分来谋利。

苹果允许用户选择不接收app内弹窗。此外,用户可以在任何时候进入App Store,撰写负面评论,而且苹果不允许开发者屏蔽这些评论。然而,苹果确实允许app开发者“重置”app评分,由于app内弹窗在让普通用户打5星方面如此有效,所以负面评价是可以被淹没的。Robots and Pencils的西科尔斯基举例道,一家客户的app曾有1090个1星评分,但在改变反馈机制后的数周内,这款app收到逾3.5万个评分——其中90%给出了5星。

咨询公司Publicis Sapient的用户体验设计师温迪•约翰森(Wendy Johansson)表示:“它在很大程度上是精心设计出来的。”

苹果已试图阻止开发者诱导用户给出高分,并威胁要禁止违反规则的开发者。在回应记者的提问时,苹果表示,它已从App Store下架了一些app,并将一些开发者从苹果开发者计划(Apple Developer Program)除名,理由是违反苹果的规则。

苹果补充说:“我们的《App Store审核指南》(App Store Review Guidelines)清楚地说明,如果任何开发者试图欺骗系统,例如操纵评分或app在搜索结果中的显示方式,其app就可能会被移除,他们可能会从开发者计划除名。”

“反竞争行为”

然而有证据表明,开发者已经在不违反苹果规则的前提下,找到了许多方法来操纵系统。在被问及他们的策略时,开发者指向苹果自己的app内弹窗指南,其中规定:“当用户最有可能对你的app感到满意时——比如完成一项操作、达到一个级别或完成一项任务——提出请求。”

对哈利法来说,苹果框架的一个意想不到的后果是限制开发者最多每年三次请求一个用户对一款app给出评分。这是为了避免惹恼消费者,但实际上它让app内弹窗成为稀缺商品。他说,这激励开发者打造“黑镜风格算法”——此言指的是英国反乌托邦科技电视系列剧《黑镜》(Black Mirror)——以找出用户最开心的时候。

莱文说,其结果是App Store的评分有水分,让占据主导地位的开发商受益。“这是反竞争的,因为只有资金比较雄厚的公司才能有效利用这种情况,”他补充道。

他提出,评分通胀会扼杀创新,因为开发者可能开发一款平庸的app,而仍能获得4.5星的平均评分。“很多app没有得到应有的开发努力,因为所有迹象都表明顾客喜欢他们。”

很难确定评分究竟飙升了多少,因为苹果并不提供完整的评分数据和历史。但是第三方记录了iOS 11推出后的普遍评分通胀。

在美国七大银行app中,2007年初评分在1.2到4.9星级的现在全都是4.8星。在面向Android设备的Google Play商店,这些app最高的评分是4.7,最低为4.4。

甚至在最受欢迎的购物、生活方式、金融、旅游和娱乐类app排行榜上排名第50位的app,在App Store中的评分全都至少4.8星。根据App Annie的数据,在谷歌Play Store,排名相同的app的评分介于3.8星和4.7星之间。

莱文曾分析8款采用了app内评分弹窗的流行app,他发现它们的平均分数在6个月内从3星攀升至4.7星,而用户评分数量激增62倍。

三明治连锁店赛百味(Subway)曾多年疲于应对糟糕的app评分。在2018年初的两周内,其app评分从1.7星跃升至4星。针对那次软件更新的说明称,它解决了一些小错误,而主要的新功能是“(让用户)更容易对app进行评分和提供反馈。”

数据显示,附有文字评论的评分丝毫没有出现通胀,这与更高评分只是反映了iPhone和iPad app质量更好的说法是矛盾的。

App Annie的高级市场洞察经理莱克西•赛多(Lexi Sydow)表示:“我们实际上看到了iOS所有app和游戏的平均评论评分下降,从2017年8月的4.2降至2017年9月的3.9,到2020年7月进一步降至3.4。”

“你只有一份工作”

文字评论已经不再具有多大的价值,因为开发者可以过滤掉许多1星评分,放大较高的分数,这样做甚至不需要使用复杂的方法。

客户包括eBay、美国有线电视新闻网(CNN)和阿拉斯加航空(Alaska Airlines)的Apptentive表示,最简单的方法就是使用“喜爱度对话框”。

它建议开发者用一条简单的信息来指点用户。“你喜欢(这款app)吗?”当用户点击“不喜欢”时,他们会被导向一个私下的反馈渠道。而当他们点击“喜欢”时,他们就会进入“给这款app评分”的苹果官方界面。

Apptentive的内容主管阿什利•塞弗曼(Ashley Sefferman)表示,她并不认为这是一种“操纵”,相反,它可以帮助开发者梳理“可操作的”反馈,并更多地听到他们的粉丝的声音。

然而,Apptentive的统计数据显示,在“喜爱度对话框”中点击了“不喜欢”的大约五分之二用户,被视为一种风险,他们被引向与发表公开评论相反的方向。塞弗曼至少从2016年起就开始推荐这种方法,称其非常有效,以至于app几乎没有理由会获得低评分。

Apptentive的一份线上“如何使用”指南表示:“你的app没有获得5星评分的原因是,你寻求app内反馈的方式不对。”

尽管面临来自开发者的压力,但谷歌的Android系统曾多年拒绝提供app内评分。2017年之前,在Apptentive追踪的所有五个app类别中,从Play Store下载的Android app的5星评分比例都高于苹果。但2017年以后,App Store的app评分占据了绝对的领先优势。

如今,这种情况很可能会发生改变。8月5日,Android软化了态度,开始提供app内评分提示。与苹果一样,Android表示,其目的是让开发者获得更多“诚实和公正”的反馈。但Android也引用了开发者对该工具的称赞,正如其中一个开发者所说的,“在我们实施app内评分一周后,就获得了历史最高评分”——这相当于明确承认,不管开发者是否真的改进了他们的app,其app的评分都能得到大幅提升。

贝恩的马基表示,创建一个评分公平的市场对任何平台提供商来说都是至关重要的。“这就像是,你只有一份工作。”他表示,“如果不这样做,你最终要么会失去买家,要么会失去卖家。”

但开发者和消费者都面临着同样的问题:智能手机用户除了苹果和谷歌之外,没有其他选择。■


(注:本文仅代表作者个人观点。责编邮箱    info@or123.net)



用户评分是移动app的命脉,从2星升至3星能使app下载量增长306%。但是基于行为心理学的各种评分操纵术,正在让评分的含金量贬值。



 | 帕特里克•麦吉 旧金山报道

OR--商业新媒体 】给一款iPhone app打分只需要一秒钟,也许两秒。一个弹窗弹出来,问道:“喜欢Skype吗?”然后你点击一串星星,给出1至5星的评分。数以百万计的人会不假思索地回应这些请求。

然而,在这些场景背后,有一整个产业花费无数时间和代码来精心策划这一刻。那个看上去随机出现的弹窗,可能被精心安排在你最可能给出5星评分时,在你的屏幕上弹出。

游戏app会在你刚刚达到一个高分后请求评分。银行app会在你的发薪日请求评分。赌博app会在用户拿到“21点”(Blackjack)的好牌后弹出弹窗。运动app只会在用户的球队胜利在望时发出请求。

10年来,苹果(Apple)一直在打击“评分工厂”和“下载机器人”——企业用它们获取虚假的5星评分、操纵App Store排名。苹果取得了一些成功。但这些是试图欺骗系统的笨拙工具,明显违反了苹果的规则。更具技术含量的方法在规则界限内操作,但它们利用行为心理学来理解你的情绪、情感和行为——它们没有侵入系统;它们是在侵入你的大脑。

“所用的这些算法都非常神神秘秘。”分析网上评分真实性的服务商Fakespot的首席执行官沙特•哈利法(Saoud Khalifah)表示,“它们可以在你非常欣喜、大脑产生大量多巴胺的时候瞄准你……它们可以运用机器学习来决定(什么时候)用户更有可能留下积极评论。”

在另一方面,开发者知道什么时候不该请求评论:新闻app不会在用户阅读有关死亡和破坏的报道时请求评分。一再搞错密码的用户肯定不会被要求评分。这有助于防止负面评分公开化,从而提高整体平均分。

“我们称之为潜在价值感测(latent value sensing)。”帮助企业驾驭移动经济的Robots and Pencils的首席执行官迈克尔•西科尔斯基(Michael Sikorsky)表示,“当你知道某个用户陷入这款app的一个阴暗角落时,那就不是请求评分的时机。”

咨询公司Mobiquity的战略与分析副总裁布赖恩•莱文(Brian Levine)表示,这类策略——不对公众公开,但在开发者中是个公开的秘密——引发了广泛的评分通胀,而且已变得如此普遍,以至于“很难找到不这样做的大型企业”。

他补充道,即使是那些不情愿这样做的企业,也意识到这是进入苹果精选市场的代价。“所以,实际发生的情况是,App Store评分已经变得对客户毫无意义。”

评分通胀的影响很深远。数以百万计的企业利用某种移动app来接触苹果的近10亿名用户。App Store上的商务去年增长至逾5000亿美元——超过多数国家的国内生产总值(GDP)。

根据移动数据和分析提供商App Annie的数据,全球而言,一般的用户平均每天将27%的清醒时间花费在移动设备上。苹果对开发者通过App Store所得的收入抽成30%的做法,使其受到批评——《堡垒之夜》(Fortnite)开发商Epic Games还就此提起诉讼。但这只适用于收费的16% app,而评分通胀影响每一款app。

app之间的竞争很激烈,所以获得高分十分关键。声誉管理公司Apptentive将评分称为“移动app世界的命脉”。其研究表明,从2星跃升至3星能使下载量增长306%,而从3星提升至4星能带来92%的提振。帮助企业优化App Store表现的Gummicube表示,五分之四的用户不信任评分低于4星的app。

“大家都有动机来描绘这个‘正能量’世界,”哈利法表示,“开发者能得到更多安装量,苹果得到更多佣金——这种雪球效应能让你得到越来越多的正面反馈。

“问题在于,”他补充说,“真相被掩盖了。”

“app内弹窗”的兴起

引发这场评分通胀的是苹果在2017年9月发布的一个看上去无害的更新,其目的是提振用户参与度。用户不再需要主动到App Store给app打分——在此机制下,往往只有不满意的用户才会评分。

相反,在推出iOS 11时,苹果授予开发者提供“app内弹窗”的能力。这些弹窗的优点在于,它们带来了参与度,而且可以说克服了“回应者偏向”(responder bias),即不满意的人的声音更容易被听到。瞄准更广泛人群的初衷是提高准确度。

在某种意义上说,此举很成功。用户参与度激增。根据Apptentive的数据,每款app平均得到的评分数量从2017年的1.9万次增至2019年的逾10万次。相比之下,同期不提供app内评分功能的谷歌(Google) Play Store中每款app平均得到的评分数量仅从3.3万次增至4.3万次。

但是,批评者称,苹果对这一系统的设计让开发者得以利用许多漏洞,诱导消费者给出偏高的评分。由于苹果允许开发者请求在他们选定的时间弹出app内弹窗,所以开发者可以通过聚焦于他们的粉丝、避免请求被视为有风险的用户,来达成“样本偏差”(sample bias)。

苹果要求开发者利用一个标准界面请求1至5星的评分,称这样设计是为了收集诚实的反馈。然而,开发者可以运用“框架影响偏差”(framing bias)。如果他们先给用户弹出一条积极的提示——例如“恭喜你拿到高分!”——然后紧接着请求用户评分,获得5星评分的可能性就提高了。

苹果禁止开发者先向用户弹出信息“你如何评价这款app?”,看见回答后再请求用户给出App Store的正式评分。然而,开发者仍可以通过改动这个问题来“指点”消费者。视频会议app可以询问“你的通话质量如何?”,以试探出5星评分——并且仅在这种情况下才请求苹果弹出正式的评分弹窗。

“他们所做的就是在公开评分中,让天平向有利于他们的方向倾斜。”贝恩(Bain & Company)咨询顾问、净推荐值(Net Promoter Score)——一套帮助企业评估、管理并加强客户忠诚度的衡量标准——的联合创建者罗布•马基(Rob Markey)表示,“随着企业越来越善于操纵分数,评分系统本身变得对消费者越来越无用。”

其他平台也体会到了评分通胀的问题。亚马逊(Amazon)正在调查其英国网站上那些最“高产”的评论者,此前英国《金融时报》调查发现的证据表明,他们通过发布成千上万份5星评分来谋利。

苹果允许用户选择不接收app内弹窗。此外,用户可以在任何时候进入App Store,撰写负面评论,而且苹果不允许开发者屏蔽这些评论。然而,苹果确实允许app开发者“重置”app评分,由于app内弹窗在让普通用户打5星方面如此有效,所以负面评价是可以被淹没的。Robots and Pencils的西科尔斯基举例道,一家客户的app曾有1090个1星评分,但在改变反馈机制后的数周内,这款app收到逾3.5万个评分——其中90%给出了5星。

咨询公司Publicis Sapient的用户体验设计师温迪•约翰森(Wendy Johansson)表示:“它在很大程度上是精心设计出来的。”

苹果已试图阻止开发者诱导用户给出高分,并威胁要禁止违反规则的开发者。在回应记者的提问时,苹果表示,它已从App Store下架了一些app,并将一些开发者从苹果开发者计划(Apple Developer Program)除名,理由是违反苹果的规则。

苹果补充说:“我们的《App Store审核指南》(App Store Review Guidelines)清楚地说明,如果任何开发者试图欺骗系统,例如操纵评分或app在搜索结果中的显示方式,其app就可能会被移除,他们可能会从开发者计划除名。”

“反竞争行为”

然而有证据表明,开发者已经在不违反苹果规则的前提下,找到了许多方法来操纵系统。在被问及他们的策略时,开发者指向苹果自己的app内弹窗指南,其中规定:“当用户最有可能对你的app感到满意时——比如完成一项操作、达到一个级别或完成一项任务——提出请求。”

对哈利法来说,苹果框架的一个意想不到的后果是限制开发者最多每年三次请求一个用户对一款app给出评分。这是为了避免惹恼消费者,但实际上它让app内弹窗成为稀缺商品。他说,这激励开发者打造“黑镜风格算法”——此言指的是英国反乌托邦科技电视系列剧《黑镜》(Black Mirror)——以找出用户最开心的时候。

莱文说,其结果是App Store的评分有水分,让占据主导地位的开发商受益。“这是反竞争的,因为只有资金比较雄厚的公司才能有效利用这种情况,”他补充道。

他提出,评分通胀会扼杀创新,因为开发者可能开发一款平庸的app,而仍能获得4.5星的平均评分。“很多app没有得到应有的开发努力,因为所有迹象都表明顾客喜欢他们。”

很难确定评分究竟飙升了多少,因为苹果并不提供完整的评分数据和历史。但是第三方记录了iOS 11推出后的普遍评分通胀。

在美国七大银行app中,2007年初评分在1.2到4.9星级的现在全都是4.8星。在面向Android设备的Google Play商店,这些app最高的评分是4.7,最低为4.4。

甚至在最受欢迎的购物、生活方式、金融、旅游和娱乐类app排行榜上排名第50位的app,在App Store中的评分全都至少4.8星。根据App Annie的数据,在谷歌Play Store,排名相同的app的评分介于3.8星和4.7星之间。

莱文曾分析8款采用了app内评分弹窗的流行app,他发现它们的平均分数在6个月内从3星攀升至4.7星,而用户评分数量激增62倍。

三明治连锁店赛百味(Subway)曾多年疲于应对糟糕的app评分。在2018年初的两周内,其app评分从1.7星跃升至4星。针对那次软件更新的说明称,它解决了一些小错误,而主要的新功能是“(让用户)更容易对app进行评分和提供反馈。”

数据显示,附有文字评论的评分丝毫没有出现通胀,这与更高评分只是反映了iPhone和iPad app质量更好的说法是矛盾的。

App Annie的高级市场洞察经理莱克西•赛多(Lexi Sydow)表示:“我们实际上看到了iOS所有app和游戏的平均评论评分下降,从2017年8月的4.2降至2017年9月的3.9,到2020年7月进一步降至3.4。”

“你只有一份工作”

文字评论已经不再具有多大的价值,因为开发者可以过滤掉许多1星评分,放大较高的分数,这样做甚至不需要使用复杂的方法。

客户包括eBay、美国有线电视新闻网(CNN)和阿拉斯加航空(Alaska Airlines)的Apptentive表示,最简单的方法就是使用“喜爱度对话框”。

它建议开发者用一条简单的信息来指点用户。“你喜欢(这款app)吗?”当用户点击“不喜欢”时,他们会被导向一个私下的反馈渠道。而当他们点击“喜欢”时,他们就会进入“给这款app评分”的苹果官方界面。

Apptentive的内容主管阿什利•塞弗曼(Ashley Sefferman)表示,她并不认为这是一种“操纵”,相反,它可以帮助开发者梳理“可操作的”反馈,并更多地听到他们的粉丝的声音。

然而,Apptentive的统计数据显示,在“喜爱度对话框”中点击了“不喜欢”的大约五分之二用户,被视为一种风险,他们被引向与发表公开评论相反的方向。塞弗曼至少从2016年起就开始推荐这种方法,称其非常有效,以至于app几乎没有理由会获得低评分。

Apptentive的一份线上“如何使用”指南表示:“你的app没有获得5星评分的原因是,你寻求app内反馈的方式不对。”

尽管面临来自开发者的压力,但谷歌的Android系统曾多年拒绝提供app内评分。2017年之前,在Apptentive追踪的所有五个app类别中,从Play Store下载的Android app的5星评分比例都高于苹果。但2017年以后,App Store的app评分占据了绝对的领先优势。

如今,这种情况很可能会发生改变。8月5日,Android软化了态度,开始提供app内评分提示。与苹果一样,Android表示,其目的是让开发者获得更多“诚实和公正”的反馈。但Android也引用了开发者对该工具的称赞,正如其中一个开发者所说的,“在我们实施app内评分一周后,就获得了历史最高评分”——这相当于明确承认,不管开发者是否真的改进了他们的app,其app的评分都能得到大幅提升。

贝恩的马基表示,创建一个评分公平的市场对任何平台提供商来说都是至关重要的。“这就像是,你只有一份工作。”他表示,“如果不这样做,你最终要么会失去买家,要么会失去卖家。”

但开发者和消费者都面临着同样的问题:智能手机用户除了苹果和谷歌之外,没有其他选择。■


(注:本文仅代表作者个人观点。责编邮箱    info@or123.net)




读者评论


您可能感兴趣的资讯
OR


最新资讯
OR


热门排行榜
OR

热门排行榜
OR

关注我们
OR

OR | 商业新媒体

地址:中国成都市高新区天华路299号
  邮编:610041
 手机:18982085896     邮箱:info@or123.net
网址:or123.net
© The OR  2017