众群内容适度 - 它如何运作和可能的方法emerj. - 万博x官网,msports万博体育官网,万博官方软件

随着网络增长，我们花了更多时间在线，适度变得更大，更大的挑战。内容影响买家，渴望获得这些客户的信任的企业可能会赢得任何胜利。

评论、个人资料、账户、照片和评论——所有这些类别的内容都需要监管，以便它们不会被误导的广告信息或彻底的垃圾邮件淹没。

机器学习对尺度适度至关重要 - 但通常有助于训练这些算法的人性化。我采访了Charly Walther，VP的产品和增长Gengo.ai，了解有关涉及许多内容审核算法的众包流程的更多信息 - 并确定人类努力需要如何以及何时努力帮助计算机更好地过滤垃圾邮件或不当内容。

为什么和当需要人类的适度时

过滤不恰当的图片可能会导致糟糕的用户体验，甚至会引起被冒犯的用户的强烈反应。Facebook已经看到了它的适度问题，导致该公司雇佣了大量的人力来帮助过滤内容——这是一项机器工作经常不适合做．

适度规模通常包括以下因素:

经过培训的机器学习算法，由用户数据或外部数据通知。该算法旨在确定适当或不当内容。
一组帮助手动批准或不赞成内容的人类审核人员有助于培训算法在将来更好地进行更好的内容审核决策。

用沃尔特的话说：

“你想要一个人类的循环流量 - 你可能有一些可以检测到存在问题的机器学习系统，但你可能不想删除没有人为干预的东西。”

Walther告诉我们，从广义上讲，内容适度可以有两种方式：

稍后过滤：某些平台或站点可能会决定应该将Live的“可疑”内容推向用户，并且仅被人类众包审阅者审查。
- 例如:脸谱网可能允许用户发布看起来可疑的图片，只有在发现这些图片违反了公司的政策时才会将其删除。做出这个决定可能是为了防止用户被立即过滤的评论(例如这是一个生动的越南战争的例子，最初过滤裸露，但后来允许在抗议用户之后地生活）。
- 沃尔特告诉我们，一些公司更喜欢这种方法，因为用他的话来说，这种方法允许他们“把手伸进火里”，在一个真正的人的认可上盖章，以表示对节制的关注和关注（而不是一个冷漠、非人情味、完全由算法决定的决定）。
首先过滤:其他平台或网站可能会决定，“有问题的”内容应该对用户隐藏起来，只有在经过人工审查员批准后才会推送。
- 例如：像纽约时报网站这样的大型媒体存在可能会在允许它们在公司网站上发布之前手动过滤所有的评论。

有时，内容泛化算法将能够辨别出一种确定性的梯度。

足够良好训练有素的机器学习算法可能能够完全“过滤掉”它的图像，它相信99％的确定性以包含不适当的裸露（在图像过滤的情况下）或垃圾链接（在评论适度的情况下）。

相同的算法可能将较低的所有（或某些）内容放在人类评论者的“审查桶”中。例如，机器认为具有60％的裸露（在图像适度的情况下）或35％的几率包括垃圾链路（在评论审核的情况下）可能与人类评审者一起传递。

对这些“灰色区域”审核决策的矫正有望提高机器在下次自行拨打正确呼叫的能力。

帐户/资料

假的twitter账户 — 虚假账户和个人资料的创建是为了政治影响力，骗局，垃圾邮件推广，以及更多-图片来源:commondreams.org

从社交媒体网络到在线论坛，再到AirBnb等平台，假或不适当的帐户是公司必须处理的问题。这可能包括f阿尔斯账户假装是“真人”，用于别有用心的目的：

假冒社交媒体账户，通过伪造社会证据，从广告商人为“喜欢”和“分享”信息
虚假的社交媒体账户，用来推动特定的政治观点或议程，而不披露议程背后的政党
秘密用于推动性明确或不需要的促销内容的账户

机器学习系统可能会犯两种错误。”“误报”是指系统认为内容不合适，而实际上内容是合适的情况（即不正确地过滤掉内容）“误报”是指系统适用的情况，实际上是不适用的情况（即错误地允许不良内容通过过滤器）。

用沃尔特的话说：

“一个平台可以让一个按钮说'将这个内容标记为”不合适“ - 允许他们的用户检测到假否定以帮助训练算法。您需要人类审阅者进行误报，审查未实现的过滤内容 - 这是用户无法帮助的内容。“

这是虚假积极预防的那种情况，众群经常发挥作用。

清单

虚假或不适当的列表可能包括：

违反网站条款和条件的AirBnb账户(比如，有人试图在自家后院或皮卡后搭帐篷)
房间租赁网站上的虚假信息，目的是引诱用户为一些不真实的东西付费
虚假的Craigslist列表，声称提供一个设备，但实际上是从易受骗的用户那里骗取预付款学术报告2016年发表在《金融密码与数据安全》上的一篇文章估计，1.5%的Craigslist帖子是假的)
社交汽车租赁网站（如Turo.com）上的一辆汽车可能被列入公然违反安全标准（即汽车缺乏挡风玻璃或座位）
房地产物业列表（在特鲁利亚或Zillow等网站上），具有假图像或弥补地址

有些列表可能只是一个玩笑，有些则是有意进行欺诈，还有一些可能是无意中以违反服务条款的方式发布的。这些清单的共同之处在于，它们降低了网站或平台的用户体验。

任何足够大的平台都将努力跟踪其网站上的所有列表。人为的判断和过滤可以用于寻找越来越多的细微差别模式，以跟上欺诈者或政策滥用者，并培训机器学习系统，以便更少地生活在网站上。

一纽约杂志文章引用Fakespot创始人的话说，超过40%的亚马逊评论是有问题的（就不是经过验证的购买而言，或者就措辞或重复性而言）。虽然这一数字可能被夸大，但很明显，某些产品类别充斥着虚假评论和粗略的账目——尤其是消费电子产品。

几乎可以说的是允许评论的任何大型网站。从电子商务商店，产品市场或服务市场（如yelp或houzz）。

虚假评论有多种形式，包括：

旨在降低竞争对手销售额或鼓励从其他品牌、产品或服务购买产品的差评
正面评价旨在提供社会认同，并鼓励其他毫无戒心的顾客购买
混合评论（比如，3或4星），旨在融入更大的假五星级评论，目的是提高审查的可能性，这是诚实和真实的整体

所有这些评论都有一个共同点——它们都是以真正的消费者和用户的身份发布的——但事实上，它们是由品牌执行的，旨在影响消费者的行为。

虽然识别虚假评论有经验法则(CNET在这个主题有一个有用的文章)，几乎不可能训练一种算法来检测任何和所有虚假评论。

提供评论的大型平台企业和电子商务企业通常已经使用基于机器学习的系统来过滤评论，他们渴望看到这些系统随着时间的推移而改进。据报道，亚马逊的一位发言人说DigiDay:

“我们使用机器学习算法，为更新、更有用的评论赋予更大的权重，应用严格的标准来获得亚马逊验证购买徽章的资格，并强制执行大量美元参与的要求，以及其他防止和检测不真实评论的机制。”

显然，这还不够。比如说，我们不能责怪亚马逊——任何规模足够大的平台业务都注定会遇到同样的问题。改进检测虚假评论的机器学习模型将涉及到这些模型背后的工程师们的高级预见性，但它也将涉及到其他一些东西：来自能够直觉地区分虚假评论和真实评论的人类的输入。

以下是一些众包工作如何帮助完善机器学习模型的例子:

评论垃圾邮件发送者可能会采用一套新的模板进行正面或负面评论。手动分析评论的人可能能够快速发现这种模式，并通知算法这些新模板和格式是可疑的，或者可能需要修改。
机器学习模型可能能够确定一些审查是直接垃圾邮件，但其他人可能只是被标记为“有问题”。这些可疑的评论可能会向人类审阅者发送，他们可以确定审批或删除审核，从而为其下一个决定添加了更多的丰富性和背景信息。

审查很重要。一西北大学进行的电子商务研究报告称，近95％的买家将在购买前查看评论（如果可用），而且共享评审率可以提高转换率超过200％。