微软科学家谈机器学习的公平性问题: 对性别和种族避而不谈并不是一个好方法

发布时间：2017-08-28 浏览数：

AI 科技评论按：ACM Fellow、微软杰出科学家和管理总监 Jennifer T. Chayes 近日以 ACM 的名义发表了一篇文章，介绍了机器学习中的公平性问题和现阶段研究人员们的应对方式。 AI 科技评论编译如下。

微软科学家谈机器学习的公平性问题: 对性别和种族避而不谈并不是一个好方法(1)

机器学习是计算机科学的一个分支，通过识别在数据中存在的模式来发展算法。举例来说，我们的个人助手，如Cortana, Siri 和 Alexa，会学习如何识别我们在说什么，并且运用与上百万人的交流来学习如何最好地回应我们的问题。

当计算机变得越来越智能的时候，一些数据科学家会因为发现他们的算法变得有性别歧视或者种族主义的倾向，而困惑不已。但是这样的现象是不该令人惊讶的，因为这些算法是经过社会数据的训练而成的，所用到的社会数据本身就是带有社会偏见，在训练时所用的评估指标会让算法会放大这些偏见。

比如，如果一个人单纯地训练一款机器学习算法来筛选简历，并且目标是根据一份工作之前的雇佣记录来挑选最合适的候选人，那么即使算法被清晰明确地指示去忽略“受保护的属性”比如种族和性别，结果还是可能会带有种族偏见或者性别偏见的。这是因为种族和性别是与其他“未受保护”信息比如姓名有关联的，而这些“未受保护”的信息是算法可以使用的。在招聘过程中，我们知道招聘人员倾向于做出与算法一样的选择，他们不会被告知申请者的性别，但是他们会认出一个女性名字并不会面试她，因为之前被雇佣的多数都是男性。

总体来讲，设计周到的算法时，即使训练的数据是有偏见的，计算机仍旧可以变得比一般人类决策者更加的公平。就如不论我们的孩子见到什么人做哪些工作，我们都会教导他们“任何人都有潜力做任何工作”，我们也可以教会智能的算法如何去忽视训练数据中的偏见。幸运的是，随着计算机变得越来越聪明，教他们这样的事情变得越来越简单。计算机现在能够理解什么是种族，什么是性别，并且社会数据也可以被用来自动地揭示和消除偏见。

目前的系统有时会表现出来非常强烈的偏见。当哈佛教授Latanya Sweeney将她自己的名字输入搜索引擎的时候，她收到一则广告写着“Latanya Sweeney曾被逮捕过吗？”并且会有偿地提供背景调查。背景调查的结果是Sweeney博士没有被捕记录，就像大多数杰出的科学家那样。这则广告明显是非常不合理的，并且是对Sweeney博士带有歧视性质的。如果潜在的雇主把Sweeney博士的名字输入搜索引擎中，他们也许会因为见到这则广告而立刻就不再考虑雇佣她。此外，Sweeney博士证明了，如果搜索比如Latanya这样更像黑人的名字，你会有比搜索不具种族特征的名字时更大的机会被展示这则“被逮捕过吗？”的广告。

好消息是，我们有很多的计算机科学家都非常关心机器学习算法的公平性，并且已经开发出了方法来让这些算法相比人类来的更不带有偏见。几年前，一组来自微软研究员和波士顿大学的研究者发现了在许多搜索引擎中天生就存在的性别歧视现象。当被要求去完成以下句子时，“男人会是电脑程序员而女人会是_”，这个工具会产生“家庭主妇”这样的答案。我们的团队让这个工具变得不那么带有偏见，从而使它产出性别中立的答案，这让我们的算法比人类来的更加公平。

一群来自微软研究员和哈佛大学的研究者最近设计了一款智能算法，这款算法在学习的中间阶段会直接读取“受保护的属性”比如种族或者性别，在这样的情况下，这款算法有时得出的决定会比人类判断具有更少的偏见。假想我们要为我所在的组织招聘一位新的管理者。我们单纯的招聘算法会学习我们过去优秀的管理者，并且按照这些特征来推荐候选人。假设招聘算法发现我们的候选人曾经有过雇佣历史的中断，而这样的中断与“成为好的管理者”是呈现负相关的。因为我所采集的数据中绝大多数管理者都是男性，这样得出的结论就会是有雇佣历史中断的男性会在管理岗位上表现的更差。

现在让我们考虑一下如果候选人是女性的情况。大多数女性都有可能会花几年的时间离开工作环境，来抚养孩子，并且在这个过程中她们学会如何平衡非常多的、互相间有竞争关系的事情，这样的经历会让她们重返工作环境的时候成为更好的管理者。但是我们单纯的招聘算法不会在数据中发现这样关于女性的细节，因为在训练数据中的男性数据在数量上占据着绝对的优势。我们的研究者发现如果他们将单纯幼稚的算法分别使用在不同的、依照受保护属性来划分的群体上，算法在做决定的过程中会显示出更少的偏见。在这样的情况中，算法不会惩罚雇用历史有中断而又追求管理者工作的女性。目前的法律是不允许在做招聘决策的过程中使用性别这一信息的，但是这一最新的结果可以为未来的监管提供新的视角。

一些人认为消除算法中的偏见是一件天生不能成功的事情，但是就像无可避免会牵涉到交通事故中的自动驾驶汽车那样，第一步是要设计一套比人类更安全或者更不具偏见的系统。使用数学来定义“公平的”决策指标的过程也迫使我们需要精确地做出在公平和准确之间的取舍，这样的取舍在以前有时会被决策者有意或无意的遮掩起来。这样的过程让我们重新审视什么叫做公平对待一切群体 —— 在一些情况下，要想公平对待不同的群体，学习他们不同的群体特征是必经之路。

在计算机科学，法律，道德的交汇处正在形成一个全新的领域。它不仅会引领我们创造更公平的算法，并且会引领我们找到可以追踪责任的算法，这样的算法会使一个决定背后都有哪些影响因素变的更透明。我们有足够的理由对这样的算法抱有期待！