凯西·奥尼尔:盲目信仰大数据的时代必须结束 | 算法密码

凯西·奥尼尔:盲目信仰大数据的时代必须结束 | 算法密码
原创 2018-02-03 叶伟民 知识分子

►图:在TED演讲中的凯西·奥尼尔

“算法密码”系列第5篇

《知识分子》科学新闻实验室第18篇

撰文 | 叶伟民(《知识分子》科学新闻实验室特邀作者)

责编 | 黄永明

● ● ●

上一篇“算法相亲”的故事发表后,我被争吵包围。因为它触及了一个既美好又虐心的话题——爱情。算法的介入,就像怪咖闯进了伊甸园,技术派和浪漫派的意见迥异得仿佛来自两个星球,前者信奉“万物可算”,后者则捍卫人类宝贵的“自由意志”。

这个碰撞早就被科幻作家列入思索之列,从而诞生了众多反乌托邦电影。《少数派报告》便是其中之一。它的故事发生在2054年的华盛顿特区,谋杀在这里已经绝迹。一支预防犯罪小组依赖“先知系统”准确预测所有罪行,并在发生前逮捕“罪犯”。如果你被盯上,是绝无可能抗议和挣脱的,因为“先知”是不容置疑的最高权威。

数据科学家凯西·奥尼尔很欣赏这部电影,还把它写进了畅销书《数学毁灭性武器》。凯西是约翰逊实验室的高级科学顾问,哈佛大学数学博士,还曾任巴纳德学院教授和华尔街量化分析师。她现居纽约,染着一头蓝发。

2008年以前,凯西过着标准的曼哈顿技术新贵生活,但金融海啸让她惊醒。她看到了疯狂的财富游戏背后所隐藏的技术深渊。此后,她参与发起“占领华尔街”运动,并且要告诉人们更多真相——算法和大数据在光环之外,还是更多歧视、偏见、不公的源泉,纵使其进行得相当隐蔽。

过去一个月,凯西通过邮件向我分享了她的故事。离开华尔街后,她从技术缔造者的身份抽离出来,聚焦那些被技术统治却无力抵抗的角落,例如被算法解雇的中学教师、被犯罪预警系统过度执法的有色公民、被基金模型盘剥却浑然不知的底层……她把背后的始作俑者称为“weapons of math destruction”,谐音布什政府当年针对伊拉克的“大规模杀伤性武器”[1]。

也恰如其谐义,算法在解决越来越多难题的同时,也接管人类让渡的部分裁决权。它不断进化,逐渐在教育、执法、金融、社会保障等领域占据统治地位。它不靠暴力维持,而是凭神秘的科技外衣加持,树立起普通民众无法穿透的隐形权威。它所蕴含的新奴役关系,已引起科学界和思想界的注意,甚至被形容为“最安静的恐怖主义”。

2017年4月,凯西登上TED,向公众坦陈了这些鲜为人知的“黑盒子”和并不乐观的未来。惊愕过后,人们报以持久的掌声、欢呼和口哨,包围了她已重复过无数次的警示——

“盲目信仰大数据的时代必须结束。”

算法黑洞

麦法兰中学是位于华盛顿的一所平民社区高中,拥有如茵的草坪、联排红墙教学楼和多种族学生。女教师莎拉·韦索奇2009年来到这里,她对教育非凡的热忱很快感染了同事和家长。

“她是我见过最好的老师之一。”麦法兰中学家长教师协会负责人布莱恩·多尔西说,他的女儿是莎拉的学生,“每次见她,她不是在辅导孩子,就是与他们谈心。”

学校2011年5月对莎拉的评估报告也佐证了这一点:“我们很欣慰看到这么一个教与学互动积极、运转高效的课堂。”莎拉还被推荐到其他学校分享经验。

然而仅两个月后,莎拉被解雇了。一套叫“IMPACT”的教师评价系统认为她相当失败,原因是她任教班级的阅读和数学成绩没有实现预期增长。

这次教学评价源自华盛顿特区自2007年推行的教育改革方案,时任教育局局长李洋姬将这里低迷的高中升学率归咎于教师的失职。这位作风凌厉的女士决心炒掉数百名表现差劲的教员。为了让落刀更加精准高效,她引入一套计算机算法系统,即“IMPACT”,它通过琳琅满目的指标和一个极其复杂的回归方程,组成一个“增值模型”,自动为每位教师打分并决定其命运。

纵使莎拉的其他指标非常优秀,但“增值模型”的得分却异常低。她很愤怒,写信质询教育局:“我想知道,这些数据是怎样计算出来的?”

没有人理会她。《华盛顿邮报》为此写了一个报道,标题充满黑色调侃和同情——《我激情,我创造,我被炒了》。很快,莎拉收到一封来自纽约的邮件,是凯西。

凯西被这个案例吸引,她给莎拉打电话,掌握更多细节,逐渐看清其中的猫腻。两位女士还共同查阅莎拉班上一些转学学生的过往成绩,发现他们在前一所学校的阅读分数都异常高,是所在学区平均分的五倍。

莎拉在实际教学中却发现相反的事实,这些学生连阅读简单句子都困难。凯西又查阅媒体,发现该学区涂改测验成绩的现象非常普遍。也就是有人作恶了,然后把这些虚高的成绩交到老实人莎拉手上,并通过算法让其受到不公惩罚。

莎拉将这一发现向管理部门举报,得到的回复是:必须明确指出作弊老师和学生的名字,还要有充足的证据反驳“IMPACT”的打分。这几乎是一个黑客级的难题,而莎拉只是一个社区中学五年级的老师。

随着研究的深入,凯西发现了“IMPACT”系统更多的底层逻辑漏洞。“学生的成绩受很多因素影响,要量化一个教师在其中的作用非常困难,也非常复杂。”她说,“而且仅凭二三十个学生的成绩来决定一个人的去留,在统计学上也是靠不住的。”

“IMPACT”系统最终解雇了两百多名教师,主导者却没有获得期望中的支持。当地工会的民意调查显示,民众对教师清洗行动“非常不满意”,一些教师协会也举行抗议,并帮助遭受不公对待的教师提出申诉。这最终影响了时任市长艾德里安·芬提的连任,教育局局长李洋姬也随之辞职。

无论如何,算法对莎拉的判决已无法挽回。但幸运的是,她仅失业了几天,在很多同行和家长的推荐下,很快在一个富裕社区学校找到教职,而且那里不再有机器给她打分。

“拜一个非常可疑的模型所赐,穷人的学校失去了一位好老师,富人的学校却得到了她。”凯西说,“未来,富人的事务会由人打理,平民的事情则交由机器。”

它没有公平的概念

在美国,莎拉的故事并不是孤例。不同版本的“IMPACT”系统正在超过一半的州推行,支持者则是整个联邦政府。这是奥巴马时代教育改革的遗产,却没有得到教育界的拥护,多地教师向法院起诉此类算法并在纽约州和休斯顿获胜。

但这种有所成效的抗争仍是幸运的少数。在许多领域,算法的统治进行得更加隐蔽和难以反驳。例如执法。

凯西曾研究过一个算法执法的样本——宾州小城市雷丁。这个紧挨费城的资源枯竭城市,贫穷率已攀升至全美之最(41.3%),与之相伴的是同样高企的犯罪率。雷丁政府缺钱,裁掉了45名警员,将省下的经费购买了犯罪预测系统PredPol。

这个“救星”非常强大,可以分析一个地方的犯罪历史数据,逐小时计算不同区域的犯罪发生率,再在地图上以网格形式呈现计算结果。最后,只要加强对有高风险提示的网格巡逻,就能遏制犯罪。一年后,雷丁政府宣布,盗窃案减少了23%。

类似PredPol的犯罪预测系统在美国大受追捧。除雷丁外,纽约、亚特兰大、洛杉矶等大城市也在其列。如今这已成为一股世界性潮流:在中国,北京等一线城市也启用算法和大数据来协助降低犯罪率。

“它们看上去足够高效,也足够公平。”凯西说,“起码从表面上看,它们只是预测事情,而不会考虑人种、种群等因素。”

►图:犯罪预测系统正在被广泛应用

犯罪可被预测,是“犯罪统计学”和“道德统计学”共同呈现的结果。后者可能有些费解,简单来说,就是基于这样一个事实:在对象足够多时,人们的自由选择权就会消失,甚至会丧失理智。凯文·凯利的畅销书《失控》对此也有类似的阐述。

1820年代末,统计学家盖里和凯特莱对法国的犯罪数据进行研究,发现每年的犯罪行为特点几乎保持不变,连使用枪支、刀剑、拳脚、棍棒的谋杀案比例都年年相似。他们得出结论:犯罪行为可以准确无误地进行自我复制。

但问题远不止这么简单。算法模型一旦运转,执法行为就会增多,产生的新数据又会进一步证明加强执法的必要性。形象地说,就是哪里前科越多,哪里就越受算法“关照”,最终形成一个失真、甚至有害的回馈环路。

从种族角度看,有色人种多聚居于贫困社区,由于那里历史犯罪率高,算法会不断指派警察去那里巡逻,最终结果是更多有色公民被抓或盘查。这还是难逃种族偏见的怪圈。

从阶层角度看,被算法纳入预测的都是常规犯罪,有钱人玩的金融欺诈和高智商犯罪并不在其中。也就是说,算法再精准高效,也只是协助警察瞄准穷人。

凯西做过一项调查,曾被警察拦截搜身的男性中,有85%是黑人或拉美裔。频繁的光顾又会放大一些可有可无的轻微罪行(例如公共场所抽烟和未成年饮酒),导致这些人与警察冲突加剧,甚至因此被捕。纽约公民自由联盟的调查数据显示,黑人坐牢的几率是白人的六倍,被警察杀死的概率则是白人的21倍。

纵使情况已如此严重,除了固有的种族歧视因素,仍没有多少人意识到这里面也有算法的功劳。人们仍然以为技术是中立的,并且信奉一种很低的成功概率——如果能打击犯罪,忍受一些不便和骚扰是值得的。

“算法的运用,往往面临公平与效率的取舍。”凯西说,“法律维护公平,所以牺牲效率。算法则刚好相反,它没有公平的概念。”

让人类保留最后一步

算法取得裁决地位的领域在不断增多,除了上述的教育和执法领域外,金融、法律、资讯、招生、求职、个人信用等都相继被圈进其权力范围。缔造者的初衷本不值得怀疑——要摆脱人脑的偏见和运算短板,用算法、模型、机器学习重塑一个更加客观的世界。

然而,大众对“技术中立”的过度误解,恰恰滋养了新的灰色空间,演变成当下越发狂热的大数据崇拜思潮。数据科学家弗雷德·班奈森为此创造了一个流行词——“数学洗白”(Mathwashing)。凯西也有近似的观点,“大数据并没有消除偏见,我们只是用技术来掩饰它。”

以色列历史学家尤瓦尔·赫拉利沿着这些忧思,在《未来简史》中描绘了这么一幅远景——

“人类将把工作和决策权交给机器和算法来完成,大部分人将沦为‘无用阶级’。只有少数精英才能真正享受到这些新技术的成果,用智能的设计完成进化、编辑自己的基因,最终与机器融为一体,统治全人类。”

这个预言至少包含两层意思:一是算法本身会成为新的独裁力量;二是它将与少数精英合谋,成为奴役大多数人的工具。未来,我们求职、贷款,或申请户籍,或许都会像故事开头的莎拉老师一样被机器判决,任何人都不要妄想申诉,那些复杂的算法是天然的高墙。

算法缔造者躲在高墙背后,偷偷植入偏见、歧视和种族主义。这在世界范围内已渐成现实。Google曾将两名黑人的照片标注为大猩猩,Flickr也将有色人种图片归为动物。

2015年,苹果Siri也摊上了事儿。一名俄罗斯用户Alex问它同性恋酒吧怎么走?Siri说:“如果可以脸红的话,我就已经脸红了。”Alex再问它对同性婚姻的看法,Siri的回应是:“我相信这是一种负面的情感。”

这些事件仅揭开了冰山一角,更多难以察觉的偏见在隐形横行。卡内基梅隆大学2015年做过一个实验,让500名男性与500名女性点击100个招聘网站,结果男性收到高薪职位信息的几率是女性的六倍。

进入2016年,生物识别技术升温,一个叫做Faception的以色列公司宣称能用算法识别恐怖分子。美国的机场曾使用过类似技术,结果平均每周有1500名乘客因此遭殃,其中一个4岁男童、数位前陆军少校和一名飞行员被多次认定为“恐怖分子”,最高纪录者一年被羁留80次。

►图:一些商业公司声称能用算法识别恐怖分子

同样触碰公众神经的还有上海交通大学教授武筱林的“看脸识罪犯”研究,称可以让机器通过学习,分辨谁是罪犯,谁是守法公民。论文发表后,舆情立即被点燃,一个交大校友写信给武筱林说:“这篇论文充满了极度的歧视和强烈的误导。”

武筱林通过媒体反驳:“这个研究只是揭露相关性,而非因果,我本人也非常反对歧视。“

“是不是就会有一些禁区,研究者不能去碰它?坦白讲我不知道。”虽正名心切,但武也毫不掩饰他的疑惑,“核物理学家该为原子弹造成的伤害负责吗?”

面对算法时代的诸多迷思,社会学者的探索方向与自然科学家既交融又迥异。中国人民大学国家发展与战略研究院研究员马亮是少数关注“算法偏见”的中国学者之一。2017年年末,他在社科媒体“政见”上发表文章,讨论大数据导致的社会不公和阶层固化。

“原本由人掌握的自由裁量权,正逐步交由算法和系统。”他说,“一个人执法错误尚且可控,但系统性的错误则是灾难。”

马亮长期关注社会治理中大数据的应用,走访过许多互联网公司。他发现,个人的数据越来越往少数寡头聚集,形成一个个无法穿透的“黑箱”。

“要粉碎‘黑箱’,开放数据是第一步。但现实情况是,这仍很遥远。”马亮说,“如果数据不纯或被篡改,计算结果也会崩塌,偏见和不公就会产生。”

凯西的解决方案是回归人本主义——“让算法指出可疑之处,由人类去完成最后的核查”。她研究了一个虐童风险预测模型:如果交由算法去裁决并惩罚,肯定会毁掉很多无辜的家庭,但如果让社工按照预测名单去走访和提供帮助,则是另一个温暖的结果。

佛罗里达州希尔斯伯勒县试水过这个方案,两年间再也没有儿童因虐待而死亡。

“它们的运作必须是透明的:我们必须知道它们接受哪些数据输入,产生什么结果,而且它们必须接受稽查。”凯西说,“这样我们才能规管它们,驯服它们。”

关于作者

叶伟民,媒体人。毕业于兰州大学核物理专业。曾任ZAKER总编辑,《南方周末》特稿编辑、记者。现从事互联网,同时是多家平台的签约作者和写作导师。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在信号处理领域,DOA(Direction of Arrival)估计是一项关键技术,主要用于确定多个信号源到达接收阵列的方向。本文将详细探讨三种ESPRIT(Estimation of Signal Parameters via Rotational Invariance Techniques)算法在DOA估计中的实现,以及它们在MATLAB环境中的具体应用。 ESPRIT算法是由Paul Kailath等人于1986年提出的,其核心思想是利用阵列数据的旋转不变性来估计信号源的角度。这种算法相比传统的 MUSIC(Multiple Signal Classification)算法具有较低的计算复杂度,且无需进行特征值分解,因此在实际应用中颇具优势。 1. 普通ESPRIT算法 普通ESPRIT算法分为两个主要步骤:构造等效旋转不变系统和估计角度。通过空间平移(如延时)构建两个子阵列,使得它们之间的关系具有旋转不变性。然后,通过对子阵列数据进行最小二乘拟合,可以得到信号源的角频率估计,进一步转换为DOA估计。 2. 常规ESPRIT算法实现 在描述中提到的`common_esprit_method1.m`和`common_esprit_method2.m`是两种不同的普通ESPRIT算法实现。它们可能在实现细节上略有差异,比如选择子阵列的方式、参数估计的策略等。MATLAB代码通常会包含预处理步骤(如数据归一化)、子阵列构造、旋转不变性矩阵的建立、最小二乘估计等部分。通过运行这两个文件,可以比较它们在估计精度和计算效率上的异同。 3. TLS_ESPRIT算法 TLS(Total Least Squares)ESPRIT是对普通ESPRIT的优化,它考虑了数据噪声的影响,提高了估计的稳健性。在TLS_ESPRIT算法中,不假设数据噪声是高斯白噪声,而是采用总最小二乘准则来拟合数据。这使得算法在噪声环境下表现更优。`TLS_esprit.m`文件应该包含了TLS_ESPRIT算法的完整实现,包括TLS估计的步骤和旋转不变性矩阵的改进处理。 在实际应用中,选择合适的ESPRIT变体取决于系统条件,例如噪声水平、信号质量以及计算资源。通过MATLAB实现,研究者和工程师可以方便地比较不同算法的效果,并根据需要进行调整和优化。同时,这些代码也为教学和学习DOA估计提供了一个直观的平台,有助于深入理解ESPRIT算法的工作原理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值