《错觉:AI如何通过数据挖掘误导我们》(美)【加里·史密斯 着 钟欣奕 译】【文字版_PDF电子书_推荐】

| 书名:错觉 作者:[美]加里·史密斯 出版社:中信出版社 译者:钟欣奕 出版日期:2019-11-1 页数:352 ISBN:9787521709957 | 7.2 豆瓣评分 | 孔网购买 | 点击喜欢 | 全网资源sm.nayona.cn |
内容简介:
在人工智能异常火热的今天,很多人认为我们生活在一个不可思议的历史时期,人工智能和大数据可能比工业革命更能改变人的一生。然而这种说法未免言过其实,我们的生活确实可能有所改变,但并非是朝好的方面发展。我们过于武断地认为计算机搜索和处理堆积如山的数据时不会出差错,但计算机只是擅长收集、储存和搜索数据,它们没有常识或智慧,不知道数字和词语的意思,无法评估数据库中内容的相关性和有效性,它们没有区分真数据、假数据和坏数据所需的人类判断力,没有分辨有理有据和虚假伪造的统计学模型所需的人类智能。
计算机挖掘大数据风行一时,但数据挖掘是人为而非智能,也是非常艰巨、危险的人工智能形式。数据挖掘先是通过大量的数据走势、相关关系来发现让我们内心愉悦却无实践价值的模型,然后创造理论来解释这些模型。作者通过“史密斯测试”和“得州神枪手谬误”等实例说明,如果你挖掘和拷问数据的时间够长、数量够大,你总能得到自己想要的结果,然而这是相关关系却并不是因果关系,只是自我选择偏好,并没有理论基础也没有实用价值。
在人工智能时代,我们对计算机的热爱不应该掩盖我们对其局限性的思考,真正的危险不是计算机比我们更聪明,而是我们认为计算机具有人类的智慧和常识,数据挖掘就是“知识发现”,从而信任计算机为我们做出重要决定。更多的计算能力和更多的数据并不意味着更多的智能,我们需要对人类的智慧有更多的信心。
作者简介:
加里·史密斯是波莫纳学院的经济学教授。他在耶鲁大学获得经济学博士学位。他曾两次获得教学奖,并撰写(或与他人合着)80多篇学术论文和12本书。他的研究曾被彭博广播网、CNBC、Brian Lehrer、福布斯、纽约时报、华尔街日报、《新闻周刊》和《商业周刊》等媒体报道。
目 录:
引 言 / 007
第 1 章 智能还是服从
井字游戏 / 008
国际跳棋 / 011
第 2 章 盲 从
思考之源和思维之火 / 024
计算机是超人吗? / 031
将时间考虑在内 / 036
识别像素与产生情绪 / 037
批判性思维 / 039
图灵测试 / 041
第 3 章 无语境的符号
翻译软件与理解语言 / 052
威诺格拉德模式挑战赛 / 057
计算机能阅读吗? / 058
计算机能写作吗? / 061
在语境中理解事物 / 066
猫与花瓶 / 071
第 4 章 坏数据
自我选择偏好 / 077
相关系数并非因果关系 / 084
时间的力量 / 087
幸存者偏差 / 088
假数据 / 090
识别“坏数据” / 092
第 5 章 随机性模式
数据挖掘 / 102
黑匣子 / 107
大数据、大电脑、大麻烦 / 109
利益冲突 / 111
天生就会被骗 / 113
为模型所惑 / 114
第 6 章 如果你拷问数据的时间足够长
孟德尔的豌豆研究 / 128
得州神枪手谬误 / 130
数据挖掘者 / 132
拷问数据 / 135
倒摄回忆 / 137
金钱启动效应 / 139
寻找就会发现 / 143
微笑曲线 / 149
从卓越降为优秀 / 154
攻击性和吸引力 / 157
达特茅斯三文鱼研究 / 159
骗子,骗子 / 161
第 7 章 无所不包的“厨房水槽法”
预测总统大选 / 168
非线性模型 / 180
第 8 章 新瓶装旧酒
逐步回归法 / 187
岭回归法 / 189
数据规约 / 193
神经网络算法 / 196
被数学蒙蔽双眼 / 199
第 9 章 先吃两片阿司匹林
明早再给我打电话 / 204
我要再喝一杯咖啡 / 207
远程治疗 / 208
癌症群 / 211
最有理有据的疗法失效了 / 214
疾病诊断和治疗中的数据挖掘 / 217
糟糠过多,精粹不足 / 220
第 10 章 完胜股市(上)
噪 声 / 224
滑稽的理论 / 226
技术分析 / 230
抛硬币 / 235
《每周华尔街》的十项技术指标 / 237
推特,推特 / 242
技术大师 / 243
为乐趣和盈利投资的黑匣子 / 247
第 11 章 完胜股市(下)
股市与天气 / 252
预留方案 / 259
真正的数据挖掘 / 264
趋同交易 / 265
高频交易 / 276
底 线 / 281
第 12 章 我们都在监视着你
妊娠预测指标 / 289
谷歌流感 / 291
机器人测试仪 / 293
就业申请 / 295
招聘广告 / 298
贷款申请 / 300
汽车保险 / 303
社会信用评分 / 305
黑匣子式歧视 / 306
不合理的搜查 / 307
看看你的手环 / 310
你需要整容吗? / 312
摆弄系统 / 316
共同毁灭原则 / 319
结 语 / 323
参考文献 / 329
浏览器不支持脚本!
摘要:在数据泛滥与算法崇拜的时代,加里·史密斯的《错觉:AI如何通过数据挖掘误导我们》如同一记清醒的警钟。本书以犀利的笔触和丰富的案例,揭示了人工智能与数据挖掘技术如何通过看似客观的统计分析,制造出令人信服却实则谬误的结论。史密斯指出,从金融市场的虚假模式到医疗诊断的偏差陷阱,AI的“智能”往往源于对数据的过度解读与相关性混淆。这部作品不仅是对技术神话的祛魅,更是一场关于理性与认知的深刻反思。它提醒我们,在拥抱大数据的同时,必须警惕那些隐藏在算法背后的逻辑陷阱与人为操纵。对于经济管理领域的读者而言,这本书提供了审视决策依据的全新视角,是抵御信息时代“错觉”侵蚀的必备读物。
1、数据挖掘的隐秘陷阱
史密斯在书中开宗明义地指出,数据挖掘的核心问题不在于数据本身,而在于人类对数据的解读方式。当海量数据被输入算法,AI会不加甄别地寻找所有可能的关联,这种“数据钓鱼”行为极易发现纯属巧合的伪相关。例如,书中提到美国股市的走势与孟加拉国的黄油产量之间存在高度统计显著性,这种荒谬的联系恰恰揭示了数据挖掘的致命缺陷:相关性不等于因果性。在经济管理领域,企业常常依赖历史数据预测未来趋势,却忽略了样本偏差与过拟合的风险,最终导致决策失误。
作者进一步剖析了“多重比较”这一统计陷阱。当研究者或算法同时测试成千上万个假设时,仅凭概率就能产生大量虚假显著结果。史密斯以医学研究为例,说明为何许多宣称有效的药物在后续验证中失效,其根源就在于数据挖掘过程中未对偶然性进行充分校正。这种错觉在金融量化交易中尤为普遍,策略回测看似完美,实则是对历史噪声的过度拟合,一旦市场环境变化便溃不成军。
更值得警惕的是,数据挖掘的隐蔽性使其错觉难以被察觉。史密斯强调,AI系统不会主动标注“此结论可能为假”,反而以精确的数字和复杂的模型包装其谬误。在经济管理中,管理者往往对算法输出盲目信任,忽视了数据收集过程中的系统性偏差。比如,客户满意度调查可能只反映了愿意反馈的极端用户意见,而非整体市场真实情况,这种样本自选择问题在AI分析中常被掩盖。
2、算法偏见的认知根源
史密斯将视角转向人类认知的局限性,指出AI的“偏见”本质上是人类偏见的映射。书中详细阐述了“确认偏误”如何与数据挖掘相互作用:人们倾向于寻找支持自己已有观点的数据,而算法则投其所好地强化这些模式。在企业管理中,决策者可能只关注那些证实其战略正确的销售数据,忽略反例,AI系统在训练数据中同样继承了这种偏好,最终形成自我强化的错误循环。
作者还讨论了“幸存者偏差”在AI应用中的广泛存在。以金融投资为例,算法分析往往只基于当前仍存活的基金或公司,那些已经失败或退出的案例被自动剔除。这种数据筛选导致模型高估成功概率,低估风险。史密斯援引创业公司的案例说明,许多商业预测模型之所以失效,正是因为它们只学习了成功者的特征,而未能理解失败者的共性,从而给经济管理者制造了虚假的确定性。
此外,书中深入探讨了“过度解释”的心理机制。人类大脑天生追求模式与意义,即使面对随机数据也会试图构建叙事。AI数据挖掘恰好放大了这一倾向,将噪声解读为信号。史密斯指出,在经济预测中,分析师常常为短期的市场波动编织复杂的故事,而这些波动很可能只是随机游走。这种认知错觉使得企业不断调整策略,却始终无法触及问题的本质,反而在混乱中迷失方向。
3、经济管理中的实际危害
在商业决策领域,数据挖掘误导的后果尤为严重。史密斯列举了零售巨头因过度依赖关联规则推荐而导致的库存灾难:算法发现啤酒与尿布存在强关联,便大量捆绑采购,却忽视了这种关联仅在特定时间段和特定人群中成立。当市场条件改变,企业陷入库存积压与资金链断裂的困境。这种案例警示经济管理者,盲目套用数据挖掘结果而不理解其边界条件,无异于缘木求鱼。
金融市场的量化交易是另一个重灾区。书中描述了高频交易策略如何利用历史数据的微小模式,在短期内获取利润,但当这些模式被市场广泛复制后便迅速失效。更严重的是,许多对冲基金将回测表现优异的策略投入实盘,结果遭遇巨额亏损。史密斯强调,这些失败并非技术缺陷,而是对数据挖掘本质的误解:历史规律不会简单重复,尤其是当所有人都试图利用同一规律时,市场结构已经发生根本变化。
人力资源与营销领域同样难逃其害。史密斯指出,许多企业使用AI筛选简历,算法却因训练数据中的性别或种族偏见,自动排除掉大量潜在优秀候选人。这种数据挖掘产生的“客观”歧视,不仅违反伦理,更损害了企业的创新能力。在客户细分中,算法可能将偶然的消费行为误判为长期趋势,导致营销资源错配。经济管理者必须认识到,数据挖掘工具的价值取决于使用者的批判性思维,而非工具的自动化程度。
4、破解错觉的理性路径
史密斯并未止步于批判,而是提供了系统的解决方案。他首先强调,任何数据挖掘项目都必须以明确的因果假设为前提,而非放任算法自由探索。在经济管理中,这意味着决策者应先提出理论框架,再用数据验证,而非倒置顺序。书中提倡“预注册”方法,即在分析前公开研究假设与分析计划,以此约束数据挖掘中的随意性,避免事后合理化错误发现。
作者大力推崇“交叉验证”与“样本外测试”的必要性。在金融建模或市场预测中,仅凭历史数据拟合度判断模型优劣是危险的。史密斯建议,必须将数据划分为训练集、验证集与测试集,确保模型在未见数据上表现稳健。对于企业而言,这意味着在推广AI决策系统前,应进行严谨的实地实验或A/B测试,而非直接全量部署。这种科学方法论是抵御数据挖掘错觉的第一道防线。
最终,史密斯回归到人的判断力。他主张,即使最先进的AI,其输出也应被视为“建议”而非“结论”。经济管理者需要培养统计素养与批判性思维,学会质疑算法背后的假设、数据来源与样本代表性。书中呼吁建立“人机协作”的决策模式,让人类负责价值判断与情境理解,AI负责信息处理与模式识别。唯有如此,才能在不被错觉裹挟的前提下,真正发挥数据挖掘的潜力。
总结:加里·史密斯的《错觉:AI如何通过数据挖掘误导我们》是一部发人深省的作品,它撕开了技术乐观主义的光鲜外衣,直面数据时代最隐蔽的认知危机。在书中,我们看到了从金融泡沫到商业失败的诸多案例,每一个都源于对数据挖掘结果的盲目信任。史密斯提醒我们,AI的强大能力恰恰放大了人类的认知弱点,而经济管理领域的决策者尤其需要警惕这种错觉。真正的智慧不在于拥有多少数据,而在于如何质疑、验证并正确使用这些数据。这本书不仅是一本技术批判著作,更是一本关于理性决策的实用指南。
当我们沉浸在海量信息与算法推荐中时,史密斯的教诲显得尤为珍贵。他教会我们区分信号与噪声、相关与因果、模式与巧合。对于每一位在经济管理领域工作或学习的人而言,这本书都是一面镜子,映照出我们可能正在犯下的认知错误。只有正视这些错觉,我们才能在AI辅助决策的时代保持清醒,做出更明智、更负责任的选择。数据是工具,而非真理;算法是助手,而非主人。
本文由nayona.cn整理
联系我们

关注公众号

微信扫一扫
支付宝扫一扫
