想学点现代统计学?这有两本最好的书,而且是免费的

36氪 显示图片

编者按:随着计算技术的发展,统计学也有了长足的进步。应用现代技术的统计学是什么样的呢?Quartz发表了一篇文章介绍了两本绝佳的学习指南。文章中表示,如果你想要学习现代统计学,这两本书是最好的教材。文章由36氪编译。

想学点现代统计学?这有两本最好的书,而且是免费的

数据统计在计算机出现之前就已经存在了。但如果反过来的话,情况就大不一样了。

大多数人在高中或大学里学习的数据统计,基本上都是用纸和笔来进行计算的。“数据统计受到当时可用的计算技术的限制,”斯坦福大学统计学教授罗伯特·蒂布利亚尼(Robert Tibshirani)说。“人们一般都在使用特定的方法进行统计计算,因为这是他们一开始使用的方式,也是他们习惯的方式。这很难改变。”

学过统计学课程的人可能会知道到“正态分布”、“t分布”和“最小二乘回归”等术语。我们之所以了解它们,因为这些都是可以用20世纪早期的工具来进行计算的很方便的方法。我们不应该再学习这些东西了——或者说,至少它不应该是我们优先学习的东西了。还有更好的选择。

作为一名前数据科学家,我经常会被问到这样的一个问题:“学习统计学的最佳方法是什么?”我总是给出同样的答案:阅读《An Introduction to Statistical Learning》。然后,如果你读完了,想要了解更多,阅读《The Elements of Statistical Learning》。这两本书是由斯坦福大学、华盛顿大学和南加州大学的统计学教授共同撰写的,是我发现的用现代技术进行数据统计的最直观、最好的数据。蒂布利亚尼是这两本书的共同作者。你可以免费下载。

数字处理器

这些书基于“统计学习”的概念,是统计和机器学习的结合。机器学习就是往算法中导入大量数据,以做出准确的预测。蒂布利亚尼说,数据统计也与预测有关,同时也能帮助我们决定某些投入的重要性,以及能够有多大的信心。

这在医学等领域很重要,研究人员不仅想知道药物是否有效,还想知道它为什么起作用。统计学习的目的是从机器学习和计算机科学中获得最好的想法,并弄清楚如何从统计学家的视角来使用和解释它们。

这些书的美妙之处在于,它们让人难以理解的概念——“交叉验证”、“逻辑回归”、“支持向量机”——变得很容易理解了。这是因为作者关注的是直觉而不是数学。与许多统计学家不同的是,蒂布利亚尼和他的合著者并不具有严谨的数学背景。他认为这有助于他们从概念上思考问题。“我们试图通过首先解释基本概念来解释概念,”他说。“然后我们给出相应的例子,让你能够了解在什么情况下,这个概念能够发挥作用,还会说明在什么情况下不会发生作用。我认为人们真的很欣赏这一点。”

例如,《An Introduction to Statistical Learning》一书中专门有一个章节来解释“bootstrapping”的使用——一种仅在计算机时代才有的统计技术。Bootstrapping是一种通过从相同数据生成多个数据集来评估估计准确性的方法。

例如,假设你在美国通过随机抽样,收集了1000个成年女性的体重数据,结果发现平均体重是130磅。这个数据的信度有多高?在传统统计学中,想要回答这个问题,你药使用一个多世纪前的公式,而且它还依赖于许多假设。现在,你可以用一台电脑,从你原来的1000个样本中抽取500个样本,然后看看有多少这样的结果接近130磅。如果大多数结果都是这样,这个数据的信度就会更高。

理论与应用

幸运的是,这些书不需要你有高数知识(因为没有正规的中文译本,所以需要你有英语知识),比如那些让人头疼的多元微积分或线性代数。

“虽然对这些知识是非常有用的,但我们认为,只是为了学习统计方法的工作原理、以及如何使用它们,我们并不需要这些专业的知识。”《An Introduction to Statistical Learning》一书的合著者丹妮拉·维滕(Daniela Witten)表示。

另外,这些书还提供了一些代码,你可以用它们来使用统计编程语言R。我建议你可以把它运用到你感兴趣的数据集上。如果你喜欢看小说,那就用它来分析Goodreads的评级。如果你喜欢篮球,就把他们给出的例子应用到篮球参考输上。统计学习工具本身是很好的,但是我发现它们最适合那些受个人或专业项目激励的人。

数据统计是现代生活中越来越重要的一部分,几乎每个人都能通过它来更好地理解我们这个世界。即使你不想成为一名数据分析师——这碰巧是增长最快的工作之一,你也应该知道——这些书对于理解我们身边正在发生的事情是非常有帮助的。

原文链接:https://qz.com/1206229/this-is-the-best-book-for-learning-modern-statistics-its-free/

相关学习资料:

An Introduction to Statistical Learning

下载链接1:http://www-bcf.usc.edu/~gareth/ISL/

下载链接2(含中文版):http://download.csdn.net/download/majinlei121/9658748

《The Elements of Statistical Learning》

下载链接:https://web.stanford.edu/~hastie/ElemStatLearn/

中文版学习资料:http://www.loyhome.com/elements_of_statistical_learining_lecture_notes/

编译组出品。编辑:郝鹏程