数据科学中的6个基本算法,掌握它们要学习哪些知识

如果想从事数据科学,但是又没有数学背景,那么有多少数学知识是做数据科学所必须的?

统计学是学习数据科学绕不开的一门数学基础课程,但数据科学也经常会涉及数学中的其他领域。

数据科学使用算法进行预测,这些算法称为机器学习算法,有数百种之多。有人总结了数据科学中最常用的6种算法,已经掌握它们分别需要哪些数学知识。……

阅读更多

《统计思维:程序员数学之概率统计》pdf

《统计思维:程序员数学之概率统计》是一本以全新视角讲解概率统计的入门图书。抛开经典的数学分析,Downey 手把手教你用编程理解统计学。概率、分布、假设检验、贝叶斯估计、相关性等,每个主题都充满趣味性,经编程解释后变得更为清晰易懂。

本书研究数据主要来源于美国全国家庭成长调查(NSFG)与行为风险因素监测系统(BRFSS),数据源及解决方案的相关代码全部开放,具体章节列出了大量学习和进阶资料,方便读者参考。……

阅读更多

人工智能察辨花色,分类任务通俗解释

看到一张图片,我们能够分辨图片上有什么动物,是猫还是狗;听到一首歌曲,我们能够区分是古典音乐还是流行音乐;看到一段视频,我们知道里面的演员是在舞蹈还是在长跑….在生活中,我们经常会判断-一个事物的类型,这样的过程在人工智能领域里被称为分类。……

阅读更多

CNN卷积神经网络如何处理一维时间序列数据?

许多文章都关注于二维卷积神经网络(2D CNN)的使用,特别是图像识别。而一维卷积神经网络(1D CNNs)只在一定程度上有所涉及,比如在自然语言处理(NLP)中的应用。目前很少有文章能够提供关于如何构造一维卷积神经网络来解决机器学习问题。……

阅读更多

初露真容: 人工智能与机器学习

什么是人工智能?
对于人工智能的定义,学界一直有不同的表述。 在这里,我们采用一种被广 泛接受的说法:人工智能是通过机器来模拟人类认知能力的技术。……

阅读更多

什么是熵(entropy)?

信息量的度量——熵(entropy)
熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里面,熵是对不确定性的测量。
有一种概念对物理和化学有极其重要的作用,它帮助我们解释物理现象的发生而不是通过其他方式。冰为什么融化?岩浆为什么冷却?奶油为什么会融入在咖啡中?这个概念就是熵。……

阅读更多

Spark Streaming简介

Apache Spark 是当今最流行的开源大数据处理框架。和人们耳熟能详的 MapReduce 一样,Spark 用于进行分布式、大规模的数据处理,但 Spark 作为 MapReduce 的接任者,提供了更高级的编程接口、更高的性能。除此之外,Spark 不仅能进行常规的批处理计算,还提供了流式计算支持。……

阅读更多