模型的泛化、过拟合与欠拟合
过拟合:在训练数据上表现良好,在未知数据上表现差。
欠拟合:在训练数据和未知数据上表现都很差……
过拟合:在训练数据上表现良好,在未知数据上表现差。
欠拟合:在训练数据和未知数据上表现都很差……
深度学习是一种基于对数据进行表证学习的机器学习方法,近些年不断发展并广受欢迎。
作为一个相对较新的概念,对于无论是想要进入该领域的初学者,还是已经熟知方法的老手来说,触手可及的学习资源太丰富了。
为了不被日新月异的技术和潮流所淘汰,积极参与深度学习社区中开源项目的学习和互动是个很好的方法。……
今天来看一个借助了信息论里知识的一个模型:决策树(decision tree)。
决策树是一个非常容易理解的模型,它非常像程序员所熟悉的 if else 结构。
举一个相亲见面的实例,即女生根据男生的条件来决定是否相亲见面,通过这个实例有助于理解决策树。……
因子分解机(Factorization Machine, FM)是由Steffen Rendle提出的一种基于矩阵分解的机器学习算法。……
信息量的度量——熵(entropy)
熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里面,熵是对不确定性的测量。
有一种概念对物理和化学有极其重要的作用,它帮助我们解释物理现象的发生而不是通过其他方式。冰为什么融化?岩浆为什么冷却?奶油为什么会融入在咖啡中?这个概念就是熵。……
Apache Spark 是当今最流行的开源大数据处理框架。和人们耳熟能详的 MapReduce 一样,Spark 用于进行分布式、大规模的数据处理,但 Spark 作为 MapReduce 的接任者,提供了更高级的编程接口、更高的性能。除此之外,Spark 不仅能进行常规的批处理计算,还提供了流式计算支持。……
【新智元导读】这是一篇关于GAN的零基础入门介绍。作者用“制假贩子”和“侦探”的比方讲起,形象介绍了关于GAN的概念、组成和运作机制,以及基于GAN常见热门应用方向等入门概念性知识。……
在计算广告和推荐系统中,CTR预估一直是一个核心问题。无论在工业界还是学术界都是一个热点研究问题,近年来也有若干相关的算法竞赛。本文介绍一个基于深度学习的CTR模型包DeepCTR,具有简洁易用、模块化和可扩展的优点。……
导读:本文翻译自 Google AI 团队科学家 Brendan McMahan 和 Daniel Ramage 的博客文章 Federated Learning: Collaborative Machine Learning without Centralized Training Data 。……
什么是好的推荐系统?佛陀没有定义过,人类也没有定义过。但一个系统的好坏往往需要全链路的评定,贯穿于用户的整个交互过程。之所以说好的推荐系统更难定义,是因为虽然算法是核心,但是个性化推荐往往不止由算法构成,这背后需要各种技术支撑。它是算法和各种技术架构以及交互设计等等,混合在一起的产物。所以,我们很难有一个推荐系统好不好的绝对值,只能在有参照物的情况下,选取某些常见指标然后有一个相对的评价,没有统一标准,但人人心中都会有一杆秤。 ……