xhhszc Blog

Thinking will not overcome fear but action will.

tfrecords的使用

Get start tfrecords

tfrecords的使用 1. 生成tfrecords的数据 利用python写生成数据的脚本文件gen_data.py: # file of gen_data.py from pyspark import SparkConf, SparkContext from pyspark.sql import SparkSession conf = SparkConf() spark = Spa...

工具变量估计

Instrumental Variable Estimation

工具变量估计 本篇主要是按我自己的思路整理了一下Miguel A.Hernan和James M.Robins在《What If》这本书16章的内容,受限于翻译能力,中文有时候并不能完整的表达原文的意思,因此我会在有的地方贴出英文原文,以避免中文翻译带来的误解。此外,文中涉及的符号标记难免有解释不到位的地方(比如$Y^a$和$Y^A$的区别),这对没有接触过因果推断的人会存在一定的理解难度,...

谱聚类

Spectral Clustering

谱聚类 除了K-means和GMM,谱聚类算得上是当今聚类算法的一大流派了。该流派中的算法主要区别于矩阵(也就是“谱”)的构造,本文只讲述谱聚类这一类算法的基本原理,不对各种变体一一展开。 1. 算法流程 将数据集中的$N$个样本看作是空间上的一个个点, 假设点与点之间我们有了一个相似度值,我们将空间中的相似的点链接起来并赋予对应的权重(一般为相似度值)。由此,我们将数据集构造成了...

使用bazel安装tensorflow

踩坑大型现场

使用bazel安装tensorflow 为了提高CPU运行速度,使用SSE/AVX/FMA指令集,需要从source安装tensorflow,其中最简便的就是利用bazel安装tensorflow,但是安装过程也是充满了血泪。。。 1. 安装bazel conda install bazel 2. 下载tensorflow代码包 在https://github.com/tensor...

使用tf.Profiler监控图

显示图节点的占用空间、耗时等信息

使用tf.profiler监控图 参考: TensorFlow 的模型性能分析工具 Profiler tensorflow 核心流程剖析 4– 使用profiler检测神经网络模型的运行性能 1. 引入相关包 import tensorflow as tf from tensorflow.python.profiler import model_analyzer from ...

决策树(四)- xgboost

eXtreme Gradient Boosting

决策树(四)- xgboost xgboost也是一种基于boosting策略的算法,其与GBDT最大的差别在于其目标函数的定义:GBDT算法利用了损失函数一阶导数信息来近似残差,而xgboost对损失函数做了二阶的泰勒展开,并加入了正则项以权衡模型的复杂度,减轻过拟合问题。 xgboost的目标函数定义如下: \(L^t = \sum_{i=1}^{n}l(y_i, \hat{y}_i...

决策树(二)- 随机森林

Random Forest

决策树(二)- 随机森林 决策树在建立树时需要将所有的绿点无差错的分出来(即参数选择不是很合理的情况),决策树会产生过拟合的现象,导致泛化能力变弱。 如图例: 因此随机森林采用多个决策树的投票机制来改善决策树。 我们假设随机森林使用了m棵决策树,那么就需要产生m个一定数量的样本集来训练每一棵树,如果用全样本去训练m棵决策树显然是不可取的,全样本训练忽视了局部样本的规律,对于模型的泛化...

决策树(三)- GBDT

Gradient Boosting Decision Tree

决策树(三)- GBDT 上一篇我们所说的随机森林其实是一种Bagging技术,而GBDT是一种Boosting技术。 Bagging技术对于不同的分类器可以通过并行训练而获得,且每个分类器的权重相等。但Boosting则是在前面已训练获得的分类器基础上加以调整(更关心之前分类器分错的样本)而获得新的分类器,因此Boosting中的分类器权重并不相等,其权重值代表该分类器在上一轮迭代中的成...

决策树(一)

Decision Tree

决策树 决策树是一种基本的分类与回归方法。 相比朴素贝叶斯分类,决策树的优势在于构造过程不需要任何领域知识或参数设置。 决策树是给定特征条件下,类的条件概率分布的一种表示。该条件分布定义在特征空间的划分(partition)上,特征空间被划分为互不相交的单元(cell),每个单元定义一个类的概率分布就构成了一个条件概率分布。(互斥并且完备) 香农熵 随机变量的熵定义为: ...

机器学习中的采样方法

Sampling Methods

机器学习中的采样方法 首先,我们需要了解为什么需要采样,也就是说采样的目的是什么。一般来说,对于模型f(z),z服从概率分布p(z),我们需要求该模型的期望: \(\mathbb{E}[f]=\int f(z)p(z)dz\) 然而,$\mathbb{E}[f]$的积分往往难以求得,但如果我们可以从p(z)中独立采样出$L$个样本$z^{(l)}, l=1,2,…,L$, 那么由大数定律...