以下几个库奠定了Python今天在机器学习领域的地位:NumPy、scikit-learn和TensorFlow。
scipy.sparse
、coo_matrix
、csc_matrix
、csr_matrix
scipy.integrate
scipy.interpolate
scipy.optimize
scipy.stats
fit()
和predict()
。fit()
、transform()
、fit_transform()
。MinMaxScaler
,最大最小值规范化;Normalizer
,每条数据各特征的和为1;StandardScaler
,使各特征均值为0,方差为1LabelEncoder
,将字符串类型的数据转化为整型;OneHotEncoder
,特征用一个二进制数字来表示;Binarizer
,将数值特征二值化;MultiLabelBinarizer
,将多标签二值化。sklearn.feature_extraction
sklearn.feature_selection
sklearn.decomposition
sklearn.ensemble
sklearn.metrics
,包括accuracy_score
,confusion_matrix
,classification_report
,precision_recall_fscore_support
等sklearn.cross_validation
sklearn.grid_search
TensorFlow是目前最流行的深度学习框架。我们先引用一段官网对于TensorFlow的介绍,来看一下Google对于它这个产品的定位。
TensorFlow™ is an open source software library for numerical computation using data flow graphs. Nodes in the graph represent mathematical operations, while the graph edges represent the multidimensional data arrays (tensors) communicated between them. The flexible architecture allows you to deploy computation to one or more CPUs or GPUs in a desktop, server, or mobile device with a single API.
上文并没有提到大红大紫的Deep Learning,而是聚焦在一个更广泛的科学计算应用领域。引文的关键词有:
作者基于官方文档对TensorFlow进行了初步的学习,并对实践过程进行了记录: