文章目錄
  1. 1. 概括
    1. 1.0.0.1. PCA文章总结
    2. 1.0.0.2. Feature coding for classification文章总结
    3. 1.0.0.3. 图嵌入
  • 2. DL相关总结
    1. 2.0.0.1. DL成功的关键:
    2. 2.0.0.2. CNN复兴的原因:(Visualizing and Understanding Convolutional Networks)Matthew D. Zeiler
    3. 2.0.0.3. Baidu总结的DL成功原因
    4. 2.0.0.4. 与PCANet的联系
  • 本文根据半年来对相关资料以及实验操作的实际体会总结而成。限于本人知识经验局限性,难免有理解错误之处。然而还是把一些不太成熟的想法写了下来。
    最近对整个CNN的形成有了一个模糊的框架,隐约感觉以下3篇还有下面涉及到或没有涉及但我看过的文章都有深层的联系。可能由于知识有限,表达可能不尽人意,但还是想试图解释他们之间的关系。

    概括

    PCA文章总结

    PCANet的文章揭示了深层网络结构的优越性,证实cascaded feature learning or extraction architectures的优越性。而且由于采用PCA的方法,不需要用迭代的方法寻优。可以从数据得到filter参数。在PCANet结构上也可以看出:如果要构建自己的网络需要理解每层的特点,根据实际情况组合网络,在别的网络中效果好的结构未必自己的网络中就好。文章称PCANet可以做baseline,说明调参技巧少,对trick等依赖少,训练效果变化小。

    Feature coding for classification文章总结

    总结了大量降维方法。提到5个大块方法其中一个大块是manifold,流形逼近作为一种非参数模型方法,将会是一个方向。概率模型都对数据分布有较强的的假设,如果实际数据不服从假设的分布,会对效果造成影响。因此选用概率模型时要对数据分布有准确的估计。本文最后同样指出了设计特征时要考虑结合feature coding and pooling。
    improved Fisher kernel具有目前已知最好的性能,用GMM描述概率分布

    图嵌入

    这篇文章有很强的理论性。用一个框架总结PCA、LDA(linear), ISOMAP、LLE、Laplacian Eigenmap(no-linear)等降维方法。
    特征编码中提到:高阶特征流形逼近的方法作为一种非参数模型,将更好地改善特征编码的概率密度分布估计。
    本文给出的思路有助于改善对概率密度分布估计的困难。

    DL相关总结

    DL的核心思想是deep,深度的网络结构是提升学习效率的重要原因。以往的神经网络属于浅度学习层数少,由于深层训练在训练方法和运算能力上的突破兴起了深度学习浪潮。
    (变换+降维)+(变换+降维)+………+(变换+降维)+(变换+降维)

    (非线性层ReLU目前被认为具有最好的非线性表达效果,因此在网络中比较常用。max(0,x), ln(1+ex))原因未知?

    DL成功的关键:

    一方面现在的深层网络可以在高层学习到更高级的特征(语意特征),反卷积网络可视化技术证实了这一点,另一方面而稀疏表达和自编码等技术则能帮助深层网络在底层学习到比传统人工构造的特征更具有表达性的特征。

    CNN复兴的原因:(Visualizing and Understanding Convolutional Networks)Matthew D. Zeiler
    1. 拥有数以百万带标签训练集出现
    2. 基于GPU训练算法的出现,使得训练复杂卷积网模型不再是奢望
    3. 更好的模型调优策略(dropout)
    Baidu总结的DL成功原因
    1. Big Data
    2. high performance computing(取得了想象不到的超越实验室的效果)

    mnist数据集本身稀疏,没有用pooling效果也好。
    训练与测试不同(dropout、multi-scale、multi-view)大多是为了解决数据量问题。多的数据量,更多的数据。
    Visualizing and Understanding Convolutional Networks中ImageNet 2012上在单块GTX580 GPU, 迭代70次用了12天。内存开销与时间开销都很大。

    与PCANet的联系

    CNN的训练过程是迭代寻优,而某些流形学习方法可以得到解析解(PCA也有在线学习算法),不需要迭代,这样训练速度将大大提升。
    CNN训练极大程度依赖调参和trick(因为迭代,容易收敛到局部最优),得到好效果不容易。但PCA参数少,所以他说可以做baseline。
    另一个角度来看,可以认为没有解析解的CNN会有更强大的非线性表达能力,人工干预较强的构造性网络PCANet效果会受影响。

    文章目錄
    1. 1. 概括
      1. 1.0.0.1. PCA文章总结
      2. 1.0.0.2. Feature coding for classification文章总结
      3. 1.0.0.3. 图嵌入
  • 2. DL相关总结
    1. 2.0.0.1. DL成功的关键:
    2. 2.0.0.2. CNN复兴的原因:(Visualizing and Understanding Convolutional Networks)Matthew D. Zeiler
    3. 2.0.0.3. Baidu总结的DL成功原因
    4. 2.0.0.4. 与PCANet的联系