一、深度学习三要素(data,operation,loss)
深度学习就是如何拟合数据的学科,神经网络有足够多的层或单元就可以拟合任何函数
data: the source of knowledge(supervision)
operation: the space of growth(learning
parameters),设计好定义函数空间,在初始化前提下,根据训练数据让函数逐渐接近数据想让他长成的样子
loss: the goal of fitting(final outputs),输出目标对齐
二、描述网络
Network shape
layer: 层,相同神经元构成的整体
scale:尺度,the width and height of a layer-for input the original image size
width: 宽度,the number of channels in a layer
depth: 深度,the number of layers
Network complexity
model size: 训练参数数量
model complexity:浮点数运算,FLOPs是计算量,FLOPS是运算时间
receptive:感受野,网路传至某一层时,在这一层中任何神经元能够看到输入至图像中多大的范围,看到的范围越大,该神经元表达的语义信息就越丰富。但神经元可能受到噪声影响,所以很敏感
三、神经网络
1,全连接神经网络Fully-connected Neurons
input: WxHxDx
output: WyHyDy
connectivity:every pair of neurons in X and Y is connected
parameters: WxHxDxWyHyDy
FLOPs: WxHxDxWyHyDy
Peceptive field size:Wx*Hx
2,Lenet
卷积核:33最合适(22,11太小,44,55太大)
padding:边界点周围虚拟点以保证边界点
pooling:同一channel内进行(平移不变性),有两种方式:max,mean
感受野:11,55,66,1414,1616,3232 till the end
第一层卷积:55
第二层卷积:6*6
深度加深使神经元组合成指数级增长,宽度加宽只是现象级增长
在构建网络时,经历重复网络结构;自动设计网络automatic
数据增强很有用,对深度,非深度都适用
CNN中倾向于小滤波器,更深的网络结构
CNN中小数据集网络微调可以极大的提升性能
CNN方法远远好于非深度学习方法
四、分类
1,分类
卷积与全连接之间加SPP层(空间金字塔池化Spatial Pyramid Pooling)
数据增强很有用,对深度,非深度都适用
CNN中倾向于小滤波器,更深的网络结构
CNN中小数据集网络微调可以极大的提升性能
CNN方法远远好于非深度学习方法
2,检测
1)主要思想是基于区域的卷积神经网络特性提取与分类
2)步骤:
imput image------Extract region proposals(提出候选区域)----- compute CNN
features------- classify region
3)代表:
speed first: SSD
Balance speed and accuracy: R-FCN
accuraccy fist: Faster RCNN
3,分割
1)分类(由容易到难):
语义分割:表示出车辆总区域
实例分割:不同车辆不同区域
全景分割:不同车辆且不同背景物体分开
2)代表:
Graph Cut 图割算法 全景、背景分割
出发点:整幅图像每个像素看作一个节点,两个像素间的关系如灰度、距离看作节点间的相似性
目的:划分出具有代表意义的全景与背景区域
假设前提:全景区域与背景区域在空间位置及颜色上有非常大的差别,希望建立能量最小化函数及图割函数寻找节点截断(带来的能量损失最小)
CRF-马尔可夫随机场
重要工作:对分割粗糙的全景图像进行校正,输出精确的特征
主要思想:构建影像图,把像素看作节点,通过不同节点相似性计算灰度或距离关系,通过条件随机场建模,寻求全景与背景的最优划分