常见概念-科研向

这部分内容记录了一些读论文过程中常见到的概念,主要是深度学习、图像处理与计算机视觉方面。

该博文会一直持续更新。

DeepLearning

卷积操作:

说白了,卷积操作是利用卷积核,通过卷积操作来实现对图像特征的提取。

卷积

一些名词:

一些名词

空洞卷积:

空洞卷积

channels:

也被称为通道。

灰度图都是1 channel,彩色图都是3 channels(R、G、B)

卷积核中in_channels 与需要进行卷积操作的数据的 channels一致。

如下图所示,从左到右大小分别为6×6×3,3×3×3,4×4×1.

channel

梯度发散:

采用一些激活函数(如ReLu)时,会出现随着卷积层层数的增加而导致导数指数级增长,即出现梯度发散现象。可以通过引入shortcut来解决:

shortcut:

翻译为“捷径”,为了解决梯度发散问题,在两层之间增加了(带权的)shortcut 。结构如图所示:

shortcut

通过 shortcut 可以直接将浅层的信息传递到深层,可以解决退化问题

softmax:

用于解决多分类问题,可以预测每个类别的概率。

softmax

Softmax 层会对上一层的原始数据归一化,转化为一个 (0 , 1) 之间的数值,这些数值可以被当做概率分布,用来作为多分类的目标预测值。

Softmax 函数一般作为神经网络的最后一层,接受来自上一层网络的输入值,然后将其转化为概率。

einsum:

numpy 中一种优雅的矩阵矩阵计算方法,非常复杂。

具体参见:https://zhuanlan.zhihu.com/p/506843213

EMA

EMA 模型,Exponential Moving Average model,通过计算模型参数的指数加权移动平均来平滑参数更新的过程。

image-20240325235724569

EMA可以近似看成过去 $1/(1−\beta) $ 个时刻 v 值 的平均。

本质是对变量的一种加权平均。在训练过程中,原始模型的参数会不断更新,而 EMA 模型的参数则通过指数加权平均的方式来跟踪原始模型的参数变化。

NIAM

NIAM, Neural Implicit Attentive Model ,是一种与深度学习相关的模型。

一种基于注意力机制的神经网络模型,旨在处理具有隐式关系的数据。

隐式关系:不能直接观察到的关系,但可以通过数据间的相关性来推断。NIAM 模型可以自动地学习和捕捉这些隐式关系,从而在各种任务中表现出色,如推荐系统、自然语言处理和图像处理等。

Transformer

Q K V

Q: Query,查询 K: Key,键 V: Value,值

注意力机制中,通过将查询 Q 与键 K 进行相关性计算,然后将这些相关性作为权重应用到值 V 上。

输入序列被用来计算查询 Q 、键 K 和值 V 。每个查询 Q 与所有键 K 计算得到相关性分数,然后通过 Softmax 函数将这些分数归一化为权重,最终这些权重被应用到相应的值 V 上,从而得到注意力表示。

Q、K 和 V 的作用可以简单概括如下:

  • 查询(Q):确定关注的内容。
  • 键(K):提供与查询相关的上下文。
  • 值(V):根据查询和键的相关性来计算权重,从而产生最终的注意力表示。

计算机视觉

BEV:

BEV: 鸟瞰视角,Bird’s Eye View,是一种从上方观看对象或场景的视角,就像鸟在空中俯视地面一样。在自动驾驶和机器人领域,通过传感器(如 LiDAR 和摄像头)获取的数据通常会被转换成 BEV 表示,以便更好地进行物体检测、路径规划等任务。

FPN:

【目标检测】FPN(Feature Pyramid Network) - 知乎 (zhihu.com)

整理完下面这些发现其实只看这一篇文章就够了。

FPN: 特征金字塔网络,Feature Pyramid Network。

传统方法使用图像金字塔,将图片 resize 到不同的大小,然后分别得到对应大小的特征,然后进行预测。这种方法可以一定程度上解决多尺度的问题,但带来的计算量也非常大。如下图所示:

图像金字塔

也有使用单个feature map进行检测,在网络的最后一层的特征图上进行预测。优点是计算速度快,缺点是最后一层的特征图分辨率低,不能准确的包含物体的位置信息。直接使用这种架构导致预测层的特征尺度比较单一,对小目标检测效果比较差。如下图所示:

featuremap

为了使得不同尺度的特征都包含丰富的语义信息,同时又不使得计算成本过高,FPN 采用top down和lateral connection的方式,让低层高分辨率低语义的特征和高层低分辨率高语义的特征融合在一起。

FPN

三个结构:

Bottom-up:Bottom-up 的过程就是将图片输入到backbone ConvNet中提取特征的过程中。Backbone输出的feature map的尺寸有的是不变的,有的是成2倍的减小的。

Top-down:Top-down 的过程就是将高层得到的feature map进行上采样然后往下传递。高层的特征包含丰富的语义信息,经过top-down 这些语义信息能传播到低层特征上,使得低层特征也包含丰富的语义信息。

Lateral connection:3 个步骤,先 1*1的卷积降低维度,再将得到的特征和上一层采样得到特征图 $P_{n+1}$ 进行融合,直接相加。相加完后再进行一个 3*3 的卷积得到本层的特征输出 $P_n$。

常见模型简称:

LC-GAN : 基于生成对抗网络的人脸数据隐私保护算法模型

CGAN : 条件生成对抗网络,是一种基于监督学习的神经网络深度学习模型

PP-GAN : 隐私保护网络,基于生成对抗网络,引入了针对人脸去识别问题而设计的验证器和调节模块

图像处理

噪声:

图像噪声是指存在于图像数据中的不必要的或多余的干扰信息

仿射变换:

DCT变换

Discrete Cosine Transform,离散余弦变换。

离散余弦变换经常被信号处理和图像处理使用,用于对信号和图像(包括静止图像和运动图像)进行有损数据压缩。这是由于离散余弦变换具有很强的”能量集中”特性:大多数的自然信号(包括声音和图像)的能量都集中在离散余弦变换后的低频部分,而且当信号具有接近马尔科夫过程的统计特性时,离散余弦变换的去相关性接近于K-L变换 (Karhunen-Loève 变换,具有最优的去相关性) 的性能。

量化

将图像像素点对应亮度的连续变换区间转换为单个特定值的过程,即将原始灰度图像的空间坐标幅度值离散化。量化等级越多,图像层次越丰富,灰度分辨率越高,图像的质量也越好;量化等级越少,图像层次欠丰富,灰度分辨率越低。

量化后,图像就被表示成一个整数矩阵,每个像素具有两个属性:位置和灰度。位置由行,列表示。灰度表示该像素位置上亮暗程度的整数。此数字矩阵M*N就作为计算机处理的对象了,灰度级一般为0-255(8bit量化)。如果量化等级为2,则将使用两种灰度级表示原始图像的像素(0-255),灰度值小于128的取0,大于等于128的取128;如果量化等级为4,则将使用四种灰度级表示原始图像的像素,新图像将分层为四种颜色,0-64区间取0,64-128区间取64,128-192区间的取128,192-255区间取192,依次类推。

OpenCV计算机视觉学习(12)——图像量化处理&图像采样处理(K-Means聚类量化,局部马赛克处理) - 走看看 (zoukankan.com)

MSE:

MSE , Mean Square Error , 均方误差,是衡量图像质量的指标之一。

原理为真实值与预测值的差值的平方然后求和再平均

MSE

PSNR:

PSNR , Peak Signal-to-Noise Ratio 峰值信噪比,定义为

PSNR

其中 $MAX_{I}^2$ 为图片可能的最大像素值。如果每个像素都由 8 位二进制来表示,那么就为 255。

这是针对灰度图像的计算方法,如果彩色图像,通常有三种方法来计算。

  • 分别计算 RGB 三个通道的 PSNR,然后取平均值。
  • 计算 RGB 三通道的 MSE ,然后再除以 3 。
  • 将图片转化为 YCbCr 格式,然后只计算 Y 分量也就是亮度分量的 PSNR。

常见的是第二种与第三种。

空域图像:

(62条消息) 【视觉入门】——空域图像增强(邻域运算部分):图像卷积、多种滤波器;二值图像分析及形态学图像处理_Vulcan_Q的博客-CSDN博客_空域图像处理

AUC:

Area Under Curve,指接收器操作特征曲线下的面积,可以用来衡量分类器的性能。

face landmarks:

直译为面部地标,作为一种匹配标准,用于在真实图像生成训练数据过程中实现寻找。

mask:相应区域的掩码。可以理解为图像的某种属性。表现在图像上,是表示图像中某区域内的像素情况,可以用数字来表示。

SBI:

Self-Blended Images,自混合图像,混合来自单个原始图像的伪源图像和目标图像。

自然语言处理:

Bert:

Bidirectional Encoder Representations from Transformers,一种基于 Transformer 模型的预训练语言表示模型。用来生成文本的深层双向表示。

  • Copyright: Copyright is owned by the author. For commercial reprints, please contact the author for authorization. For non-commercial reprints, please indicate the source.

请我喝杯咖啡吧~

支付宝
微信