今天第十七天 - 自律代码100天

自律的100天

已于 2024-01-07 08:35:54 修改

阅读量1k

点赞数 27

文章标签：计算机视觉机器学习图像处理图形渲染

于 2024-01-07 08:29:30 首次发布

本文链接：https://blog.csdn.net/weixin_70408954/article/details/135435511

版权

天数：第十六天

时间：2024年1月6日

内容：

计算机视觉

眼睛与人类视觉 (Eye and Human Vision)：人类视觉是否适用于计算机视觉模型，深入了解人类眼睛的结构、大脑中的处理过程以及相关软件语言
图像形成 (Image Formation)：讨论图像形成的过程，强调分辨率的重要性以及傅立叶变换在图像处理中的应用。
图像采样 (Image Sampling)：重点讲解离散傅立叶变换及其在采样中的应用，以及不当采样可能导致的走样问题。
点操作 (Point Operators)：讲述图像处理中各种点操作，特别关注影响图像显示和直方图操作的部分。
组操作 (Group Operators)：讨论图像中点的组合、卷积技术以及使用傅立叶变换提高处理速度的方法。
边缘检测 (Edge Detection)：探索边缘检测的概念，重点在索贝尔算子和其他数学方法上，以识别边缘。
更进一步的边缘检测 (Further Edge Detection)：深入讨论高级边缘检测方法，如Canny和Marr-Hildreth算子，以及二阶微分的作用。
形状查找 (Finding Shapes)：专注于使用模板匹配和霍夫变换在图像中检测形状，即使在具有挑战性的条件下。
查找更多形状 (Finding More Shapes)：扩展形状检测的讨论，介绍更复杂的形状如圆锥截面和广义霍夫变换，最后讲述主动轮廓在形状检测中的应用。

图像采样 (Image Sampling)：重点讲解离散傅立叶变换及其在采样中的应用，以及不当采样可能导致的走样问题。
- 傅立叶变换与采样 (Fourier Transform in Sampling)
  - 1. 1D Discrete Fourier transfrom（一维离散傅里叶变换）
    - Fpu是变换后频率域的第u个点，pi是原始信号的第i个采样点，N是总采样点
  - 2. 1D Discrete Inverse Fourier （一维离散逆傅里叶变换）
    - pi是重构信号的第i个采样点，Fpu是频率域的第u个点。
  - 3 . 在处理Sampled pulse（采样脉冲）信号时，离散傅里叶变换（DFT）及其逆变换（IDFT）的应用
    - 解释：红色双向箭头代表了DFT和IDFT之间的转换关系。左边a代表在时间或空间上采样的脉冲序列，每个红点代表了每个脉冲的采样值，横坐标x表示采样点的位置；而右边b是采样脉冲进行DFT后的频率域，并且每个点表示了每个频率的幅度，横坐标u是不同的频率点位置。转化的思路是：将左边a的时域或空间域中的信号用DFT转换到右边b的频率域，而IDFT则是相反的过程，将右边b的频率域转换回左边a的时域或空间域的原始信号。
    - 用处：通过图像的频率域，可以设计滤波器去除噪声或者增强图像的某些特征。同样，图像的压缩通常也涉及到在频率域内去除那些对人眼视觉贡献不大的成分。逆变换则用于恢复图像，以便在显示或进一步处理之前获得图像的空间域表示。
  - 4. 从离散傅里叶变换（DFT）的各个频率分量中重构原始信号的方式
    - 首先，在重构原始信号前，要明白每个频率分量通过复指数函数与其对应的DFT系数相乘，然后所有这些乘积相加，得到时域中的信号重构。（上面也有提到，在DFT中，每个频率分量都对重构信号的形状和结构有贡献。当加入所有的频率分量后，可以得到与原始信号非常接近的重构信号。）
      - 步骤：
        (a)原始采样信号（Original sampled signal） - 这是在时域中采样得到的原始信号的表示。
        
        (b)第一个系数Fp0 - 这是离散傅里叶变换中的第一个系数，代表着信号中的直流成分（频率为0的部分）。
        
        (c)第二个系数Fp1 - 这是DFT中的第二个系数，代表着信号中的第一个非直流频率成分。
        
        (d)添加Fp1和Fp0 - 这一步展示了将第一个频率成分和直流成分相加后的结果。
        
        (e)添加Fp0, Fp1, Fp2和Fp3 - 这里展示了将前四个频率成分结合起来的结果。
        
        (f)添加所有六个频率分量 - 这一步展示了将所有的频率分量结合起来后的结果，可以看到随着更多频率分量的添加，重构的信号逐渐接近原始信号
  - 5. 2D Fourier transform（二维傅里叶变换）
    - (1)图像改变为二维图像，(2)是空间域（由像素的位置x和y定义）转换到频率域（由频率u和v定义）的过程。(3)变换使用复指数函数将每个空间位置的像素值加权并叠加(公式右上角的变换核的作用，它将每个像素位置的贡献按其频率进行加权)，得到频率域的表示
    - 类型：
      - 正向变换（Forward transform） - 计算图像的二维傅里叶变换。其中Px,y是图像在位置(x,y)的像素值，FPu,v是变换后在频率(u,v)位置值。双重求和能遍历图像的所有像素，而右上角（e−jN2π(ux+vy)）是变换核，它将每个像素位置的贡献按其频率加权。
      - 逆变换（Inverse transform） - 使用频率域的数据重构原始的空间域图像。通过右上角公式（ejN2π(ux+vy)）能对所有频率成分的加权和进行反变换，得到原始的像素值Px,y
  - 6. 二维傅里叶变换对图像进行重构的过程中，不同半径的频率分量及其对图像重构的影响
    - 图(a)到(e)，不同半径的频率分量。在傅里叶变换的频率域中，中心附近的点代表低频分量，而远离中心的点代表高频分量。半径越大，对应的频率分量就越高。
    - 图(f)到(i)，特定半径的频率分量重构的图像。图(f)仅使用半径为1的低频分量重构，图(i)使用到半径为25的更多频率分量重构。
    - 图(j)到(n)，不断增加频率分量来重构图像。图(j)仅使用最低频率（直流分量0），图(n)使用所有频率分量。随着使用更多的频率分量，重构的图像逐渐变得更加清晰和详细。
    - 总：重构的过程说明了低频分量对图像的整体形状和亮度分布贡献较大，而高频分量则对细节和边缘信息贡献较大。在图像压缩中，只需保留最重要的频率分量就能在解压缩时重构出一个接近原始图像的版本，这样既减少数据量，又可以得到原来的图。
  - 7. 傅里叶变换（1-D FFT）伪代码（用于信号处理的频率分析和转换）
    - 过程是几个循环来分解并重组信号的，达到计算其频率域的表示的目的。
    - FFT算法的优势在于其计算复杂度较低，特别是对于大规模图像处理中，可以在更短的时间内完成变换，在实时处理和分析大型图像集合非常有用。（numpy.fft）
  - 8. 傅立叶变换概念：
    - Shift invariance（位移不变性）：当输入信号位移或平移会导致输出信号等价的位移，而不会改变信号本身，只改变相位。
      - 结果会展示原始图像及其位移后的版本。说明位移后的图像与原图保持相同的幅度表示，内容不受空间位移的影响。
      - 傅立叶变换的相位会捕捉图像的结构，因此像素的空间排列变化是相位改变导致的。
    - Rotation（旋转）：原始图像和旋转图像的傅立叶变换比较下，频域会发生旋转。
    - filter（傅立叶变换在滤波图像时）：
      - 低通滤波器只允许低频成分通过，图像会模糊（因为高频细节（如边缘和噪声）被移除）
      - 低通滤波后的傅立叶变换是在中心，那是低频成分所在地方。
      - 高通滤波器只允许高频成分通过，边缘和细节会增强，使图像清晰。
      - 高通滤波后的傅立叶变换在边缘有更多成分
- 采样理论 (Sampling Theory)
  - 1. 原始连续信号：这是一个未经采样的连续波形，可以代表任何模拟信号，如声音、光或电信号。
  - 2. Good sampling（好的采样）和Bad sampling or Aliased（坏的采样）
    - 采样率高，采样点（红色的星号）能够准确地捕捉到原始信号的波形。
    - 采样率太低，采样点（红色星号）没有准确捕捉到原始信号的波形。在这种情况下，重建信号（绿色虚线）与原始信号有很大差异，产生了错误的频率
  - 3. 采样函数在时间域和频率域的表示
    - 采样函数在时间域：图左是在时间域（t轴）上的采样函数。表示在一系列理想的等间隔的采样冲击下，可以在这些特定时间点（time domino）上采样信号。
    - 采样函数在频率域 - fft：图右是在傅立叶变换（FFT）下，将时间域的采样函数转换到频率域（ω轴）后的结果。在频率域中，理想采样函数表现为一系列等间隔的峰值。峰值表示信号的采样频率及其高次谐波。
  - 4. 信号处理中傅立叶变换的基本概念和属性
    - (a) 信号 x(t): 这是一个随时间变化的连续信号，它可能代表任何随时间变化的物理量，如声音、温度等。
    - (b) 信号的傅立叶变换 X(ω): 这是信号 x(t) 经过傅立叶变换后，在频率域中的表示。ω 是角频率，而 f 是频率。这个变换展示了信号在不同频率上的能量分布。
    - (c) 采样函数 δ_Ts(t): 这是一个理想化的采样函数，由等间隔的冲激组成，代表了在特定时间点上对信号的采样。T_s 是采样间隔。
    - (d) 乘法器（Multiplier）: 这是一个过程，其中连续信号 x(t) 与采样函数 δ_Ts(t) 相乘，结果是 g(t)，这是离散的采样信号。
    - (e) 采样后的信号 g(t): 这是经过采样函数处理后的信号，只在特定时间点有值，其余时间为零。
    - (f) 采样后信号的傅立叶变换 G(ω): 这是 g(t) 的傅立叶变换。由于采样，原始信号的频率内容被复制多次，产生了所谓的频谱复制。ω_s 是采样频率的角频率，而 f_s 是采样频率。
    - 图右上说明傅立叶变换的属性：当两个函数相乘时（a原始信号和c采样函数），它们的傅立叶变换是相互卷积的（既能使两个函数合成一个函数）
- 采样中的走样 (Aliasing in Sampling)
  - 1. 在频率域信号采样时，如何正确采样以避免混叠现象（目的是：在频率域内，采样信号的频谱要重复）
    - (a) 高频采样：当采样后的频谱重复，但它们之间不重叠，因此没有混叠（下脚没有接触）时，采样频率（f_sample）> 信号的最大频率的两倍（f_max）
    - (b) 奈奎斯特频率采样：当采样后的频谱接触，但不重叠。这是防止混叠的最低安全采样频率。采样频率 == 信号最大频率的两倍（即奈奎斯特频率）
    - (c) 低频采样（信号频率没有大于等于2），混叠数据（Aliasing走样）：当采样后的频谱重叠(混叠), 会导致原本高频的信号成分被错误地解释为低频成分，从而损害信号的真实内容。采样频率 < 信号最大频率的两倍
    - 总：图片的文字部分强调了“频谱重复”和“频谱接触”的概念，以及为避免混叠应该遵循的最小采样频率规则，即最小采样频率 == 最大信号频率的两倍(奈奎斯特采样定理)
    - ***最大频率的2倍中的2倍是因为：在重建原始信号时，每个周期至少需要两个采样点（一个在波峰，一个在波谷），可确保能够捕捉到波形的形状，如果采样点少于两个，就不能准确地重建信号，会丢失波形的某些部分，就会导致混叠，即高频信号被错误地解释为低频信号。
  - 2. 例子：
    - 语音信号通常最高频率为6kHz，因此至少需要12kHz的频率进行采样。
    - 视频带宽（如CCIR标准）是5MHz，因此采样频率至少应为10MHz。
    - 原则：“对于每一个感兴趣的像素，至少有两个像素。”，为了精确地捕捉和重建图像中的细节，每个细节至少需要两个像素来表示。这可以帮助防止图像中的细节丢失或混叠。（左图为high resolution高分辨度，右图为low resolution低分辨度 - aliased走样）
  - 3. 通过视觉感知，理解动态旋转物体的采样率
    - (a) 过采样旋转车轮：采样频率足够高，可以准确地捕捉车轮的旋转，车轮看起来是正确旋转的。
    - (b) 慢速旋转：车轮旋转得比较慢，采样率不是很高，人眼也可以正确感知其旋转方向。
    - (c) 欠采样旋转车轮：采样频率过低，不能准确捕捉车轮的旋转状态，导致车轮看起来旋转得更慢甚至可能看起来像是在反向旋转。
    - (d) 快速旋转：当车轮旋转得非常快，但采样率不足时，也会产生所谓的“走样”（aliased）效果，这是一种视觉上的错觉，车轮看起来好像在缓慢旋转甚至是在反方向旋转。
    - 总：由于采样定理（Nyquist’s theorem奈奎斯特定理）在视觉上的应用。当摄影机的帧率（采样率）低于车轮旋转频率的两倍时，就会有错觉。这是因为帧率和车轮旋转速度之间的不匹配。