动手学高等数学


前言

这门课将帮你从编程的角度,重新学习微积分、线性代数、概率论、统计学······

有许多朋友一直在吐槽,我学了一系列模型,基础知识能够娓娓道来,结果到比赛才发现学习和实践的内容难以衔接,压根就不会求解。

这样的困难我们也曾遇到过,在我们学习的理论和真实实践之间存在一座看不见的桥梁,因此,在这门课中,我们将带领你从最熟悉的高等数学出发,(如果你忘了也没事)我们会从实战的角度出发,只讲最有用的知识,一步步带领你从理论到Python实现。结合实践讲解每一步代码的逻辑,让你彻底了解你曾经学过的数学工具,并从根源上消除理论与实践的鸿沟!


一、以微分初步知识及梯度下降算法解决最优化问题

牛刀小试 : GitModel 公司发明了一种专用于数值计算的平板电脑 GitNum, 考虑到员工生产效率的问题, GitNum 的生产成本是与生产台数相关的. 函数关系为 C ( n ) = 1250 n ( 2 − e − ( n − 5000 ) 2 ) . C(n)=1250n(2-e^{-(n-5000)^2}). C(n)=1250n(2e(n5000)2). 请问如何确定这批 GitNum 的生产台数使得每台的平均生产成本最小,使得经济效益最大呢?
分析解决 : 要求平均生产成本最小, 本质上就是求平均成本函数 C ‾ ( n ) = C ( n ) n \overline{C}(n)=\dfrac{C(n)}{n} C(n)=nC(n)的最小值. 事实上, 初中我们就经常接触类似的最值问题, 只不过所谓的目标函数往往是最简单的二次函数. 而在高中之后我们学习了求导工具之后发现对任意可导的函数我们都可以探究其导数异号零点来确定其极值点.

诚然, 仅仅是导数零点并不足以说明其就是极值点, 如下图的函数 y = x 3 y = x^3 y=x3, 我们发现 x = 0 x=0 x=0是其导数零点但在图像上仅仅只是函数的一个“拐点”.
在这里插入图片描述
这是因为导函数 y ′ = 3 x 2 y′ = 3x^2 y=3x2 在导数零点 x = 0 x=0 x=0处仅仅是“切过” x x x 轴而非“穿过” x x x轴! 而分析学告诉我们, 导函数 f f f 在零点 x 0 x_0 x0 处 “穿过” x x x 轴的图像性质本质上就是 f f f在零点处附近是单调的, 亦即二阶导函数 (导数的导数) f ′ ′ ( x 0 ) > 0 f''(x_0)>0 f(x0)>0 f ′ ′ ( x 0 ) < 0 f''(x_0)<0 f(x0)<0!

在这里插入图片描述
回到问题上来 , , , 要求 C ‾ ( n ) \overline{C}(n) C(n) 的极值点 , , , 我们首先需要求出导函数 C ‾ ′ ( n ) \overline{C}'(n) C(n) 的零点 n 0 , n_0, n0, 如果 C ‾ ′ ′ ( n 0 ) > 0 , \overline{C}''(n_0)>0, C(n0)>0, 那么 n 0 n_0 n0 即为 C ‾ ( n ) \overline{C}(n) C(n) 的极小值点.

代码如下 :

from sympy import *

n = symbols('n')
y = 1250*(2-exp(-(n-5000)**2))

func1 = diff(y,n) # 求导数
func1
-1250*(-2*n + 10000)*exp(-(n - 5000)**2)
stag = solve(diff(y,n),n)
print("该函数驻点为",stag) # 计算驻点
该函数驻点为 [5000]
# 计算二阶导数
func2 = diff(y, n, 2) # 求导数
func2
2500*(-2*(n - 5000)**2 + 1)*exp(-(n - 5000)**2)
# 计算驻点的二阶导数值,验证正负
print(func2.evalf(subs = {n:5000}))
func2.evalf(subs = {n:5000}) > 0
2500.00000000000
True
# 函数的极小值
y.evalf(subs = {n:5000})
1250.00000000000

经验证 , , , n 0 = 5000 n_0=5000 n0=5000 确实为 C ‾ ( n ) \overline{C}(n) C(n) 的极小值点 , , , 即第一批 GitNum 生产台数计划为 5000 5000 5000 台时平均成本最小 , , , 1250 1250 1250 元/台.
抽象提炼 : 数学建模中 , , , 优化问题是渗透到各个方面的 , , , 小到最优参数的确定 , , , 大到最优策略的规划. 每一个优化问题都可以以如下标准形式给出 :
max ⁡ f ( x ) \max f(x) maxf(x)

s . t . { g i ( x ) ⩾ 0 , i = 1 , 2 , ⋯   , n h j ( x ) = 0 , j = 1 , 2 , ⋯   , m \mathrm{s.t.} \begin{cases} g_i(x)\geqslant 0,i=1,2,\cdots,n\\ h_j(x)=0,j=1,2,\cdots,m \end{cases} s.t.{gi(x)0,i=1,2,,nhj(x)=0,j=1,2,,m
其中 f ( x ) f(x) f(x) 即是我们需要求最值的函数 , , , x x x 是我们用来“决策”的变量. g i ( x ) ⩾ 0 , h j ( x ) = 0 g_i(x)\geqslant 0,h_j(x)=0 gi(x)0,hj(x)=0 分别是决策变量 x x x 满足的条件 , , , 即决策变量 x x x 的约束. 当决策变量 x x x 没有约束时 , , , 称为无约束优化问题.

上文即为一个最简单的无约束优化问题——目标函数有明确表达式, 二阶以上可导, 定义域离散程度不高 ( 往往生产一批产品的数量范围是足够大的以至于我们可以将离散的整数视为连续的 ). 对于这样的简单优化问题, 利用数学分析的知识可以做到精确的分析. 我们给出优化领域最经典也是最实用的判别条件.
命题1:[一阶最优化必要条件] f ( x ) f(x) f(x) R \mathbf{R} R 上的可导函数. 若 x ∗ x^* x f f f 的极值点则 f ′ ( x ∗ ) = 0 f'(x^*)=0 f(x)=0. 其中 f ′ f' f f f f 的一阶导数.
命题2:[二阶最优化必要条件] f ( x ) f(x) f(x) R \mathbf{R} R 上的可导函数. 若 x ∗ x^* x f f f 的极值点则
f ( x ) f(x) f(x) R \mathbf{R} R 上的二阶可导函数. 若 x ∗ x^* x f f f 的极大 ( ( ( ) ) )值点则 f ′ ( x ∗ ) = 0 f'(x^*)=0 f(x)=0, f ′ ′ ( x ∗ ) ⩽ 0 f''(x^*)\leqslant0 f(x)0 ( f ′ ′ ( x ∗ ) ⩾ 0 ) (f''(x^*)\geqslant 0) (f(x)0). 其中 f ′ ′ f'' f f f f 的二阶导数.
命题3:[二阶最优化充分条件] f ( x ) f(x) f(x) R \mathbf{R} R 上的二阶可导函数. 若 x ∗ x^* x 满足 f ′ ( x ∗ ) = 0 , f ′ ′ ( x ∗ ) < 0 ( f ′ ′ ( x ∗ ) > 0 ) , f'(x^*)=0,f''(x^*)<0 (f''(x^*)>0), f(x)=0,f(x)<0(f(x)>0), x ∗ x^* x f f f 的极大 ( ( ( ) ) )值点.
小有所成 : GitModel 公司通过 GitNum 的发售赚到第一桶金后马不停蹄地投入到 GitNum 的改良研制中, 经市场调查后 GitModel 公司发现根据用户需求可推出轻便版以及高性能版的 GitNum. 三种 GitNum 的生产成本函数以及预计售价
分别如下表:
在这里插入图片描述
在这一批生产中, GitModel 公司应该制定怎么样的生产计划即三种 GitNum 的生产台数才能使得利润与成本的比值最大化?

分析解决 : 我们把三种 GitNum 的生产台数按上表顺序标记序号 n i , i = 1 , 2 , 3 , n_i,i=1,2,3, ni,i=1,2,3, 分别用 R , Q , C R,Q,C R,Q,C 来代表收入 , , , 利润以及成本. 问题旨在求出利润/成本 r = Q C r=\dfrac{Q}{C} r=CQ 的最大值 , , , 而我们需要同时考虑三种 GitNum 的生产台数 , , , 也就是说 , , , 需要求极值的函数 r r r n 1 , n 2 , n 3 n_1,n_2,n_3 n1,n2,n3 的多元函数!
我们逐步将各种函数列出来以得到目标函数 Q C , \dfrac{Q}{C}, CQ, 总收入函数为 R ( n 1 , n 2 , n 3 ) = 2000 n 1 + 3000 n 2 + 4500 n 3 , R(n_1,n_2,n_3)=2000n_1+3000n_2+4500n_3, R(n1,n2,n3)=2000n1+3000n2+4500n3,
总成本函数为
C ( n 1 , n 2 , n 3 ) = 750 n 1 ( 2 − e − ( n 1 − 6000 ) 2 ) + 1250 n 2 ( 2 − e − ( n 2 − 5000 ) 2 ) + 2000 n 3 ( 2 − e − ( n 3 − 3000 ) 2 ) , C(n_1,n_2,n_3)=750n_1(2-e^{-(n_1-6000)^2})+1250n_2(2-e^{-(n_2-5000)^2})+2000n_3(2-e^{-(n_3-3000)^2}), C(n1,n2,n3)=750n1(2e(n16000)2)+1250n2(2e(n25000)2)+2000n3(2e(n33000)2),
总利润函数为
Q ( n 1 , n 2 , n 3 ) = R ( n 1 , n 2 , n 3 ) − C ( n 1 , n 2 , n 3 ) , Q(n_1,n_2,n_3)=R(n_1,n_2,n_3)-C(n_1,n_2,n_3), Q(n1,n2,n3)=R(n1,n2,n3)C(n1,n2,n3),
所以总利润与总成本比值为
r ( n 1 , n 2 , n 3 ) = R ( n 1 , n 2 , n 3 ) − C ( n 1 , n 2 , n 3 ) C ( n 1 , n 2 , n 3 ) = R ( n 1 , n 2 , n 3 ) C ( n 1 , n 2 , n 3 ) − 1 = 2000 n 1 + 3000 n 2 + 4500 n 3 750 n 1 ( 2 − e − ( n 1 − 6000 ) 2 ) + 1250 n 2 ( 2 − e − ( n 2 − 5000 ) 2 ) + 2000 n 3 ( 2 − e − ( n 3 − 3000 ) 2 ) − 1 r(n_1,n_2,n_3)=\dfrac{R(n_1,n_2,n_3)-C(n_1,n_2,n_3)}{C(n_1,n_2,n_3)}\\ =\dfrac{R(n_1,n_2,n_3)}{C(n_1,n_2,n_3)}-1\\ =\dfrac{2000n_1+3000n_2+4500n_3}{750n_1(2-e^{-(n_1-6000)^2})+1250n_2(2-e^{-(n_2-5000)^2})+2000n_3(2-e^{-(n_3-3000)^2})}-1 r(n1,n2,n3)=C(n1,n2,n3)R(n1,n2,n3)C(n1,n2,n3)=C(n1,n2,n3)R(n1,n2,n3)1=750n1(2e(n16000)2)+1250n2(2e(n25000)2)+2000n3(2e(n33000)2)2000n1+3000n2+4500n31.
优化问题即为
max ⁡ n 1 , n 2 , n 3 ⩾ 1 r ( n 1 , n 2 , n 3 ) . \max\limits_{n_1,n_2,n_3\geqslant 1}r(n_1,n_2,n_3). n1,n2,n31maxr(n1,n2,n3).

依样画葫芦 , , , 该问题不过是第一个问题的变量 Plus 版 , , , 我们仍然可以采用研究导数以及二阶导数性态的方式去求出极大值组合 ( n 1 ∗ , n 2 ∗ , n 3 ∗ ) . (n_1^*,n_2^*,n_3^*). (n1,n2,n3).
那有的同学可能就会问了 : 一元函数分析跟多元函数分析有什么区别呢?

在多元函数 f f f , , , 我们只能对单个变量 x x x 求偏导数 f x , f_x, fx, 这远远不足以刻画导数的全部信息. 所以 , , , 梯度 ( ( (全导数 ) ) ) 以及 Hesse 矩阵的概念替代了一元函数中导数以及二阶导数.
定义1:[Hesse 矩阵] f : R n → R f:\mathbf{R}^n\to R f:RnR n n n 元函数 , , , x i , i = 1 , 2 , ⋯   , n x_i,i=1,2,\cdots,n xi,i=1,2,,n 是变量.

f f f 对变量 x i x_i xi 方向的偏导数为 f i ′ , f'_i, fi, 称所有偏导数组成的列向量 [ f 1 ′ , f 2 ′ , ⋯   , f n ′ ] T : = ∇ f , [f_1',f_2',\cdots,f_n']^T := \nabla f, [f1,f2,,fn]T:=f, 为函数 f f f 的全导数 , , , 亦称梯度.

记偏导数 f i ′ f_i' fi 对变量 x j x_j xj 方向的二阶偏导数为 f i j ′ ′ f''_{ij} fij n × n n\times n n×n 方阵 [ f 11 ′ ′ f 12 ′ ′ ⋯ f 1 n ′ ′ f 21 ′ ′ f 22 ′ ′ ⋯ f 1 n ′ ′ ⋮ ⋮ ⋱ ⋮ f n 1 ′ ′ f n 2 ′ ′ ⋯ f n n ′ ′ ] : = ∇ 2 f , \begin{bmatrix} f''_{11}&f''_{12}&\cdots & f''_{1n}\\ f''_{21}&f''_{22}&\cdots & f''_{1n}\\ \vdots&\vdots&\ddots &\vdots\\ f''_{n1}&f''_{n2}&\cdots & f''_{nn}\\ \end{bmatrix} := \nabla^2 f, f11f21fn1f12f22fn2f1nf1nfnn:=2f,
为函数 f f f Hesse 矩阵.
在推广最优化条件之前 , , , 我们先从直观上进行条件的表述. 如下图:
在这里插入图片描述
在这里插入图片描述
从上图我们不难猜测
在这里插入图片描述
事实上 , 通过 Taylor 展开我们即可验证猜想的正确性 , 理论证明不难而繁 , 我们只保留最精华实用的命题 : 最优化条件对应的多元函数版本则如下 :
命题4:[多元无约束问题一阶最优化必要条件] f ( x ) f(x) f(x) R n \mathbf{R}^n Rn 上的 n n n 元可导函数. 若 x ∗ x^* x f f f 的极值点则 ∇ f ( x ∗ ) = 0. \nabla f(x^*)=0. f(x)=0.其中 ∇ f \nabla f f f f f 的梯度.
命题5:[多元无约束问题二阶最优化必要条件] f ( x ) f(x) f(x) R n \mathbf{R}^n Rn 上的 n n n 元二阶可导函数. 若 x ∗ x^* x f f f 的极大 ( ( ( ) ) )值点则 ∇ f ( x ∗ ) = 0 , ∇ 2 f ( x ∗ )  半负定  ( ∇ 2 f ( x ∗ )  半正定 ) , \nabla f(x^*)=0,\nabla^2 f(x^*) \ \text{半负定} \ (\nabla^2 f(x^*)\ \text{半正定}), f(x)=0,2f(x) 半负定 (2f(x) 半正定),其中 ∇ 2 f \nabla^2 f 2f f f f 的 Hesse 矩阵.
命题6:[多元无约束问题二阶最优化充分条件] f ( x ) f(x) f(x) R n \mathbf{R}^n Rn 上的 n n n 元二阶可导函数. 若 x ∗ x^* x 满足 ∇ f ( x ∗ ) = 0 , ∇ 2 f ( x ∗ )  负定  ( ∇ 2 f ( x ∗ )  正定 ) , \nabla f(x^*)=0,\nabla^2 f(x^*) \ \text{负定} \ (\nabla^2 f(x^*)\ \text{正定}), f(x)=0,2f(x) 负定 (2f(x) 正定), x ∗ x^* x f f f 的极大 ( ( ( ) ) )值点.
而代数学的知识告诉我们,验证一个对称矩阵是否正(负)定只需要 check 其所有特征值是否大(小)于0.

所以 , , , 要制定最佳的生产计划 ( n 1 ∗ , n 2 ∗ , n 3 ∗ ) (n_1^*,n_2^*,n_3^*) (n1,n2,n3) 使得利润与成本比值最大 , , , 即求解问题(2) , , , 只需要求出 3 3 3元方程组
∇ r = 0 \nabla r=0 r=0
的解集 , , , 再挑出解集中使得 ∇ 2 r \nabla^2 r 2r 负定的解 , , , 这就是我们的最佳生产计划 ( n 1 ∗ , n 2 ∗ , n 3 ∗ ) (n_1^*,n_2^*,n_3^*) (n1,n2,n3)!

最优化条件给出了这样一个基本事实 : 不管函数 f f f 表达式复杂与否 , , , 只要二阶以上可导 , , , 我们只需要找出满足 Hesse 矩阵 ∇ 2 f \nabla ^2f 2f 半负定 ( ( (半正定 ) ) )的梯度零点 , , , 极大 ( ( ( ) ) )值点必定存在其中!

趁热打铁 : 这时喜欢思考的同学就会问了 , , , 老师 , , , 既然我们求极值要通过求解梯度方程 ∇ f = 0 , \nabla f=0, f=0, 那么变量一旦多起来 , , , 求解方程组的难度也会迅速上升 , , , 并且还存在方程无法求解的问题 ( ( (比如超越方程 ln ⁡ x + x − 3 = 0 ) , \ln x+x-3=0), lnx+x3=0), 这个时候怎么办呢?

虽然抽象的理论只能提供许多“理论上可行”的解决方式 , , , 但俗话说的好 , , , 车到山前必有路 , , , 方程求解不出来 , , , 我们能不能找到近似解呢? 计算机说 , , , 退!退! 退!

其实 , , , 现实生活中我们遇到的许多优化问题需要解的方程都是超越方程 , , , 早已超出人力计算的范畴 , , , 而我们衍生的许多数值计算方法就是为了求出这类方程的近似解的. 优化问题中一个最经典的求极值算法便是针对优化条件4发明的梯度下降法——通过迭代的方式找到一列梯度递减的点,当点的 梯度下降的足够接近 0 0 0 时便可认为该点即是极值的候选之一.
下面我们介绍如何使用scipy求解多元函数的极值

import scipy.optimize as opt
from scipy import fmin
import numpy as np
def func0(cost, x, a):
    return cost*x*(2 - exp(-(x - a)**2))
func = lambda x: (2000*x[0] + 3000*x[1] + 4500*x[2]) / (func0(750, x[0], 6000) + func0(1250, x[1], 5000) + func0(2000, x[2], 3000)) - 1 
bnds = ((1, 10000), (1, 10000), (1, 10000))
res = opt.minimize(fun=func, x0=np.array([2, 1, 1]), bounds=bnds)
res
 fun: 0.126003456985265
 hess_inv: <3x3 LbfgsInvHessProduct with dtype=float64>
      jac: array([ 6.24167384e-04,  3.71258579e-04, -8.06021916e-06])
  message: b'CONVERGENCE: NORM_OF_PROJECTED_GRADIENT_<=_PGTOL'
     nfev: 64
      nit: 15
   status: 0
  success: True
        x: array([  1.        ,   1.        , 123.56936554])

二、以插值知识解决数据处理问题

牛刀小试 : GitModel 公司工作室刚刚建完, 准备安装宽带以及路由, 基于传输数据要求, GitModel 需要的宽带运营商网速越快越好, 而由于网速是一个随时间变化的非固定量, 简单衡量平均网速也并非一个好的评价手段, GitModel 准备收集在同一个地点各个运营商的宽带一天内的网速数据以做接下来的建模分析, 出于人力考虑, 网速监视每小时汇报一次数据. A 运营商的宽带 24 小时网速如下表 :
在这里插入图片描述
然而, 应该注意到离散的数据点无法完美体现网速的整体性质, 我们需要通过仅有的数据点还原宽带一天内的实时网速. 以 A 运营商为例, 请问 GitModel公司应如何“模拟”出网速曲线呢?
分析解决 : 该问题就是需要找出一条经过上表 24 24 24 个点 ( t i , s i ) , i = 1 , 2 , ⋯   , 24 (t_i,s_i),i=1,2,\cdots,24 (ti,si),i=1,2,,24 的曲线 s = s ( t ) , s=s(t), s=s(t), 我们自然会问 , , , 那怎么构造 s ( t ) s(t) s(t) 合适呢? 又应该怎么说明构造的 s ( t ) s(t) s(t) 能有较好的模拟效果呢?

我们接着往下分析 : 由于宽带用户千千万万 , , , 大基数导致了使用宽带的用户数关于时间 t t t 的变化是近似连续的 , , , 从而网速 s ( t ) s(t) s(t) 可以假设为 t t t 的连续函数 , , , 更甚之 , , , 可以假设为斜率以及曲率 s ′ ( t ) , s ′ ′ ( t ) s'(t),s''(t) s(t),s(t) 连续! 我们将 s ( t ) s(t) s(t) 的满足条件罗列如下 :

  • s ( t ) s(t) s(t) 24 24 24 个数据点 s i = s ( t i ) , i = 1 , 2 , ⋯   , 24. s_i=s(t_i),i=1,2,\cdots,24. si=s(ti),i=1,2,,24.
  • s ( t ) s(t) s(t) 连续.
  • s ′ ( t ) s'(t) s(t) 连续.
  • s ′ ′ ( t ) s''(t) s(t) 连续.

s ( t ) s(t) s(t) 应该满足的条件暂且如此 , , , 我们再进行思考 : 有什么构造 s ( t ) s(t) s(t) 方式是比较简单的呢?

在高中我们就已经学过了给定一组数据点可通过最小二乘法来拟合出一条回归直线 , , , 诚然 , , , 两点一直线的数学直觉告诉我们能过 24 24 24 个数据点的直线几乎不存在 , , , 那么我们可否放宽条件 , , , 构造出过 24 24 24 个数据点的折线呢? 这显然是可以的! 过数据点的条件可由分段函数来解决.

用数学的语言 , , , 即分别在每一个区间 [ t i , t i + 1 ] , i = 1 , 2 , ⋯   , 23 [t_i,t_{i+1}],i=1,2,\cdots,23 [ti,ti+1],i=1,2,,23 上以 ( t i , s i ) , ( t i + 1 , s i + 1 ) (t_i,s_i),(t_{i+1},s_{i+1}) (ti,si),(ti+1,si+1) 为两端构造线段 s i ( t ) = k i t + b i , t ∈ [ t i , t i + 1 ] , i = 1 , 2 , ⋯   , 23 , s_{i}(t)=k_it+b_i,t\in [t_i,t_{i+1}],i=1,2,\cdots,23, si(t)=kit+bi,t[ti,ti+1],i=1,2,,23, 其中 k i , b i k_i,b_i ki,bi 为参数 , , , 但确定 k i , b i k_i,b_i ki,bi 对我们来说也是小菜一碟的. 具体构造如下图 :
在这里插入图片描述
对比 s ( t ) s(t) s(t) 要满足的条件 , , , 折线的构造方式显然满足了前两个条件 , , , 我们再结合上图进行思考 : 折线不满足 s ′ ( t ) s'(t) s(t) 连续是因为在数据点 ( t i , s i ) (t_i,s_i) (ti,si) 处不一定可导 , , , 即左右导数不相同 , , , 以此反推 , , , 我们希望构造出来的分段函数 s i ( t ) s_i(t) si(t) 们在“连接处” ( t i , s i ) , ( t i + 1 , s i + 1 ) (t_{i},s_i),(t_{i+1},s_{i+1}) (ti,si),(ti+1,si+1) 都应该有导数以及二阶导数相等. 现在 , , , 我们正式将条件写为数学形式 :
过点 : s i ( t i ) = s i , i = 1 , 2 , ⋯   , 23 , s 23 ( t 24 ) = s 24 s_{i}(t_i)=s_i,i=1,2,\cdots,23,s_{23}(t_{24})=s_{24} si(ti)=si,i=1,2,,23,s23(t24)=s24
分段连接 : s i ( t i + 1 ) = s i + 1 ( t i + 1 ) , i = 1 , 2 , ⋯   , 22 s_{i}(t_{i+1})=s_{i+1}(t_{i+1}),i=1,2,\cdots,22 si(ti+1)=si+1(ti+1),i=1,2,,22
斜率相等 : s i ( t i + 1 ) = s i + 1 ′ ( t i + 1 ) , i = 1 , 2 , ⋯   , 22 s_{i}(t_{i+1})=s_{i+1}'(t_{i+1}),i=1,2,\cdots,22 si(ti+1)=si+1(ti+1),i=1,2,,22
曲率相等 : s i ′ ′ ( t i + 1 ) = s i + 1 ′ ′ ( t i + 1 ) , i = 1 , 2 , ⋯   , 22 s_{i}''(t_{i+1})=s_{i+1}''(t_{i+1}),i=1,2,\cdots,22 si(ti+1)=si+1(ti+1),i=1,2,,22

那么 , , , 既然折线即分段一次函数不满足导数相等 , , , 从求导的难度上我们自然会考虑分段二次函数怎么样呢? Unfortunately , , , 分段二次函数满足了导数相等但二阶导数不相等 , , , 而按图索骥我们即知道分段三次函数即能满足我们对 s ( t ) s(t) s(t) 的所有期待!
分 段 直 线 构 造 ⟶ 解决 分段直线构造\stackrel{\text{解决}}{\longrightarrow} 线解决s(t) 过 24 个 数 据 点 且 连 续 过24个数据点且连续 24
分 段 抛 物 线 构 造 ⟶ 解决 分段抛物线构造\stackrel{\text{解决}}{\longrightarrow} 线解决s’(t) 连 续 连续
分 段 三 次 曲 线 构 造 ⟶ 解决 分段三次曲线构造\stackrel{\text{解决}}{\longrightarrow} 线解决s’'(t) 连 续 连续

构造出来的分段三次曲线如下 :
s i ( t ) = s i , 0 + s i , 1 t + s i , 2 t 2 + s i , 3 t 3 , i = 1 , 2 , ⋯   , 23 s_i(t)=s_{i,0}+s_{i,1}t+s_{i,2}t^2+s_{i,3}t^3,i=1,2,\cdots, 23 si(t)=si,0+si,1t+si,2t2+si,3t3,i=1,2,,23

2.5 2.5 2.5 应该满足 2.1 , 2.2 , 2.3 , 2.4 2.1, 2.2,2.3,2.4 2.1,2.2,2.3,2.4,一共是 90 90 90 条方程 , , , 而未知数有 92 92 92 , , , 事实上 , , , 仍需确定的只有起点 ( t 1 , s 1 ) (t_1,s_1) (t1,s1) ( t 24 , s 24 ) (t_{24},s_{24}) (t24,s24) 的二阶函数值 s 1 ′ ′ ( t 1 ) , s 23 ′ ′ ( t 24 ) . s_1''(t_1),s_{23}''(t_{24}). s1(t1),s23(t24).

我们这里假设 s 1 ′ ′ ( t 1 ) = s 23 ′ ′ ( t 24 ) = 0 , s_1''(t_1)=s_{23}''(t_{24})=0, s1(t1)=s23(t24)=0, 实际含义为在 0 : 00 ∼ 1 : 00 0:00\sim 1:00 0:001:00 处的网速变化应该逐渐变慢 , , , 那么便可以通过 2.1 , 2.2 , 2.3 , 2.4 2.1, 2.2,2.3,2.4 2.1,2.2,2.3,2.4 s 1 ′ ′ ( t 1 ) = s 24 ′ ′ ( t 24 ) = 0 s_1''(t_1)=s_{24}''(t_{24})=0 s1(t1)=s24(t24)=0 建立方程组求出 2.5 2.5 2.5 的所有未知数!

好事成双 , , , 思维敏捷的同学应该已经发现了 : 对于多项式函数 , , , 无论求多少阶导 , , , 都是 1 , t , t 2 , t 3 1,t,t^2,t^3 1,t,t2,t3 的线性组合! 而这即告诉我们需要解的方程组是一个线性方程组!
在这里插入图片描述
抽象提炼 : 我们将这种构造过数据点函数的过程称为插值, 在建模中常常用于数据的”补充”或者”还原”, 能有效解决建模中数据量过少的问题. 目前最通用的插值方式即上文提到的分段三次曲线构造, 亦称为三次样条插值. 由于我们接触的许多数据是具有某种意义上的”连续性”的, 而三次样条插值具有的最佳实用性质就是其”摆动极小”, 应用也就屡见不鲜了.

从上文我们知道如果有 n n n 个数据点 , , , 那么三次样条插值的未知数 ( ( (即多项式系数 ) ) )一共有 4 n 4n 4n 个而我们的条件所给出的方程只有 4 n − 2 4n-2 4n2 , , , 亦即还需要有 2 2 2 个条件诱导 2 2 2 条方程来解未知数 . . . 在本问题的最后我们给出三次样条插值的定义以及根据不同需求诱导的几种三次样条插值.

定义2:[插值] ( x i , y i ) , i = 1 , 2 , ⋯   , n (x_i,y_i),i=1,2,\cdots,n (xi,yi),i=1,2,,n R 2 \mathbf{R}^2 R2 上的 n n n 个点 , , , f : R → R f:\mathbf{R} \to \mathbf{R} f:RR 是一条满足 y i = f ( x i ) , i = 1 , 2 , ⋯   , n y_i=f(x_i),i=1,2,\cdots,n yi=f(xi),i=1,2,,n 的函数曲线 , , , f f f 称为 ( x i , y i ) (x_i,y_i) (xi,yi)插值曲线.
定义3:[三次样条插值] ( x i , y i ) , i = 1 , 2 , ⋯   , n (x_i,y_i),i=1,2,\cdots,n (xi,yi),i=1,2,,n R 2 \mathbf{R}^2 R2 上的 n n n 个点 , , , 其三次样条插值函数为 f i ( t ) = s i , 0 + s i , 1 t + s i , 2 t 2 + s i , 3 t 3 , i = 1 , 2 , ⋯   , n − 1 , f_i(t)=s_{i,0}+s_{i,1}t+s_{i,2}t^2+s_{i,3}t^3,i=1,2,\cdots, n-1, fi(t)=si,0+si,1t+si,2t2+si,3t3,i=1,2,,n1,
满足
f i ( x i ) = y i , i = 1 , 2 , ⋯   , n − 1 , f n − 1 ( x n ) = y n f_{i}(x_i)=y_i,i=1,2,\cdots,n-1,f_{n-1}(x_{n})=y_{n} fi(xi)=yi,i=1,2,,n1,fn1(xn)=yn
f i ( x i + 1 ) = y i + 1 ( x i + 1 ) , i = 1 , 2 , ⋯   , n − 2 f_{i}(x_{i+1})=y_{i+1}(x_{i+1}),i=1,2,\cdots,n-2 fi(xi+1)=yi+1(xi+1),i=1,2,,n2
f i ′ ( x i + 1 ) = y i + 1 ′ ( x i + 1 ) , i = 1 , 2 , ⋯   , n − 2 f_{i}'(x_{i+1})=y_{i+1}'(x_{i+1}),i=1,2,\cdots,n-2 fi(xi+1)=yi+1(xi+1),i=1,2,,n2
f i ′ ′ ( x i + 1 ) = y i + 1 ′ ′ ( x i + 1 ) , i = 1 , 2 , ⋯   , n − 2. f_{i}''(x_{i+1})=y_{i+1}''(x_{i+1}),i=1,2,\cdots,n-2. fi(xi+1)=yi+1(xi+1),i=1,2,,n2.
在这里插入图片描述
其中 h i = x i + 1 − x i , d i = y i + 1 − y i x i + 1 − x i , i = 1 , 2 , ⋯   , n − 1. h_i=x_{i+1}-x_i,d_i=\dfrac{y_{i+1}-y_i}{x_{i+1}-x_i},i=1,2,\cdots,n-1. hi=xi+1xi,di=xi+1xiyi+1yi,i=1,2,,n1.

三、以积分知识解决工程问题

牛刀小试 : 鉴于 GitModel 公司刚上市 , 承接了许多数学建模相关业务. 有一家工程企业给出了这样一个任务 : 该企业准备制造一批抽水机 , 需要得到其各种数据来决定抽水机的性能参数. 企业首先对圆柱形的储水桶进行了抽水测试 , 需要求出将桶内的水全部抽出需要做多少功?
在这里插入图片描述

储水桶的数据如下 : 高 5m , 底面圆半径 3m.
分析解决 : 为了将水抽出来 , 抽水机只需要施加与水相同的重力 𝐺 即可. 然而 , 如图所示 , 不同水平面上抽水的位移是不同的 , 这导致我们无法将整桶水看作一个质点 , 自然无法用高中物理的做功计算求出数值.

不同平面位移不同
在这里插入图片描述

老师 , , , 我只知道高中物理的方法 , , , 能不能改进高中物理方法来解决这个问题呢: 整桶水无法看作一个质点 , , , 那能否将整桶水看作 n n n 个单位质点呢?

众所周知 , , , 水桶中的水是连续的整体 , , , 如果我们将水分割成 n n n 个单位 , , , 那么求出来的数值只是一个近似 , , , 不过当 n n n 越来越大时 , , , 误差就会越来越小!

由于抽水过程水的位移只有垂直方向 , , , 我们从高到低将水有序分割成 n n n 个单位 , , , 每个单位都是一个小型水柱 , , , 长为 h i = 5 n m , h_i=\dfrac{5}{n} \mathrm{m}, hi=n5m, 简易计算可知单位重力为 G i = ρ V i g = ρ g r 2 π h i = 441 π n N . G_i=\rho V_ig=\rho gr^2\pi h_i=\dfrac{441\pi}{n} \mathrm{N}. Gi=ρVig=ρgr2πhi=n441πN. 水柱的重心在体心 , , , 那么抽第 i i i 个单位的水需要的位移是 x i = 5 i n m . x_i=\dfrac{5i}{n}\mathrm{m}. xi=n5im. 所以抽水做功的近似值就是对数列 G i x i G_ix_i Gixi 的前 n n n 项求和

W ≈ ∑ i = 1 n G i x i = 441 π n ∑ i = 1 n 5 i n = 441 π 5 n + 5 2 n = 1102.5 π + 5 π 2 n . W\approx \sum_{i=1}^nG_ix_i=\dfrac{441\pi}{n}\sum_{i=1}^n\dfrac{5i}{n}=441\pi\dfrac{5n+5}{2n}=1102.5\pi+\dfrac{5\pi}{2n}. Wi=1nGixi=n441πi=1nn5i=441π2n5n+5=1102.5π+2n5π.

n n n 越来越大时 , , , 误差项 5 π 2 n \dfrac{5\pi}{2n} 2n5π 就会越来越小 , , , 我们有理由猜测抽水做功 W W W 就是 1102.5 π ≈ 3463 J 1102.5\pi\approx 3463 \mathrm{J} 1102.5π3463J !

老师 , , , 那只是我们的猜测 , , , 有没有更精确的方法呢?

当然有! 事实上 , , , 我们能分割水柱是因为每个单位水柱中所有水的位移近似相同 , , , 当分割当什么程度时单位中所有水的位移是相同的呢 : 分割至质点大小的时候 , , , 如图所示 , , , 这时每个单位水柱的位置及其位移可以用距离桶底的高度 h h h 来完美表达! 这便是高中物理常用的微元法 , , , 而此时数列求和即变为积分!
在这里插入图片描述
单 位 长 度 ⟶ n 越来越大 长 度 微 分 d h , 单位长度\stackrel{n \text{越来越大}}{\longrightarrow}长度微分dh, n越来越大dh,
单 位 重 力 ⟶ n 越来越大 重 力 微 分 d G = ρ g r 2 π d h = 88.2 π d h , 单位重力\stackrel{n \text{越来越大}}{\longrightarrow}重力微分dG=\rho g r^2\pi dh=88.2\pi dh, n越来越大dG=ρgr2πdh=88.2πdh,
单 位 位 移 ⟶ n 越来越大 位 移 函 数 x ( h ) = 5 − h , 单位位移\stackrel{n \text{越来越大}}{\longrightarrow}位移函数x(h)=5-h, n越来越大x(h)=5h,
做 功 总 和 ⟶ n 越来越大 做 功 积 分   ∫ 0 5 x ( h ) d G = ∫ 0 5 88.2 π ( 5 − h ) d h . 做功总和\stackrel{n \text{越来越大}}{\longrightarrow}做功积分\ \displaystyle\int_{0}^5 x(h)dG =\displaystyle\int_{0}^5 88.2\pi (5-h)dh. n越来越大 05x(h)dG=0588.2π(5h)dh.

利用python进行数值计算得:

from scipy import integrate # 已知函数表达式积分
from scipy import pi
def f(h):
    '''
    定义函数表达式.
    '''
    return 88.2 * pi * (5 - h)
v, err = integrate.quad(f, 0, 5) # 被积函数与积分区间
v
3463.605900582747

抽象提炼 : 本质上, 微元法其实就是分析学中积分的应用 : 将连续变化的函数 (变力做功, 恒力变位移做功, 连续型随机变量期望值等等连续物理量) 先微分再积分得到相关量, 这在处理非离散或离散程度小的建模问题中尤为常见.

小有所成 : 紧接着 GitModel 公司又接到另一家工程企业的任务 : 由于吊桥的年久失修导致一些铁链生锈而质量发生了改变 , , , 为保证安全必须重新测量铁链的总体质量 , , , 而体积巨大难以拆卸重组的铁链无法直接测量其质量 , , , 仅能靠检测每块铁环的质量来估计整体变化的质量 , , , 然而逐块检测是一项巨大的工程 , , , 需要耗费巨额的时间与人力.

据专家分析 , , , 若以桥梁中心为原点建立空间坐标系 , , , 铁链的 y y y 轴坐标可以近似相同. 铁链上每块铁环的密度仅与其所处的横向距离以及海拔 ( x , z ) (x,z) (x,z) 有关 , , , 经数值拟合可得到密度 ( k g / m 3 ) (\mathrm{kg}/\mathrm{m}^3) (kg/m3) 与位置 ( m ) (\mathrm{m}) (m) 的函数为
ρ ( x , z ) = 7860 ( 1 + 1. 5 2 − z 10 − 0.1 ( x 50 ) 2 ) \rho(x,z)=7860\left(1+1.5^{2-\frac{z}{10}-0.1\left(\frac{x}{50}\right)^2}\right) ρ(x,z)=7860(1+1.5210z0.1(50x)2) 及铁链的垂直面曲线方程为
z = 30 cosh ⁡ x 300 , z=30\cosh \dfrac{x}{300}, z=30cosh300x, 铁环是圆柱形的 , , , 半径为 r = 0.15 m r=0.15 \mathrm{m} r=0.15m. GitModel 公司如何通过不直接检测的方式来估计铁链的质量呢?
在这里插入图片描述
在这里插入图片描述
分析解决 : 我们发现 , , , 这其实也是类似于上文问题的离散程度小的问题 ( ( (因为铁链的铁环数足够多使得我们可以近似于连续问题 ) , ), ), 每块铁环可以当作圆柱形状的微元 , , , 其具有密度与位置的函数 ρ ( x , z ) , \rho(x,z), ρ(x,z), 长度微分 d s ds ds 以及体积微分 d V dV dV 那么我们同样可以应用积分来求出质量.

那么该问题是否可以照搬上文的方法呢? 我们接着往下分析两个问题的不同. 应该注意到 : 第一个问题是位移在垂直直线上的分布, 而该问题是密度 ( ( (质量 ) ) ) 在曲线上的分布 , , , 这代表着我们无法通过常规积分的方式来求 , , , 因为我们的坐标轴不是一条直线!

当然 , , , 分析学同样提供了在曲线上的积分方式 , , , 我们称为曲线积分. 本问题就是一个经典的第一型曲线积分问题——知道曲线上每个点 ( x , z ) (x,z) (x,z) 上的分布函数 ρ ( x , z ) , \rho(x,z), ρ(x,z), 求曲线的质量 M = ∫ L m ( x , z ) d s , M=\displaystyle\int_L m(x,z)ds, M=Lm(x,z)ds, 其中 , , , 类似于我们对坐标 x x x 做微分 d x , dx, dx, 曲线上的坐标可以用长度来表示 , , , 所以我们对曲线的长度做了微分 d s ds ds 后进行积分处理. 与直线积分有所不同的是 , , , 我们无法以曲线为轴 , , , 但仍然可以将曲线放在坐标系中 , , , 此时由勾股定理我们可以求出长度微分的表达式 , , , 如下 :
单位长度  s i = x i 2 + z i 2 → 分割越来越细长度微分  d s = ( d x ) 2 + ( d z ) 2 , \text{单位长度} \ s_i=\sqrt{x_i^2+z_i^2} \rightarrow{\text{分割越来越细}} \text{长度微分} \ ds=\sqrt{(dx)^2+(dz)^2}, 单位长度 si=xi2+zi2 分割越来越细长度微分 ds=(dx)2+(dz)2 ,
单位体积  V i = s i r 2 π → 分割越来越细体积微分  d V = r 2 π d s \text{单位体积} \ V_i=s_ir^2\pi \rightarrow{\text{分割越来越细}} \text{体积微分} \ dV=r^2\pi ds 单位体积 Vi=sir2π分割越来越细体积微分 dV=r2πds,
单位质量  m i = ρ ( x , z ) V i → 分割越来越细质量函数  ρ ( x , z ) d V , \text{单位质量} \ m_i=\rho(x,z)V_i\rightarrow{\text{分割越来越细}} \text{质量函数} \ \rho(x,z) dV, 单位质量 mi=ρ(x,z)Vi分割越来越细质量函数 ρ(x,z)dV,
总质量  ∑ i = 1 n ρ ( x i , z i ) V i → 分割越来越细质量积分  ∫ L ρ ( x , z ) d V = ∫ L ρ ( x , z ) r 2 π d s . \text{总质量} \ \sum_{i=1}^{n}\rho(x_i,z_i)V_i \rightarrow{\text{分割越来越细}} \text{质量积分}\ \displaystyle\int_L \rho(x,z) dV=\displaystyle\int_L \rho(x,z)r^2\pi d s. 总质量 i=1nρ(xi,zi)Vi分割越来越细质量积分 Lρ(x,z)dV=Lρ(x,z)r2πds.
注: ρ ( x , z ) \rho(x,z) ρ(x,z) 恒等于 1 1 1 , , , 事实上就是在求曲线的长度.

在进行铁链质量数值估算之前 , , , 我们先给出第一型曲线积分的计算方式. 往往我们计算曲线积分需要知道曲线 L L L 的参数方程 x = x ( t ) , z = z ( t ) x=x(t),z=z(t) x=x(t),z=z(t) 以及参数 t t t 的取值范围 [ a , b ] [a,b] [a,b]. 问题中提到铁链的近似方程为 z = 30 cosh ⁡ x 300 , z=30\cosh \dfrac{x}{300}, z=30cosh300x, 也就是说 , , , 铁链曲线的参数方程可用 x x x 作为参数 , , , 其范围是 [ − 300 , 300 ] , [-300,300], [300,300], 我们将铁链曲线方程写成如下参数形式 :

{ z ( x ) = 30 cosh ⁡ x 300 x ( x ) = x , x ∈ [ − 300 , 300 ] \begin{cases} z(x)=30\cosh \dfrac{x}{300}\\ x(x)=x\\ \end{cases},x\in [-300,300] {z(x)=30cosh300xx(x)=x,x[300,300] 那么 , , , 铁链的质量可由如下曲线积分计算方式给出 :

定义4:[第一型曲线积分的计算方式] 设平面曲线 L L L 的参数方程为 x = x ( t ) , z = z ( t ) , t ∈ [ a , b ] , x=x(t),z=z(t),t\in [a,b], x=x(t),z=z(t),t[a,b], ρ ( x , z ) \rho(x,z) ρ(x,z) 为定义在 L L L 上的连续函数 , , , ∫ L ρ ( x , z ) d s = ∫ a b ρ ( x ( t ) , z ( t ) ) ( x ′ ( t ) ) 2 + ( z ′ ( t ) ) 2 d t . \displaystyle\int_{L}\rho(x,z)d s=\displaystyle\int_{a}^b\rho(x(t),z(t))\sqrt{(x'(t))^2+(z'(t))^2}d t. Lρ(x,z)ds=abρ(x(t),z(t))(x(t))2+(z(t))2 dt.

我们代入问题给出的方程 ρ ( x , z ) , z ( x ) \rho(x,z),z(x) ρ(x,z),z(x) 以及铁环半径 r = 0.15 m 3 r=0.15 \mathrm{m}^3 r=0.15m3 即可得到铁链的总质量计算式为
11.79 ∫ − 300 300 ( 1 + 1. 5 2 − 3 cosh ⁡ x 300 − 0.1 ( x 50 ) 2 ) 100 + sinh ⁡ 2 x 300 d x . 11.79\displaystyle\int_{-300}^{300}\left(1+1.5^{2-3\cosh\frac{x}{300}-0.1\left(\frac{x}{50}\right)^2}\right)\sqrt{100+\sinh^2\dfrac{x}{300}}dx. 11.79300300(1+1.523cosh300x0.1(50x)2)100+sinh2300x dx.

下面给出第一型曲线积分python代码,铁链质量的估算值为 98635   t 98635 ~\mathrm{t} 98635 t

# 第一型曲线积分
from scipy import sinh, cosh, sqrt
def f(x):
    index1 = (2 - 3 * cosh(x/300) - 0.1 * ((x/50)**2))
    return (1 + 1.5 ** index1) * sqrt(100 + (sinh(x/300))**2)

v, err = integrate.quad(f, -300, 300)
v * 11.79
98635.09908278256

发散思维 : 有了直线积分, 曲线积分, 我们自然会问 : 有没有平面积分以及曲面积 分呢? 当然! 事实上, 由于我们还会接触变力曲线做功, 这代表在每个点上的分布 函数不再是标量函数而是向量函数! 分析学还给出了第二类曲线积分以及曲面积分.

在这里插入图片描述
深入思考 : 有一位爱钻牛角尖的同学发出了提问——老师 , 这样的方法还是太“数学”了 , 并且理想很丰满 , 现实很骨感 , 万一没有函数表达式呢?又万一有函数表达式但积分太难算了呢?

别急 , 数学家也想到了应用性的问题 , 理论总是要落地的嘛! 所以有了计算机之后 , 许多数值计算的方法也被发明了出来 , 其中就包括了数值积分的方法——计算机可以通过数值方法对许多不连续函数甚至是无法写出表达式的函数进行积分!

实战项目—人口增长问题

GitModel 公司对面试的实习生给出了这样一个问题 : 搜集 1950∼2020 年间美国人口数据 , 猜测其满足的函数关系 , 并综合数据预测美国 2030 年的人口数.

公司希望实习生就以下的开放性问题给出自己的想法,公司要求实习生提交预测的思路 , 模型 , 算法以及结果.

面试官给出了如下提示 : 预测值与真实值存在误差 , 该问题如何转化为可用上述所学的知识解决的问题呢?
( 1 ) 从你的数据来看 , 你猜想美国人口与时间的关系应该满足怎样的函数关系 ( 线性 , 二次 , 或是其他 ) ? 这样的函数关系你如何确定? 又怎么衡量这个函数具有良好的预测效果?

答:美国人口与时间满足指数函数关系,横轴为时间,纵轴为人口数量,拟合出一条人口曲线,近似为一条指数函数曲线。利用误差值来进行衡量。

( 2 ) 也许你可以尝试用不同的函数关系进行预测 , 比较一下是哪种函数更贴合数据 , 但是 , 越贴合数据的函数是否真的预测的结果越可信?你可以查阅资料去了解该问题 , 但我们更希望你能解释这个问题的内在原理 , 如果能给出相应的解决方法那就更好了!

答:Malthus模型、Logistic模型、BP神经网络模型,三种模型中Malthus模型的误差是最大的,而BP神经网络模型的误差是最小的,可以说明BP神经网络模型的效果是比较好的。


总结

本次任务主要从三个问题出发,讲解了高等数学的相关内容,分别为以微分初步知识及梯度下降算法解决最优化问题、以插值知识解决数据处理问题、以积分知识解决工程问题,并以实战项目-人口增长问题为作业,进一步巩固与理解所学知识。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Never give up

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值