《最优传输理论与计算》,雷娜,顾险峰,2021年,高等教育出版社
1995年,
本书内容:
凸函数的Alexandrov理论
$X$和$Y$是完备、可分的度量空间,$\mathcal{P}(X)$是$X$所有测度构成的空间。
Monge问题:给定两个概率测度$\mu\in\mathcal{P}(X),\nu\in\mathcal{P}(X)$和代价函数$c:X\times Y\rightarrow [0, +\infty]$,求:
Kantorovich问题:
可以证明进空间上连续代价函数的KP解是存在的
对偶问题:
可以证明KP和DP等价。
Brenier理论:欧氏距离平方代价下的最优传输映射唯一
【过于数学……】
bikes/cars的on-demand service关注的两个点:
GIS或交通领域的ML研究通常只单独关注预测问题忽略下游任务。例如只预测共享单车的单小时需求量,不考虑下一小时的需求,这可能会增加relocation的成本。
最优传输方法测度两个概率分布之间的散度,可以用来比较任意时空预测任务(例如,共享单车需求/交通拥堵/充电站使用率)的预测和真实数值之间的评估。relocation成本可以通过loss function的涉及得以最小化。本文的理论框架基于partial OT。
【这里所有的距离都跟carbon emission关联,是否有点。。。】
理论溯源:1781年,Gaspard Monge的问题——Given a pile of earth, what is the most efficient way to redistribute it to a desired shape? –> Earth Mover’s distance and optimal transport theory:最小化初始分布到目标分布的运输成本。该问题可以通过linear programming解决,在OT研究中可以通过机器学习方法利用Wasserstein distance对两个分布之间的散度求解,基于Sinkhorn算法极大地提升计算速度。
通过训练NN求解上述EMD问题,但LP无法微分,entropy-regularized OT和Sinkhorn算法可以解决此问题。
使用一个geomloss
构造Sinkhorn损失函数用于时空预测,该损失函数通过时间序列模型N-HiTS被实现在darts
lib中。
本文是the first attempt to improve forecasts of geospatial data with an OT loss function
两个初步的实例研究:
时间序列模型NHiTS基于不同的损失函数进行训练,训练结果:
OT可以用于GIS空间数据预测,该框架适用于任何对误差的空间分布敏感的预测问题。
局限:EMD和Sinkhorn loss的计算量很大,尤其是在涉及多个位置的情况下;可以进一步研究兼顾空间和时间的relocation。