Schalal

Geo Computer Vision

OmniCity: Omnipotent City Understanding with Multi-level and Multi-view Images

本文提出了OmniCity数据集,可以从多层级-多视角的影像中提供对城市的全能理解。本数据集包含多视角的遥感影像和街道级的全景图像,影像来自纽约市超过25K个地理点,共包含超过100K景pixel-wise annotated影像。并提出了一个利用现有的遥感影像标注地图和不同视角变换关系的高效的街景图象注记pipeline。基于本数据集,提供了包括建筑轮廓提取、高度估计、建筑平面分割等在内的一系列任务的benchmark。并对跨视角图像匹配、合成、分割和目标检测,以及开发大尺度城市理解、重建、模拟等新方法提出了问题陈述。

overview

BlockPlanner: City Block Generation with Vectorized Graph Representation

城市建模是城市规划、导航和相关游戏的基础,本文提出了BlockPlanner这样一种合成有土地利用属性的城市地块模型的模型(3D几何模型+土地利用的语义信息)

示意图

Introduction

城市建模在很多领域都有需求,传统方法受启发式规则制约难以反映真实动态的街区结构。室内楼层规划生成是类似的任务,基于栅格图像的方法在此领域已经获得巨大成功,但难以直接应用到矢量街区生成中:简单的掩膜处理会造成街区块结构的缺失;栅格类方法受限于其分辨率,过大会造成小lot的缺失,过小则会极大地影响计算性能;街区数据存在着天然的拓扑约束和属性约束;对于栅格类方法,实例关系的建立将变得困难。

本文方法:

NYC-Block Dataset

纽约街区建筑数据集:覆盖了纽约的5个区,包含城市和郊区区域;层次化结构:每个地块都与其街区、区和大区相关联;注记丰富:有93个字段,有使用功能、建筑年限等多种属性,属性来源与你约束规划局;易于泛用,可以与其他数据集关联,因为带有地理位置信息。

Block Planner

overview

Experiments

与其他方法的对比:

Qualitative evaluations  Quantitative evaluations

消融实验:

损失选择

超参数

全局拓扑的选择

Applications

Conclusion

With such merits, BlockPlanner opens a new direction for large-scale city modeling in an end-to-end manner.

GeoLocator: a location-integrated large multimodal model for inferring geo-privacy.

geolocatoe instructions and features workflow performance

样本量太少。。。

CityNav: Language-Goal Aerial Navigation Dataset with Geographic Information

视觉语言导航(Visual-and-language navigation)旨在集成视觉和语言线索对真实世界环境的智能体进行自动化的引导。尽管在地面导航领域交互式的模态集成已经取得了大量进展,但是在空域导航还有待探索。这主要是由于真实世界城市尺度的空域导航研究的数据稀少。因此本文介绍了CityNav这一语言导向的新的数据集,本数据集使用三维点云表达真实世界中的城市。CityNav数据集包含32637对与人类轨迹相关的语言描述,这些轨迹数据由三维生产器生成,每个描述包含导航目标,真实世界城市中的地标的名称和区位信息。本文还提供了描述对应的地标的二维空间地图的导航智能体作为基线模型,并对最新的空域导航模型及本文作者提出的模型进行了benchmark。结果表示:本文模型效果最好,揭示了人类驱动的导航策略的重要性;集成二维地图显著地增强了城市尺度导航的性能。

数据集和代码仓库:https://water-cookie.github.io/city-nav-proj/