谷歌地图重大升级 用深度学习实时更新街景

  • 时间:
  • 浏览:0
  • 来源:大发uu快3_uu快3计划_大发uu快3计划

每天,谷歌地图都为成千上百万的亲们 提供方位指示,实时路况信息以及商业信息。为了提供最佳的用户体验,地图信息里能 不断的根据现实世界的变化做出调整。

街景车每天分类分类整理数百万张图片,前一天用人工分析每天超过50亿张高清晰图片来找出其中的新变化前一天更新地图信息,显然是不前一天的。或者,谷歌地面实况团队(Ground Truth team)的目标之一,或者我从地理位置图像自动提取信息来升级谷歌地图。

雷锋网了解到,在“从街景图像中提取基于注意机制的形态化信息”(Attention-based Extraction of Structured Information from Street View Imagery)一文中,谷歌描述了所采用的法子——咋样在街景视图中使用深度图神经网络自动且准确无误地读出街道名称。

亲们 的算法系统在挑战“法国街道名称识别数据集”(French Street Name Signs (FSNS) dataset)中达到了84.2%的正确率,明显优于前一天的最优系统。重要的是,谷歌的系统在提取这么来太满类型信息也是很容易扩展的。比如现在帮助谷歌自动提取商店前面的商户名称。目前该模型前一天开源。



图中为法国街道名称标识数据集中的一一3个 例子,被谷歌的系统正确识别。上图为同一标识的這個不同视角

自然环境中的文本识别在计算机视觉和机器学习上是一一3个 非常具有挑战性的现象。传统的光学字符识别(OCR)系统主要侧重于从扫描的文档中提取文本。在自然场景中前一天视觉伪影,如失真、闭塞、定向模糊、杂乱的背景或不同的深度图给提取文本提升了难度。

谷歌从508年刚开始英文英文致力于处置這個现象,使用神经网络模糊了街景图像中的脸和车牌,以保护谷歌用户的隐私。从最初的研究中,团队意识到经过足够的标记数据训练后,机器学习不仅能保护用户的隐私,或者还可要能自动升级谷歌地图相关的最新信息。

2014年谷歌地面实况团队在街景门牌号数据集(SVHN)上表态了读取街道号码的法子,之前 暑期实习生Ian Goodfellow(现为谷歌员工)进行了运用。

這個工作不仅是出于对学术的兴趣,或者也是使谷歌地图更为精确的关键。如今得益于這個系统,超过三分之一的全球地址前一天在谷歌地图上有了我本人的位置。在这么来太满国家,如巴西,這個算法增加了超过90%的谷歌地图地址,大大提高了谷歌地图的可用性。

下一步是将哪此技术扩展到街道名称。为了处置這個现象,谷歌创建和发布了法国街道名称标志(French Street Name Signs,FSNS),有超过50万的街道名称训练数据集,旨在提高亲们 对OCR模型在实际使用情况表下的认识。

FSNS是谷歌经这么来太满年的努力而构建的,它比SVHN数据集更加庞大,也更具挑战性,前一天前一天要准确识别某个街道标识,前一天里能 对各个深度图所拍摄的图片进行整合处置。

上图是识别起来很有难度的这么来太满标识,也被谷歌系统通过对图像的理解而正确判断了。尤其是第3个,不过這個模型在前一天学习了语言模型,使其要能消除歧义,并正确识别出街道名。

值得一提的是,在FSNS数据集中,同一路标在少于3个独立视图的情况表下会以增加随机噪声的法子。

谷歌实习生Zbigniew Wojnazai在2016年夏天用這個数据集开发了一一3个 深度图学习模型,它要能自动标注新的街景视图。這個新模型的一一3个 优点是,它可要能根据日常的命名习惯进行文本规范。

上图的例子中,可要能将"AV."转化为"Avenida","PRES."转化为“Presidente”这是亲们 期望看了的结果

在這個图中,模型这么被图中的一一3个 街道名称迷惑,将"Av"正确转化为"Avenue",同时也识别出了数字"1500"

尽管這個模型非常精确,它依然有15.8%的序列错误率。不过,在分析错误样本后,团队发现,其中48%是前一天地面实况错误,也或者我说,模型与标记质量呈现的准确度基本一致。(在亲们 的论文富含全部的错误率分析)

這個新系统结合了提取街道号码技术,使亲们 要能直接从图像创建新的地址。现在,每当一千公里街景车在新建的道路上行驶时,亲们 的系统可要能捕捉上千万张图像,提取街道名称和数字,并自动在谷歌地图上创建和定位新地址。

但自动为谷歌地图创建地址是匮乏的。此外,亲们 还希望要能为商业提供导航。在2015,亲们 发表了“从街景图像中进行大规模的商业发现”(Large Scale Business Discovery from Street View Imagery)一文,文中提出了這個法子可要能准确地检测商店外墙的标志。

然而,检测到商店外墙,仍然里能 准确地提取它的有用名称。模型里能 找出哪个文本是商户名称,哪此文本是不相关的。谷歌称這個提取为“形态化文本”信息的提取。它不或者我文字,或者我具有语义意义的文本。

使用不同的训练数据,亲们 用来读取街道名称的模型形态也可要能用来准确地提取商业名称。在這個特殊情况表下,前一天亲们 前一天知道這個商户在谷歌地图的位置,可要能只提取商业名称来进行验证,使之要能更准确地更新商业列表。

如上图所示,其实这么从图片中获得任何有关真实地址的信息,但系统还是正确识别出了商户的名字Zelina Pneus,或者这么被旁边的轮胎品牌所骗。

模型里能 处置50多亿个街景图像,里能 强大的计算能力。这或者我为哪此谷歌地面实况团队采用TPU,可要能大幅减少亲们 的推理计算成本。

亲们 依赖于谷歌地图的精准性来协助亲们 工作生和熟活。同时,在景观、道路和商业不断变化的情况表下,谷歌地图的更新所面临的技术挑战,远远还这么处置。为超过十亿的谷歌地图用户创造更好的用户体验,经常 是谷歌地面实况团队追求的目标。

微信公众号搜索"

驱动之家

"加关注,每日最新的手机、电脑、汽车、智能硬件信息可要能让我一手全掌握。推荐关注!【

微信扫描下图可直接关注