论文笔记(整理):轨迹相似度顶会论文中使用的数据集

0 汇总

数据类型数据名称数据处理
出租车数据波尔图

原始数据:2013年7月到2014年6月,170万条数据

ICDE 2023 Contrastive Trajectory Similarity Learning with Dual-Feature Attention

 过滤位于城市(或国家)区域之外的轨迹

过滤包含少于20个点或超过200个点的轨迹
——>137W轨迹

CIKM 2022 Efficient Trajectory Similarity Computation with Contrastive Learning

为两个数据集设置相同的采样率,即15秒
根据轨迹的开始时间戳将每个数据集划分为训练集和测试集,其中前100万条轨迹用于训练,其余的用于测试

CIKM 2022 Aries: Accurate Metric-based Representation Learning for Fast Top-k Trajectory Similarity Query

根据位置和时间戳,在三个月内选择了一个相对集中的轨迹集,数量为100𝑘
删除少于50个点的记录,并将整个区域划分为1500×1500大小的网格
——>79,362条轨迹

KDD2022  TrajGAT: A Graph-based Long-term Dependency Modeling Approach for Trajectory Similarity Computation

2019 ICDE Computing Trajectory Similarity in Linear Time: A Generic Seed-Guided Neural Metric Learning Approach

选择城市中心区域的轨迹,并移除少于10条记录的轨迹

——>超过60W条轨迹

CIKM 2023 Can Adversarial Training benefit Trajectory Representation? An Investigation on Robustness for Trajectory Similarity

ICDE 2018 Deep Representation Learning for Trajectory Similarity Computation

  • 删除了长度少于30的轨迹
  • 最终剩下120万条轨迹

ICDE 2022 TMN: Trajectory Matching Networks for Predicting Similarity

ICDE 2021 T3S: Effective Representation Learning for Trajectory Similarity Computation

没有多少处理

哈尔滨

ICDE 2018 Deep Representation Learning for Trajectory Similarity Computation

8个月内13000辆出租车的轨迹。

选择了长度至少为30,且连续采样点之间的时间间隔少于20秒的轨迹。

这产生了150万条轨迹

西安

2018年10月的前两周

ICDE 2023 Contrastive Trajectory Similarity Learning with Dual-Feature Attention

过滤位于城市(或国家)区域之外的轨迹

过滤包含少于20个点或超过200个点的轨迹

 

数据类型数据名称数据处理
出租车数据

德国

ICDE 2023 Contrastive Trajectory Similarity Learning with Dual-Feature Attention

2006年到2013年间

过滤位于城市(或国家)区域之外的轨迹

过滤包含少于20个点或超过200个点的轨迹

罗马

KDD 2022 Spatio-Temporal Trajectory Similarity Learning in Road Networks

移除了少于10个采样点的轨迹

45157条轨迹

北京(T-drive)

AAAI 2023 GRLSTM: Trajectory Similarity Computation with Graph-Based Residual LSTM

从10,357辆出租车中收集的
按小时划分这些轨迹,并丢弃短长度的轨迹

使用空间相似函数通过GPS坐标在北京道路网络上创建基准真值

KDD 2022 Spatio-Temporal Trajectory Similarity Learning in Road Networks

移除了少于10个采样点的轨迹

KDD 2021 A Graph-based Approach for Trajectory Similarity Computation in Spatial Networks

按小时分割这些轨迹,然后我们总共可以得到5,621,428条轨迹。

通过过滤异常值,这些轨迹的平均长度为25。

新加坡

15,054辆出租车的轨迹

对于每辆出租车,GPS信息在整整一个月内以半分钟到三分钟的采样率持续收集

人流mobility数据北京(

Geolife)

2007年4月到2012年8月收集的17621条轨迹

Sigspatial 2022 TSNE: trajectory similarity network embedding

选择了城市中心区域的轨迹,并将该区域离散化为200m×200m的网格单元。

移除了所有点太稀疏(少于10个点的轨迹),并在Geolife中获得了10,504条轨迹

CIKM 2023 Can Adversarial Training benefit Trajectory Representation? An Investigation on Robustness for Trajectory Similarity

  • 选择了那些至少满足长度为30的轨迹,并且在连续采样点之间的时间间隔小于20秒
  • 这样的操作产生了8214条轨迹
  • 前4928条轨迹用于训练数据,其余的用于测试数据

2019 ICDE Computing Trajectory Similarity in Linear Time: A Generic Seed-Guided Neural Metric Learning Approach

过滤掉位于稀疏区域的轨迹,保留城市中心区域的轨迹
 

移除了少于10条记录的轨迹

大约8,000条轨迹

1 2023

1.1 ICDE 2023 Contrastive Trajectory Similarity Learning with Dual-Feature Attention

使用了三个真实世界的轨迹数据集:

(1)Porto ——2013年7月到2014年6月间,葡萄牙波尔图的170万条出租车轨迹;

(2)西安——2018年10月的前两周内,中国西安的210万条网约车轨迹(滴滴)

(3)德国 ——2006年到2013年间,170.7千条用户提交的轨迹。(openStreetMap)

  • 过滤位于城市(或国家)区域之外的轨迹,
  • 过滤包含少于20个点或超过200个点的轨迹

预处理后的数据集在表II中进行了总结。

1.2 AAAI 2023 GRLSTM: Trajectory Similarity Computation with Graph-Based Residual LSTM

  • 北京的轨迹来自T-drive项目的出租车轨迹。
    • 这些出租车轨迹是在几天内通过出租车id,GPS坐标和时间戳从10,357辆出租车中收集的
    • 按小时划分这些轨迹,并丢弃短长度的轨迹
    • 使用空间相似函数(Shang et al. 2017b)通过GPS坐标在北京道路网络上创建基准真值
    • T-Drive trajectory data sample - Microsoft Research
  • 纽约的轨迹从NYC Open Data - (cityofnewyork.us)获取
    • 使用相同的预处理方法来处理这些轨迹并获得基准真值
  • 对于这两个数据集,我们将这些数据随机分为训练集,验证集和测试集,比例为[0.2,0.1,0.7]

2 2022

2.1 CIKM 2022 Efficient Trajectory Similarity Computation with Contrastive Learning

为两个数据集设置相同的采样率,即15秒。

根据轨迹的开始时间戳将每个数据集划分为训练集和测试集,其中前100万条轨迹用于训练,其余的用于测试

2.2 CIKM 2022 Aries: Accurate Metric-based Representation Learning for Fast Top-k Trajectory Similarity Query

波尔图数据集:从2013年到2014年,有超过四百辆出租车的170万辆车轨迹。

我们根据它们的位置和时间戳,在三个月内选择了一个相对集中的轨迹集,数量为100𝑘。

然后我们删除少于50个点的记录,并将整个区域划分为1500×1500大小的网格。

经过预处理,我们在波尔图获得了79,362条轨迹。

2.3 CIKM 2023 Can Adversarial Training benefit Trajectory Representation? An Investigation on Robustness for Trajectory Similarity

  • 波尔图的数据集——从2013年7月到2014年6月的12个月期间的170万条出租车轨迹
    • 删除了长度少于30的轨迹
    • 最终剩下120万条轨迹
  • 北京数据集(Geolife)
    • 2007年4月到2012年8月收集的17621条轨迹
    • 也选择了那些至少满足长度为30的轨迹,并且在连续采样点之间的时间间隔小于20秒
    • 这样的操作产生了8214条轨迹
  • 对于波尔图数据集,训练数据由800,000条轨迹组成,其余的用于测试数据。
  • 对于Geolife数据集,前4928条轨迹用于训练数据,其余的用于测试数据。

2.4 Sigspatial 2022 TSNE: trajectory similarity network embedding

Geolife ——由182个用户从2007年到2012年在中国北京收集的17,621条轨迹组成。

选择了城市中心区域的轨迹,并将该区域离散化为200m×200m的网格单元。

移除了所有点太稀疏(少于10个点的轨迹),并在Geolife中获得了10,504条轨迹。

2.5 KDD 2022 Spatio-Temporal Trajectory Similarity Learning in Road Networks

  • 北京包含了从2008年2月2日到2008年2月8日在中国北京收集的1500万个出租车轨迹点。
  • 罗马包含了367,052条来自意大利罗马的出租车轨迹,覆盖了30多天。

  • 首先将所有轨迹映射匹配到来自OpenStreetMap的相应道路网络。
    • 这样,原始GPS轨迹数据就转换成了按时间顺序排列的顶点序列。
    • 进一步,获取了来自城市地区的轨迹,并移除了少于10个采样点的轨迹。
    • 这个预处理得到了在北京的348,210条轨迹和在罗马的45,157条轨迹。

2.6 KDD2022  TrajGAT: A Graph-based Long-term Dependency Modeling Approach for Trajectory Similarity Computation

  • 西安的出租车轨迹
    • 从2007年到2010年的17,621条人类移动轨迹
  • 波尔图
    • 从2013年到2014年的超过170万条出租车轨迹
  • 预处理:选择城市中心区域的轨迹,并移除少于10条记录的轨迹
  • 处理后,我们获得了西安数据集的7641条轨迹和波尔图数据集的超过600,000条轨迹

2.7 ICDE 2022 TraSS: Efficient Trajectory Similarity Search Based on Key-Value Data Stores

(1)TDrive ,包含了两周内北京的321,387条出租车轨迹(752MB)

(2)Lorry,包含了广州的4,394,397条JD物流卡车轨迹(136GB)

(3)合成,为了验证TraSS的可扩展性,我们使用了由Lorry数据集复制7次生成的五个合成数据集

2.8 ICDE 2022 TMN: Trajectory Matching Networks for Predicting Similarity

• Geolife  由中国北京的182名用户收集,它包含了广泛的人类户外运动,这些运动是用户的GPS位置。总共,Geolife中有17,612条轨迹。

• Porto  包含了超过170万辆车的路线轨迹,主要由葡萄牙波尔图的442辆出租车收集。

遵循之前的工作,过滤掉位于稀疏区域的轨迹,保留城市中心区域的轨迹用于训练和测试。

也移除了少于10条记录的轨迹。

  • 这是因为计算较长序列的相似性更为困难和耗时。
  • 此外,轨迹数据集通常以许多GPS错误和其他问题为特征,如果受到影响,短轨迹会严重受到这些错误的影响

经过预处理后,Geolife数据集中有大约8,000条轨迹,Porto数据集中有600,000条轨迹

2.9  ICDE 2022 Continuous Trajectory Similarity Search for Online Outlier Detection

1)北京(Geolife)

        该数据集保留了182名用户在三年多的时间里的所有旅行记录,包括多种交通方式(步行、驾驶和乘坐公共交通)。

        轨迹每1-5秒采样一次,两个相邻点之间的平均速度为5.73 m/s。

        北京的道路网络有65,129个节点和85,322条边。

2)新加坡。

        该数据集追踪了新加坡的15,054辆出租车的轨迹。

        对于每辆出租车,GPS信息在整整一个月内以半分钟到三分钟的采样率持续收集。

        它在两个相邻点之间的平均距离远高于GeoLife。

        新加坡的道路网络包含20,801个节点和42,309条边。

这是一个私有数据

3)波尔图。

        该数据集包含了442辆出租车在波尔图市,葡萄牙一整年(从2013年7月1日到2014年6月30日)的轨迹。

        其道路网络具有最细的粒度,有100,484个节点和129,303条边。

3 2021

3.1 ICDE 2021 REPOSE: Distributed Top-k Trajectory Similarity Search with Local Reference Point Tries

我们在3种类型的数据集上进行实验。

1)小规模和小空间跨度:旧金山(SF),波尔图(Porto),罗马(Rome),T-drive [33]。

2)大规模和小空间跨度:成都和西安。

3)大规模和大空间跨度:OSM。

数据集统计信息显示在表III中。

在预处理阶段,我们删除长度小于10的轨迹,并将长度大于1000的轨迹分割成多条轨迹。我们均匀且随机地选择100条轨迹作为查询集。

1http://sigspatial2017.sigspatial.org/giscup2017/home 2https://www.kaggle.com/c/pkdd-15-predict-taxiservice-trajectory-i 3http://crawdad.org/roma/taxi/20140717 4https://gaia.didichuxing.com 5https://www.openstreetmap.org

3.2 ICDE 2021 T3S: Effective Representation Learning for Trajectory Similarity Computation

我们的实验使用了以下两个数据集:

• Geolife [17] 是一个基于GPS的轨迹数据集,由2007年4月至2012年8月在中国北京的182名用户收集。该数据集包含17,621条轨迹,并记录了广泛的人类户外活动。

• Porto [18] 是一个包含超过170万辆车路线轨迹的数据集,由葡萄牙波尔图的442辆出租车收集。该数据集用作评估交通监测模型的基准。

3.3 KDD 2021 A Graph-based Approach for Trajectory Similarity Computation in Spatial Networks

使用来自不同城市的两个空间网络。一个是来自北京市的,即北京道路网络(BRN)。另一个是来自纽约市的,即纽约道路网络(NRN)。

在BRN数据集中,有28,342个兴趣点和27,690条边;在NRN数据集中,有95,581个兴趣点和260,855条边。

对于BRN中的轨迹,我们使用来自T-drive项目的出租车行驶数据。BRN中的出租车轨迹是按出租车id收集的,一条轨迹的时间范围可能持续几天。因此,我们按小时分割这些轨迹,然后我们总共可以得到5,621,428条轨迹。通过过滤异常值,这些轨迹的平均长度为25。

对于NRN中的轨迹,我们使用来自纽约的出租车行驶数据。在原始数据集中,有697,622,444次行程,我们随机抽样其中的一部分来生成轨迹数据集。经过预处理后,我们的实验中有10,541,288条轨迹,它们的平均长度为38。详细信息总结在表1中。

对于这两个轨迹数据集,我们都以20%、10%和70%的比例随机分割它们为训练集、评估集和测试集。

4 2020

4.1 IJCAI 2020 Trajectory Similarity Learning with Auxiliary Supervision and Optimal Matching

ECML/PKDD 15: Taxi Trajectory Prediction (I) | Kaggle

4.2 2020 ICDE Parallel Semantic Trajectory Similarity Join

  • 纽约轨迹数据(NTD)和北京轨迹数据(BTD)。
    • NTD包含一张道路网络和1000万辆出租车行程。每个出租车行程都是一个起点-终点对。
    • 将从源到目的地的最短路径视为一次行程的轨迹。
    • 此外,使用了一个真实的POI数据集,其中包含了纽约市的19,969个POI。
      • 每个POI都有一个带有纬度和经度的空间坐标和一个文本描述。
      • 因为POI可能不匹配轨迹点,我们将每个POI映射到道路网络中最近的节点,并将POI视为语义轨迹中的一个对象。
  • 在BTD中——T-drive
    • BTD中的原始轨迹非常长,因为每条轨迹都包含了特定时间段内的所有行程,这可能是几天。
    • 我们将这些轨迹划分为半小时的子轨迹。目的是创建具有现实长度和持续时间的行程。
    • 为了用文本描述增强每个轨迹点,我们从包含200万条推文的真实推文集合中随机选择一条推文,并将推文的文本描述与轨迹点关联起来。 

https://publish.illinois.edu/dbwork/open-data/

5 更早

5.1 ICDE 2018 Deep Representation Learning for Trajectory Similarity Computation

第一个数据集在葡萄牙的波尔图市收集,持续19个月,包含170万条轨迹。每辆出租车每15秒报告一次其位置。我们移除了长度少于30的轨迹,得到了120万条轨迹。

第二个数据集包含了在中国哈尔滨市收集的8个月内13000辆出租车的轨迹。我们选择了长度至少为30,且连续采样点之间的时间间隔少于20秒的轨迹。这产生了150万条轨迹。

我们根据轨迹的开始时间戳将两个集合划分为训练数据和测试数据。对于这两个集合,前80万条轨迹用于训练,其余的轨迹用于测试。

5.2 2019 ICDE Computing Trajectory Similarity in Linear Time: A Generic Seed-Guided Neural Metric Learning Approach

第一个数据集[33],被称为Geolife,包含了从2007年到2010年的17,621条人类移动轨迹。

第二个数据集[23]包含了从2013年到2014年的超过170万条出租车轨迹。

为了减小M的维度,我们选择了城市中心区域的轨迹,并将该区域离散化为50m × 50m的网格单元。

然后,我们删除了记录少于10条的轨迹。经过这样的预处理,我们在Geolife中获得了8203条轨迹,在波尔图中获得了601,071条轨迹。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/124271.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Transformer学习-self-attention

这里写自定义目录标题 Self-attentionMulti-head self-attention用self-attention解决其他问题 Self-attention 用Wq、Wk、Wv分别乘输入向量得到q、k、v向量 用每个q向量乘所有的k向量得到对应项的attention,即用每项的query向量去匹配所有的key向量,得…

python模拟表格任意输入位置

在表格里输入数值,要任意位置,我找到了好方法: input输入 1. 行 2. 列输入:1 excel每行输入文字input输入位置 3.2 表示输入位置在:3行个列是要实现一个类似于 Excel 表格的输入功能,并且希望能够指定输入…

基于Java的水果生鲜购物网站设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言具体实现截图论文参考详细视频演示为什么选择我自己的网站自己的小程序(小蔡coding)有保障的售后福利 代码参考源码获取 前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作…

【Spring】Bean作用域和生命周期

Bean作用域和生命周期 一. Bean 的作用域1. Bean 的 6 种作⽤域:①. singleton②. prototype③. request④. session⑤. application⑥. websocket单例作用域(singleton) VS 全局作⽤域(application) 2. 设置作用域 二. Spring 执行流程和 Bean 的生命周期1. Spring…

机器人入门(一)

机器人入门(一) 一、ROS是什么,能用来干什么?二、哪些机器人用到了ROS?三、ROS和操作系统是绑定的吗?四、ROS 1 和ROS 2的关系是什么?4.1架构中间件改变API改变数据格式改变 4.2特性4.3工具/生态…

Flutter项目安装到Android手机一直显示在assembledebug

问题 Flutter项目安装到Android手机一直显示在assembledebug 原因 网络不好,gradle依赖下载不下来 解决方案 修改如下的文件 gradle-wrapper.properties 使用腾讯提供的gradle镜像下载 distributionUrlhttps://mirrors.cloud.tencent.com/gradle/gradle-7.5…

flink处理函数--副输出功能

背景 在flink中,如果你想要访问记录的处理时间或者事件时间,注册定时器,或者是将记录输出到多个输出流中,你都需要处理函数的帮助,本文就来通过一个例子来讲解下副输出 副输出 本文还是基于streaming-with-flink这本…

Git使用【下】

欢迎来到Cefler的博客😁 🕌博客主页:那个传说中的man的主页 🏠个人专栏:题目解析 🌎推荐文章:题目大解析(3) 目录 👉🏻标签管理理解标签标签运用 …

苹果ios系统ipa文件企业签名是什么?优势是什么?什么场合需要应用到?

企业签名是苹果开发者计划中的一种签名类型,允许企业开发者签署和分发企业内部使用的应用程序,而无需通过App Store进行公开发布。通过企业签名,企业可以在内部部署自己的应用程序,以满足特定的业务需求。 企业签名能够做到以下…

【C语言】汉诺塔 —— 详解

一、介绍 汉诺塔(Tower of Hanoi),又称河内塔,是一个源于印度古老传说的益智玩具。大焚天创造世界的时候做了三根金刚石柱子,在一根柱子上从下往上按照大小顺序摞着64片黄金圆盘。 大焚天命令婆罗门把圆盘从下面开始按…

认知智能最新研究成果

声明:以下内容仅代表个人对现象和本质探索,不代表对学术成果评价。曾有幸和马文明斯基的学生段老师和方老师一起讨论过人工智能问题。随着自己对问题进一步理解,刚好18年左右开始接触认知智能理论核心认知计算部分。 第一:算法是一…

互联网Java工程师面试题·MyBatis 篇·第二弹

目录 16、Xml 映射文件中,除了常见的 select|insert|updae|delete标签之外,还有哪些标签? 17、Mybatis 的 Xml 映射文件中,不同的 Xml 映射文件,id 是否可以重复? 18、为什么说 Mybatis 是半自动 ORM 映射…