中文关键词:
时序数据聚类,时间序列数据聚类,基因表达数据聚类,机器学习,角度特征
中文摘要:
在对基因表达进行聚类时,预计同一聚类中基因的相关系数很高,大多数聚类的基因本体(GO)富集分析将具有重要意义。然而,现有的短期基因表达聚类算法存在局限性。为了解决这个问题,我们提出了一种基于角度特征的短期基因表达聚类方法。我们的方法(称为AngClust)使用角度特征来指示两个相邻时间点基因表达水平的趋势变化。多个时间点的角度变化反映了整体表达水平的趋势变化。这些变化用于衡量不同基因的表达趋势是否相似。为了从聚类结果中获得功能显著的聚类,我们评估了聚类中的基因数量、平均相关系数、波动及其与GO项富集的相关性。AngClust在酵母基因表达数据集上的疗效优于其他两种测量方法,即欧几里德距离(ED)和动态时间扭曲相关性(DTW)。在人类、小鼠和酵母基因表达的时间序列上,AngClust簇富集的GO和通路项的比率高于或等于STEM和TMixClust。
该聚类算法(软件)适用于下列各类时序数据的聚类,该软件有可视化操作界面(Windows GUI),操作简介快捷。
气温数据:例如每小时或每天记录的气温数据。
股票价格:如每分钟、每小时或每日记录的股票交易价格。
销售数据:如每月、每季度或每年的销售额。
生物医学信号:如心电图、脑电图等,记录生物体的生理状态随时间的变化。
交通流量数据:如每小时或每天记录的交通流量数据。
天气数据:包括温度、湿度、风速等随时间变化的信息。
官网论文:
https://ieeexplore.ieee.org/document/9833353/
https://pubmed.ncbi.nlm.nih.gov/35853049/
下载论文全文pdf文件(download full-text):
https://www.researchgate.net/publication/362119062_AngClust_Angle_Feature-Based_Clustering_for_Short_Time_Series_Gene_Expression_Profiles
或者,发邮件给作者获取全文pdf liaiminmail@gmail.com
下载开源代码:
https://github.com/emanlee/angclust
https://sourceforge.net/projects/angclust/
引用论文:
Aimin Li, Siqi Xiong, Junhuai Li, Saurav Mallik, Yajun Liu, Rong Fei, Hongfang Zhou, Guangming Liu. AngClust: Angle Feature-Based Clustering for Short Time Series Gene Expression Profiles. 2023. IEEE/ACM transactions on computational biology and bioinformatics / IEEE, ACM. 2023 Mar-Apr;20(2):1574-1580. doi: 10.1109/TCBB.2022.3192306. Epub 2023 Apr 3. DOI: 10.1109/TCBB.2022.3192306