下载curl软件,地址:
curl for Windows
for 64-bit下载好后解压到文件夹,将里面的bin文件添加到环境变量中,bon文件地址为:C:\Users\59980\curl-8.2.1_7-win64-mingw\bin
打开cmd,输入curl --help,出现下图即代表成功安装。
下载单个文件,默认将输出打印到标准输出中(STDOUT)中
curl http://www.centos.org
通过-o/-O选项保存下载的文件到指定的文件中:
-o:将文件保存为命令行中指定的文件名的文件中
-O:使用URL中默认的文件名保存文件到本地
# 将文件下载到本地并命名为mygettext.html
curl -o mygettext.html http://www.gnu.org/software/gettext/manual/gettext.html
# 将文件保存到本地并命名为gettext.html
curl -O http://www.gnu.org/software/gettext/manual/gettext.html
同样可以使用转向字符">"对输出进行转向输出
同时获取多个文件
curl -O URL1 -O URL2
若同时从同一站点下载多个文件时,curl会尝试重用链接(connection)。
-----------------------------------------------------分割线----------------------------------------------------------------
源数据格式:两个债券表格里面数据都是这样:
将对应数据放在一个表格里面:
当然也可以用python代码读取两个文档进行数据处理生成一个数据框进行操作,这里就不展示了:
上图是放在一个表格里面后的结果。
处理数据代码:
#转换成因子数据格式
import pandas as pddata =pd.read_excel(r'C:\Users\59980\Desktop\peixun\zong\成交收盘220205CFETSnew(1).xlsx')
df = pd.DataFrame(data)
df['债券代码1'] = df['债券代码1'].replace('220205.IB','220205.BOND')
df['债券代码2'] = df['债券代码2'].replace('220210.IB','220210.BOND')df['交易日期'] = pd.to_datetime(df['交易日期']).dt.strftime('%Y/%m/%d')df['factor_rate'] = df.apply(lambda row: {row['债券代码1']:row['收盘YTM(%)1'], row['债券代码2']:row['收盘YTM(%)2']}, axis=1)
df.insert(1,'factor_rate',df.pop('factor_rate'))df = df[['交易日期', 'factor_rate']]df.to_excel(r'C:\Users\59980\Desktop\peixun\zong\220210_220205_factor.xlsx',index=False)
结果为:
上面两个债券的带起收益率作为引子在投研平台进行回测。
-------------------------------------垃圾数据转换成标准行情数据(bardata)------------------------------------
从网站下载的垃圾数据转换成数据库上传的、能被行情数据获取的标准数据过程:
#改好quote-date,source和security_id列填充好,quote_date,open,high,low,close,volume,ytm,dirty,volume_sum全部填写好
#date_day复制quote_date即可,quote_time和index_type,create_time,quotation_type填充好import pandas as pd
pd.set_option('display.max_columns', None)# 创建示例数据框
df =pd.read_excel(r'C:\Users\59980\Desktop\peixun\zong\200210修正.xlsx')# df['quote_time'] = df['quote_time'].astype(str).str.zfill(8) #将时间列转换为字符串,并使用str.zfill()方法补零: 0:00:00转换成00:00:00格式df['quote_date'] = pd.to_datetime(df['quote_date']).dt.strftime('%Y%m%d') #将行情时间2020-01-01转换成20200101格式df['date_day']=df['quote_date']df['date_time'] = pd.to_datetime(df['quote_date'] + ' ' + df['quote_time']) #生成时间戳start_timestamp = pd.Timestamp("1970-01-01 08:00:00") # 计算时间戳并考虑起始时间偏移量df['quote_stamp'] = (df['date_time'] - start_timestamp) // pd.Timedelta(seconds=1)df['date_time'] =df['quote_stamp']df['volume'] = pd.to_numeric(df['volume'].str.replace(',', ''), errors='coerce')
df['volume_sum'] = pd.to_numeric(df['volume_sum'].str.replace(',', ''), errors='coerce')df = df.sort_values(by='quote_date')# print(df)
df.to_excel(r'C:\Users\59980\Desktop\peixun\zong\200210修正版本.xlsx',index=False)