第三篇 用Pandas计算股票指标

Posted by Mmdfish on April 29, 2020

关键词

Pandas Sqlite3 read_sql

GitHub

calculate_stock_spec

思路

当前只计算某只股票最多一年的指标,常见的5天,10天,20天和一年的指标。 从数据库中拿到某只股票一年的K线数据,振幅指标只需要自己的数据,贝塔系数需要对比大盘的数据,上海交易所的股票就用上证指数计算,深圳交易所的股票就用深成指来计算。

读数据库

从数据库中读取某只股票的K线数据,上一篇有说到 pandas.to_sql() 方法存数据不太好用,但是pandas.read_sql()方法可以比较方便的读取数据,而且返回数据结构就是DataFrame,便于我们计算。

  • 读取上证指数
from sqlalchemy import create_engine
import pandas as pd
import datetime

db = create_engine('sqlite:///mystock.db')
sql_cmd = "SELECT * FROM stock_day_k where code='sh.000001' order by date desc limit 0,251"
datash = pd.read_sql(sql=sql_cmd, con=db)

这里我们用251天的原因是一年的交易天数大概是251天。用date倒序取251行就大概是一年的K线数据。

  • 读取股票K线

读取单只股票K线数据和读取上证指数是一样的,只是有些股票可能会存在停盘的情况,所以判断如果十个交易日都是非交易状态,这个股票就先不计算了。 想拿到交易状态,数据中有一列列名是 ‘tradestatus’,用dataframe[‘columnname’]就可以拿到一整列数据。

sql_cmd = "SELECT * FROM stock_day_k where code='" + ticker+"' order by date desc limit 0,251"
daily = pd.read_sql(sql=sql_cmd, con=db)
if tradestatus == 0:
    count = 0
    canSkip = False
    for tradestatus2 in daily['tradestatus']:
        if tradestatus2 == 1:
            break
        count += 1
        if count ==10:
            canSkip = True
            break

    if canSkip:
        continue 

数据处理

从数据库中拿到的数据,是根据日期倒序排列的,这里需要升序排序,并把索引重置。

daily = daily.sort_values(by='date', ascending=True)
daily = daily.reset_index(drop = True)

给数据加一列,计算所有日期和第一天的相对价格,close就是某日的收盘价格。

daily['relaprice'] = daily['close']/daily['close'][0]
  • 计算贝塔系数

找了一些计算贝塔系数的方法,Scipy里scipy.stats.linregress函数可以直接计算。 取一段时间内大盘的相对数据和某只股票的相对数据来计算,考虑到有些股票可能没有比较新,时间不够一年或者一个月,如果想计算的日期数比股票的数据还多的话,最后取时间区间为股票的时间。 用 array[-N:] 来获取数组的最后N个数据。

#relaticker = daily['relaprice']
#relash = datash['relaprice']
from scipy import stats
def cal_alpha_beta(relash, relaticker, dayNumber=0):
    if dayNumber > relaticker.shape[0]:
        return np.nan,np.nan,np.nan
    if dayNumber == 0:
        dayNumber = relaticker.shape[0]
    beta,alpha,r_value,p_value,std_err=stats.linregress(relash[-dayNumber:], relaticker[-dayNumber:])
    return alpha,beta,r_value**2
  • 计算相关系数

相关系数是另一个股票与大盘的对比指标。Pandas有提供现成的方法pandas.DataFrame.pct_change,需要将股票数据和大盘数据组合在一起

# 用sh.000001和sh.000002为例,将第二个数据的close列连接到sh.000001数据
price = DataFrame({'date': datash['date'], 'sh.000001':datash['close']})
pp = DataFrame({'sh.000002':daily['close']})
#拼接
price2 = pd.concat([price, pp], axis=1)
#按照date升序排列
price2 = price2.sort_values(by='date', ascending=True)
#把date列去掉,因为计算的时候不需要这一列了
price2 = price2.drop(['date'], axis=1)
#去除索引
price2 = price2.reset_index(drop = True)
corr, cov = cal_correlation(price2, pp.shape[0])

def cal_correlation(price, length, dayNumber=0):
    if dayNumber >length:
        return np.nan,np.nan
    if dayNumber == 0:
        dayNumber = length
    #获取后N个数据
    pricelastN = price.tail(dayNumber)
    returns = pricelastN.pct_change()
    corr=returns.corr()
    cov=returns.cov()
    return corr.iloc[1][0],cov.iloc[1][0]
  • 计算振幅

振幅这个比较简单,计算起来也比较简单

#dayK 就是股票的K线数据
def cal_amplitude(dayK,dayNumber=0):
    if dayNumber > dayK.shape[0]:
        return np.nan
    if dayNumber == 0:
        dayNumber = dayK.shape[0]
    dailylastN = dayK.tail(dayNumber)
    maxhigh = dailylastN['high'].max()
    minlow = dailylastN['low'].min()
    amplitude = (maxhigh - minlow)/dailylastN['preclose'].iloc[0]
    return amplitude
  • 其他指标

后续再想想。。。