机器学习（九）基于SVM的上证指数涨跌预测

Sahar ·

更新时间:2024-11-14

· 642 次阅读

（1）实例介绍

数据介绍：
网易财经上获得的上证指数的历史数据，爬取了20年的上证指数数据。
实验目的：
根据给出当前时间前150天的历史数据，预测当天上证指数的涨跌。
技术路线：sklearn.svm.SVC

数据实例：中核科技1997年到2017年的股票数据部分截图，红框部分为选取的特征值

--------------------------------------

特征&标签的区别：

在周志华的《机器学习》中判断是否正熟的好瓜，首先会从西瓜这个具体的事物中抽取一些有用的信息，西瓜的颜色、瓜蒂的形状、敲击的声音就是特征，而“好瓜”和“坏瓜”这两个判断就是标签。更抽象一点，特征是做出某个判断的证据，标签是结论。

（2）实验过程 1）建立工程，导入sklearn相关包

关于一些相关包的介绍：
 pandas：用来加载CSV数据的工具包
 numpy：支持高级大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。
 sklearn下svm：SVM算法
 sklearn下cross_validation：交叉验证


import pandas as pd
import numpy as np
from sklearn import svm
from sklearn import cross_validation
2）数据加载&数据预处理
参数解释1（上段）：读入数据

pd：pandas包的实例参数

read_csv( )： 详细解释 （http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html）

pandas.read_csv（数据源, encoding=编码格式为gbk， parse_dates=第0列解析为日期，index_col=用作行索引的列编号）

sort_index( )： 详细解释（ http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sort_index.html ）

DataFrame.sort_index(axis=0 (按0列排), ascending=True（升序）, inplace=False（排序后是否覆盖原数据））data 按照时间升序排列
-------------------------------------
参数解释2（下段）：

选取5列数据作为特征：收盘价 最高价 最低价 开盘价 成交量

dayfeature：选取150天的数据

featurenum：选取的5个特征*天数

x：记录150天的5个特征值

y：记录涨或者跌

data.shape[0]-dayfeature意思是因为我们要用150天数据做训练，对于条目为200条的数据，只有50条数据是有前150天的数据来训练的，所以训练集的大小就是200-150， 对于每一条数据，他的特征是前150天的所有特征数据，即150*5， +1是将当天的开盘价引入作为一条特征数据

data=pd.read_csv('stock/000777.csv',encoding='gbk',parse_dates=[0],index_col=0)
data.sort_index(0,ascending=True,inplace=True)
dayfeature=150
featurenum=5*dayfeature
x=np.zeros((data.shape[0]-dayfeature,featurenum+1))
y=np.zeros((data.shape[0]-dayfeature))

参数解释：

u:unicode编码

reshape:转换成1行，featurenum列

ix :索引

for i in range(0,data.shape[0]-dayfeature):
    #/将数据中的“收盘价”“最高价”“开盘价”“成交量”存入x数组中
    #u:unicode编码 reshape:转换成1行，featurenum列
    x[i,0:featurenum]=np.array(data[i:i+dayfeature]\
                               [[u'收盘价',u'最高价',
    u'最低价',u'开盘价',u'成交量']]).reshape((1,featurenum))
    x[i,featurenum]=data.ix[i+dayfeature][u'开盘价']
    #最后一列记录当日的开盘价              ix :索引
for i in range(0,data.shape[0]-dayfeature):
    if data.ix[i+dayfeature][u'收盘价']>=data.ix[i+dayfeature][u'开盘价']:
        y[i]=1
    else:
        y[i]=0
        #如果当天收盘价高于开盘价，y[i]=1代表涨，0代表跌
3）创建SVM并进行交叉验证

#创建SVM并进行交叉验证
clf =svm.SVC(kernel='rbf')
#调用svm函数,并设置kernel参数，默认是rbf，其它：‘linear’‘poly’‘sigmoid’
result =[]
for i in range(5):
    #x和y的验证集和测试集，切分80 - 20 % 的测试集
    x_train,x_test,y_train,y_test =\
        model_selection.train_test_split(x,y,test_size=0.2)
    #训练数据进行训练
    clf.fit(x_train,y_train)
    #将预测数据和测试集的验证数据比对
    result.append(np.mean(y_test ==clf.predict(x_test)))
print("svm classifier accuacy:")
print(result)
4）全部代码

#用来加载CSV数据的工具包
import pandas as pd
#：支持高级大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库
import numpy as np
#sklearn下svm：SVM算法
from sklearn import svm
# sklearn下cross_validation：交叉验证
from sklearn import model_selection
#parse_dates=第0列解析为日期， index_col= 用作行索引的列编号）
data =pd.read_csv(r'C:\Users\86493\Desktop\北理工机器学习慕课数据\分类\stock\000777.csv',encoding='gbk',parse_dates=[0],index_col=0)
#DataFrame.sort_index(axis=0 (按0列排), ascending=True（升序）,
#inplace=False（排序后是否覆盖原数据））data 按照时间升序排列
data.sort_index(0,ascending=True,inplace=True)
#选取5列数据作为特征：收盘价 最高价 最低价 开盘价 成交量
#dayfeature：选取150天的数据
#featurenum：选取的5个特征*天数
#x：记录150天的5个特征值 y：记录涨或者跌
dayfeature=150
featurenum =5*dayfeature
#data.shape[0]-dayfeature意思是因为我们要用150天数据做训练，
# 对于条目为200条的数据，只有50条数据是有前150天的数据来训练的，
# 所以测试集的大小就是200-150， 对于每一条数据，他的特征是前150天的所有特征数据，
# 即150*5， +1是将当天的开盘价引入作为一条特征数据
x=np.zeros((data.shape[0]-dayfeature,featurenum+1))
y=np.zeros((data.shape[0]-dayfeature))
for i in range(0,data.shape[0]-dayfeature):
    #/将数据中的“收盘价”“最高价”“开盘价”“成交量”存入x数组中
    #u:unicode编码 reshape:转换成1行，featurenum列
    x[i,0:featurenum]=np.array(data[i:i+dayfeature]\
                               [[u'收盘价',u'最高价',
    u'最低价',u'开盘价',u'成交量']]).reshape((1,featurenum))
    x[i,featurenum]=data.ix[i+dayfeature][u'开盘价']
    #最后一列记录当日的开盘价              ix :索引
for i in range(0,data.shape[0]-dayfeature):
    if data.ix[i+dayfeature][u'收盘价']>=data.ix[i+dayfeature][u'开盘价']:
        y[i]=1
    else:
        y[i]=0
        #如果当天收盘价高于开盘价，y[i]=1代表涨，0代表跌
#创建SVM并进行交叉验证
clf =svm.SVC(kernel='rbf')
#调用svm函数,并设置kernel参数，默认是rbf，其它：‘linear’‘poly’‘sigmoid’
result =[]
for i in range(5):
    #x和y的验证集和测试集，切分80 - 20 % 的测试集
    x_train,x_test,y_train,y_test =\
        model_selection.train_test_split(x,y,test_size=0.2)
    #训练数据进行训练
    clf.fit(x_train,y_train)
    #将预测数据和测试集的验证数据比对
    result.append(np.mean(y_test ==clf.predict(x_test)))
print("svm classifier accuacy:")
print(result)

5）结果分析
==搞了半天这个代码运行出错，cross_validation改成model_selcetion后也不行。。有时间再来收拾。。
正常应该输入如下：

svm classifier accuacy:
[0.5635179153094463,0.5754614549402823, 0.5266015200868621, 0.5450597176981542, 0.5407166123778502]

（3）交叉验证
1）基本思想：


交叉验证法先将数据集D划分为k个大小相似的互斥子集，每个自己都尽可能保持数据分布的一致性，即从D中通过分层采样得到。然后，每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集；这样就可获得k组训练/测试集，从而可进行k次训练和测试，最终返回的是这个k个测试结果的均值。通常把交叉验证法称为“k者交叉验证”, k最常用的取值是10，此时称为10折交叉验证。
2）10折交叉验证示意图



作者：奇跡の山
                    
 
                

                            svm
                            学习
                            机器学习


           
    
    

            
                
                    
                
            
            
                
    
        
            需要 登录 后方可回复, 如果你还没有账号请 注册新账号
        
    
                
            
                
                    
                        相关文章

    
        
            Kotlin Android 环境搭建
        
        
            Quirita
            2021-04-07
        
    
    
        999
    


    
        
    
    
        
            你必须要知道关于响应式布局的几件事
        
        
            Adonia
            2021-06-19
        
    
    
        660
    


    
        
            Shell中去除字符串前后空格的方法
        
        
            Iris
            2021-08-03
        
    
    
        567
    


    
        
            SQL注入之sqlmap入门学习
        
        
            Ula
            2023-05-13
        
    
    
        1477
    


    
        
            Docker AIGC等大模型深度学习环境搭建步骤最新详细版
        
        
            Jacinda
            2023-05-13
        
    
    
        1807
    


    
        
            一文带你学习一下C++中的构造函数
        
        
            Winona
            2023-05-13
        
    
    
        520
    


    
        
            C++中set的用法学习
        
        
            Fawn
            2023-05-13
        
    
    
        226
    


    
        
            Three.js概述和基础知识学习
        
        
            Echo
            2023-05-13
        
    
    
        1103
    


    
        
            Vue自定义指令学习及应用详解
        
        
            Maha
            2023-05-13
        
    
    
        1234
    


    
        
            写给小白学习的地理信息的表示法GeoJSON
        
        
            Kande
            2023-05-15
        
    
    
        702
    


    
        
            从错误中学习改正Go语言五个坏习惯提高编程技巧
        
        
            Viridis
            2023-05-17
        
    
    
        1281
    


    
        
    
    
        
            Java NIO下ByteBuffer的常用方法学习
        
        
            Maleah
            2023-05-17
        
    
    
        473
    


    
        
    
    
        
            MySQL基础学习之字符集的应用
        
        
            Nafisa
            2023-05-17
        
    
    
        1150
    


    
        
            Python实现SVM支持向量机的示例代码
        
        
            Kande
            2023-06-06
        
    
    
        1884
    


    
        
            C++函数模板学习示例教程指南
        
        
            Pandora
            2023-07-07
        
    
    
        25
    


    
        
            go语言定义零值可用的类型学习教程
        
        
            Tallulah
            2023-07-17
        
    
    
        216
    


    
        
            Redis数据结构之intset整数集合使用学习
        
        
            Janna
            2023-07-20
        
    
    
        1721
    


    
        
            Redis数据结构之跳跃表使用学习
        
        
            Ophelia
            2023-07-20
        
    
    
        644
    


    
        
            Redis数据结构之listpack和quicklist使用学习
        
        
            Natalia
            2023-07-20
        
    
    
        1968
    


    
        
            大语言模型的开发利器langchainan安装使用快速入门学习
        
        
            Irma
            2023-07-20
        
    
    
        829


        
    
        
            我要提问
        
    
    
        
        
    
        致谢
        
            帮助他人，成就自己。
            人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。
            1024问感谢每一位朋友的帮助和支持。
            软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。
        
    
    
        
            
    育儿网
    微养生
    全球行
    美食街
    育儿
    菜谱大全
    海南旅游
    女性
    养狗百科
    星座