今日  首页 - 钢铁物流 - 综合物流 - 物流云计算 - 帮助    
  文章搜索
用户名:  密码: [订阅注册] [找回密码]  
智能组合预测模型与生物制品前五大权重股票指数预测

  □安徽大学商学院陈欣冉
  摘要:本文研究了基于网络文本情感分析的智能组合预测模型及其在生物制品前五大权重股票指数预测中的应用。本文首先对财经新闻文本进行情感倾向分析,提取文本的情感特征作为预测模型的输入变量之一;构建了智能组合预测模型,将BP神经网络、LSTM模型和随机森林模型的预测结果进行加权组合,形成最终的预测输出;最后利用相关股票交易数据和财经新闻文本数据,对生物制品前五大权重股票指数进行分析,实证结果表明,基于网络文本情感分析的智能组合预测模型在预测准确度和稳健性方面均优于单一预测模型和传统的组合预测模型,能够更好地捕捉股票指数的波动规律,为投资者提供有价值的参考信息。
  关键词:网络文本情感分析智能组合预测模型 生物制品股票指数
  1.引言
  股票指数的预测一直是金融领域的热点和难点问题,吸引了众多学者和专家的关注和研究 [1]。传统的股票指数预测方法主要有时间序列分析、回归分析、因子分析等,这些方法往往忽略了股票市场的非线性、动态和复杂性,导致预测效果不理想。近年来,随着人工智能、机器学习和深度学习等技术的发展和应用,一些基于神经网络的股票指数预测方法也相继出现,如BP神经网络、LSTM模型、随机森林模型等,这些方法能够提高预测的精度和灵敏度 [2]。然而,这些单一的预测模型有时难以充分利用数据中的有效信息 [3]。因此,如何结合多种预测模型,构建更有效和可靠的股票指数预测方法,是当前的研究重点和挑战。
  股票指数预测的研究可以分为两大类:一种主要包括自回归移动平均模型(ARMA)、自回归条件异方差模型(ARCH)、广义自回归条件异方差模型(GARCH)、向量自回归模型(VAR)等 [4],另一种主要包括人工神经网络(ANN)、支持向量机(SVM)、随机森林(RF)、长短期记忆网络(LSTM)、卷积神经网络(CNN)等,利用机器学习和深度学习的技术进行预测 [5]。
  为了提高股票指数预测的准确性和效率,一些研究者尝试了将不同的方法进行组合或融合的方式,参考[6]、[7]、[8]等。
  在金融文本情感分析方面,现有对于股票评论的分类方法多是构建情感词典,但是基于情感词典的分类方法很难处理否定词,容易产生歧义,分类准确度较低。基于神经网络的方法一般包含分词、词向量构建你、训练模型、预测等步骤,处理的文本多为长文本,一般主题单一,主旨明确。但对于股票评论这种短句,神经网络预测的任何一个步骤的效果对于预测结果的影响都很大。在分词阶段,现有的中文分词工具一般无法处理金融领域的专业词汇,分词效果较差,影响文本情感分析模型的精确度。
  2.研究框架
  2.1研究方法和原理
  2.1.1文本情感分析法
  本文首先对于从新浪财经、东方财富网等网站爬取的财经新闻文本,去除文本中的空格、换行符、标点符号、数字、英文字符等无关内容,只保留中文字符。然后分词和去停用词。
  然后通过调用百度智能云API的方式对分句文本进行情感倾向分析。通过查阅百度情感倾向分析算法说明,并结合实际分析结果,我们将文本的感知情绪打上标签,带有正面积极情绪的打上标签1。带有负面消极情绪的打上0。以上就是我们利用文本情感分析对数据预处理的过程。
  2.1.2BP神经网络模型
  BP神经网络主要利用BP算法的正向和反向传播完成学习与训练:正向传播就是让信息从输入层进入网络,依次经过每一层的计算,得到最终输出层结果的过程。我们的计算过程是用每一层的数值乘以对应的权重+偏置变量(激活函数)公式如下:从输入层到隐藏层:从隐藏层到输出层:(v和w分别对应从输入层到隐藏层和从隐藏层到输出层的权重,是激活函数。引入激活函数的目的是在模型中引入非线性,从而使得深层神经网络表达能力就更加强大。)
  反向传播指的是如果神经网络输出值超出期望误差范围,那么BP神经网络会根据误差信息反向传播并对神经元参数的调整进行学习和改进,计算误差公式(即损失函数)如下: 为使损失函数不断变小,我们需要去调整权重的大小。这里主要通过梯度下降法加快收敛速率。通过一定次数的反复学习来不断降低误差值,最终当误差被控制在期望误差范围内时则停止传播。以上就是BP神经网络完成整个训练学习程序的过程。
  在具体的应用上,BP神经网络模型根据影响因素来进行预测。通过对数据的分析处理,我们可以获得训练集和测试集的预测评价指标,具体的评价指标有MSE(均方误差)、RMSE(均方根误差)、MAE(平均绝对误差)、MAPE(平均绝对百分比误差)还有R2。通过这些量化指标来衡量BP神经网络的预测效果。如果是训练集和测试集的各预测评价指标值相差不大,即可说明模型预测良好。
  2.1.3LSTM神经网络模型
  LSTM(Long-shortTermMemory)神经网络模型可以学习序列化特征和长期依赖关系,有效利用上下文关系从而避免梯度下降或消失,LSTM的核心是记忆细胞和门机制管理,其中,记忆细胞用于历史信息记录,门结构不提供信息,用来去除或者增加信息到细胞状态,本质是一种多层次的特征选择方式。LSTM神经网络结构图如图1所示。
  根据LSTM的结构,每个LSTM单元工作的公式描述如下:判定为无用或不相关的那些历史信息将被遗忘门抛弃,如式(1)所示:(1)将上一时刻保留的信息与此刻的输入信息共同作为输入门的更新状态,如式(2)、(3)所示:(2)(3)由输出门输出当前时刻的状态信息,如式(4)、(5)所示(4)(5)式中 和 为相应的连接权值, 和 为相应的偏置,对应t时刻遗忘门的激活值,为Sigmoid函数,对应t时刻的细胞状态更新值, 对应当前神经单元的输出值。
  此原理应用上依旧选取MAE、RMSE以及模型的学习时间和收敛速度作为LSTM神经网络预测模型性能的评价指标。
  2.1.4RandomForest随机森林
  随机森林模型的构建是从原始数据集中抽取个Bootstrap训练集,使用每一个Bootstrap训练集,分别生长一棵不进行剪枝的分类树,并且使用随机方法进行特征选取,使用简单多数投票方法对分类结果做出预测。训练随机森林之后,可以得到一个对于模型泛化误差的估计。
  然后建立随机森林需要处理两个重要参数,即树节点选取的分割变量数量以及随机森林中基分类器CART树的数量,它们决定了随机森林的训练误差和预测能力。其中预选变量个数决定单棵决策树生长过程,决策树的数量决定了随机森林的规模。本研究将通过随机森林模型预测收盘价等指标的涨跌走势。
  2.1.5组合预测
  研究中提出了组合预测。一般来说,组合方法可以用以下形式表示: 其中表示 权向量,满足的条件在组合过程中,如何确定权重是一个至关重要的问题。样本算法(SA)给每个权重分配一个相同的权重
  。但是,考虑到不同的方法通常会从不同的角度以及有些互补的角度对系统进行描述,因此,为了有效提高组合预测精度,我们采用加权平均法这样一种工具,来对不同的权重分配不同的值。在约束下最小化组合预测误差。我们用 表示单一预测方法的误差,用 表示为组合预测的误差,然后以E表示组合预测误差信息矩阵。然后通过求解优化模型,我们可以得到每种预测方法的最优权向量。
  构建这样的智能组合预测模型之后,我们运用到对生物制品股票前五大权重股的预测中,为了有效地评估股票指数预测模型的性能,我们将组合预测模型与单项预测模型进行对比,验证智能组合预测模型的预测精度的优越性。
  3.实验结果与分析
  实验数据主要包括两部分:股票数据和文本数据。本文选择了生物制品行业的前五大权重股票,分别是恒瑞医药、药明康德、复星医药、华兰生物和长春高新,作为实验的对象。本文从东方财富网上爬取了这五只股票的日线数据,包括开盘价、收盘价、最高价、最低价和成交量,时间范围为2022年1月1日至2022年6月30日,共244个交易日。本文以收盘价作为股票的预测目标,以开盘价、最高价、最低价和成交量作为股票的历史数据。
  本文从新浪财经上爬取了与生物制品行业相关的财经新闻文本,包括标题、正文、发布时间和来源,时间范围与股票数据相同,共244个交易日。使用本文提出的文本情感分析方法,对每篇新闻文本进行情感极性计算,得到每篇新闻文本的情感得分,作为文本的情感数据。
  本文使用以下几种指标来评价模型的预测性能,分别是:RMSE、MSE和MAPE。
  从表中可以看出,本文提出的智能组合预测模型在所有的指标上都优于其他的单项预测模型和基于情感词典的方法,说明该模型具有较高的预测性能。而其他的单项预测模型和基于情感词典的方法在各个指标上的表现不尽相同,其中RF模型的表现最好,BP模型和LSTM模型的表现居中。
  4.结论
  本文提出了一种基于网络文本情感分析的智能组合预测模型,并将其应用于生物制品股票指数的预测,取得了较好的预测效果。
  本文以生物制品行业的前五大权重股票为例进行了实验,将本文提出的智能组合预测模型与其他几种单项预测模型进行了比较,结果表明,本文提出的智能组合预测模型具有较高的预测性能和优越性。
  本文的工作虽然取得了一定的成果,但仍有可以改进之处。本文使用的情感词典是静态的,可能导致情感分析的准确性和实时性降低。本文以生物制品行业为例,可能导致模型的泛化能力和适应性降低。
  参考文献
  [1]葛业波,刘文杰,顾雨晨.融合情感分析和GAN-TrellisNet的股价预测方法[J/OL].计算机工程与应用,1-12[2023-12-11]http://kns.cnki.net/kcms/detail/11.2127.tp.20231024.1701.006.html.
  [2]于孝建,刘国鹏,刘建林等.基于LSTM网络和文本情感分析的股票指数预测[J/OL].中国管理科学,1-12[2023-12-11]https://doi.org/10.16381/j.cnki.issn1003-207x.2021.0084.
  [3]刘振才.网络舆情对股票收益率的影响研究[D].济南:山东大学,2023.
  [4]刘怡萱.基于深度学习融合情感分析和知识图谱的股票趋势预测研究[D].杭州:杭州电子科技大学,2023.
  [5]季玉文.金融文本情感分析技术研究与应用[D].杭州:浙江理工大学,2023.
  [6]邓秋叶.网络舆情、投资者情绪与股票收益率[D].贵阳:贵州财经大学,2022.
  [7]刘月娟,王武.基于多特征融合的股票走势预测研究[J].云南民族大学学报(自然科学版),2022,31(2):227-234.
  [8]许雪晨,田侃.一种基于金融文本情感分析的股票指数预测新方法[J].数量经济技术经济研究,2021,38(12):124-145.
图片及表格按正文顺序标题如下
图1:LSTM 神经网络结构图
表4.1 恒瑞医药日收益率和日波动率的预测评价
表4.2 药明康德日收益率和日波动率的预测评价指标
表4.3 复星医药日收益和日波动率的预测评价指标
表4.4 华兰生物日收益和日波动率的预测评价指标
表4.5 长春高新药日收益和日波动率的预测评价指标
 本文评论                                        评论数()  更多>>
评论正在加载中...
 发布评论
 用户名: 密码: 匿名
最大长度:500 还剩:500
 
   综合物流近期报纸查看                                 更多>>
 
  本文所在版面导航
·智能组合预测模型与生物制品前五大权重股票
  本文所版面
【第 7 版:学术与理论】
现代物流报社 http://www.xd56b.com/ 版权所有123
技术支持:喜阅网(www.xplus.com)