近年来,互联网已成为投资者获取信息和进行交流的重要渠道。网络金融信息和金融市场之间有着非常密切而复杂的关系。从金融网络文本中我们可以统计出词频时间序列数据。本项目计划以词频时间序列数据为基础,研究网络文本信息的基本规律及其和金融市场变量的关系。由于金融文档中的词汇量巨大,而时间序列长度有限,因此需要研究高维条件下,即变量数大于或远大于样本量情形下的模型。我们将计划研究高维时间序列回归模型,高维波动率模型及其极限性质。并且将这些方法应用于网络文本和金融市场变量,研究金融市场和网络信息流的关系,探讨网络文本信息和金融市场收益率指数、市场波动率的关系。该研究将帮助我们更深入地理解金融市场、管理金融网络信息、优化投资及控制风险。同时发展高维数据的模型分析处理方法。
graphical models;financial market;web text;reversible Markov chain;
该研究包括两个方面高维数据分析的图模型的方法和理论研究, 以及金融网络文本数据和金融市场的实证研究。高维图模型的等价结构空间是进行图模型学习和推断的所有备选模型的集合。了解等价图模型空间的性质能使我们更好地理解和使用图模型理论和各类图模型学习方法。然而,因为等价图模型结构表示复杂,并且数量随变量超指数增长,研究难度很大。 我们设计了等价类模型上的可逆马尔科夫过程。该过程可以实现对具有数千变量的稀疏大系统的图模型进行有效的抽样。利用该抽样方法,我们可以研究图模型性质,比如模型复杂度,结构的分布等问题。我们对该问题的研究的部分成果已在统计学国家顶级期刊Annals of Statistics 发表,部分成果也提交至其他国际核心情况上. 另外,我们还研究了社交媒体上的随机游走方法,对金融市场和金融网络文本的关系进行了很多实证研究。包括对新浪微博,腾讯微博网络文本特征及其和金融市场的关系研究;财经网络新闻文本信息对市场收益率波动率的影响;房地产行业公报,新闻联播报道对金融市场的影响等。