就爱来小说网

第236章:第一个“因子”的寻找(2/4)



    他走到那堆打印出来的Excel表格前,坐下来:

    “1992年,我刚入市的时候,没有电脑,没有软件。所有的K线图,都是我手画的。每一根K线,开盘、收盘、最高、最低,一个一个从报纸上抄下来,然后用尺子画在坐标纸上。”

    他看着陆方:

    “现在有Excel了。比那时候强多了。”

    陆方看了他几秒,然后点了点头。

    没再说别的。

    ---

    周寻的第一个任务:定标准。

    爬虫爬下来的数据,乱七八糟。

    同一天,不同网站的开盘价可能差几分钱。同一只股票,不同年份的股本可能变过好几次,不复权、前复权、后复权,根本对不上。财务数据更乱——有的公司用旧会计准则,有的用新会计准则;有的报表里“净利润”是归属于母公司的,有的是合并报表的;有的“每股收益”是摊薄的,有的是加权的。

    周寻拿着一份自己整理的《数据清洗标准手册》,对着那一堆原始数据,一条一条核对。

    “这里,”他指着屏幕,“2005年6月30日,招商银行。三个来源的数据,两个说收盘价是6.52,一个说是6.55。差三分钱。”

    陈默凑过去看。

    “三分钱,影响大吗?”

    周寻摇头:

    “单看一天,不大。但如果用来算年化收益,差之毫厘,谬以千里。”

    他顿了顿:

    “而且,如果三分钱的误差是系统性的,那整个回测结果都会偏。”

    陈默沉默了几秒。

    然后他问:

    “那怎么办?”

    周寻想了想:

    “找第四个来源。如果还是对不上,就取中位数。然后把这个问题记下来,以后做敏感性分析。”

    他看着陈默:

    “所有类似的问题,都要记下来。不能假装不存在。”

    陈默点头。

    他拿起一支笔,在笔记本上写下第一行:

    “数据问题清单”

    下面,他写:

    1. 2005.6.30 招商银行 收盘价 三个来源不一致 (6.52/6.55) 处理:取中位数6.53

    2. ……

    这本笔记本,后来成了“默石数据清洗史”的第一页。

    整整三年后,他们才真正拥有一套干净的、可用的十年数据库。

    而这本笔记本,已经写满了三百多页。

    ---

    下午三点,陈默亲自开始核对数据。

    陆方给他分配了第一批任务:2005年到2007年,上证50成分股的日线数据。

    一共50只股票,三年,大约750个交易日。每只股票每天有开盘、收盘、最高、最低、成交量、成交额——六个字段。

    总共225,000个数据点。

    陈默坐在那张折叠桌前,面前摊着三份打印出来的表格——分别来自三个不同的数据源。

    他的任务:一行一行比对,把不一致的地方标出来。

    第一行,招商银行,2005年1月4日。

    来源A:开盘8.52,收盘8.55,最高8.60,最低8.48

    来源B:开盘8.52,收盘8.55,最高8.60,最低8.48

    来源C:开盘8.51,收盘8.55,最高8.-->>

本章未完,点击下一页继续阅读