就爱来小说网

第379章 实验室里的深夜对话(4/4)

强化学习需要奖励函数。你怎么定义奖励?”

    陆方:“准确率。奖励就是准确率。”

    陈曦:“那太简单了。试试用夏普比率?不仅要准,还要稳。”

    陆方:“夏普比率?我用的是分类任务,不是交易策略。”

    陈曦:“分类任务也可以用夏普比率。把准确率看成收益,把方差看成风险。最大化夏普比率,就是最大化收益风险比。”

    陆方沉默了几秒。“有道理。我试试。”

    陈曦:“好。有结果告诉我。”

    陆方放下手机,打开论文,开始研究强化学习。

    2024年3月31日,星期日,晚上十一点。

    陆方完成了强化学习的第一个版本。他用夏普比率作为奖励函数,训练了一个权重优化模型。测试结果:准确率93.1%,波动率下降了30%。他在笔记本上写道:“强化学习有效。下一步,部署到星海平台。”

    他给陈曦发消息:“强化学通了。准确率93.1%,波动率下降30%。”

    陈曦回复:“厉害!夏普比率多少?”

    陆方:“1.8。”

    陈曦:“不错。继续优化,争取到2.0。”

    陆方笑了。他想起2019年,陈曦第一次来公司,画了那张产业链图谱。那时候,她才11岁,什么都不懂。现在,她在伯克利,教他做强化学习。时间过得真快。

    他关掉电脑,站起来,走到窗前。窗外,深圳的春夜安静而深邃。远处的平安金融中心,灯光在夜色中闪烁。

    他想起周寻说的话——“淘汰我们的不是技术,是我们不会用技术。”他学会了用技术。不是被技术淘汰,是用技术淘汰别人。这是他的路。

    他转过身,关掉灯,走出技术部。走廊里,灯光明亮。他经过研究部,灯已经关了。经过交易室,灯也关了。经过陈默的办公室,灯还亮着。

    他走进电梯,按下一楼的按钮。电梯门关上,数字从18跳到1。叮。门开了。

    大堂里空无一人,只有保安在值班。

    “陆总,今天这么晚?”保安问。

    “嗯。有点事。”陆方点头,“辛苦了。”

    他走出大楼,深吸一口春夜的凉风。三月的深圳,温暖而湿润。

    远处,平安金融中心的灯光在夜色中闪烁。

    他坐进车里,发动引擎。收音机自动打开,传来一个声音:“……今日A股震荡收红,科技股领涨。默石资本首席技术官陆方表示,星海平台已完成新一轮升级,大模型准确率提升至93%……”

    他关掉收音机。不需要听这些。他知道,星海还会更强。他也会更强。

    他挂上倒挡,驶出停车场,汇入深南大道的车流。前方,是夜色中的深圳,灯火辉煌,但行人稀少。他握着方向盘,眼睛看着前方的路。路灯一盏一盏地亮起来,像一条光河,流向远方。

    他不知道这条河的尽头是什么。但他知道,无论是什么,他都会沿着这条路走下去。不是因为他能预测未来,是因为他相信——技术是工具,不是主人。他是主人。

    他加速,驶入夜色。