就爱来小说网

第386章 能读研报,还能写摘要(2/4)

只有80%。你测的100份是92%,为什么?”

    陆方看了一眼测试数据。“因为这十份研报里,有两份是港股公司的。星海对港股公司研报的理解能力弱于A股。因为训练数据中,港股研报的比例较低。”

    沈清如点头。“那就增加港股研报的训练数据。”

    陆方说。“已经在做了。陈曦在伯克利那边也在帮我们爬数据。”

    沈清如笑了。“她比我们当年强。”

    陆方也笑了。“对。”

    上午十一点,陈默办公室。沈清如推门进来,手里拿着测试结果。

    “星海3.5的摘要准确率,A股研报92%,港股研报80%。总体88%。”

    陈默接过报告,看了一遍。“88%已经很高了。人也就90%。”

    沈清如在他对面坐下。“但幻觉问题还是存在。万一研报里关键数据错了,星海摘要也跟着错,我们就会踩雷。”

    陈默点头。“所以,不能完全信任。人机结合,它出活,人复核。”

    沈清如说。“我让研究员每天下午三点前,复核当天的星海摘要。错的地方标注出来,反馈给技术部优化模型。”

    “好。”

    下午两点,技术部。陆方收到研究部反馈的第一批错误数据。他打开日志,一行一行地看。幻觉——某公司营收增速15%,星海写成18%。语义理解错误——“目标市占率”理解成“实际市占率”。数据遗漏——某公司经营性现金流为负,星海摘要没提。他一一把问题记录下来,然后开始调参数。

    周寻走过来。“怎么样?”

    陆方头也没回。“幻觉率还是高。需要更多的训练数据。”

    周寻想了想。“让陈曦在伯克利那边多爬一些数据。英文研报也行,可以翻译成中文。”

    陆方点头。“已经在做了。”

    下午四点,陆方收到陈曦发来的一批新数据——5000份英文研报,覆盖美股、港股、A股。她写了爬虫,从公开渠道抓取,然后用开源模型翻译成中文。数据量有十几G,用云盘传了一下午。

    陆方给她发消息:“收到了。谢谢你。”

    陈曦回复:“不客气。星海3.5上线了?”

    陆方:“上了。准确率88%。”

    陈曦:“不错。继续优化,争取到95%。”

    陆方笑了。“好。”

    下午五点,陈默走进技术部。陆方正在调试模型,屏幕上是一行行代码。

    “进展如何?”陈默问。

    陆方转过身。“收到陈曦发来的5000份英文研报,正在清洗。下周可以加入训练数据,准确率应该能再提高。”

    陈默点头。“辛苦了。”

    陆方摇头。“不辛苦。比当年建星海容易多了。”

    陈默笑了。“当年,你们用了三年才把星海做到这个水平。现在,几个月就做到了。”

    陆方想了想。“因为技术在进步。大模型,比我们当年用的自然语言处理强太多了。”

    陈默看着他。“那你觉得,星海4.0会是什么样?”

    陆方想了想。“星海4.0,应该能自己写研报了。不是摘要,是完整的研报。分析、判断、结论,都能做。但准确率可能还是达不到100%,需要人工复核。”

    陈默点头。“那就够了。人机结合,永远是这样。”

    晚上,陈默和沈清如坐在书房里。窗外,深圳的秋夜安静而深邃。远处的平安金融中心,灯光在夜色中闪烁。

    “今天,星海3.5上线了。”沈清如说。>

本章未完,点击下一页继续阅读