第386章能读研报，还能写摘要_股海弄潮

第386章能读研报，还能写摘要(2/4)

加入书签

查看目录

查看书架

只有80%。你测的100份是92%，为什么？”

    陆方看了一眼测试数据。“因为这十份研报里，有两份是港股公司的。星海对港股公司研报的理解能力弱于A股。因为训练数据中，港股研报的比例较低。”

    沈清如点头。“那就增加港股研报的训练数据。”

    陆方说。“已经在做了。陈曦在伯克利那边也在帮我们爬数据。”

    沈清如笑了。“她比我们当年强。”

    陆方也笑了。“对。”

    上午十一点，陈默办公室。沈清如推门进来，手里拿着测试结果。

    “星海3.5的摘要准确率，A股研报92%，港股研报80%。总体88%。”

    陈默接过报告，看了一遍。“88%已经很高了。人也就90%。”

    沈清如在他对面坐下。“但幻觉问题还是存在。万一研报里关键数据错了，星海摘要也跟着错，我们就会踩雷。”

    陈默点头。“所以，不能完全信任。人机结合，它出活，人复核。”

    沈清如说。“我让研究员每天下午三点前，复核当天的星海摘要。错的地方标注出来，反馈给技术部优化模型。”

    “好。”

    下午两点，技术部。陆方收到研究部反馈的第一批错误数据。他打开日志，一行一行地看。幻觉——某公司营收增速15%，星海写成18%。语义理解错误——“目标市占率”理解成“实际市占率”。数据遗漏——某公司经营性现金流为负，星海摘要没提。他一一把问题记录下来，然后开始调参数。

    周寻走过来。“怎么样？”

    陆方头也没回。“幻觉率还是高。需要更多的训练数据。”

    周寻想了想。“让陈曦在伯克利那边多爬一些数据。英文研报也行，可以翻译成中文。”

    陆方点头。“已经在做了。”

    下午四点，陆方收到陈曦发来的一批新数据——5000份英文研报，覆盖美股、港股、A股。她写了爬虫，从公开渠道抓取，然后用开源模型翻译成中文。数据量有十几G，用云盘传了一下午。

    陆方给她发消息：“收到了。谢谢你。”

    陈曦回复：“不客气。星海3.5上线了？”

    陆方：“上了。准确率88%。”

    陈曦：“不错。继续优化，争取到95%。”

    陆方笑了。“好。”

    下午五点，陈默走进技术部。陆方正在调试模型，屏幕上是一行行代码。

    “进展如何？”陈默问。

    陆方转过身。“收到陈曦发来的5000份英文研报，正在清洗。下周可以加入训练数据，准确率应该能再提高。”

    陈默点头。“辛苦了。”

    陆方摇头。“不辛苦。比当年建星海容易多了。”

    陈默笑了。“当年，你们用了三年才把星海做到这个水平。现在，几个月就做到了。”

    陆方想了想。“因为技术在进步。大模型，比我们当年用的自然语言处理强太多了。”

    陈默看着他。“那你觉得，星海4.0会是什么样？”

    陆方想了想。“星海4.0，应该能自己写研报了。不是摘要，是完整的研报。分析、判断、结论，都能做。但准确率可能还是达不到100%，需要人工复核。”

    陈默点头。“那就够了。人机结合，永远是这样。”

    晚上，陈默和沈清如坐在书房里。窗外，深圳的秋夜安静而深邃。远处的平安金融中心，灯光在夜色中闪烁。

    “今天，星海3.5上线了。”沈清如说。>

本章未完，点击下一页继续阅读

查看目录