r> “比如,一个轻量级的语义记忆网络,专门处理长尾问题中的上下文依赖。再比如,一个多任务学习框架,把意图识别、实体抽取、情感分析一起训练,共享底层特征。”林辰说着系统方案里的内容,“还有,我们可以用对抗训练的方法,生成一些困难的负样本,让模型学会区分细微的语义差异。”
陈默愣住了,手里的烟掉在地上。
“语义记忆网络……多任务学习……对抗训练……”他喃喃自语,猛地转身在白板上写起来,“对,对!这样可以在不增加太多参数的情况下,提升模型的泛化能力。但难点在于,这些模块怎么设计?怎么融合?训练策略怎么定?”
“我有方案。”林辰说,“给我一台电脑。”
陈默把自己的笔记本电脑推过来。林辰接上投影,开始敲代码。
他不是敲,是“抄”——把脑海里的方案,一行行复现出来。手指在键盘上飞舞,速度快得出现残影。屏幕上的代码如瀑布般倾泻而下,结构清晰,注释详尽,甚至包含了每个超参数的设置依据。
会议室里安静得只剩下键盘声。
四个算法工程师围过来,眼睛瞪大,呼吸急促。他们都是科班出身,能看懂这些代码的价值——这已经不是“优化”,是“重构”,是基于对深度学习本质的深刻理解,设计出的全新架构。
而且,代码风格极其老练,每个函数都恰到好处,每个模块都耦合度极低,扩展性极强。这不是一个算法工程师能写出来的,这得是一个架构师+算法专家+代码艺术家。
二十分钟后,林辰敲下最后一个回车。
“架构设计完成。包含:1. 基于Transformer改进的轻量级编码器;2. 语义记忆网络模块;3. 多任务学习框架;4. 对抗训练数据生成器。总参数量比原模型增加15%,但理论上准确率能提升至少2个百分点。”
陈默盯着屏幕,嘴唇哆嗦。
“林总……您……您之前是搞算法的?”
“不是。”林辰平静地说,“但我认识一些搞算法的朋友,交流过。这个架构,是我根据他们的思路,结合咱们的具体问题,设计的。”
他说谎了,但面不改色。
陈默信了。因为除了“认识一些天才朋友”,他无法解释为什么一个产品出身的COO,能写出这种级别的算法代码。
“那……预训练模型呢?”另一个工程师问,“没有好的初始权重,再好的架构也白搭。”
“有。”林辰打开浏览器,输入系统提供的一个网址,“这是一个开源的客服领域预训练模型,训练数据包含五千万条对话,覆盖金融、电商、教育等十几个行业。我们可以直接拿过来,用我们的数据微调。”
网页打开,是一个英文的技术博客,最新一篇论文的链接。论文标题是《CPT: A Large-Scale Pre-trained Model for Customer Service》,作者来自斯坦福。模型权重开源,可以免费商用。
陈默点开论文,快速浏览摘要和方法部分,然后倒吸一口凉气。
“五千万条对话……Transformer-XL架构……三十亿参数……这,这比云图用的模型还大!”
“但我们可以用知识蒸馏的方法,把它压缩到适合我们线上部署的规模。”林辰说,“虽然会损失一些精度,但基础能力在,微调后应该能突破99%。”
“何止99%……”陈默的声音在发颤,“如果这个模型真像论文里说的那么强,我们微调好了,可能……可能能到99.5%。”
99.5%。
比云图的99%,高出0.5个百分点。
-->>
本章未完,点击下一页继续阅读