推出行业首个“云、端、边”产品矩阵 5.0版大模型综合能力显著提升商汤撞出“百模争流”大声响

来自：解放日报作者：上海要闻 2024-04-28 访问量：1108

记者李晔
“2018年提出SenseCore大装置时，我将其类比为人工智能的粒子对撞机，以期撞出AI基础科学定律。”4月23日说这话时，商汤科技董事长兼CEO徐立身处大装置所在的商汤临港智算中心。1小时后，他向台下济济一堂的生态伙伴与客户介绍行业首个“云、端、边”全栈大模型产品矩阵及日日新大模型SenseNova5.0版，后者综合能力据称已达到或超越GPT-4 turbo。
翌日，商汤科技开盘价上涨逾30%，当周股价涨幅近100%。
六年前，被徐立称为“机器的猜想”的大装置，让人看不懂；六年来，商汤每年数十亿元往里砸钱，外界不看好。直到近期，商汤披露2023年财报，加上4月23日商汤技术交流日上一系列成果发布，人们恍然大悟：“机器的猜想”不仅撞出了“三月一更”的日日新大模型，撞出了“百模争流”的算力柴火，还把商汤从行业标杆推向生态引领与建设者“大哥”角色。
“不响”的商汤，在AI大模型演进潮中，激起业内大声响。
落地
去年4月，商汤的日日新SenseNova大模型体系首次亮相，短短一年内，已迭代至5.0版，能力再进阶。
论写作，一篇有关《红楼梦》的高考作文，GPT-4遵循老套路，日日新5.0版却能从《诗经》谈起，引用革故鼎新的典故，再融合互联网热词，行文发散，思路打开。
论“文生图”，“一张具SenseNova标志的未来派建筑图”，无论标志所嵌位置的恰当性，还是建筑底部呈现的倒影波浪，均实现了较完整的“指令跟随”。
被问及“13位小朋友玩老鹰抓小鸡，已抓5只，还剩几只？”时，日日新5.0版回答“还剩7只”，证明它准确理解了游戏规则。
徐立介绍，5.0版性能突破，一靠模型架构，二靠数据构造。在混合专家架构（MoE）下，大模型数千亿参数仅“稀疏”激活便能实现高效推理。此次商汤着重在推理层构造了数千亿个旨在理顺逻辑的合成数据。如金融领域，诸多文件间存在规则冲突，商汤构建了外规强于内规、新规覆盖旧规的强思维链，这成为大模型能力提升的关键。
“百模大战”仍酣，落地才是王道。徐立坚信，中心化的算力需求必会向端侧及行业边缘侧拓展，为此商汤早有布局，此番亮出“云、端、边”全栈大模型产品线，从办公和代码助手到虚拟形象再到手机汽车智能终端，均在商汤“射程”内。小米、华为、金山办公、海通证券、阅文集团等一众灯塔客户更是亲自前来站台。
小米集团小爱总经理王刚透露，近期推出的小米汽车SU7，由小爱同学为车主提供智能交互体验，其中也应用了商汤的大模型技术。上“打”GPT-4，下接百千行，商汤此次亮相颇为惊艳，徐立却多次强调“性价比”。如针对金融、医疗、政务等领域，商汤推出企业级大模型一体机，不仅解决敏感行业“数据不出域”，而且价格亲民。“像代码大模型一体机，我们按照算力模型仔细核算成本，实现本地部署，单台支持100人研发团队使用，人均每天仅4.5元。”徐立笑言，这大概要拜过去“踩坑无数”所赐。
柴火
大模型训练如炼丹，以GPU为核心的算力如柴火。为训练GPT-3.5，OpenAI使用了1万张英伟达GPU。可见谁柴火储备多，谁就占据主动。
商汤六年前即布局SenseCore大装置，2019年就已具备千卡并联能力，现总算力规模增至12000P，运营GPU高达4.5万张。去年，商汤基于“大模型+大装置”的生成式AI业务录得12亿元收入，占总收入的35%。这也是商汤成立以来从无到有最快超十亿元收入体量的新业务。
2022年底，ChatGPT横空出世，引发全球范围AI算力需求激增。商汤何以提前四年便有前瞻认知，投入累计达数百亿元？徐立自谦，“当时旨在降成本”。AI落地之初，监控窨井盖缺失等场景，需单独部署算法、数据和一群人。换一个场景，又是相同配置。徐立便考虑，干脆以一个通用模型来覆盖多场景。但模型越通用，训练数据和模型参数就越多，对算力要求也越高。当年，商汤在市场上遍寻不着可以大规模互联的AI算力集群，甚至被云厂商嫌弃这需求过于小众，要求商汤自行承担全部一次性工程费用。
那还不如自建呢！当时徐立对下一阶段算力需求爆发的判断在AI驱动的科研上，提出地球科学、材料、生物、制药、能源五大方向。这些行业尚未形成定律，AI在其中定大有空间。2018年起，商汤投建大装置，2020年夏在临港建设智算中心，从此开弓再无回头箭。
很快，曾经的“小众”需求，便演变为行业主流。商汤自用算力逐渐向外输出，大装置现已实现对万亿参数大模型的生产支持，具有超30天稳定训练不间断能力，出现间断时的诊断恢复时长也被优化至半小时内。
国内正“炼丹”的大模型深知，这些硬核数字对它们意味着什么。
生态
但算力输出能力不单以拥有多少张卡为标准。
从千卡并联跃上万卡台阶，对集群稳定性和高效计算构成巨大挑战，而且这种工程化的能力无作业可抄，唯有无数个日夜的沉浸式攻关。当下，直面国产算力替代问题，商汤所需攻克的难点更多，“将不同芯片组织起来的算力集群要解决连接、异构、能耗、稳定性极限等”。徐立称，商汤总算力中，国产算力已达2000P，未来占比还会更多。
商汤还与上海人工智能实验室一同研发了DeepLink并行计算体系。该体系可确保国产芯适配主流的大模型训练框架和算法库，现已能覆盖99.5%的CUDA所支持的大模型计算需求。
目前，包括华为、寒武纪、壁仞、沐曦等在内，商汤大装置已可深度适配20余款国产芯片，已落地多个千卡级别的国产算力集群。
关于担任国产算力生态构建者这一全新角色，徐立认为，用合适的应用来倒推国产算力架构能力提升，或是可行之路。“我们现在面临挑战，但正因此，算力平台的兼容性、异构调度的兼容性等在承压之下定会奋力崛起。”他自信地说。

上一篇国产抗肿瘤药获美国FDA批准上市已惠及逾18万患者
下一篇 C919大飞机获国航百架大单今年起至2031年分批交付进度与东航同步