大模型轮番登场,上海打响“百模”大战。加快建设更具国际影响力的人工智能高地,上海如何让算力“即取即用”?东方卫视《今晚》特别栏目“看懂上海”邀请上海市人工智能标准化技术委员会副秘书长、上海人工智能行业协会标准研究部部长陈曦、临港新片区管委会数据处副处长倪晓杰,以及上海星云爱店科技有限公司首席技术官董继明,一起讨论。
“百模”大战打响 大家在“卷”什么?
当ChatGPT、Sora等AI大模型惊艳亮相,改变人类的生产生活、认知思维方式时,一批国产大模型正敲响战鼓、迎头赶上。最近,上海接连“上新”了一批大模型,“百模大战”愈加激烈。
4月23日,商汤科技发布新一代大模型,其知识、推理、数学、代码等指标与GPT4 Turbo不相伯仲。自去年4月首次发布以来,商汤“日日新”大模型体系已推出五个大版本迭代。如今的5.0版本,基于庞大训练数据和大量合成数据,采用混合专家架构,创意写作能力、推理能力以及总结能力均大幅提升,在金融、出行、办公、IP角色等行业实现深耕落地。
日前,在上海唯一的大模型创新生态社区“模速空间”内,新锐企业智象未来在为即将发布的文生视频模型做最后的技术攻坚。这款自研大模型,目标直指美国OpenAI团队的视频生成模型Sora,立志要用中国的人工智能讲述中国故事,“输入延时摄影星空闪烁,不到1分钟可以生成出来一个视频的片段”品牌负责人张一鸣对自家产品信心满满。
目前,在“模速空间”,类似智象未来这样的大模型企业已超过60家,而上海已有24款大模型完成备案、可上线提供服务,数量位居全国前列。
身为业界中人,上海星云爱店科技有限公司首席技术官董继明在节目中感慨,围绕国产大模型的各个行业近年来确实“卷得不得了”,然而取得的长足发展也颇令人惊喜。
董继明表示,3个月前他们尝试性地将其从200万用户收集的任务问题,从国外先进大模型“切换”至国产大模型,以此检测能否支撑他家产品——科研助手“万能小in”的复杂运算。“无论输入长度、逻辑性,还是趣味性,实际效果都超出我们的期望,而且文生图的多模态能力也比较理想”,董继明说,既然国产大模型能堪大用,索性就全量切到了国产大模型。
解决算力“焦虑” 要抓哪些关键要害?
算力、算法和数据,是训练人工智能大模型的三个关键要素。如果把大模型比喻成“身体”,那么维系身体机能运转的“血液”则是海量的算力,尤其是智能算力。据预测,算力每投入1元钱,就将带动3至4元的经济产出。
随着人工智能技术更新迭代,对算力的需求也与日俱增。以GPT-3和GPT-4模型为例,二者对应的算力增长24倍。可以说,在数字时代,算力决定了人工智能技术创新的上限。
值得注意的是,在算力需求总量增长的同时,因供需错位导致大量算力闲置的情况仍存在。目前,我国整体算力利用率不足30%,高端算力缺口相对较大。
上海市人工智能标准化技术委员会副秘书长、上海人工智能行业协会标准研究部部长陈曦认为,之所以会出现算力缺口问题,主要在于在这一轮大模型发展中,企业要将很大部分的研发成本投入在算力以及合规的语料数据上面。2022年在美国用显卡训练模型的成本比在中国高出一倍,而2023年在中国用进口显卡训练模型的成本达到了美国的两倍,“而且,显卡还不好买,推高了企业的算力成本。”
陈曦指出,这种情况迫使我们必须加快国产AI芯片升级,同时也欣喜地看到目前已有很多国产AI芯片可以实现大模型的推理,“我们也期待有朝一日,国产AI芯片可以正式在训练阶段得到很好的应用。”
夯实算力基础设施建设 打造“智算产业”生态圈
当前,上海正持续夯实算力基础设施建设,各个重点区域持续布局,助力构建全国一体化算力网。
临港新片区的工地上,中国电信临港智算中心一期工程的一部分算力设施已经崛起。其中一间机房承载3000张GPU卡,4个机房通过网络互联,形成了国内首个超万卡液冷算力集群。工程建成后服务的大模型为万亿级参数,对标GPT4.0即可融合文本、图片、视频多模态。
5月7日,包括“国产万卡液冷集群赋能星辰大模型”等在内,一批大模型集群在临港新片区正式启动,进一步助力算力与大模型产业应用深化联动。目前,临港新片区已布局含三大运营商、商汤科技、有孚网络等在内的8个算力中心,可调度算力约3EFLOPS,约占上海市总体算力20%。
除了临港,上海还加快在青浦、松江、金山、张江等重点区域建设大型智算中心。其中,松江拥有10个大数据中心、算力中心项目,已批复3.4万个机柜,落地了腾讯长三角人工智能先进计算中心、上海仪电智算中心等一批重大项目。规划机柜数量近4万架的腾讯长三角人工智能先进计算中心项目,建成后将成为亚洲领先的人工智能计算中心和全国最大的GPU计算集群。
董继明服务的公司,坐落于全国首个大模型生态社区“模速空间”。“模速空间”位于徐汇滨江,与上海人工智能实验室、商汤科技、阿里巴巴、腾讯等知名科研机构和科技企业毗邻,形成了一个人工智能产研生态圈。
入驻“模速空间”的企业不仅可享受房租减免,还可获得算力、数据、评测、金融等大模型研发所必需的资源,“这些原料单靠一家企业单打独斗来积累,是非常困难的”董继明说。此外,在市区两级政府的支持下,购买算力资源的企业将得到现金补贴,每个季度补贴一次,“有了这个补贴以后,可以把我们的成本降低下来。”
让董继明最能体会“产业生态圈”福利的还有智慧的集聚与碰撞,“在我们吃饭、午休的时候,周围都能结识到做大模型的人。大家常常在一起交流,甲公司用户需要的应用场景,乙公司可以帮忙找到解决方案。”
“全球数据经济快速发展、人工智能大模型不断更新迭代,算力是当下数字经济时代重要的战略性资源,大家都在争抢”,临港新片区管委会数据处副处长倪晓杰介绍,最近在临港,临港集团“智算集群赋能港大自主算法平台”、上海电信“国产万卡液冷集群赋能星辰大模型”、商汤科技“日日新5.0大模型”等又一批大模型训练集群正式启动。
其中,“智算集群赋能港大自主算法平台”用于3D生成和基于人工智能的药物设计等方向的研究;“国产万卡液冷集群赋能星辰大模型”为客户提供大模型场景化应用一站式交付;“日日新5.0大模型”大幅提升了日日新大模型的训练效率和推理速度,打造了国内首个全面对标GPT4的大模型,在金融、出行、办公、IP角色等行业实现落地。“将这些训练集群集聚在我们临港新片区,我们可以更好地服务各行业垂类大模型,同时在相关制度方面进行先行先试。”
国际竞争日趋激烈 上海有哪些优势?
有句话叫“算力即国力”,在数字经济与人工智能时代,算力已经成为重要的资源之一,全球围绕算力的竞争博弈也日益激烈。
从国家算力指数排名来看,美国和中国位列前两位。2023年《中国算力发展指数白皮书》显示,美国和中国在全球算力规模中的份额分别为34%、33%。位居全球第二的中国,算力总规模已经达到197EFLOPS。算力规模近5年年均增速近30%,存力规模、运力质量也在不断提升。
为了抢得先机,全球主要国家和地区都在持续加码推进算力发展。2022年8月,拜登正式签署《芯片与科学法案》,旨在巩固美国在半导体领域的地位,并强化算力基础设施应用和协同创新。2023年美国的《国家量子计划》,则增加了对量子算法、应用程序等软件工程的研发投资。欧盟也在不断加大前沿计算技术研发和算力发展的投入。《2023至2024年数字欧洲工作计划》就提出,要投入1.13亿欧元提升数据与计算能力。
对标全球领先水平,上海正摩拳擦掌,强化算力产业发展的政策支持和保障。5月7日,上海临港新片区发布5方面11项措施,计划将临港打造成具有重要战略地位和全球影响力的算力高地。到2025年,力争总算力超过5EFLOPS,智算占比达80%,算力产业总规模提升至100亿元。
从全市层面来看,上海市通信管理局等11部门日前也印发方案,提出构建智算生产要素、打造智算应用场景等五方面重点任务,力争到2025年,上海市智能算力规模将超过30EFlops,占比达总算力的50%以上。上海具备大规模应用赋能价值的智算中心数量达到10家,智能算力典型应用场景超过50个,争取5个以上智算中心纳入国家级算力基础设施典型案例名单。
“尽管美国从Ai芯片到深度学习框架,以及核心算法仍然存在领先地位,但是我们也不必妄自菲薄”,陈曦指出,中国和上海有着最广泛的消费人群,在移动互联网时代就能创造出“杀手锏”级别的消费应用。“2024年是大模型应用场景元年,上海本身是一个超级巨大的场景城市,产业类别齐全,同时服务业高度发达,所以我们要利用算力提供的基础保障和应用场景方面的优势,把握住大模型的发展机遇”陈曦说。
打造全球算力新高地,临港新片区被寄予厚望。倪晓杰表示,今年政府工作报告提出“加快形成全国一体化算力中心”,算力网是促进全国范围内各类算力大规模调度运营的数字基础设施。临港新片区地处长三角沿海界面的中心位置,在全国一体化算力网络长三角枢纽节点中扮演重要角色,能形成算力能力对外辐射的优势。在新政的支持下,临港新片区将持续优化算力布局体系,在基础设施、核心产业和示范场景三方面形成合力,打造智能算力“三位一体”的协同发展体系。
编辑: | 李瑶郝苗苗 |
责编: | 赵歆 |
剑网行动举报电话:12318(市文化执法总队)、021-64334547(市版权局)
Copyright © 2016 mzyl.org Inc. All Rights Reserved. 看东方(上海)传媒有限公司 版权所有
全部评论
暂无评论,快来发表你的评论吧