大华股份殷俊:大模型要让行业敢提需求,产业侧落地才是发展重点
10月24日,在第十九届CPSE安博会前夕,2023大华股份“星河璀璨·万象新生”年度峰会在深圳顺利举办。
本次峰会,大华股份“星汉”大模型重磅发布,同时,大华股份先进技术研究院院长殷俊分享了大华在人工智能领域的思考和实践,以及“星汉”大模型的研发底蕴、五大优势,和落地场景。
殷俊表示,数据成为新生产要素,人工智能成为重要的生产工具,随着行业数字化转型深入,对人工智能提出新的挑战。大模型的出现,进一步提升人工智能核心能力,带来新的市场机遇。大华股份聚焦以视觉为核心的智慧物联领域,积累了丰富的行业和细分场景业务经验,打造多模态的行业视觉大模型,全面推动城市高效治理与企业数智化升级。携手合作伙伴,构建新的数字产业生态,共创视觉智能新图景。
2019年,距离ChatGPT引起的大模型热潮还有4年,大华股份就敏锐地将transformer技术引入到公司内部,用ViT技术做半自动化标注方案,节省很多了很多成本。到了2020年初,就已经有了检测+分割+分类的自动化标注模型。
4年后的今天,大模型已经成为全球范围内“必须做的事情”。
大华股份则在多年的探索中找到了独属于自己的方向。星汉大模型是以视觉为核心,融合多模态能力,构建面向行业的大模型,目前已经在城市治理和电力行业应用落地,并将不断拓宽大模型行业应用场景,帮助构建视频数据产业价值,助推数字经济发展。
在大华股份看来,所有的技术发展,都要以为行业赋能为目标。
技术创新,星汉大模型的壁垒
国内“百模大战”硝烟四起,预示着新一轮科技革命和产业变革已经来临。行业数字化转型进入深水区,数字化和智能化升级成行业发展共识,人工智能产业规模快速增长。
大模型的出现,将跃升人工智能供给能力,更好应对行业数智化升级面临的挑战,带来新的发展机遇。
作为很早就在持续耕耘人工智能技术研发的前沿公司,大华股份目前已经构筑“1+2”的人工智能能力体系,AI嵌入超8000个细分场景,持续积累了大模型相关算法和工程技术基础。
并且,相较于国内的专业技术公司,大华股份在以视觉为核心的智慧物联领域持续深耕,能够基于二十多年丰富的行业和细分场景业务经验,深度洞察行业需求并将需求与技术进行匹配。这也是大华股份的护城河所在。
因此,顺着行业需求出发,大华股份所研发的大模型,没有选择以GPT为代表的生成式语言模型,而是构建了以视觉为核心的多模态融合行业大模型,通过图像、点云、文本、语音等多模态数据融合,让视觉解析能力大幅提升。
面向不同业务场景研发的行业专属模型,将以精确度为前提,正确、客观地识别和解析。
殷俊向36氪介绍,他们会采用大模型+小模型的结合方式,因为这一方式对于客户和行业来说效率更高、成本最优。大模型可以监督小模型提升性能,小模型可以解决大模型成本过高的问题。
而这恰好也是大华股份在大模型领域,除了大量行业knowhow外的另一突出优势——极强的工程体系。
实际上,在“百模大战”的当下,所有的大模型本质上都是模型的组合,所以模型结构究竟如何并不是最重要的事情,而是在这一组合下,该如何优化模型组合,跑通其中的数据流,从而构建出一个完整、可复用、可开放的工程体系。
大华股份从一开始就摒弃了通用大模型,也是源于对于工程体系的理解和自信。通用大模型较为笨重,并不能直观、快速地解决不同行业的诉求,不仅如此,通用大模型对于大华和客户来说都会有更高的成本。因此大华的策略是,先从行业出发,多做几个行业,总结共性并调整,从而形成自己的计算架构。
据殷俊介绍,此次发布的星汉大模型,有五大优势:
一是准确性和泛化性跃升。在众多复杂场景中,比如极小目标、多形态目标、特征不明显目标、多角度目标、模糊图像、强光逆光、复杂背景及多源图像等,能够大幅提升准确率和场景适配性。
二是图文提示定义新功能。从数据标注、数据训练、算法部署到产品交付总共4个步骤,现在简化为一步,高效满足长尾市场碎片化需求。
三是突破视觉认知能力。实现从感知解析、简单认知升级到复杂认知理解业务,拓展智能市场边界。
四是全场景自主解析。大模型+小模型,能够自动理解功能和场景,简化智能应用部署。
五是大小模型与算力协同。通过算法融合,实现大小模型协同部署,构建好用、用得起的大模型系统。
技术已成,蓄势待发。
这一路大华股份走得顺畅,但原因藏在过去的每一个脚印里。
真的大模型,不是突然出现的
时代进步是螺旋式的演进——技术实现突破,进而产生场景实践落地,而更多的场景需求给技术的发展提供土壤和前进的动力,进而推动下一次技术革命的出现。
AI赛道是典型的螺旋式演进。与AI共同成长的大华股份则对这一历史规律有着更加深刻的理解和感悟。
在2015~2016,深度学习取得重大突破的年代,大华股份就已经意识到了这一技术的未来前景。相较于之前的模式识别,深度学习从准确度、精度等各个方面,都有了大幅提升。由此以来,从产业角度,多年来积累的“数据”也变得可用,因此,大量的行业应用、产业实践在2018年~2019年蓬勃发展。
但真的落地到实践后,会发现实验室场景和实际场景有着天壤之别。比如视觉识别,很大程度上会受到光线的影响,不同光线下的识别准确度不一。这给技术的应用带来了难题。
同时,碎片化市场大量存在。行业与行业之间差别较大,比如车牌识别的精度已经到了99%之后的小数点之争,但是这些成功经验很难应用到制造业,就算是制造业,同一套算法也无法同时应用在不同的产线。造成这个问题的原因并非是供给侧能力不足,而是供给侧无法计算成本。
好在,在深度学习时代,大华股份积累了大量技术能力的行业认知,在大模型风起之时,能够顺势“好风凭借力,送我上青云。”
从此次峰会上发布的更多配套产品上,也可以看见大华股份多年的积累。本次峰会,大华发布了行业视觉大模型分布式计算产品,支持单机和集群部署、推训一体、多样化算力平台等服务;发布了配套大模型开发套件,能够赋能生态伙伴结合场景精调,从而进一步推动城市高效治理与企业智能化升级。
回望来时路,这所有的选择,都是出自一个发心——解决场景需求。
场景为王,技术要贴地飞行
钱塘江潮水涨涨落落,行人在江滩行走、游玩容易出现危险,因此需要水位监测和预警装置系统,来解决这一问题。
但是此前算法是无法识别水面的,所以现在关于水位的监测依然是靠标尺线,也没有办法预测和预警。
目前,行业里类似急切却尚未解决的需求还非常多。
早在2019年,为了降低自己的成本以及提升技术精度,大华股份在内部引入了当时还比较新的“Transformer”技术,最初是想解决外面数据标注公司质量低从而影响后面算法精度的问题。而新技术不负众望,大华的半自动化标注方案,让大华在服务不同客户时,把原本繁琐、低人效的标注环节优化,节省很多了很多时间和人力成本,到了2020年初,大华就已经有了检测+分割+分类的自动化标注模型。
对于大模型技术的应用,大华也是沿着同一个思路——这个技术,在未来2~3年的产业化时间里,能不能给自己或者客户节省成本、能不能给行业解决以往无法解决的问题?
殷俊告诉36氪,模型参数扩张一个量级,在以往是大家“不敢想”的事情,并非是有技术上的鸿沟,而是因为这背后意味着成本要增加十倍不止,但在今年初,大家意识到了虽然成本扩张极大,但是带来的效果也会远远超过预期。
首先会带来的变化就是准确率的提高。正如上文提到,在视觉识别领域,有众多还无法解决的问题,比如企业内部流程当中的AI介入,准确率在70%,而大模型的出现可以将准确率拉高到95%,这样一来,就会有大量的企业愿意使用这一技术,从而产生新的增量市场。
其次,研发效率可以大幅提高,大模型的特性就是不需要重头训练,因此更多碎片化市场可以被覆盖,这样一来会涌现更多新的需求。
技术发展至今,一直存在着“钉子找锤子”还是“锤子找钉子”的灵魂拷问。在技术冒尖的初始阶段,大家不免会面临拿着技术找场景的问题,但大华股份的策略则是从一开始就关注行业需求,从行业实践开始迭代技术,并形成技术-场景的正向循环。
“算法,是市场化是第一要务。只有用过的才能证明是好用,才能可复制。”殷俊说到。
而大华股份从开始选择的行业,有几个要素,一个是选择业务更为复杂的,这是以往企业需求旺盛,且多年来技术无法解决的需求;另一个是业务的需求量在持续扩增的,这样具备大型算力能力的大模型才会更具备优势。
在本次峰会上,殷俊分享了大华股份目前已经开始实践的几个领域:
城市领域,发布城市治理大模型,大到整个城市全貌,小到每条道路、每个路口及经过的车辆情况,通过大模型均可对城市全貌真实孪生重现,助力城市精细化管理;同时,还可实现城市道路状态及城市环境仿真评价、事件过程仿真推演、数据报表和分析报告自动生成等应用,实现城市治理高效决策分析。
企业领域,发布电力行业大模型,从整个变电站场景全貌,到变压器等仪器仪表设备运行状态等,通过大模型对电力场景全貌真实孪生重现,辅助可视化管理,并可助力施工操作推演实训、运维数据自主分析决策等,实现对电力行业高效运营管理。
这并不是结束。大华股份未来还将不断汇聚行业新需求,弹性扩展行业视觉大模型,持续打磨,完成行业大模型到行业大脑的升级,加速商业变现和价值创造。基于多个行业视觉大模型落地实践,大华将沉淀一套通用算法框架,加快大模型跨行业复制,赋能更多行业创新发展。
在殷俊看来,现在全行业都有着共同的责任——把AI的市场天花板抬上去。要让更多用户、行业敢去想、敢去提需求,不要让技术瓶颈限制技术在产业侧的落地。
而“敢提需求”的前提是,更多的技术提供方,要先让技术和场景进行结合。
只有看到了更多“已经”实现的,才会有更多“想要”实现的。