沈向洋:合成数据是未来模型训练的重点
创始人
2024-11-25 17:51:12
0

过去几年,人们广泛谈论人工智能“三件套”——算力、算法、数据。11月22日,在2024 IDEA大会上,IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋表示,三年前推出的GPT-3用了2T数据,GPT-4经过不断训练实际上使用了20T数据,如果未来推出GPT-5,数据量会达到200T级别的规模。但互联网上已经找不到如此多的数据,未来的重点是如何合成新的数据来训练模型。

IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋。

沈向洋表示,计算行业过去四五十年的发展中,最重要的一件事就是算力不断提升,在摩尔定律之下,每18个月算力几乎增长一倍。随着人工智能的蓬勃发展,特别是深度学习的发展,算力需求变得更大,算力成为生产力。在大模型时代,“首先模型本身很大,参数量非常多,以前百亿参数,现在千亿参数、万亿参数,大模型一直往前走,问题不单单是参数大了以后模型大,对训练的要求高,要能训练这样的模型,数据量也要增长。从某种意义上来讲,要把性能提升,对算力的需求呈现出跟参数的平方关系,这对算力的需求是非常庞大的。”从“摩尔定律”发展到“黄氏定律”(以英伟达首席执行官黄仁勋的名字命名的定律,其预测GPU将推动AI性能实现逐年翻倍),沈向洋打趣道,过去一年他常挂在嘴边的话是“讲卡(芯片)伤感情,没卡没感情”。

2017年Transformer架构推出后,人工智能、深度学习、大模型基本上沿着Transformer条线堆数据、堆算力。OpenAI今年最新推出的o1系列模型,推理学习能力提升。“永远不断有聪明的人做聪明的算法,不断有突破,方法的范式转移是非常值得我们认真思考的。”沈向洋表示,范式变革就是增强学习。增强学习并非新事物,但今天新在打法通用,以前做一个系统只能解一个问题,如今o1模型可以编程、处理物理和化学问题。就像人在思考一样,以前的打法是快思考、一问就答,现在不完全是训练,给出答案时还有一个后训练、后推理的过程。“很像考试时做数学题目,先打个草稿,看看这条路对不对,不对就再倒推另外一条路。”

“过去这段时间,大模型蓬勃发展,不仅仅是大模型、大参数,很重要的一件事情是:数据多。”在数据方面,沈向洋表示,三年前推出GPT-3时用了2T数据,GPT-4经过不断训练,实际上使用了20T数据。“一个T就是万亿,1万亿数据大约等于500万本书,或者等于20万张高清照片,或者等于5000万篇论文。人类历史上到现在为止到底创造了多少本书?大概也就是21T。”

如果未来推出GPT-5,他认为数据量会达到200T级别的规模,而互联网上已经找不到如此多的数据,正如o1模型的强逻辑性合成数据,未来的重点是如何合成新的数据来训练模型。IDEA团队自研了语境图谱技术,解决过往文本数据合成方案的多样性匮乏等问题。该技术为合成数据引入“指导手册”,以图谱为纲,指导用于合成的语境采样。实验结果显示,IDEA团队的方案能持续为大模型带来能力提升,表现超过目前的最佳实践(SOTA);从token消耗来看,平均节约成本85.7%。目前,该技术内测平台已开放,通过API提供服务。

在本次大会上,IDEA研究院还发布了DINO-X通用视觉大模型,实现开放世界(Open-world)目标检测,无需用户提示,直接检测万物。计算机视觉技术在真实世界的应用场景十分广泛,但过去主流的小模型方案难以应对碎片化、多变的长尾需求,限制了技术落地规模。源自自然语言研究的Transformer架构诞生后,视觉模型与之结合,走上一条“从小变大,从N变1”之路。与此同时,IDEA推出行业平台架构,通过一个大模型基座,结合通用识别技术结合,让模型不需重新训练,就可边用边学,支撑多样的B端应用需求。

视觉感知是机器与物理世界交互的基础。全场景视觉感知能力的提升为技术落地拓宽空间。在具身智能领域,IDEA研究院宣布与腾讯合作,在深圳福田区、河套深港科技创新合作区落地建设福田实验室,聚焦人居环境具身智能技术;与美团合作,探索无人机视觉智能技术;与比亚迪合作,拓展工业化机器人智能应用。

与此同时,沈向洋表示,从ChatGPT的推出到火爆可以看到,它跳过了PMF(产品市场匹配度)阶段。技术要在持续不断的反馈和创新中与市场完成匹配(Technology-market fit,TMF),技术到了一定地步就做成了TMF。(来源:澎湃新闻

相关内容

刘庆峰谈“AI幻觉”带来的...
AI幻觉是指大模型在生成内容时容易胡编乱造,有时甚至足以以假乱真,...
2025-03-07 08:30:16
公共数据“超市”来了 事关...
今天,国家公共数据资源登记平台上线运行,旨在加快各领域、各层级的公...
2025-03-02 00:55:22
阿里巴巴全面开源万相2.1...
北京时间2月25日晚间,阿里巴巴宣布全面开源旗下视频生成模型万相2...
2025-02-27 09:22:23
医学生轻生疑因论文数据被挪...
近日,四川广安居民段建川反映,其在大连医科大学就读研究生的女儿在出...
2025-02-25 13:52:44
美社保局长拒向马斯克交数据...
美国社会保障局代理局长米歇尔·金已于上周末离职。她此前拒绝了埃隆·...
2025-02-19 01:57:46
清华团队突破大模型算力难题...
清华大学KVCache.AI团队联合趋境科技发布了KTransfo...
2025-02-16 02:12:33

热门资讯

SpaceX发射神秘卫星:真实... 北京时间11月18日6点28分,SpaceX利用一枚猎鹰9号火箭,发射了一颗神秘卫星,只知道代号“O...
史上最强Mate第一时间到手!... 快科技11月25日消息,华为将于11月26日举行华为Mate品牌盛典,发布“史上最强Mate”的华为...
第18个冠军!清华大学获得20... 在美国亚特兰大,当地时间11月21日下午,2024全球大学生超算竞赛(SC24)总决赛圆满落幕。清华...
新突破!我国科学家实现“永久化... 快科技11月21日消息,据中国科学技术大学官网发文,该校康彦彪教授研究团队发展了低温(40-60摄氏...
迎接Mate 70!华为Mat... 快科技11月23日消息,据博主看山的叔叔爆料,华为11月新增下市产品有Mate 60 RS、Mate...
汽车零部件供应商巨头博世将全球... 快科技11月23日消息,据德国金属工业工会(IG Metall)声明称,汽车零部件供应商博世将在德国...
小米SU7雪地模式不要一直开启... 快科技11月23日消息,随着冬季的临近,积雪和湿滑的道路条件使得汽车的雪地模式变得尤为重要。最近,有...
华为轮值董事长徐直军谈鸿蒙生态... 快科技11月23日消息,今日,2024首届鸿蒙生态大会在深圳召开。华为轮值董事长徐直军发表《共建鸿蒙...
沈向洋:合成数据是未来模型训练... 过去几年,人们广泛谈论人工智能“三件套”——算力、算法、数据。11月22日,在2024 IDEA大会...
SU-57战斗机飞行员被小米S... 快科技11月25日消息,近日,中国粉丝邀请了俄罗斯传奇试飞员谢尔盖·博格丹体验小米SU7。这款车的性...