首页 > 聚焦 > >正文

George Hotz 爆料 GPT-4 由 8 个 MoE 模型组成世界聚焦

来源：36Kr快讯2023-06-26 11:46:51

(资料图片仅供参考)

据报道，美国知名骇客George Hotz在接受采访时透露，GPT-4由8个220B模型组成。就连PyTorch的创建者Soumith Chintala对此也深信不疑。GPT-4：8 x 220B专家模型用不同的数据/任务分布和16-iter推理进行训练。如果真是这样的话，GPT-4的训练可能更加有效。

George说是八个模型推理十六次，应该是每个模型都参与了推理。所以不可能是猜想三路由到不同的模型。

令人失望的是Open AI没有做出路线上的重大突破，而只是技术上的一些突破，跟很多人的预期完全不一致，和MOE架构本身能不能在未来继续提升表现关系不大，同一个模型训8 次的信息，搞得应该不是这样的。而且做16次 inference 的做法显然说明省 inference 不是非常前位的目的。

但至少两个 high profile 的人都出来说是8x 220B on different data，基本上说明了主架构不是 sparse activation 的 router 类的 moe，而可能是 parallel inference 然后 ensemble 或者 vote 之类的。

万一不是MoE而是别的啥黑科技大火箭，现在大家相信是了MoE，结果全部走上了弯道，OpenAI雄霸数十载。

如果再用这个混合集合生成的数据去喂新的base，再反复迭代持续，后面的效果会越来越好，提升空间很大，而且方便扩展和持续迭代。

类似当年围棋实现AI和AI下棋，不断迭代，人类就彻底赶不上了。

标签：

推荐

George Hotz 爆料 GPT-4 由 8 个 MoE 模型组成世界聚焦

2023-06-26

何宇鹏左右开弓，王亚旗上限高于董岩锋！大连人强攻三镇，林皇PK陶强龙_全球观热点

2023-06-26

今日看点：京东方与雷神成立联合实验室，“卡位”电竞显示

2023-06-25

报道：特斯拉FSD被爆入华，我们离放心松开方向盘还有多远？

2023-06-25

毕业了，你选好人生赛道了吗？-世界短讯

2023-06-25

Excel允许插入图像数据透视表新功能曝光天天速递

2023-06-25

传媒新消费行业周报：震荡中展望2023下半年-全球热资讯

2023-06-25

世界报道:画蛇添足的寓言故事_画蛇添足的寓言故事介绍

2023-06-25

世界观天下！20多位退役老兵讲述红色故事太仓科教新城开展主题志愿服务活动

2023-06-25

新华社送你一本22城文化指南全球独家

2023-06-25

最新消息

George Hotz 爆料 GPT-4 由 8 个 MoE 模型组成世界聚焦

何宇鹏左右开弓，王亚旗上限高于董岩锋！大连人强攻三镇，林皇PK陶强龙_全球观热点

今日看点：京东方与雷神成立联合实验室，“卡位”电竞显示

报道：特斯拉FSD被爆入华，我们离放心松开方向盘还有多远？

毕业了，你选好人生赛道了吗？-世界短讯

Excel允许插入图像数据透视表新功能曝光天天速递

传媒新消费行业周报：震荡中展望2023下半年-全球热资讯

世界报道:画蛇添足的寓言故事_画蛇添足的寓言故事介绍

世界观天下！20多位退役老兵讲述红色故事太仓科教新城开展主题志愿服务活动

新华社送你一本22城文化指南全球独家

央行6月25日开展1960亿元7天期逆回购操作_新视野

甘肃省嘉峪关市市场监管局开展粽子食品安全执法检查

侯友宜彰化参访“总统公园”　笑开怀环球热议

【IAPS 2023 圆满落幕】明年再会！全球焦点

热头条丨工信部发布1－5月光伏压延玻璃行业运行情况

天天观天下！今天，纪念“两弹一星”元勋邓稼先诞辰九十九周年

跳房子、踢毽子、丢沙包传统小游戏让课间活力满满

怎么敢的呀？队记：76人曾就哈里斯向骑士要价阿伦+莫布里+选秀权

世界即时：“及时雨”滋润“创新花”

邪恶女巫露露炫彩邪恶女巫露露-视讯

莫言仙(关于莫言仙的简介)

柳场村_关于柳场村概略|每日消息

雷蛇黑寡妇键盘哪个版本好浅谈机械键盘选择

用户名_关于用户名介绍全球热消息

header什么意思中文_header是什么意思

每日热闻!21.4万人次！端午假期十堰交通运输大数据公布

奔跑吧：白鹿胜负欲太强？抢答不成又挂脸，帮沙溢环节争议最大|世界滚动

每日视讯：秦可卿究竟得的是什么病，使她卧床期间，且每日要换四五次衣裳？

浓情端午,“文明集市”传习俗

基辅称击落了超20枚俄军导弹俄罗斯首都莫斯科已加强安全措施

资讯

财经时评

社会热点

精彩推送