生成式AI
一、 AMD官宣年更芯片!新款MI325X重磅发布,比H200快30%
1. AMD宣布芯片年更计划,推出MI325X加速器,称计算速度比 H200 快 30%,计划2024年第四季度上市;
2. AMD发布第五代EPYC Turin处理器,具有192个核心和384个线程,在AI工作负载上比英特尔Xeon快5.4倍;
3. AMD推出笔记本Ryzen AI 300系列处理器,集成XDNA 2 AI加速器,性能达50 TOPS,显著提升AI和游戏性能。
https://mp.weixin.qq.com/s/YRLc0YRn2MkYNJ9BqGpmJg
二、 再战Transformer!原作带队Mamba 2来了,性能狂飙8倍
1. Mamba 2通过SSD框架改进了状态空间模型(SSM),实现了训练效率提升2-8倍,并在语言建模上与Transformer竞争;
2. Mamba 2引入了新的噪声采样技术和流训练方法,优化了矩阵乘法算法,显著提高了训练速度和状态容量;
3. Mamba 2结合注意力层和SSM,展示了在多任务和长序列处理上的优越性能,证明了两者的互补性。
https://mp.weixin.qq.com/s/31t6pJqcXrZDjT6XiJZC_g
三、 Stable Diffusion 3宣布开源,对标闭源标杆Midjourney能力
1. Stability AI宣布Stable Diffusion 3将在6月12日开源,采用20亿参数的Medium模型,优化照片真实感、样式和图片质量;
2. Stable Diffusion 3使用Diffusion Transformer架构,结合噪声采样技术和流训练方法,提高训练效率和文本语义理解;
3. 尽管经历管理层变动和财务危机,Stability AI成功发布Stable Diffusion 3,预计获得AMD赞助并可能被全资收购。
https://mp.weixin.qq.com/s/FgOT3vwghZhhCCmANo0D7Q
四、 单个4090可推理,2000亿稀疏大模型「天工MoE」开源
1. 昆仑万维开源2000亿参数的稀疏大模型Skywork-MoE,支持单台4090服务器推理,大幅降低推理成本;
2. Skywork-MoE采用Gating Logits归一化和自适应Aux Loss优化算法,提升模型性能和泛化能力;
3. Skywork-MoE通过Expert Data Parallel和非均匀切分流水并行设计,实现高效大规模分布式训练。
https://mp.weixin.qq.com/s/h5bxuWca65t3LsQwqGq-Og
五、 超强研究阵容!全新强化学习框架RL4VLM,让多模态模型学会打扑克
1. RL4VLM采用直接从环境中获取奖励的强化学习框架,无需人类反馈,赋予多模态模型决策能力;
2. 在多模态任务评测中,RL4VLM在视觉语义推理和决策任务中表现优于GPT-4v Gemini和传统监督微调方法;
3. 研究团队包括图灵奖得主LeCun、UC伯克利教授Sergey Levine和马毅、ResNeXt和DiT作者谢赛宁。
https://mp.weixin.qq.com/s/bAf-5NzOD3fdTwYzdKsELw
六、 NVIDIA 在 GDC 2024 推出全新数字人技术和 RTX SDK
1. NVIDIA推出数字人技术,包括NVIDIA Avatar Cloud Engine(ACE)和NVIDIA NeMo,提供逼真的面部动画、语音识别和文本转语音功能;
2. RTX全局照明(RTXGI)2.0 SDK通过AI实现实时路径追踪和光线追踪的间接照明,提升游戏画质和性能;
3. 新的渲染算法神经辐射缓存(NRC)和空间哈希辐射缓存(SHaRC)优化全局照明,兼容DirectX和Vulkan,提升场景动态处理能力。
https://mp.weixin.qq.com/s/q3_vU3xaxasVc36fkqLoVw
七、 Adobe推出超分辨率,细节丰富视频模型VideoGigaGAN
1. Adobe和马里兰大学推出VideoGigaGAN,解决视频超分辨率中的时间连贯性和细节丰富性问题;
2. VideoGigaGAN通过添加时序卷积和自注意力层,将GigaGAN从2D图像模型扩展为3D视频模型,提高时间一致性;
3. 引入光流引导模块,利用光流估计和反向变形层,确保超分辨率过程中保持特征的空间一致性和高频细节。
https://mp.weixin.qq.com/s/9kkWGUojt_E0zVO8okk9rg
八、 港大FlashST:简单通用的智慧交通时空预测模型 | ICML 2024
1. FlashST框架通过轻量级时空提示网络和分布映射机制,提高了预训练模型在不同下游交通预测场景中的泛化能力;
2. 时空提示网络包含上下文提取和依赖性建模,有效捕捉复杂时空特征,增强模型对新数据的适应性;
3. 分布映射机制对齐预训练和下游数据分布,促进知识转移,使模型在多种城市交通数据集中表现优异。
https://mp.weixin.qq.com/s/xQ7nAsmEGweksc-rqx5npw
前沿科技
九、 继英伟达earth2之后,微软发布大气AI基础模型Aurora
1. 微软发布的Aurora大气AI基础模型能在不到一分钟内生成5天的全球空气污染预测和10天的高分辨率天气预报,表现优于传统模拟工具和专业深度学习模型;
2. Aurora通过整合超过一百万小时的各种天气和气候数据进行训练,能够在广泛的预测任务中表现出色,包括极端天气和数据稀疏地区;
3. Aurora的多功能性和高效性使其能够预测多种大气变量,并在大气化学和空气污染预测方面表现优异,显著提高了环境预测的准确性和效率。
https://mp.weixin.qq.com/s/Exp47NMzelNUSzxy49fnXw
报告观点
十、 英伟达 Jim Fan:具身智能的难点不是硬件,而是Foundation Agent
巴基斯坦总统府发表声明说,总统扎尔达里向莱希、阿卜杜拉希扬以及事故中其他遇难者表示深切哀悼,向遇难者家属表示衷心慰问,向莱希为伊斯兰世界所作出的贡献表达敬意。扎尔达里说,莱希的离世是伊朗和伊斯兰世界的巨大损失。巴总理夏巴兹通过社交媒体发表声明说,巴全国将为莱希设立哀悼日并降半旗志哀。
1. 具身智能的核心挑战在于构建基础智能体(Foundation Agent),而非硬件;
2. 英伟达通过项目如Mine Dojo和Voyager,展示了在虚拟环境中训练智能体并转移技能到现实世界的潜力;
3. Metamorph和Eureka等项目展示了跨形态和跨环境的通用策略,强调了域随机化和强化学习在实现具身智能中的重要性。
https://mp.weixin.qq.com/s/DF0GBx99vodq0dYM98iRFA
👇订阅下方合集股票配资最低多少钱,获取每日推送