“O”:视频输出。2023年,我们看到了文字到视频合成的浪潮:WALT(谷歌)、EmuVideo(Meta)、Align Your Latents(英伟达)、Pika等等,数不胜数。然而,大多数生成的片段仍然很短。我将它们视为AI视频的“系统1”——“无意识”的局部像素运动。
机器学习能够建立起一些原本不存在的关联,而其中的一些关联让人感到非常惊喜。LLaVA是一个端到端训练的多模态大模型,它将视觉编码器和用于通用视觉和语言理解的Vicuna相结合,具备令人印象深刻的聊天能力。而CogAgent是在CogVLM基础上改进的开源视觉语言模型,拥有110亿个视觉参数和70亿个语言参数。
站长之家(ChinaZ.com) 1月3日 消息:1月2日,苹果股价收跌3.6%。此次下跌导致苹果市值缩水至2.89万亿美元,一夜之间蒸发了1071亿美元,折合人民币约7660亿元。
图源备注:图片由AI生成,图片授权服务商Midjourney