大模型半月报第4期｜Google发布基于Gemini15的两个新模型

日期： 2024-11-24 08:52:31

作者：

　　NotebookLM升级，可进行音频和视频文件总结，支持上传谷歌云盘、网站和Youtube连接，生成的音频播客现在支持分享。

　　✔ 新版的1.5 Pro和Flash整体素质提高，数学、长上下文和视觉上有大幅增加◆■★，但是更新后模型的默认输出长度比以前的模型短约5-20%◆◆◆★★。

　　Open AI上线了高级语音模式，新版增加了自定义指令、记忆功能、五种新声音以及改进的口音，改进了某些外国语言的对话速度、流畅度和口音◆■◆。

　　Luma AI首发视频生成模型Dream Machine，该模型可以通过文字或图片生成视频。同时，API对全球免费开放◆◆■◆■，每个用户每月有30次免费生成的额度◆■★★★◆。

　　Snap公司发布了第五代SpectaclesAR眼镜，新版Spectacles升级了显示效果和电池续航时间◆■◆。与前几代一样，这款产品尚未商业销售，而是面向开发者开放使用■★。开发者需通过Snap的Lens Studio申请★◆，并支付99美元/月的费用，至少租赁一年★■■。

　　✔ 1.5 Flash的速率限制提高了2倍，1.5 Pro的速率限制提高了约3倍■■■；

　　OpenAI在Hugging Face（大模型共享和使用的开源平台）上发布了多语言大规模多任务语言理解（MMMLU）数据集。该数据数据集包含一系列问题，涵盖各种主题、学科领域和语言★■★■◆。其结构旨在评估模型在不同研究领域中需要常识、推理、解决问题和理解能力的任务中的表现★◆■。MMMLU的创建反映了OpenAI对测量模型实际能力的关注，尤其是在NLP研究中代表性不足的语言■★◆◆★，纳入多种语言可确保模型在使用英语时有效，并能胜任全球使用的其他语言。

　　Sketch（矢量绘图应用，主要用于网页、图标以及界面设计）发布Smart Animate新功能，主要包括动画过渡■■★■★，智能识别图层变化、自定义动画参数、动画控制等具体功能◆◆■■■，用于在设原型计中加入流畅的动画效果★◆■■◆。通过Smart Animate◆◆，用户可以在多个画板之间对相同名称的图层进行动画过渡，使设计变得更加生动和具有互动性。

　　这些人事变动发生在OpenAI重组其非营利性结构，有可能转变为盈利性公司的背景下◆★■◆★■，重组可能会使首席执行官Sam Altman获得公司股权◆■★。

　　这两款是Meta最轻量★★■■★、最高效的模型，可以在移动设备和边缘设备上运行。在多语言文本生成和工具调用能力上表现优异■★■。这些模型赋予开发者能力◆★■★，能够在设备端构建个性化★■■★、自主的应用★■◆◆■■，且具有较强的隐私保护性，确保数据不会离开设备。例如★◆★★，应用程序可以帮助总结最近收到的10条消息★■■◆◆，提取关键的待办事项，并通过工具调用直接发送日历邀请以安排后续会议■◆■■◆★。

　　目前，Runway的API仅支持一个模型■◆：Gen-3 Alpha Turbo■★★，这是Runway旗舰模型Gen-3 Alpha的一个速度更快但功能较弱的版本。API提供两个套餐：Build计划和Enterprise计划。Build计划主要面向个人和小团队，而Enterprise计划则针对大公司和企业用户★★。定价采用积分制■◆★◆，每个积分价格为1美分★★■◆，生成一秒钟视频需要5个积分★■★。这意味着生成一秒视频的成本大约为5美分■■★。

　　在Meta Connect大会上★◆★◆★，Mata发布了Orion AR眼镜■◆★■，该AR眼镜能与Meta自研的肌电手环相适配◆◆，拥有手部跟踪、眼部跟踪、头部追踪等多种交互方式◆■★★★，用户戴上Orion可以刷网页、看短剧◆★■◆■，甚至玩一些简单的3D游戏。现阶段的Orion 眼镜仅用作演示和内部开发套件★◆■■，大约仅生产1000副■■，不对外正式开售。

　　该API用户定位在企业和开发人员■★■，通过创建语音代理，应用于客户支持■◆■★、医疗语音转录■★、媒体转录、智能订单处理等场景★◆◆。

　　Dream Machine API 提供了Keyframes规则（在动画序列中定义关键帧）和Camera Motion（一种将时间压缩的拍摄技术）功能，Keyframes可以通过图片创建炫目的过渡效果，Camera Motion可以通过简单的指令控制复杂的场景，生成电影级的视觉效果。相比其他视频生成模型★★■■■★，Dream Machine在提供不同风格和题材的视频的基础上◆★■，视频更具有电影感■★★■■，连贯性和艺术感更强。

　　Runway推出视频生成模型的API，该API适用于开发者和公司将Runway的生成式AI模型集成到第三方平台、应用程序和服务中。

　　这两款模型支持图像推理场景应用★★■◆■■，比如文档级别的理解（包括图表和图形）、图像字幕生成，以及视觉定位任务（如基于自然语言描述在图像中准确定位物体）★■。例如◆★★★■■，用户可以询问上一年中哪个月份他们的小企业销售最佳◆◆■■，模型能基于现有的图表推理并迅速提供答案。模型也可以通过地图推理，回答如哪段徒步路线将变得更加陡峭◆◆★，或地图上标记的特定小径距离等问题。11B和90B模型还能提取图像细节、理解场景，并生成简洁的描述，用作图像的字幕★◆■■◆。

　　新版本Spectacles AR眼镜在视场角（FOV）达到了46度★★■■■，相较于上一代的26.3度大幅提升，用户能够看到更宽广的增强现实内容★◆◆■◆。此外◆■，眼镜采用的波导显示器每度显示37个像素，显示的清晰度提升了约25%。

　　相比其他1■★.5系列模型的其他版本，Pro和Flash系列主要有以下几个特点：

　　Deepgram推出了AI语音代理API，该API依赖于快速的语音识别和语音合成模型◆■■■◆◆，支持实时的语音理解、推理和对话生成。同时，可与不同的大语言模型如Llama 3、GPT-4集成，借助生成式AI进行复杂任务的对话管理、任务执行和信息检索★◆■。

　　Google发布了基于Gemini1.5的两个新模型■■■◆★，分别是Gemini-1★■■★.5-Pro-002和Gemini-1.5-Flash-002◆★■。Gemini 1.5系列模型专为在各种文本★◆★■、代码和多模式任务中实现一般性能而设计。例如★■★，Gemini 模型可用于合成1000页PDF中的信息、回答有关包含超过1万行代码的存储库的问题■★◆、录制长达一小时的视频并从中创建有用的内容等等★■◆■◆。

下一篇：平安健康中期业绩：首次扭亏为盈实现盈利超 6000 万下一篇：实现AI大模型行业垂类应用的产出概念股单日涨超10% 本周机构密集调研人工智能行业上市公司