NotebookLM升级,可进行音频和视频文件总结,支持上传谷歌云盘、网站和Youtube连接,生成的音频播客现在支持分享。
✔ 新版的1.5 Pro和Flash整体素质提高,数学、长上下文和视觉上有大幅增加◆■★,但是更新后模型的默认输出长度比以前的模型短约5-20%◆◆◆★★。
Open AI上线了高级语音模式,新版增加了自定义指令、记忆功能、五种新声音以及改进的口音,改进了某些外国语言的对话速度、流畅度和口音◆■◆。
Luma AI首发视频生成模型Dream Machine,该模型可以通过文字或图片生成视频。同时,API对全球免费开放◆◆■◆■,每个用户每月有30次免费生成的额度◆■★★★◆。
Snap公司发布了第五代SpectaclesAR眼镜,新版Spectacles升级了显示效果和电池续航时间◆■◆。与前几代一样,这款产品尚未商业销售,而是面向开发者开放使用■★。开发者需通过Snap的Lens Studio申请★◆,并支付99美元/月的费用,至少租赁一年★■■。
✔ 1.5 Flash的速率限制提高了2倍,1.5 Pro的速率限制提高了约3倍■■■;
OpenAI在Hugging Face(大模型共享和使用的开源平台)上发布了多语言大规模多任务语言理解(MMMLU)数据集。该数据数据集包含一系列问题,涵盖各种主题、学科领域和语言★■★■◆。其结构旨在评估模型在不同研究领域中需要常识、推理、解决问题和理解能力的任务中的表现★◆■。MMMLU的创建反映了OpenAI对测量模型实际能力的关注,尤其是在NLP研究中代表性不足的语言■★◆◆★,纳入多种语言可确保模型在使用英语时有效,并能胜任全球使用的其他语言。
Sketch(矢量绘图应用,主要用于网页、图标以及界面设计)发布Smart Animate新功能,主要包括动画过渡■■★■★,智能识别图层变化、自定义动画参数、动画控制等具体功能◆◆■■■,用于在设原型计中加入流畅的动画效果★◆■■◆。通过Smart Animate◆◆,用户可以在多个画板之间对相同名称的图层进行动画过渡,使设计变得更加生动和具有互动性。
这些人事变动发生在OpenAI重组其非营利性结构,有可能转变为盈利性公司的背景下◆★■◆★■,重组可能会使首席执行官Sam Altman获得公司股权◆■★。
这两款是Meta最轻量★★■■★、最高效的模型,可以在移动设备和边缘设备上运行。在多语言文本生成和工具调用能力上表现优异■★■。这些模型赋予开发者能力◆★■★,能够在设备端构建个性化★■■★、自主的应用★■◆◆■■,且具有较强的隐私保护性,确保数据不会离开设备。例如★◆★★,应用程序可以帮助总结最近收到的10条消息★■■◆◆,提取关键的待办事项,并通过工具调用直接发送日历邀请以安排后续会议■◆■■◆★。
目前,Runway的API仅支持一个模型■◆:Gen-3 Alpha Turbo■★★,这是Runway旗舰模型Gen-3 Alpha的一个速度更快但功能较弱的版本。API提供两个套餐:Build计划和Enterprise计划。Build计划主要面向个人和小团队,而Enterprise计划则针对大公司和企业用户★★。定价采用积分制■◆★◆,每个积分价格为1美分★★■◆,生成一秒钟视频需要5个积分★■★。这意味着生成一秒视频的成本大约为5美分■■★。
在Meta Connect大会上★◆★◆★,Mata发布了Orion AR眼镜■◆★■,该AR眼镜能与Meta自研的肌电手环相适配◆◆,拥有手部跟踪、眼部跟踪、头部追踪等多种交互方式◆■★★★,用户戴上Orion可以刷网页、看短剧◆★■◆■,甚至玩一些简单的3D游戏。现阶段的Orion 眼镜仅用作演示和内部开发套件★◆■■,大约仅生产1000副■■,不对外正式开售。
该API用户定位在企业和开发人员■★■,通过创建语音代理,应用于客户支持■◆■★、医疗语音转录■★、媒体转录、智能订单处理等场景★◆◆。
Dream Machine API 提供了Keyframes规则(在动画序列中定义关键帧)和Camera Motion(一种将时间压缩的拍摄技术)功能,Keyframes可以通过图片创建炫目的过渡效果,Camera Motion可以通过简单的指令控制复杂的场景,生成电影级的视觉效果。相比其他视频生成模型★★■■■★,Dream Machine在提供不同风格和题材的视频的基础上◆★■,视频更具有电影感■★★■■,连贯性和艺术感更强。
Runway推出视频生成模型的API,该API适用于开发者和公司将Runway的生成式AI模型集成到第三方平台、应用程序和服务中。
这两款模型支持图像推理场景应用★★■◆■■,比如文档级别的理解(包括图表和图形)、图像字幕生成,以及视觉定位任务(如基于自然语言描述在图像中准确定位物体)★■。例如◆★★★■■,用户可以询问上一年中哪个月份他们的小企业销售最佳◆◆■■,模型能基于现有的图表推理并迅速提供答案。模型也可以通过地图推理,回答如哪段徒步路线将变得更加陡峭◆◆★,或地图上标记的特定小径距离等问题。11B和90B模型还能提取图像细节、理解场景,并生成简洁的描述,用作图像的字幕★◆■■◆。
新版本Spectacles AR眼镜在视场角(FOV)达到了46度★★■■■,相较于上一代的26.3度大幅提升,用户能够看到更宽广的增强现实内容★◆◆■◆。此外◆■,眼镜采用的波导显示器每度显示37个像素,显示的清晰度提升了约25%。
相比其他1■★.5系列模型的其他版本,Pro和Flash系列主要有以下几个特点:
Deepgram推出了AI语音代理API,该API依赖于快速的语音识别和语音合成模型◆■■■◆◆,支持实时的语音理解、推理和对话生成。同时,可与不同的大语言模型如Llama 3、GPT-4集成,借助生成式AI进行复杂任务的对话管理、任务执行和信息检索★◆■。
Google发布了基于Gemini1.5的两个新模型■■■◆★,分别是Gemini-1★■■★.5-Pro-002和Gemini-1.5-Flash-002◆★■。Gemini 1.5系列模型专为在各种文本★◆★■、代码和多模式任务中实现一般性能而设计。例如★■★,Gemini 模型可用于合成1000页PDF中的信息、回答有关包含超过1万行代码的存储库的问题■★◆、录制长达一小时的视频并从中创建有用的内容等等★■◆■◆。