开云kaiyun官方网站该器具提供一个白色的无穷画布-开元ky888网址进入下载

开发者一又友们环球好:开云kaiyun官方网站 这里是 「RTE 开发者日报」 ,每天和环球沿途看新闻、聊八卦。咱们的社区裁剪团队会整理分享 RTE(Real-Time Engagement) 规模内「有话题的 新闻 」、「有立场的 不雅点 」、「有景仰的 数据 」、「有想考的 著作 」、「有看点的 会议 」,但内容仅代表裁剪的个东说念主不雅点,接待环球留言、跟帖、商榷。 本期裁剪:@SSN,@鲍勃 01 有话题的新闻 1、Freestyler: 伴奏同步的说唱合成模子 赞许是东说念主类文化不...


开云kaiyun官方网站该器具提供一个白色的无穷画布-开元ky888网址进入下载

开发者一又友们环球好:开云kaiyun官方网站

这里是 「RTE 开发者日报」 ,每天和环球沿途看新闻、聊八卦。咱们的社区裁剪团队会整理分享 RTE(Real-Time Engagement) 规模内「有话题的 新闻 」、「有立场的 不雅点 」、「有景仰的 数据 」、「有想考的 著作 」、「有看点的 会议 」,但内容仅代表裁剪的个东说念主不雅点,接待环球留言、跟帖、商榷。

本期裁剪:@SSN,@鲍勃

01 有话题的新闻

1、Freestyler: 伴奏同步的说唱合成模子

赞许是东说念主类文化不可或缺的一部分,体现着东说念主类的创造力。说唱(Rap)是赞许各类门户中最具特色的一种。从内容上讲,说唱的中枢特色在于其激烈的节律和作风,这使其与其他门户有着彰着的划分。说唱歌手频繁会快速且有劲地唱出歌词段落,与伴奏节拍良好同步,营造出一种充满活力且动感统统的听觉体验。奈何生成当然的说唱是一个极具价值的辩论地方。

最近,西工大音频语音与话语科罚辩论组(ASLP@NPU)与微软、CUHK-Shenzhen 合作的论文 「Drop the beat!Freestyler for Accompaniment Conditioned Rapping Voice Generation」 被东说念主工智能规模顶级会议 AAAI2025 委派,该论文针对上述问题开展了深刻辩论,提倡首个说唱生成模子 Freestyler,以歌词和伴奏输入,生成与伴奏作风节律匹配的说唱;同期开源了首个说唱数据集 RapBank。

论文原文:https://arxiv.org/abs/2408.15474(@音频语音与话语科罚辩论组)

2、Google 发布了「虚构现实」版 Android,想让你把熟悉的诓骗「戴在头上」

谷歌日前正经发布了用于头显和眼镜开发的操作系统 Android XR。这家公司将其定位为一个全面的空间计较平台,并但愿在 XR 规模与 Meta 和苹果张开竞争。

如名字所示,这个基于 Android 的系统主要面向 XR 开发,并援手总共的平面 Android 诓骗。

谷歌暗意,现时 Play Store 的 Android 诓骗将默许援手 Android XR,除非开发者遴荐退出。这意味着预计开发从第一天最先就领有了一个宏大的现存平面诓骗库,包括谷歌的第一方诓骗,如 Chrome、Gmail、Calendar 和 Drive 等。执行上,谷歌自家的诓骗仍是更新并达成了所谓的「空间化」。

就功能而言,这与苹果的 visionOS 很是相似,但带有 Android 的滋味。

Android XR 的显耀划分在于它的东说念主工智能集成。Gemini 内置,但远远超出了聊天代理。Android XR 的 Gemini 可围绕你在现实宇宙和虚构宇宙中看到的一切进行摆脱体式的语音对话。

苹果为 visionOS 带来了 Siri,但并不成感知头显表里的视图。Meta Horizon 操作系统有一个实验性的 AI,不错援手现实宇宙视图,但不援手虚构宇宙的视图。Gemini 可同期探讨信得过和虚构内容,是以你会嗅觉体验愈加无缝,更为有效。

另外,Android XR 不仅援手头显,同期援手智能眼镜。谷歌瞻望,Android XR 智能眼镜将很快成为智高手机的外接屏幕器具。

Gemini 是 Android XR 谋略的中枢,而一个关键载体是紧凑型眼镜。它不错在平淡眼镜形态的基础之上提供平视骄贵和与 AI 对话时的音频响应。与头显相似,预计的智能眼镜简直细则会配备录像头,它会与十年前的 Google Glass 十分相像,但更先锋、更智能。

尽管现时尚莫得针对 Android XR 的具体智能眼镜家具,但谷歌和三星一直在合作开发一款名为「Project Moohan」的 MR 头显,并谋略于来岁向耗尽者推出。

在开发方面,谷歌援手庸碌的开发路子。关于使用 Android Studio 的开发者来说,新的 Jetpack XR SDK 推广了预计的处事过程,以匡助开发者创建现存平面诓骗的空间版块。这包括一个新的 Android XR 模拟器,无需头显即可测试 Android XR 诓骗表率。Unity 同期提供了一个全新的 Android XR 推广,以及 WebXR 和 OpenXR 得到援手。

谷歌同期暗意,将通过供应商推广为 OpenXR 带来新的功能,包括:

东说念主工智能驱动的手形网格,从而适合不同手形和大小详备的深度纹理,允许信得过宇宙的对象荫庇虚构内容复杂的光臆测,以匹配现实宇宙的照明条目新的可跟踪开发,可允许你把现实宇宙的物品,如条记本电脑、手机、键盘和鼠标带入虚构环境

值得一提的是,谷歌将在 2025 年举办一个 Android XR 开发者老到营,感意思意思的开发者不错造访页面进行肯求。(@映维网)

3、Voice Agent 框架 TEN 仍是援手 Gemini Multimodal Live API

TEN 是一个开源的 Voice Agent 框架,用于松弛地构建具有语音对话、视觉意会智商、器具调用等智商的对话式 AI。

Gemini Multimodal Live API 发布后 24 小时内,TEN 团队连忙整合了Live API。Live API 凭借超低蔓延、高等多模态功能和超卓的活泼性引颈潮水。

此外,通过使用现时免费的 API 密钥,你不错无缝地将其与 TEN 里面提供的 35+推广集成,打造你我方的专属诓骗场景。

了解 TEN:https://github.com/TEN-framework/TEN-Agent

02 有亮点的家具

1、ChatGPT 推出视频通话和屏幕分享功能

「OpenAI 12 天」活动已参加第六天,OpenAI 公司文书为 ChatGPT 的高等语音模式带来视频输入和屏幕分享功能,并为管待圣诞节,限时推出全新的圣诞老东说念主模式。

OpenAI 公司暗意异日几天时期内,会向大浩瀚 ChatGPT Plus 和 Pro 用户以及总共 Team 用户,推出视频和屏幕分享。该聊天机器东说念主的企业和莳植用户将在 1 月份得到视频和屏幕分享功能。

ChatGPT 的高等语音模式现时不错通过智高手机录像头援手视频聊天,并通过屏幕分享来识别开发屏幕骄贵的物体。

用户不错通过以下格式使用:

在手机上掀开 ChatGPT诓骗点击聊天栏隔邻的语音图标点击左下角的视频图标即可启用视频输入或者点击三个点的菜单,遴荐「分享屏幕」进行屏幕分享(@IT 之家)

2、Midjourney 推出多东说念主合作的宇宙构建器具 「Patchwork」 援手 100 东说念主合并画布操作

Midjourney 是一家备受接待的 AI 图像生成初创公司,领有特出 2100 万名 Discord 用户。近日,该公司文书将推出一款新的宇宙构建器具 「Patchwork」,标志着他们从图像创作推广到更复杂的创意合作规模。

「Patchwork」 在 Midjourney 的 Discord 频说念通过直播展示,用户需要将他们的 Midjourney Discord 帐户联接到他们的 Google 帐户能力造访 Patchwork 的辩论预览。

该器具提供一个白色的无穷画布,用户不错使用器具箱中的各式按钮来添加脚色、事件、派系、地点、说念具等元素。用户不错通过 「保存」 功能下载 JSON 文献,包含在画布上生成的总共 Midjourney 图像的集会。

要生成新宇宙,用户需要在 「create」 屏幕顶部的裁剪器栏中输入文本教导,然后从一组 10 种不同的图像表情中遴荐一种或多种。这会生成一个新的白板,其中包含一堆新的静止图像钞票和文本框或实体(称为「碎屑」),包括允许用户教导安妥运行宇宙描绘的新图像或诞生的输入框,致使是全新的 AI 生成的脚色描绘。

不错添加新的脚色框,然后用户不错教导创建称号和特征。同期,用户不错在脚色之间开发联接,并撰写行动序列和场景描绘。

分享功能允很多个用户及时合作,一个宇宙最多可援手 100 名用户在合并画布上操作,不外用户越多,画布上的合作可能会越紊乱。

在异日的更新中,Midjourney 谋略允许非用户稽察这些创作板,以便更多的创意团体偶而使用这一器具。Midjourney 的 V7 版块也将推出,援手脚色在不同图像中的一致性。此外,Kreminski 提到,Patchwork 的背后有三个大型话语模子在运作,包括一个专为 Midjourney 定制的开源模子。(@AIbase 基地)

3、AI 语音智能体平台 Vapi 完成 2000 万好意思元 A 轮融资,BVP 和 YC 等投资,估值达 1.3 亿好意思元

AI 语音智能体初创公司 Vapi(前身为 Superpowered Labs)本日文书完成 2000 万好意思元 A 轮融资,由 Bessemer Venture Partners 领投,Abstract Ventures、AI Grant、Y Combinator、Saga Ventures 和 Michael Ovitz 参投。据知情东说念主士骄贵,本轮融资后公司估值达 1.3 亿好意思元。

Vapi 建树于 2023 年,专注于为开发者提供 AI 驱动的语音 Agent 部署平台。其中枢家具提供活泼的 API 接口,援手定制化对话过程,并可与 CRM 和电子健康记载等现存系统无缝集成。平台采选基于 Kubernetes 的架构和独到互联网主干网,偶而同期科罚数百万并发通话,确保及时当然的对话体验。

值得留心的是,Vapi 在建树仅六个月内就达成了数百万好意思元的营收。现时,Y Combinator、Deepgram、Speaksage、Luma Health 和 Playn Voice 等知名企业已成为其客户。平台援手 iOS、Flutter、React Native 和 Web 诓骗表率的集成,并提供功能调用智商,使语音 Agent 偶而践诺预约和及时数据检索等任务。(@Saasverse)

4、Cartesia 融资 2700 万好意思元,用于构建下一代及时 AI 模子

Cartesia 公司今天文书得到由 Index Ventures 领投的 2200 万好意思元新融资,其创始性的情景空间模子(SSM)正在引颈生成式东说念主工智能的下一波改进波澜,总融资额达到 2700 万好意思元。这笔新资金将使 Cartesia 偶而推广并加快其在职何开发上构建及时、多模态智能的处事。

Cartesia 的创始团队由一群特出的斯坦福大学辩论东说念主员构成,其中包括 Goel、他的前实验室共事 Albert Gu(被《时间》杂志评比为东说念主工智能规模 100 位最具影响力东说念主物之一)、Arjun Desai 和 Brandon Yang,以及他们的前讲明 Chris Ré。该团队因其开发的 SSM 而享誉全球,位于一个充满才华的博士和学术合作伙伴的丰富生态系统中心,终点是 Ré 的斯坦福实验室比年来一直是多个数十亿好意思元创业公司的温床,如 SambaNova、Snorkel AI 和 Together AI。他们还集聚了一支多元化且告诫丰富的家具团队,成员来自 DoorDash、Salesforce、Meta、Scale AI、Microsoft、Google Brain 和 Zoom 等知名公司,确保 Cartesia 能为各行业的企业带来实确切在的价值。

Cartesia 的 SSM 架构在性能上彰着优于传统的 Transformer 模子,因为它偶而与序列长度线性推广,达成高效、低老本的推理。尽管 Transformer 模子透顶改革了东说念主工智能的阵势,并援手了咱们今天所见的广大诓骗,但它们在高下文长度上的二次方推广截至了推理速率。相较之下,Cartesia 的模子高效且具备更好的长期顾忌和更低的蔓延,同期偶而在职何开发上腹地运行。与 Transformer 需要关怀每一个往常的符号不同,SSM 在符号流入时会动态更新模子情景并丢弃之前的符号,这使其成为及时推理的逸想遴荐。Cartesia 创始团队广为援用的 Mamba 架构讲明,SSM 已能以更少的资源匹配 Transformer 的性能,为开发东说念主员提供了一种更高效、经济的及时东说念主工智能诓骗开发决策。

2024 年 5 月,Cartesia 发布了 Sonic,这是一款低蔓延语音模子,偶而生成富余阐扬力、传神的语音,展示了其 SSM 架构在及时 AI 诓骗中的强劲功能。除了是速率最快的文本转语音模子(首个音频蔓延<90 毫秒)除外,在第三方评估机构(如 Labelbox)进行的盲测中,Sonic 在语音质料、贯通性和准确性方面均优于阛阓上现存的最好模子。

Cartesia 谋略在其 Sonic 得胜的基础上,制定一项长期阶梯图,其中包括开发偶而接管和科罚不同输入(举例文本、音频、视频、图像和时期序列数据)的多模态 AI 模子,概念是创建偶而在庸碌诓骗中普及海量高下文进行推理的及时智能。通过构建具有长期顾忌和低蔓延的下一代基础模子,Cartesia 旨在改革从医疗保健到机器东说念主工夫再到游戏的各个行业,为任何东说念主在职何开发上王人能使用的无处不在的、交互式的和及时的 AI 铺平说念路。(@PRWEB)

03 有立场的不雅点

1、Discord 创始东说念主:AI 会大大镌汰创作出好内容的老本

近期,Discord 创始东说念主&CEO Jason Citron ,经受了闻明播客 20VC 的访谈。在访谈中,Jason Citron 暗意,Discord 的故事证实了「打造好家具,用户就会来」并不老是凯旋。而 Discord 用户增长的冲突点在于,邀请东说念主们对诓骗提倡响应,而不是像在倾销家具不异让他们尝试。

那时,Discord 的办当事人说念主员在 Reddit 的一篇贴子里,发了一个 Discord 服务器的集会。用户在看到帖子后,点进了 Discord ,然后和办当事人说念主员疏导,适用家具。Jason Citron 说,「那天咱们通过这个帖子得到了 50 个用户,第二天,这 50 个用户酿成了 100 个,然后最先滚雪球式增长。」

当被问到「AI 奈何改革游戏创意」时,Jason Citron 暗意,「我以为 AI 会大大镌汰创作出好内容的老本」。

他以为,以后像《艾尔登法环》这么的游戏,可能只需要 20 东说念主,而不是 300 东说念主来完成。AI 还会使得一些个东说念主开发者或孤苦创作家偶而制作出今天他们无法作念到的游戏,因为现时他们会濒临制作周期太长和工夫截至的问题。总之,「以后咱们会看到更多更袖珍、更高质料的游戏。」(@APPSO)

写在终末:

咱们接待更多的小伙伴参与「RTE 开发者日报」内容的共创,感意思意思的一又友请通过开发者社区或公众号留言预计,谨记报暗号「共创」。

关于任何响应(包括但不限于内容上、体式上)咱们不堪戴德、并有小惊喜回馈,举例你但愿从日报中看到哪些内容;我方推选的信源、花样、话题、活动等;或者列举几个你心爱看、平不竭看的内容渠说念;内容排版或呈现体式上有哪些不错改良的地方等。

素材开端官方媒体/收集新闻开云kaiyun官方网站



相关资讯