大模型周报将从【企业动态】【技术前瞻】【政策法规】【专家观点】四部分,带你快速跟进大模型行业热门动态。
另外,据 TechCrunch 报道,苹果已确定将于 2025 年推出 Apple Intelligence 的更多语言版本,包括英语(印度)、英语(新加坡)、德语、意大利语、韩语、葡萄牙语、越南语,以及尚未公布的“其他语言”。
OpenAI 周一表示,首席执行官 Sam Altman 将离开董事会的 Safe and Security Committee,该委员会将完全由独立董事会成员组成,卡内基梅隆大学机器学习系主任 Zico Kolter 将担任主席。新委员会将听取有关主要大模型的简报,且(连同全体董事会)有权推迟新模型的发布。OpenAI 表示,新委员会审查了 o1 模型的安全性,将其被评为“中等风险”。
据 TechCrunch 报道,Runway 日前推出了一项 API 服务,允许开发人员和组织将该公司的人工智能(AI)生成模型构建到第三方平台、应用程序和服务中。随着 这一 API 的初步推出,Runway 成为了首批通过 API 提供视频生成模型的人工智能厂商之一。Runway 表示,包括营销公司 Omnicom 在内的“让人信服的战略合作伙伴”已经在使用这一 API。
据 TechCrunch 报道,谷歌计划对 Google Search 进行改进,以便更清楚地显示搜索出来的结果中由AI(AI)生成和编辑的图片。有必要注意一下的是,只有包含 “C2PA 元数据 ”的图片才会被标记为被人工智能处理的图片。C2PA,即“内容来源和真实性联盟”,是一个制定技术标准的组织,由于 C2PA 在采用和互操作性方面面临着很多挑战,这一标准尚未得到普遍采用。
据《华尔街日报》报道,《饥饿游戏》、《暮光之城》出品公司狮门娱乐(Lions Gate Entertainment)计划开始在其新电影和电视节目的创作中使用生成式人工智能(AI),这是这一新兴技术在好莱坞发展的一个重要标志。该公司已同意让人工智能初创公司 Runway 使用其内容库,以换取一个新的、定制的人工智能模型,供工作室在剪辑和制作的步骤中使用。
借助 OpenAI 的 API 和其 o1 模型,T-Mobile 和 OpenAI 将建立一个由智能体(agent)驱动的新客户服务系统——IntentCX,其在分析客户服务呼叫记录和识别能更好解决的痛点方面已初见成效。OpenAI 首席执行官 Sam Altman 在 T-Mobile 活动上表示:“我们对下一代模型感到兴奋的众多事情之一就是我们大家可以为个性化做些什么。”
据彭博社报道,微软与沃达丰集团(Vodafone Group Plc)签署了一项在 Office 中用AI(AI)助手的协议,并发布了一系列新的AI工具,旨在帮助员工创建 Excel 图表、确定电子邮件的优先级以及相互协作。沃达丰将购买 68000 个企业版人工智能助手(即 Copilots)的许可证。
人工智能(AI)模型要想在特定环境中发挥作用,常常要获取背景知识。例如,客户支持聊天机器人有必要了解具体业务的相关知识,而法律分析机器人则有必要了解大量的过往案例。
当前,研发人员通常使用检索增强生成(RAG)来增强人工智能模型的知识。问题就在于,传统的 RAG 解决方案在对信息进行编码时会移除上下文,这往往会导致系统无法从知识库中检索到相关信息。
在这项工作中,Anthropic 团队提出了一种能显著改进 RAG 检索步骤的方法——上下文检索(Contextual Retrieval)。这种办法能够将检索失败的次数减少 49%,如果与重排(reranking)相结合,则能够大大减少 67%。检索准确率的提高会直接转化为下游任务的更佳表现。
在这项工作中,阿里团队以《黑神话:悟空》作为研究平台,探索了现有视觉语言模型(VLM)在需要纯视觉输入和复杂动作输出的场景中的能力边界。他们在游戏中定义了 12 项任务,其中 75% 以战斗为主,并将几种 SOTA 视觉语言模型纳入这一基准。此外,他们还提出了一个 VARP(视觉动作角色扮演)智能体框架,由动作规划系统和视觉轨迹系统组成。这一框架展示了执行基本任务的能力,并在 90% 的简单和中等水平的战斗场景中取得了成功。
在这项工作中,小红书团队推出了 StoryMaker,其不仅能保持面部的一致性,还能保持服装、发型和身体的一致性,从而通过一系列图像进行故事的创作。StoryMaker 融合了基于面部身份的条件和裁剪后的人物图像。具体来说,他们使用位置感知感知器重采样器(PPR)将面部身份信息与裁剪后的人物图像整合在一起,从而获得鲜明的人物特征。为避免多个人物和背景混杂在一起,他们使用带有分割掩码的 MSE 损失分别限制不同人物和背景的交叉注意力影响区域。此外,他们以姿势为条件训练生成网络,从而促进与姿势的解耦。他们还采用了 LoRA 来提高保真度和质量。
在这项工作中,来自 Microsoft Research、上海交通大学和复旦大学的研究团队提出了一种加速注意力计算的无需额外训练(training-free)方法——RetrievalAttention。为了利用注意力的动态稀疏特性,RetrievalAttention 在 CPU 内存中的 KV 向量上建立近似近邻搜索(ANNS)索引,并在生成过程中通过向量搜索检索最相关的向量,大幅度的降低了长上下文 LLM 的推理成本和对 GPU 内存的要求,同时保持了模型的准确性。特别是,在具有 8B 参数的 LLM 中,RetrievalAttention 只需 16GB GPU 内存即可提供 128K token,在单个英伟达 RTX4090(24GB)上生成一个 token 只需 0.188 秒。
Playground Research 团队推出了文本到图像模型 Playground v3(PGv3),其在文本提示、复杂推理和准确文本渲染方面表现出色。用户偏好研究表明,PGv3 在贴纸、海报和徽标设计等常见设计应用中具有超人的图形设计能力。此外,PGv3 还引入了新功能,包括精确的 RGB 颜色控制和强大的多语言理解能力。
在这项工作中,麻省理工学院媒体实验室推出了 AgentTorch——一个可以将基于智能体的建模(ABM)扩展到数百万智能体的框架,同时使用大语言模型(LLMs)捕捉高分辨率智能体行为。他们将 LLM 作为 ABM 智能体的效用基准,探索模拟规模与个体智能体之间的权衡。他们比较了基于启发式和 LLM 智能体的不同智能体架构在预测疾病和失业率方面的性能。此外,他们还展示了 AgentTorch 在回顾、反事实和前瞻性分析方面的能力,强调了自适应智能体行为如何帮助克服政策设计中历史数据的局限性。
医学成像分析面临着数据稀缺、标注成本高和隐私问题等挑战。为应对这些挑战,来自英伟达的研究团队及其合作者推出了用于合成成像的医学人工智能(MAISI),这是一种利用扩散模型生成合成三维计算机断层扫描(CT)图像的创新方法。通过结合 ControlNet,MAISI 可以将器官分割(包括 127 个解剖结构)作为附加条件做处理,并生成可用在所有下游任务的精确标注合成图像。
实验根据结果得出,MAISI 能够为不一样的区域和条件生成逼真、解剖准确的图像,这揭示了它在减轻合成数据挑战方面的巨大潜力。
在这项工作中,喜马拉雅 Everest 团队推出了 Takin AudioLLM 系列技术和模型,最重要的包含 Takin TTS(文本转语音)、Takin VC(语音转换)和 Takin Morphing(变声),专为有声读物制作设计。这些模型可以有效的进行零样本语音生成,产生与真实人声几乎没办法区分的高质量语音,并帮助个人依据自己需求定制语音内容。
中国科学院团队提出了一种为实现与 LLMs 进行低延迟和高质量语音交互而设计的全新模型架构——LLaMA-Omni,其集成了预训练的语音编码器、语音适配器、大语言模型(LLM)以及流式语音解码器,能够直接从语音指令中同时生成文本和语音响应,且响应速度快,免去了语音转录的步骤。
实验根据结果得出,与现有的语音-语言模型相比,LLaMA-Omni 在内容和风格上提供了更好的响应,且响应延迟可低至 226 毫秒。此外,训练 LLaMA-Omni 仅需 4 块 GPU,且能在 3 天内完成。
在这项工作中,来自约翰霍普金斯大学和 Samaya AI 的研究团队提出了首个能够像 LLM 一样进行提示的检索模型——Promptriever,其不仅在标准检索任务中表现出色,而且还能跟随指令。
他们观察到:在跟随详细的相关性指令方面取得了巨大进步(达到了 SoTA)(FollowIR 上 +14.3 p-MRR / +3.1 nDCG);对查询、指令中词汇选择/措辞的鲁棒性明显提高(InstructIR 上 +12.9 Robustness@10);可以通过提示执行超参数搜索,从而可靠地提高检索性能(BEIR 上平均提高 +1.4)。
日前,国家互联网信息办公室起草了《人工智能生成合成内容标识办法(征求意见稿)》,现向社会公开征求意见。
其中,《征求意见稿》中写道,服务提供者提供的生成合成服务属于《互联网信息服务深度合成管理规定》第十七条第一款情形的,应当按照下列要求对生成合成内容添加显式标识。
在文本的起始、末尾、中间适当位置添加文字提示或通用符号提示等标识,或在交互场景界面或文字周边添加显著的提示标识;
在音频的起始、末尾或中间适当位置添加语音提示或音频节奏提示等标识,或在交互场景界面中添加显著的提示标识;
在视频起始画面和视频播放周边的适当位置添加显著的提示标识,可在视频末尾和中间适当位置添加显著的提示标识;
呈现虚拟场景时,应当在起始画面的适当位置添加显著的提示标识,可在虚拟场景持续服务过程中的适当位置添加显著的提示标识;
其他生成合成服务场景应该依据自身应用特点添加具有非常明显提示效果的显式标识。
服务提供者提供生成合成内容下载、复制、导出等方式时,应当确保文件中含有满足规定的要求的显式标识。
据彭博社报道,加州州长 Gavin Newsom 担心州议会通过的一项监管新技术的法案可能会对AI(AI)的发展造成 “寒蝉效应”。州立法者于 8 月 28 日批准了 SB 1047 法案,该法案规定,如果人工智能公司没有采取必要的安全措施,其技术日后造成重大伤害,这一些企业将承担法律责任。Newsom 表示,他正在权衡人工智能的风险是有理论支持的还是假设的。
据路透社报道,在美国国会继续努力监管人工智能技术之际,美国政府计划召开一次全球AI安全峰会。商务部长 Gina Raimondo 和国务卿 Anthony Blinken 将于 11 月 20 日至 21 日在旧金山主办人工智能安全研究所国际网络第一次会议,以 “推动全球合作,实现AI安全、可靠和可信的发展”。
“人类失去控制或恶意使用这一些人工智能(AI)系统,可能会给全人类带来灾难性的后果。”
如今,AI大模型引发的潜在风险,已成为日益严峻的焦点问题,正受到来自全球各界的关注。
日前,三位图灵奖获得者 Yoshua Bengio、Geoffrey Hinton、姚期智,与来自世界各地的几十位科学家共同签署了一封公开信——“AI 安全国际对话威尼斯共识”,呼吁为推动人工智能的发展制定更好的保障措施。
他们在公开信中警告道,“随着人工智能的加快速度进行发展,这些‘灾难性的结果’随时有可能发生。”
日前,甲骨文联合创始人 Larry Ellison 在公司财务会议上分享了他对AI(AI)监控未来的愿景。在投资者问答环节,Ellison 描述了一个AI系统将通过广泛的摄像头和无人机网络持续监控人类世界,并表示这将确保警察和大众都不会触犯法律。
Ellison 说:“大众将保持最佳行为,因为我们会不断记录和报告发生的一切,”他描述了他认为人工智能自动监督和犯罪发生时自动报警带来的好处。这位 80 岁的亿万富翁还预测,人工智能控制的无人机将在高速追捕中取代警车。
据《华尔街日报》报道,包括 Meta、 Spotify 和 Prada 在内的一些公司警告称,欧盟有可能因其监督管理法规而错失人工智能(AI)带来的好处。AI可以提高生产力,扩大经济规模,但欧洲获得的回报可能比别的地方要少。与别的地方相比,欧洲的竞争力和创新力都会降低,由于监管政策不一致,欧洲有可能在AI时代进一步落后。
据《科创板日报》报道,在 2024 杭州云栖大会上,小鹏汽车董事长何小鹏表示,端到端模型下限能力有望在明年快速提高,一旦提高后,不用 2 年时间,在全世界内就能做到超越 L4 标准的能力。小鹏汽车宣布每年投入 35 亿元用于研发,其中 7 亿元用于算力训练,还将与阿里云持续深化合作,加速推动端到端大模型落地。
据彭博社报道,有知情的人偷偷表示,OpenAI 的最新一轮融资已接近尾声,本轮 65 亿美元的融资获得了超额认购,潜在投资者将于近期获知他们是否会参与这一笔交易。这一笔交易将使 OpenAI 的估值达到 1500 亿美元,这还不包括新的投资。对此,OpenAI 拒绝发表评论。
据财联社报道,中国科学院地理科学与资源研究所、中国科学院青藏高原研究所、中国科学院自动化研究所等单位日前发布了全球首个多模态地理科学大模型“坤元”(Sigma Geography)。据介绍,该大模型是专注于地理科学的专业语言大模型,具备处理地理科学有关问题的专业能力,具备“懂地理”“精配图”“知人心”“智生图”等特点,实现了地理专业问题解答、地理学文献智能分析、地理数据资源查询、地理数据挖掘分析、专题地图绘制等功能。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
四川宜宾警方悬赏的39岁男子唐亮在云南芒市落网,涉嫌杀害13岁初二女生
黑龙江一地疑出现老虎进村咬伤村民,家属称左手大概率保不住,当地回应:有关部门已到达现场
中国博主被非洲小国的物价惊到了:一颗鸡蛋4块,一罐可乐17.5块,一个塑料桶60块
足坛刺激1夜:英格兰5-0升级 哈兰德戴帽挪威5-0 法国3-1意大利
率队5-0升级!哈兰德起飞:48分钟戴帽 16场19球加冕欧国联射手王
《编码物候》展览开幕 北京时代美术馆以科学艺术解读数字与生物交织的宇宙节律