今日摘要
AI动态涵盖计算重定义机器人落地竞技场发布教皇合作古文字开源
2026.05.18 | 人类视频炼物理常识;文档问答要查原文
AI开源应用上线融资商用并进
开源AI技能与工具项目涵盖rtk photogimp vimax学术研究
Antigravity 2.0 和 Codex 长一个样😂 Google 舍得拉下脸抄一下 UI/UX 也不是坏事,这样不会像 Gemini UI 那样难用了
🚀 产品与功能更新
1. 600亿,又一家造车新势力宣布破产
随着行业洗牌加剧,又一家投入超600亿的电动车初创企业Fisker宣告破产。面对遗留的万余辆未维护车辆,受影响的车主们并未被动等待,而是自发组建开源技术社区,通过共享解决方案与协作维修,积极探索困境中的新出路。
2. 跨越落地鸿沟!清华长三院发布首个真实场景AI竞技场,实战谁是最佳?
为解决AI技术从理论验证迈向规模化应用的关键瓶颈,清华大学长三角研究院创新推出RWAI框架及首个真实场景AI竞技场。该平台通过构建标准化人机协作流程、设计多层次任务评估体系,并融合人类反馈优化机制,有效提升了AI在复杂产业环境中的部署效能,目前已实现项目落地周期缩短超70%,为行业提供了可复用的实践范式。
3. 加量不加价!Anthropic旗下Claude两款主力AI工具迎来重磅升级
Anthropic近日对其旗下的核心AI工具链进行了重要迭代。视觉创作与智能编程两大工具均迎来性能大幅跃升,且此次升级对用户免费开放。具体而言,前者在内容生成与理解上更为精准,后者则显著增强了复杂代码的生成与调试能力。这一举措旨在全面提升用户的创作与开发效率,进一步巩固其技术竞争力。
🔬 前沿研究
1. 2026.05.18 | 人类视频炼物理常识;文档问答要查原文
人工智能从人类视频中提取物理常识,推动模型掌握现实世界的运作规律;同时,文档问答任务强调证据归因,要求系统查证原文以确保答案的准确性和可信度。
2. 【周末特辑】5月第3周最火AI论文 | MinT让百万LoRA秒挂基础模型;千层DiT均值尖叫MV-Split破局
MinT 为海量微调模型提供了统一的管理框架,实现与基础模型的快速挂载与服务,极大提升了LLM应用效率。同期研究中,针对千层深度Transformer的优化技术MV-Split,通过均值分割策略有效破解了训练不稳定的难题。这些进展标志着AI基础设施与模型优化正迈向更精细、高效的阶段。
🌐 行业展望与社会影响
1. AI 硬件革命即将来临:巨头如何布局未来科技!
行业正迎来一场由AI硬件驱动的深刻变革。前苹果与Meta硬件负责人Caitlin Kalinowski指出,人工智能技术正在重塑硬件设备的设计逻辑与交互模式。她强调,消费级虚拟现实等领域将是关键突破口,未来的硬件创新将不再局限于性能提升,更将催生全新的人机协同范式,引领下一代科技产品的形态与功能革新。
2. AI大模型加速落地文旅场景 豆包正式上线“博物馆讲解模式”
豆包近期上线“博物馆讲解模式”,借助生成式AI技术优化公众的文博参观体验。该功能已与国内二十余家重点博物馆及美术馆达成官方合作,标志着AI大模型在文化生活场景中的应用进一步深化。
3. 免费公测进入倒计时:腾讯云两大主力AI模型月底转入正式商用
腾讯云近日宣布,旗下智能体开发平台的两款核心大模型——Hy3preview与DeepSeek-V4-Pro,将于2026年5月27日结束免费公测,正式进入商业化服务阶段。此举标志着这些人工智能模型的限时体验期即将收官,后续将转为持续性的商用产品。
4. Alexa+ 上线按需播客功能 想听啥自己点!
亚马逊近日为 Alexa+ 推出重要更新,新增支持按需播客生成功能。该服务命名为 Alexa Podcasts,现已面向美国用户开放测试,允许用户依据个人兴趣定制任意话题的播客节目。通过人工智能技术实现内容即时创建,此举旨在增强智能助手的个性化交互体验,体现亚马逊在语音助手领域的持续创新探索。
5. Google AI Studio 移动应用正式登陆 Google Play,支持预注册
AI Studio 移动应用现已登陆 Google Play 并开放预注册,标志着其 Gemini 驱动的开发平台正式向移动端拓展。用户未来可在手机上随时通过自然语言指令,快速构建应用、工具或小游戏,进一步降低了 AI 开发的门槛与场景限制。
6. 视觉大模型遭遇滑铁卢:首个中国古文字OCR评测基准开源
人工智能对古文字的识别能力迎来系统性检验。由腾讯混元大模型团队等机构联合推出的Chronicles-OCR评测基准正式开源,其创新性地覆盖了汉字从甲骨文到楷书的“七体之变”演变脉络,为评估模型在复杂历史文本上的理解能力提供了关键标尺,标志着中文古文字数字化研究进入新阶段。
📦 开源 TOP 项目
1. HKUDS/ViMax
一款名为 ViMax 的智能视频生成系统,将电影制作中的导演、编剧、制片及生成等多个核心角色集于一身。该系统基于 Python 构建,旨在实现从创意构思到成片产出的全流程自动化,其开源项目在 GitHub 上获得了显著关注。
2. rtk-ai/rtk
RTK 是一款基于命令行的智能代理工具,它能通过优化指令显著降低大语言模型在常规开发任务中的算力消耗,幅度可达60%-90%。该工具以单一Rust二进制文件形式交付,无需任何外部依赖,为开发者提供了一个即装即用的高效节能解决方案。
3. Diolinux/PhotoGIMP
该项目提供了一个专为 Photoshop 用户设计的适配层,旨在将 GIMP 3+ 的操作体验无缝过渡到 Adobe 的工作流思维中。它通过预设的界面布局与快捷键配置,大幅降低了从 Photoshop 迁移至开源图像处理软件 GIMP 的学习门槛,获得了开发社区的高度关注。
💬 社媒分享
1. http://x.com/i/article/2056234281895088128
最新技术动态显示,AI模型 的能力边界正被迅速拓宽,其应用已超越传统范畴,开始深度介入复杂逻辑推理与创意生成任务。这标志着智能技术正朝着更具通用性和自主性的方向迈进,或将重塑多个行业的未来形态。
2. RT Nous Research: 感谢 @dotey 将他的 baoyu-comic skill 移植到 Hermes Agent! 这个 skill 可以把一段 prompt 或源文档转成多页知识漫画,支持 6 种风格、7 …
Nous Research 宣布,由 @dotey 开发的 Hermes Agent 技能已成功移植。该技能能将文本提示或源文档自动转化为图文并茂的多页知识漫画,提供了包括风格、语气、版式及预设在内的丰富定制选项,显著提升了AI生成科普内容的效率与表现力。