开yun体育网其通过图像搜索功能径直搜索出了其同款眼镜的实拍图-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口

发布日期:2025-12-12 08:09    点击次数:198

开yun体育网其通过图像搜索功能径直搜索出了其同款眼镜的实拍图-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口

智东西开yun体育网

作家 | 王涵

剪辑 | 心缘

智东西12月9日报谈,昨晚,智谱开源了其GLM-4.6V系列多模态大模子,包括面向云表与高性能集群场景的基础版GLM-4.6V(106B-A12B)以及面向腹地部署与低蔓延应用的轻量版GLM-4.6V-Flash(9B)。

此外,今天上昼,智谱还开源了大模子交互智能体AutoGLM,访佛于“豆包手机助手”,该智能体在客岁10月发布之时曾被业内视为“人人首个具备手机操作才能的AI Agent”。

▲GLM-4.6V开源主页(图源:Hugging Face)

▲AutoGLM开源主页(图源:Hugging Face)

据官方先容,GLM-4.6V简略完成智能图文混排与内容创作、识图购物与导购、前端复刻与多轮视觉交互设备以及长高下文的文档与视频相识等任务,智东西第一时刻对其进行了体验。

在本色体验中,GLM-4.6V的图像搜索、全网比价以及长文本和视频的相识才能领会较为牢固,其生成翰墨和网页的速率快、内容准。但图文混排才能上,其所生成的图片一直无法暴露。关于糊涂教导,GLM-4.6V的相识有多少偏差。

GLM-4.6V系列模子将造就时高下文窗口普及到128k tokens,其初次在模子架构中将Function Call(器用调用)才能原生融入视觉模子。

在性能上,在同等参数畛域下,GLM-4.6V系列模子在多模态交互、逻辑推理和长高下文等重要才能上获取SOTA领会。

其中,9B版块的GLM-4.6V-Flash在掩饰了通用视觉问答、多模态推理、多智能体、多模态长文本、图表识别以及空间定位才能的34项测试中,有22项的分数最先Qwen3-VL-8B,106B参数12B激活的GLM-4.6V领会则与有着2倍参数目的Qwen3-VL-235B邻接近。

▲GLM-4.6V系列模子基准测试(图源:z.ai/blog/glm-4.6v)

价钱上,GLM-4.6V系列相较于GLM-4.5V降价50%,API调用价钱低至输入1元/百万tokens,输出3元/百万tokens,GLM-4.6V-Flash全面免费。

▲GLM-4.6V系列模子价钱表(图源:智谱AI)

GLM-4.6V开源地址:

GitHub:

https://github.com/zai-org/GLM-V

Hugging Face:

https://huggingface.co/collections/zai-org/glm-46v

魔搭社区:

https://modelscope.cn/collections/GLM-46V-37fabc27818446

GLM-4.6V体验地址:

https://chat.z.ai/

一、智能图文混排:可生成推文大纲,但无法暴露图片

最先是智能图文混排与内容创作才能,GLM-4.6V构建了原生多模态器用调用才能,不错径直相识图像、截图、文档页面等多模态数据,无需先转为翰墨样貌再领会。

咱们上传了GLM-4.5V的时代叙述,条款其生成一篇图文并茂的微信公众号著述。省略1-2分钟,GLM-4.6V就完成了对所有这个词文档的阅读和相识,输出了包含标题、导语、五个章节以及结语的完好公众号著述,但历程屡次尝试,其依旧无法暴露出图片。

▲智能图文混排

二、识图购物与导购:自动比价一气呵成,但糊涂搜索相识不到位

为了体验GLM-4.6V识图购物与导购功能,咱们径直输入“帮我搜索面前iPhone 17 Pro Max在各平台的价钱。”

GLM-4.6V会自动调用相干器用在全网中搜索,而且酿成商品名、平台、品牌、商品图、商品连合以及店铺名的比价表格,径直点击连合即可跳转到购买页面。

▲商品比价

咱们还不错径直让GLM-4.6V搜索《落拓动物城2》中尼克狐尼克的同款眼镜,其通过图像搜索功能径直搜索出了其同款眼镜的实拍图。

▲糊涂搜索导购

三、网页复刻:一张图丝滑生成网页代码,但图标更换分袂

咱们上传了一张X平台的登录页面截图,条款用户GLM-4.6V生成HTML代码和网页预览。

▲截图生成网页代码

▲生成网页预览

收到教导后,GLM-4.6V就坐窝开动逐行生成HTML代码,并暴露出预览页面。不错看出,其生成的“仿X”登录网页与原网页险些一模相同。

此外,GLM-4.6V还复旧多轮视觉交互,径直把柄末端用当然言语教导修改网页的色调、调遣按钮位置等。

比如,咱们在上一轮输出的基础上,条款其将网页主题色改为天蓝色,图标X改为Z,但还保捏原作风。不错看到,针对修改主题色的条款,GLM-4.6V完成的很完善,但关于图标X改为Z的教导,其误生成了一个“进取箭头”花样。

▲修改网页元素

四、长高下文的文档相识:可同期处理多篇中英文论文,长文档相识准确

GLM-4.6V将视觉编码器与言语模子的高下文对皆才能普及至128k,在本色应用中,128k高下文约即是150页的文档、200页PPT或一小时视频。

为考证其长高下文的文档相识才能,咱们径直甩给GLM-4.6V三篇收集平台处理领域的论文,其中有两篇汉文文件和一篇英文文件,让其阅读以上论文,并生成一篇学习条记。

▲生成论文体习条记

从GLM-4.6V生成的效果来看,图片依旧莫得暴露出来,但翰墨部老实容十足,逻辑了了,将每篇文件中的中枢不雅点和论断都了了地胪列了出来,英文文件处理也莫得错漏。

五、视频相识:能快速领会视频内容和拍摄手段,但视频大小有约束

终末,GLM-4.6V还不错相识长视频内容,用户不错上传一部200M以内的MP4影片,条款其分析视频的拍摄手法和内容、结构等。

比如,咱们上传了一段6分48秒的视频制作手段共享视频,想要其精致一下视频的想路和内容,并给一些作念照相类自媒体的提倡。

▲视频内容相识(高下滑动查察完好图片)

GLM-4.6V在几秒钟之内就给出了包含视频想路、叙事手段、镜头期骗和设备选定等的完好详解,而且给出了挨次渐进的四条成为照相博主的提倡,回应准确且了了完好。

结语:GLM-4.6V裁减了视觉模子接初学槛

从本色体验来说,GLM-4.6V在平日使命上照旧能帮不少忙,但生收效果还不太牢固,生成公众号著述时图片出不来、改网页细节时仍会有污点,但其价钱降到了上一个版块的一半,轻量版还免费,关于想尝试多模态AI的个东谈主或小团队来说,门槛如实裁减了不少。

在现时各家AI才能越来越接近的情况下,谁能把体验作念得更顺畅、资本更低,谁就可能眩惑更多设备者。

在官方推文中,智谱团队写到本周是其开源发布周开yun体育网,将会有更多后果开源,值得期待。



栏目分类



Powered by 开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口 @2013-2022 RSS地图 HTML地图