大家好,这周AI内容请慢用:
一、#AI大语言模型 Qwen-VL 通义千问
阿里云视觉大语言模型
模型功能:支持图像、文本、检测框输入与输出。
简单来说,模型能识别图片与文字,并且对图片内容有一定处理能力,然后将其输出。与其他模型相比,优势就是图片识别与处理功能。
模型特点:
-强大的性能:在四大类多模态任务的标准英文测评中(Zero-shot Caption/VQA/DocVQA/Grounding)上,均取得同等通用模型大小下最好效果;
(不知道有没有暗箱加分操作)
-多语言对话模型:天然支持多语言对话,端到端支持图片里中英双语的长文本识别;
(多语言已是LLM标配了,唯一能吹的是图片长文识别,确实得吹)
-多图交错对话:支持多图输入和比较,指定图片问答,多图文学创作等;
(不就是图片识别吗)
-首个支持中文开放域定位的通用模型:通过中文开放域语言表达进行检测框标注;
(这个我会在推下贴上图片解释给大家看,大意我认为是用中文定位识别图片某个区域)
-细粒度识别和理解:相比于目前其它开源LVLM使用的224分辨率,Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。
(针对图片识别的能力加成,没参考量,不置可否)
模型详情:https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary
论文地址:https://arxiv.org/pdf/2308.12966.pdf
模型DEMO:
视频来源:
官方画饼页:https://github.com/QwenLM/Qwen-VL
二、ChatGPT 企业版(Enterprise)发布
特点(抄官方公告):
增强安全与隐私,客户数据不用于训练 OpenAI 模型,使用静态数据加密 (AES 256) 和传输中数据加密 (TLS 1.2+),符合 SOC 2 标准。
具有批量会员管理功能的管理控制台,支持单点登录、域名验证,适合大规模部署。
进一步加强GPT-4功能,无使用上限,速度提升两倍,上下文增加4倍到32K token,高级数据分析可无限访问,共享聊天模板提高协作效率。
官方:https://openai.com/blog/introducing-chatgpt-enterprise
三、#AI项目推荐:SynthID测试版
来自 #Google 与DeepMind的联合制作,一种对图像加水印与识别水印的工具-SynthID。
跟咱们平时可以P掉的水印不一样,SynthID的水印嵌入图像的像素中,肉眼看不见,对图像进行编辑、压缩、甚至损失元数据,水印依然可以识别出来,这水印比钢印还硬。
相信这玩意广泛应用后,创作者引用自己作品被控诉的情况会越来越少,悄悄解决了图片史上的大难题-版权问题。
温馨提示:【视频非原创】
SynthID目前可以在谷歌云的Imagen上试用,Imagen相当于谷歌自己造的AI图片生成应用。
官方:https://deepmind.com/blog/identifying-ai-generated-images-with-synthid
四、AI国内资讯
国内8家获批上线的大模型:
百度(文心一言)https://wenxin.baidu.com
抖音(云雀大模型)https://doubao.com
智谱AI(GLM大模型)https://chatglm.cn
中科院(紫东太初大模型)https://xihe.mindspore.cn
百川智能(百川大模型)https://baichuan-ai.com
商汤(日日新大模型)https://sensetime.com
MiniMax(ABAB大模型)https://api.minimax.chat
上海人工智能实验室(书生通用大模型)https://intern-ai.org.cn
五、#AI项目 分享 CoTracker
@MetaAI 官方推荐的项目
官方原话硬翻:CoTracker基于变压器网络,通过专门的关注层对不同时间点的相关性进行建模。
变压器网络旨在迭代更新多个轨迹的估计。它可以以滑动窗口的方式应用于很长的视频,为此我们设计了一个展开的训练循环。无论是在效率还是准确性方面,它都优于最先进的点跟踪方法。
我的理解:
CoTracker使用一种transformer network技术,根据时间相关性对视频里的指定点进行建模。
目前主要功能是跟踪视频里的像素点、规则网格点、手动选择点。有什么实际落地应用?目前还没有,但从位移可以看到、预测视频某些点的运动轨迹,对视频识别的AI应用也许是个强大的功能件。
虽然用途很迷,但视频确实做得挺炫,用来发发朋友圈白嫖关注还是稳得很。
玩耍地址:https://huggingface.co/spaces/facebook/cotracker
官方:https://co-tracker.github.io/
六、#AI项目 分享 DINOv2
@MetaAI 推出的视觉模型
官方原话:DINOv2:具有自我监督学习功能的最先进的计算机视觉模型
特色功能:
1,深度估计:预测单个图像的每像素深度。
2,语义分割:大概区分图像中每个对象模型。
3,实例检索:从素材库找出跟目标图像相似的图像。
4,密集匹配:匹配两张实例检索到的图片中相似部分。
5,稀疏匹配:跟密集匹配差不多,就是毛发没那么浓密。
官方傻狗视频分享:
官方:https://dinov2.metademolab.com/
七、OpenAI教育工作者指南
@OpenAI 发布了一份教育者指南,旨在协助他们更好地在课堂中利用ChatGPT,提高学生的学习效率和参与度。
这份指南介绍了ChatGPT的工作原理、局限性和AI检测器的有效性。
它还提供了一些有用的Prompt提示,以帮助教育者更好地与ChatGPT互动。
同时,指南也警示了使用ChatGPT时要注意潜在的偏见问题。
官方公告:https://openai.com/blog/teaching-with-ai
教育工作相关问题解答:
【以上为ChatGPT写的文案】
八、#AI项目 分享 Marketsy.ai
Marketsy.ai 一键生成电商平台网站
这是在PH上的一个新品,通过AI,短短几分钟便可生成电商平台网站
步骤:访问官网->输入品类->生成网站->选择风格->发布!
简单几步就能做甩手掌柜了吗?
当然是想太多了,目前的产品功能只是制作好购物模板,生成的产品都是从亚巴逊上获取的,还缺乏很多功能(例如最重要的支付接口),要落地应用估计还要等一等,可它确实是手残懒人党的福音。
玩耍地址:https://marketsy.ai/
以上就是本期全部内容。
我们是AI探索者之家,专门分享无趣又没什么用的AI内容。
一起玩耍,请V我,lanjiejiang