【AI探索者之家】AI周报第二期

AI探索者之家

0x960A

September 2nd, 2023

大家好，这周AI内容请慢用:

一、#AI大语言模型 Qwen-VL 通义千问

阿里云视觉大语言模型

模型功能：支持图像、文本、检测框输入与输出。

简单来说，模型能识别图片与文字，并且对图片内容有一定处理能力，然后将其输出。与其他模型相比，优势就是图片识别与处理功能。

模型特点：

-强大的性能：在四大类多模态任务的标准英文测评中（Zero-shot Caption/VQA/DocVQA/Grounding）上，均取得同等通用模型大小下最好效果；

（不知道有没有暗箱加分操作）

-多语言对话模型：天然支持多语言对话，端到端支持图片里中英双语的长文本识别；

（多语言已是LLM标配了，唯一能吹的是图片长文识别，确实得吹）

-多图交错对话：支持多图输入和比较，指定图片问答，多图文学创作等；

（不就是图片识别吗）

-首个支持中文开放域定位的通用模型：通过中文开放域语言表达进行检测框标注；

（这个我会在推下贴上图片解释给大家看，大意我认为是用中文定位识别图片某个区域）

-细粒度识别和理解：相比于目前其它开源LVLM使用的224分辨率，Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。

（针对图片识别的能力加成，没参考量，不置可否）

模型详情：https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary

论文地址：https://arxiv.org/pdf/2308.12966.pdf

模型DEMO：

视频来源：

官方画饼页：https://github.com/QwenLM/Qwen-VL

二、ChatGPT 企业版（Enterprise）发布

特点（抄官方公告）：

增强安全与隐私，客户数据不用于训练 OpenAI 模型，使用静态数据加密 (AES 256) 和传输中数据加密 (TLS 1.2+)，符合 SOC 2 标准。

具有批量会员管理功能的管理控制台，支持单点登录、域名验证，适合大规模部署。

进一步加强GPT-4功能，无使用上限，速度提升两倍，上下文增加4倍到32K token，高级数据分析可无限访问，共享聊天模板提高协作效率。

官方：https://openai.com/blog/introducing-chatgpt-enterprise

三、#AI项目推荐：SynthID测试版

来自 #Google 与DeepMind的联合制作，一种对图像加水印与识别水印的工具-SynthID。

跟咱们平时可以P掉的水印不一样，SynthID的水印嵌入图像的像素中，肉眼看不见，对图像进行编辑、压缩、甚至损失元数据，水印依然可以识别出来，这水印比钢印还硬。

相信这玩意广泛应用后，创作者引用自己作品被控诉的情况会越来越少，悄悄解决了图片史上的大难题-版权问题。

温馨提示：【视频非原创】

SynthID目前可以在谷歌云的Imagen上试用，Imagen相当于谷歌自己造的AI图片生成应用。

官方：https://deepmind.com/blog/identifying-ai-generated-images-with-synthid

四、AI国内资讯

国内8家获批上线的大模型：

百度（文心一言）https://wenxin.baidu.com

抖音（云雀大模型）https://doubao.com

智谱AI（GLM大模型）https://chatglm.cn

中科院（紫东太初大模型）https://xihe.mindspore.cn

百川智能（百川大模型）https://baichuan-ai.com

商汤（日日新大模型）https://sensetime.com

MiniMax（ABAB大模型）https://api.minimax.chat

上海人工智能实验室（书生通用大模型）https://intern-ai.org.cn

五、#AI项目分享 CoTracker

@MetaAI 官方推荐的项目

官方原话硬翻：CoTracker基于变压器网络，通过专门的关注层对不同时间点的相关性进行建模。

变压器网络旨在迭代更新多个轨迹的估计。它可以以滑动窗口的方式应用于很长的视频，为此我们设计了一个展开的训练循环。无论是在效率还是准确性方面，它都优于最先进的点跟踪方法。

我的理解:

CoTracker使用一种transformer network技术，根据时间相关性对视频里的指定点进行建模。

目前主要功能是跟踪视频里的像素点、规则网格点、手动选择点。有什么实际落地应用？目前还没有，但从位移可以看到、预测视频某些点的运动轨迹，对视频识别的AI应用也许是个强大的功能件。

虽然用途很迷，但视频确实做得挺炫，用来发发朋友圈白嫖关注还是稳得很。

玩耍地址：https://huggingface.co/spaces/facebook/cotracker

官方：https://co-tracker.github.io/

六、#AI项目分享 DINOv2

@MetaAI 推出的视觉模型

官方原话：DINOv2：具有自我监督学习功能的最先进的计算机视觉模型

特色功能：

1，深度估计：预测单个图像的每像素深度。

2，语义分割：大概区分图像中每个对象模型。

3，实例检索：从素材库找出跟目标图像相似的图像。

4，密集匹配：匹配两张实例检索到的图片中相似部分。

5，稀疏匹配：跟密集匹配差不多，就是毛发没那么浓密。

官方傻狗视频分享：

官方：https://dinov2.metademolab.com/

七、OpenAI教育工作者指南

@OpenAI 发布了一份教育者指南，旨在协助他们更好地在课堂中利用ChatGPT，提高学生的学习效率和参与度。

这份指南介绍了ChatGPT的工作原理、局限性和AI检测器的有效性。

它还提供了一些有用的Prompt提示，以帮助教育者更好地与ChatGPT互动。

同时，指南也警示了使用ChatGPT时要注意潜在的偏见问题。

官方公告：https://openai.com/blog/teaching-with-ai

教育工作相关问题解答：

【以上为ChatGPT写的文案】

八、#AI项目分享 Marketsy.ai

Marketsy.ai 一键生成电商平台网站

这是在PH上的一个新品，通过AI，短短几分钟便可生成电商平台网站

步骤：访问官网->输入品类->生成网站->选择风格->发布！

简单几步就能做甩手掌柜了吗？

当然是想太多了，目前的产品功能只是制作好购物模板，生成的产品都是从亚巴逊上获取的，还缺乏很多功能（例如最重要的支付接口），要落地应用估计还要等一等，可它确实是手残懒人党的福音。

玩耍地址：https://marketsy.ai/

以上就是本期全部内容。

我们是AI探索者之家，专门分享无趣又没什么用的AI内容。

一起玩耍，请V我，lanjiejiang

Subscribe to AI探索者之家

Receive the latest updates directly to your inbox.

Mint this entry as an NFT to add it to your collection.

Verification

This entry has been permanently stored onchain and signed by its creator.

Arweave Transaction

S_YQ3Aq3man71hg…JsEDyIXruSUZuHM

Author Address

0x960AD8F566b482A…1E1bF5111ebC823

Content Digest

cegNARtHBaOrpF_…LVaWohiDh8perSw