Rex-Omni 是一个 3B 参数多模态模型,它将视觉感知任务(包括物体检测、OCR、指向、关键点定位和视觉提示)统一到一个单一的下一点预测框架中。
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
<<< 左右滑动见更多 >>>
主要功能
相关链接
论文: https://arxiv.org/abs/2510.12798 主页: https://rex-omni.github.io 代码: https://github.com/idea-research/rex-omni
用于多种视觉任务的统一架构
下一点预测框架
Rex-Omni 将视觉感知重新表述为下一个点预测问题,将各种视觉任务统一到一个生成框架中。它通过自回归预测空间输出(例如,盒子、点、多边形),并通过两阶段训练流程进行优化——首先进行大规模监督微调 (SFT) 以实现基础训练,然后进行基于 GRPO 的强化学习以增强几何感知和行为一致性。
Rex-Omni 模型架构概述。Rex-Omni 基于 Qwen2.5-VL-3B 构建, 仅进行了极少的架构修改。值得注意的是,原始词汇表的最后 1000 个词元被重新用作专用的特殊词元,表示从 0 到 999 的量化坐标值。
Rex-Omni 的应用
Rex-Omni 的统一检测框架能够与其他视觉模型无缝集成。
快速入门
只需几行代码即可开始使用 Rex-Omni
# Install Rex-Omni
conda create -n rexomni python=3.10
pip install torch==2.6.0 torchvision==0.21.0 --index-url https://download.pytorch.org/whl/cu124
git clone https://github.com/IDEA-Research/Rex-Omni.git
cd Rex-Omni
pip install -v -e .
from PIL import Image
from rex_omni import RexOmniWrapper, RexOmniVisualize
# Initialize model
rex = RexOmniWrapper(
model_path="IDEA-Research/Rex-Omni",
backend="transformers"
)
# Load image and run detection
image = Image.open("your_image.jpg")
results = rex.inference(
images=image,
task="detection",
categories=["person", "car", "dog"]
)
# Visualize results
vis = RexOmniVisualize(
image=image,
predictions=results[0]["extracted_predictions"]
)
vis.save("result.jpg")
Gradio演示
# Launch the demo
CUDA_VISIBLE_DEVICES=0 python demo/gradio_demo.py --model_path IDEA-Research/Rex-Omni
# With custom settings
CUDA_VISIBLE_DEVICES=0 python demo/gradio_demo.py \
--model_path IDEA-Research/Rex-Omni \
--backend vllm \
--server_name 0.0.0.0 \
--server_port 7890
可用选项
--model_path:模型路径或 HuggingFace 仓库 ID(默认值:"IDEA-Research/Rex-Omni") --backend后端要使用的选项 - "transformers" 或 "vllm"(默认值:"transformers") --server_name服务器主机地址(默认值:"192.168.81.138") --server_port服务器端口(默认值:5211) --temperature采样温度(默认值:0.0) --top_p:细胞核采样参数(默认值:0.05) --max_tokens:要生成的最大代币数量(默认值:2048)
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论