AI I024: Rex-Omni：3B参数搞定检测、OCR、指向、关键点定位和视觉提示任务，可与其他视觉模型无缝集成。

2025年11月23日星期日

Rex-Omni：3B参数搞定检测、OCR、指向、关键点定位和视觉提示任务，可与其他视觉模型无缝集成。

Rex-Omni 是一个 3B 参数多模态模型，它将视觉感知任务（包括物体检测、OCR、指向、关键点定位和视觉提示）统一到一个单一的下一点预测框架中。

添加微信号：AIGC_Tech，公众号小助手会拉你进群！

点击下方名片关注AIGC Studio公众号！获取最新AI前沿应用/AIGC实践教程！

<<< 左右滑动见更多 >>>

unsetunset主要功能unsetunset

unsetunset相关链接unsetunset

论文: https://arxiv.org/abs/2510.12798
主页: https://rex-omni.github.io
代码: https://github.com/idea-research/rex-omni

unsetunset用于多种视觉任务的统一架构unsetunset

下一点预测框架

Rex-Omni 将视觉感知重新表述为下一个点预测问题，将各种视觉任务统一到一个生成框架中。它通过自回归预测空间输出（例如，盒子、点、多边形），并通过两阶段训练流程进行优化——首先进行大规模监督微调 (SFT) 以实现基础训练，然后进行基于 GRPO 的强化学习以增强几何感知和行为一致性。

Rex-Omni 模型架构概述。Rex-Omni 基于 Qwen2.5-VL-3B 构建，仅进行了极少的架构修改。值得注意的是，原始词汇表的最后 1000 个词元被重新用作专用的特殊词元，表示从 0 到 999 的量化坐标值。

unsetunsetRex-Omni 的应用unsetunset

Rex-Omni 的统一检测框架能够与其他视觉模型无缝集成。

unsetunset快速入门unsetunset

只需几行代码即可开始使用 Rex-Omni

# Install Rex-Omni
conda create -n rexomni python=3.10
pip install torch==2.6.0 torchvision==0.21.0 --index-url https://download.pytorch.org/whl/cu124
git clone https://github.com/IDEA-Research/Rex-Omni.git
cd Rex-Omni
pip install -v -e .

from PIL import Image
from rex_omni import RexOmniWrapper, RexOmniVisualize

# Initialize model
rex = RexOmniWrapper(
    model_path="IDEA-Research/Rex-Omni",
    backend="transformers"
)

# Load image and run detection
image = Image.open("your_image.jpg")
results = rex.inference(
    images=image, 
    task="detection", 
    categories=["person", "car", "dog"]
)

# Visualize results
vis = RexOmniVisualize(
    image=image,
    predictions=results[0]["extracted_predictions"]
)
vis.save("result.jpg")

unsetunsetGradio演示unsetunset

# Launch the demo
CUDA_VISIBLE_DEVICES=0 python demo/gradio_demo.py --model_path IDEA-Research/Rex-Omni

# With custom settings
CUDA_VISIBLE_DEVICES=0 python demo/gradio_demo.py \
    --model_path IDEA-Research/Rex-Omni \
    --backend vllm \
    --server_name 0.0.0.0 \
    --server_port 7890

可用选项

--model_path：模型路径或 HuggingFace 仓库 ID（默认值："IDEA-Research/Rex-Omni"）
--backend后端要使用的选项 - "transformers" 或 "vllm"（默认值："transformers"）
--server_name服务器主机地址（默认值："192.168.81.138")
--server_port服务器端口（默认值：5211）
--temperature采样温度（默认值：0.0）
--top_p：细胞核采样参数（默认值：0.05）
--max_tokens：要生成的最大代币数量（默认值：2048）

感谢你看到这里，添加小助手 AIGC_Tech 加入官方 AIGC读者交流群，下方扫码加入 AIGC Studio 星球，获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等，欢迎一起交流学习💗～

AI I024

2025年11月23日星期日

Rex-Omni：3B参数搞定检测、OCR、指向、关键点定位和视觉提示任务，可与其他视觉模型无缝集成。

Rex-Omni 是一个 3B 参数多模态模型，它将视觉感知任务（包括物体检测、OCR、指向、关键点定位和视觉提示）统一到一个单一的下一点预测框架中。

unsetunset主要功能unsetunset

unsetunset相关链接unsetunset

unsetunset用于多种视觉任务的统一架构unsetunset

下一点预测框架

unsetunsetRex-Omni 的应用unsetunset

unsetunset快速入门unsetunset

unsetunsetGradio演示unsetunset

可用选项

没有评论:

发表评论

Rex-Omni：3B参数搞定检测、OCR、指向、关键点定位和视觉提示任务，可与其他视觉模型无缝集成。