2025年11月23日星期日

Rex-Omni:3B参数搞定检测、OCR、指向、关键点定位和视觉提示任务,可与其他视觉模型无缝集成。

Rex-Omni 是一个 3B 参数多模态模型,它将视觉感知任务(包括物体检测、OCR、指向、关键点定位和视觉提示)统一到一个单一的下一点预测框架中。

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程

图片图片

图片
图片
图片

<<< 左右滑动见更多 >>>

unsetunset主要功能unsetunset

图片
图片

unsetunset相关链接unsetunset

图片
  • 论文: https://arxiv.org/abs/2510.12798
  • 主页: https://rex-omni.github.io
  • 代码: https://github.com/idea-research/rex-omni

unsetunset用于多种视觉任务的统一架构unsetunset

下一点预测框架

Rex-Omni 将视觉感知重新表述为下一个点预测问题,将各种视觉任务统一到一个生成框架中。它通过自回归预测空间输出(例如,盒子、点、多边形),并通过两阶段训练流程进行优化——首先进行大规模监督微调 (SFT) 以实现基础训练,然后进行基于 GRPO 的强化学习以增强几何感知和行为一致性。

图片Rex-Omni 模型架构概述。Rex-Omni 基于 Qwen2.5-VL-3B 构建, 仅进行了极少的架构修改。值得注意的是,原始词汇表的最后 1000 个词元被重新用作专用的特殊词元,表示从 0 到 999 的量化坐标值。

unsetunsetRex-Omni 的应用unsetunset

Rex-Omni 的统一检测框架能够与其他视觉模型无缝集成。

图片

unsetunset快速入门unsetunset

只需几行代码即可开始使用 Rex-Omni

# Install Rex-Omni
conda create -n rexomni python=3.10
pip install torch==2.6.0 torchvision==0.21.0 --index-url https://download.pytorch.org/whl/cu124
git clone https://github.com/IDEA-Research/Rex-Omni.git
cd Rex-Omni
pip install -v -e .
from PIL import Image
from rex_omni import RexOmniWrapper, RexOmniVisualize

# Initialize model
rex = RexOmniWrapper(
    model_path="IDEA-Research/Rex-Omni",
    backend="transformers"
)

# Load image and run detection
image = Image.open("your_image.jpg")
results = rex.inference(
    images=image, 
    task="detection"
    categories=["person""car""dog"]
)

# Visualize results
vis = RexOmniVisualize(
    image=image,
    predictions=results[0]["extracted_predictions"]
)
vis.save("result.jpg")

unsetunsetGradio演示unsetunset

图片
# Launch the demo
CUDA_VISIBLE_DEVICES=0 python demo/gradio_demo.py --model_path IDEA-Research/Rex-Omni

# With custom settings
CUDA_VISIBLE_DEVICES=0 python demo/gradio_demo.py \
    --model_path IDEA-Research/Rex-Omni \
    --backend vllm \
    --server_name 0.0.0.0 \
    --server_port 7890

可用选项

  • --model_path:模型路径或 HuggingFace 仓库 ID(默认值:"IDEA-Research/Rex-Omni")
  • --backend后端要使用的选项 - "transformers" 或 "vllm"(默认值:"transformers")
  • --server_name服务器主机地址(默认值:"192.168.81.138")
  • --server_port服务器端口(默认值:5211)
  • --temperature采样温度(默认值:0.0)
  • --top_p:细胞核采样参数(默认值:0.05)
  • --max_tokens:要生成的最大代币数量(默认值:2048)

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

Rex-Omni:3B参数搞定检测、OCR、指向、关键点定位和视觉提示任务,可与其他视觉模型无缝集成。

Rex-Omni 是一个 3B 参数多模态模型,它将视觉感知任务(包括物体检测、OCR、指向、关键点定位和视觉提示)统一到一个单一的下一点预测框架中。 添加微信号:AIGC_Tech,公众号小助手会拉你进群! 点击下方名片关注AIGC Studio公众号 ! 获取 最新AI前...