Vision Models

Analyze images, extract text, and answer visual questions with Assisters Vision, our multimodal AI model.

Assisters Vision v1

Model IDstring

assisters-vision-v1

Our advanced vision model that understands images and can answer questions about visual content with high accuracy.

Specification	Value
Model ID	`assisters-vision-v1`
Context Window	128,000 tokens
Max Output	8,192 tokens
Input Price	$0.05 / million tokens
Output Price	$0.10 / million tokens
Latency	~300ms first token

Capabilities

Image Understanding: Describe, analyze, and interpret images
OCR: Extract text from images, documents, and screenshots
Visual Q&A: Answer questions about image content
Object Detection: Identify and locate objects in images
Chart Analysis: Understand charts, graphs, and diagrams
Multiple Images: Analyze multiple images in a single request

Example Usage

from openai import OpenAI

client = OpenAI(
    base_url="https://api.assisters.dev/v1",
    api_key="your-api-key"
)

response = client.chat.completions.create(
    model="assisters-vision-v1",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "What's in this image?"},
                {
                    "type": "image_url",
                    "image_url": {"url": "https://example.com/image.jpg"}
                }
            ]
        }
    ]
)

print(response.choices[0].message.content)

With Base64 Image

import base64

# Read local image
with open("image.png", "rb") as f:
    image_data = base64.b64encode(f.read()).decode("utf-8")

response = client.chat.completions.create(
    model="assisters-vision-v1",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Describe this image in detail"},
                {
                    "type": "image_url",
                    "image_url": {
                        "url": f"data:image/png;base64,{image_data}"
                    }
                }
            ]
        }
    ]
)

Multiple Images

response = client.chat.completions.create(
    model="assisters-vision-v1",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Compare these two images"},
                {"type": "image_url", "image_url": {"url": "https://example.com/image1.jpg"}},
                {"type": "image_url", "image_url": {"url": "https://example.com/image2.jpg"}}
            ]
        }
    ]
)

Parameters

Parameter	Type	Default	Description
`messages`	array	required	Conversation with image content
`temperature`	float	0.7	Randomness (0-2)
`max_tokens`	int	1024	Maximum output length
`stream`	bool	false	Enable streaming