ASID-Caption

community

https://asid-caption.github.io/

AI & ML interests

Video Understanding, Audio-Visual, Multimodal LLMs, Video Captioning, Instruction Tuning, Dataset Curation, Qwen-based, Open-source, Fully-Open-MLLMs

Recent Activity

lyhisme updated a model about 10 hours ago

AudioVisual-Caption/ASID-Captioner-3B

lyhisme updated a model about 10 hours ago

AudioVisual-Caption/ASID-Captioner-7B

lyhisme updated a Space 2 days ago

AudioVisual-Caption/README

View all activity

Papers

Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions

View all Papers

lyhisme

updated 2 models about 10 hours ago

AudioVisual-Caption/ASID-Captioner-3B

Image-Text-to-Text • 5B • Updated about 10 hours ago • 646 • 3

AudioVisual-Caption/ASID-Captioner-7B

Image-Text-to-Text • 9B • Updated about 10 hours ago • 32 • 4

lyhisme

updated a Space 2 days ago

ASID-Caption

🦉

lyhisme

updated a dataset 2 days ago

AudioVisual-Caption/ASID-1M

Viewer • Updated 2 days ago • 241k • 180 • 4

lyhisme

submitted a paper to Daily Papers 11 days ago

Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions

Paper • 2602.13013 • Published 13 days ago • 8

lyhisme

published 2 models 13 days ago

AudioVisual-Caption/ASID-Captioner-3B

Image-Text-to-Text • 5B • Updated about 10 hours ago • 646 • 3

AudioVisual-Caption/ASID-Captioner-7B

Image-Text-to-Text • 9B • Updated about 10 hours ago • 32 • 4

lyhisme

published a Space 15 days ago

ASID-Caption

🦉

lyhisme

published a dataset 16 days ago

AudioVisual-Caption/ASID-1M

Viewer • Updated 2 days ago • 241k • 180 • 4

lyhisme

authored 5 papers 5 months ago

TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs

Paper • 2509.18056 • Published Sep 22, 2025 • 27

Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation

Paper • 2406.00670 • Published Jun 2, 2024

Unbiased Region-Language Alignment for Open-Vocabulary Dense Prediction

Paper • 2412.06244 • Published Dec 9, 2024

A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models

Paper • 2508.01548 • Published Aug 3, 2025 • 14

Revisiting Efficient Semantic Segmentation: Learning Offsets for Better Spatial and Class Feature Alignment

Paper • 2508.08811 • Published Aug 12, 2025 • 2

AI & ML interests

Recent Activity

Papers

Team members 1

AudioVisual-Caption's activity

ASID-Caption

ASID-Caption