default search action

combined dblp search
author search
venue search
publication search

ask others

Haotian Zhang 0005

> Home > Persons

Person information

affiliation: Apple AI/ML, Cupertino, CA, USA
affiliation: University of Washington, Department of Electrical and Computer Engineering, Seattle, WA, USA

Other persons with the same name

see FAQ

Other persons with a similar name

see FAQ

Why are some names followed by a four digit number?

SPARQL queries

🛈 Please note that only 70% of the items listed on this page have a DOI stored with their dblp record. Therefore, DOI-based queries can only provide partial results.

run query for this person

or build your own?

Refine list

refinements active!

zoomed in on ?? of ?? records

view refined list in

export refined list as

showing all ?? records

2020 – today

see FAQ

What is the meaning of the colors in the publication lists?

2025
[c19]
- view
  - electronic edition @ aclanthology.org (open access)
  - details & citations
- export record
  dblp key:
  - conf/acl/ZhangZLZSGYPY25
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/acl/ZhangZLZSGYPY25
Ruohong Zhang, Bowen Zhang, Yanghao Li, Haotian Zhang, Zhiqing Sun, Zhe Gan, Yinfei Yang, Ruoming Pang, Yiming Yang:
Improve Vision Language Model Chain-of-thought Reasoning. ACL (1) 2025: 1631-1662
[c18]
- view
  - electronic edition @ openreview.net (open access)
  - details & citations
- export record
  dblp key:
  - conf/iclr/LaiS0CZZHTGGCY25
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/iclr/LaiS0CZZHTGGCY25
Zhengfeng Lai, Vasileios Saveris, Chen Chen, Hong-You Chen, Haotian Zhang, Bowen Zhang, Wenze Hu, Juan Lao Tebar, Zhe Gan, Peter Grasch, Meng Cao, Yinfei Yang:
Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models. ICLR 2025
[c17]
- view
  - electronic edition @ openreview.net (open access)
  - details & citations
- export record
  dblp key:
  - conf/iclr/LiYZFALM0YG25
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/iclr/LiYZFALM0YG25
Zhangheng Li, Keen You, Haotian Zhang, Di Feng, Harsh Agrawal, Xiujun Li, Mohana Prasad Sathya Moorthy, Jeffrey Nichols, Yinfei Yang, Zhe Gan:
Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms. ICLR 2025
[c16]
- view
  - electronic edition @ openreview.net (open access)
  - details & citations
- export record
  dblp key:
  - conf/iclr/YeZD0LL0Y0GLY25
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/iclr/YeZD0LL0Y0GLY25
Hanrong Ye, Haotian Zhang, Erik A. Daxberger, Lin Chen, Zongyu Lin, Yanghao Li, Bowen Zhang, Haoxuan You, Dan Xu, Zhe Gan, Jiasen Lu, Yinfei Yang:
MMEgo: Towards Building Egocentric Multimodal LLMs for Video QA. ICLR 2025
[c15]
- view
  - electronic edition @ openreview.net (open access)
  - details & citations
- export record
  dblp key:
  - conf/iclr/ZhangGGDWHSDZLD25
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/iclr/ZhangGGDWHSDZLD25
Haotian Zhang, Mingfei Gao, Zhe Gan, Philipp Dufter, Nina Wenzel, Forrest Huang, Dhruti Shah, Xianzhi Du, Bowen Zhang, Yanghao Li, Sam Dodge, Keen You, Zhen Yang, Aleksei Timofeev, Mingze Xu, Hong-You Chen, Jean-Philippe Fauconnier, Zhengfeng Lai, Haoxuan You, Zirui Wang, et al.:
MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning. ICLR 2025
2024
[c14]
- view
  authority control:
- export record
  dblp key:
  - conf/eccv/LaiZZWBTDGSCYC24
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/eccv/LaiZZWBTDGSCYC24
Zhengfeng Lai, Haotian Zhang, Bowen Zhang, Wentao Wu, Haoping Bai, Aleksei Timofeev, Xianzhi Du, Zhe Gan, Jiulong Shan, Chen-Nee Chuah, Yinfei Yang, Meng Cao:
VeCLIP: Improving CLIP Training via Visual-Enriched Captions. ECCV (42) 2024: 111-127
[c13]
- view
  authority control:
- export record
  dblp key:
  - conf/eccv/YouZSWSNYG24
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/eccv/YouZSWSNYG24
Keen You, Haotian Zhang, Eldon Schoop, Floris Weers, Amanda Swearngin, Jeffrey Nichols, Yinfei Yang, Zhe Gan:
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs. ECCV (64) 2024: 240-255
[c12]
- view
  authority control:
- export record
  dblp key:
  - conf/eccv/McKinzieGFDZDSDPBZSKHSG24
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/eccv/McKinzieGFDZDSDPBZSKHSG24
Brandon McKinzie, Zhe Gan, Jean-Philippe Fauconnier, Sam Dodge, Bowen Zhang, Philipp Dufter, Dhruti Shah, Xianzhi Du, Futang Peng, Anton Belyi, Haotian Zhang, Karanjeet Singh, Doug Kang, Hongyu Hè, Max Schwarzer, Tom Gunter, Xiang Kong, Aonan Zhang, Jianyu Wang, Chong Wang, Nan Du, Tao Lei, Sam Wiseman, Mark Lee, Zirui Wang, Ruoming Pang, Peter Grasch, Alexander Toshev, Yinfei Yang:
MM1: Methods, Analysis and Insights from Multimodal LLM Pre-training. ECCV (29) 2024: 304-323
[c11]
- view
  - electronic edition @ openreview.net (open access)
  - details & citations
- export record
  dblp key:
  - conf/iclr/YouZGDZWCCY24
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/iclr/YouZGDZWCCY24
Haoxuan You, Haotian Zhang, Zhe Gan, Xianzhi Du, Bowen Zhang, Zirui Wang, Liangliang Cao, Shih-Fu Chang, Yinfei Yang:
Ferret: Refer and Ground Anything Anywhere at Any Granularity. ICLR 2024
[c10]
- view
  authority control:
- export record
  dblp key:
  - conf/wacv/LaiBZDSYCC24
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/wacv/LaiBZDSYCC24
Zhengfeng Lai, Haoping Bai, Haotian Zhang, Xianzhi Du, Jiulong Shan, Yinfei Yang, Chen-Nee Chuah, Meng Cao:
Empowering Unsupervised Domain Adaptation with Large-scale Pre-trained Vision-Language Models. WACV 2024: 2679-2689
[i17]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2402-13220
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2402-13220
Yusu Qian, Haotian Zhang, Yinfei Yang, Zhe Gan:
How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts. CoRR abs/2402.13220 (2024)
[i16]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2403-09611
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2403-09611
Brandon McKinzie, Zhe Gan, Jean-Philippe Fauconnier, Sam Dodge, Bowen Zhang, Philipp Dufter, Dhruti Shah, Xianzhi Du, Futang Peng, Floris Weers, Anton Belyi, Haotian Zhang, Karanjeet Singh, Doug Kang, Ankur Jain, Hongyu Hè, Max Schwarzer, Tom Gunter, Xiang Kong, Aonan Zhang, Jianyu Wang, Chong Wang, Nan Du, Tao Lei, Sam Wiseman, Guoli Yin, Mark Lee, Zirui Wang, Ruoming Pang, Peter Grasch, Alexander Toshev, Yinfei Yang:
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training. CoRR abs/2403.09611 (2024)
[i15]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2404-05719
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2404-05719
Keen You, Haotian Zhang, Eldon Schoop, Floris Weers, Amanda Swearngin, Jeffrey Nichols, Yinfei Yang, Zhe Gan:
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs. CoRR abs/2404.05719 (2024)
[i14]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2404-07973
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2404-07973
Haotian Zhang, Haoxuan You, Philipp Dufter, Bowen Zhang, Chen Chen, Hong-You Chen, Tsu-Jui Fu, William Yang Wang, Shih-Fu Chang, Zhe Gan, Yinfei Yang:
Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models. CoRR abs/2404.07973 (2024)
[i13]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2409-20566
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2409-20566
Haotian Zhang, Mingfei Gao, Zhe Gan, Philipp Dufter, Nina Wenzel, Forrest Huang, Dhruti Shah, Xianzhi Du, Bowen Zhang, Yanghao Li, Sam Dodge, Keen You, Zhen Yang, Aleksei Timofeev, Mingze Xu, Hong-You Chen, Jean-Philippe Fauconnier, Zhengfeng Lai, Haoxuan You, Zirui Wang, Afshin Dehghan, Peter Grasch, Yinfei Yang:
MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning. CoRR abs/2409.20566 (2024)
[i12]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2410-02740
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2410-02740
Zhengfeng Lai, Vasileios Saveris, Chen Chen, Hong-You Chen, Haotian Zhang, Bowen Zhang, Juan Lao Tebar, Wenze Hu, Zhe Gan, Peter Grasch, Meng Cao, Yinfei Yang:
Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models. CoRR abs/2410.02740 (2024)
[i11]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2410-02746
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2410-02746
Hong-You Chen, Zhengfeng Lai, Haotian Zhang, Xinze Wang, Marcin Eichner, Keen You, Meng Cao, Bowen Zhang, Yinfei Yang, Zhe Gan:
Contrastive Localized Language-Image Pre-Training. CoRR abs/2410.02746 (2024)
[i10]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2410-07177
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2410-07177
Hanrong Ye, Haotian Zhang, Erik A. Daxberger, Lin Chen, Zongyu Lin, Yanghao Li, Bowen Zhang, Haoxuan You, Dan Xu, Zhe Gan, Jiasen Lu, Yinfei Yang:
MM-Ego: Towards Building Egocentric Multimodal LLMs. CoRR abs/2410.07177 (2024)
[i9]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2410-16198
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2410-16198
Ruohong Zhang, Bowen Zhang, Yanghao Li, Haotian Zhang, Zhiqing Sun, Zhe Gan, Yinfei Yang, Ruoming Pang, Yiming Yang:
Improve Vision Language Model Chain-of-thought Reasoning. CoRR abs/2410.16198 (2024)
[i8]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2410-18967
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2410-18967
Zhangheng Li, Keen You, Haotian Zhang, Di Feng, Harsh Agrawal, Xiujun Li, Mohana Prasad Sathya Moorthy, Jeff Nichols, Yinfei Yang, Zhe Gan:
Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms. CoRR abs/2410.18967 (2024)
2023
[i7]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2310-07699
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2310-07699
Zhengfeng Lai, Haotian Zhang, Wentao Wu, Haoping Bai, Aleksei Timofeev, Xianzhi Du, Zhe Gan, Jiulong Shan, Chen-Nee Chuah, Yinfei Yang, Meng Cao:
From Scarcity to Efficiency: Improving CLIP Training via Visual-enriched Captions. CoRR abs/2310.07699 (2023)
[i6]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2310-07704
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2310-07704
Haoxuan You, Haotian Zhang, Zhe Gan, Xianzhi Du, Bowen Zhang, Zirui Wang, Liangliang Cao, Shih-Fu Chang, Yinfei Yang:
Ferret: Refer and Ground Anything Anywhere at Any Granularity. CoRR abs/2310.07704 (2023)
2022
[c9]
- view
  authority control:
- export record
  dblp key:
  - conf/cvpr/LiZZYLZWYZHCG22
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/cvpr/LiZZYLZWYZHCG22
Liunian Harold Li, Pengchuan Zhang, Haotian Zhang, Jianwei Yang, Chunyuan Li, Yiwu Zhong, Lijuan Wang, Lu Yuan, Lei Zhang, Jenq-Neng Hwang, Kai-Wei Chang, Jianfeng Gao:
Grounded Language-Image Pre-training. CVPR 2022: 10955-10965
[c8]
- view
  - electronic edition @ nips.cc (open access)
  - details & citations
- export record
  dblp key:
  - conf/nips/ZhangZ00LDWYHG22
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/nips/ZhangZ00LDWYHG22
Haotian Zhang, Pengchuan Zhang, Xiaowei Hu, Yen-Chun Chen, Liunian Harold Li, Xiyang Dai, Lijuan Wang, Lu Yuan, Jenq-Neng Hwang, Jianfeng Gao:
GLIPv2: Unifying Localization and Vision-Language Understanding. NeurIPS 2022
[c7]
- view
  authority control:
- export record
  dblp key:
  - conf/wacv/Cai0HZH22
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/wacv/Cai0HZH22
Jiarui Cai, Yizhou Wang, Hung-Min Hsu, Haotian Zhang, Jenq-Neng Hwang:
DIOR: DIstill Observations to Representations for Multi-Object Tracking and Segmentation. WACV (Workshops) 2022: 520-529
[i5]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2206-05836
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2206-05836
Haotian Zhang, Pengchuan Zhang, Xiaowei Hu, Yen-Chun Chen, Liunian Harold Li, Xiyang Dai, Lijuan Wang, Lu Yuan, Jenq-Neng Hwang, Jianfeng Gao:
GLIPv2: Unifying Localization and Vision-Language Understanding. CoRR abs/2206.05836 (2022)
2021
[c6]
- view
  authority control:
- export record
  dblp key:
  - conf/iccvw/ZhangJZHH21
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/iccvw/ZhangJZHH21
Haotian Zhang, Haorui Ji, Aotian Zheng, Jenq-Neng Hwang, Ren-Hung Hwang:
Monocular 3D Localization of Vehicles in Road Scenes. ICCVW 2021: 2855-2864
[c5]
- view
  authority control:
- export record
  dblp key:
  - conf/mir/0005HW0KHCZJG21
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/mir/0005HW0KHCZJG21
Yizhou Wang, Jenq-Neng Hwang, Gaoang Wang, Hui Liu, Kwang-Ju Kim, Hung-Min Hsu, Jiarui Cai, Haotian Zhang, Zhongyu Jiang, Renshu Gu:
ROD2021 Challenge: A Summary for Radar Object Detection Challenge for Autonomous Driving Applications. ICMR 2021: 553-559
[i4]
- view
  - electronic edition @ arxiv.org (open access)
  - details & citations
- export record
  dblp key:
  - journals/corr/abs-2112-03857
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2112-03857
Liunian Harold Li, Pengchuan Zhang, Haotian Zhang, Jianwei Yang, Chunyuan Li, Yiwu Zhong, Lijuan Wang, Lu Yuan, Lei Zhang, Jenq-Neng Hwang, Kai-Wei Chang, Jianfeng Gao:
Grounded Language-Image Pre-training. CoRR abs/2112.03857 (2021)
2020
[j1]
- view
  authority control:
- export record
  dblp key:
  - journals/tvt/ZhangZWYH20
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/tvt/ZhangZWYH20
Yanting Zhang, Haotian Zhang, Gaoang Wang, Jie Yang, Jenq-Neng Hwang:
Bundle Adjustment for Monocular Visual Odometry Based on Detections of Traffic Signs. IEEE Trans. Veh. Technol. 69(1): 151-162 (2020)
[i3]
- view
  - electronic edition @ arxiv.org (open access)
  - details & citations
- export record
  dblp key:
  - journals/corr/abs-2006-13458
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2006-13458
Jiarui Cai, Yizhou Wang, Haotian Zhang, Hung-Min Hsu, Chengqian Ma, Jenq-Neng Hwang:
IA-MOT: Instance-Aware Multi-Object Tracking with Motion Consistency. CoRR abs/2006.13458 (2020)

2010 – 2019

see FAQ

What is the meaning of the colors in the publication lists?

2019
[c4]
- view
  authority control:
- export record
  dblp key:
  - conf/iccvw/WenZBSZJDLLZWZN19
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/iccvw/WenZBSZJDLLZWZN19
Longyin Wen, Yue Zhang, Liefeng Bo, Hailin Shi, Rui Zhu, Ajit Jadhav, Bing Dong, Brejesh Lall, Chang Liu, Chunhui Zhang, Dong Wang, Pengfei Zhu, Feng Ni, Filiz Bunyak, Gaoang Wang, Guizhong Liu, Guna Seetharaman, Guorong Li, Håkan Ardö, Haotian Zhang, Hongyang Yu, Huchuan Lu, Dawei Du, Jenq-Neng Hwang, Jiatong Mu, Jinrong Hu, Kannappan Palaniappan, Long Chen, Lu Ding, Martin Lauer, Mikael G. Nilsson, Noor M. Al-Shakarji, Prerana Mukherjee, Xiao Bian, Qingming Huang, Robert Laganière, Shuhao Chen, Siyang Pan, Vinay Kaushik, Wei Shi, Wei Tian, Weiqiang Li, Xin Chen, Xinyu Zhang, Haibin Ling, Yanting Zhang, Yanyun Zhao, Yong Wang, Yuduo Song, Yuehan Yao, Zhaotang Chen, Zhenyu Xu, Zhibin Xiao, Zhihang Tong, Zhipeng Luo, Qinghua Hu, Zhuojin Sun, Jiayu Zheng, Tao Peng, Xinyao Wang:
VisDrone-MOT2019: The Vision Meets Drone Multiple Object Tracking Challenge Results. ICCV Workshops 2019: 189-198
[c3]
- view
  authority control:
- export record
  dblp key:
  - conf/icip/ZhangYZH19
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/icip/ZhangYZH19
Yanting Zhang, Jie Yang, Haotian Zhang, Jenq-Neng Hwang:
Bundle Adjustment for Monocular Visual Odometry Based on Detected Traffic Sign Features. ICIP 2019: 4350-4354
[c2]
- view
  authority control:
- export record
  dblp key:
  - conf/mm/WangWZGH19
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/mm/WangWZGH19
Gaoang Wang, Yizhou Wang, Haotian Zhang, Renshu Gu, Jenq-Neng Hwang:
Exploit the Connectivity: Multi-Object Tracking with TrackletNet. ACM Multimedia 2019: 482-490
[c1]
- view
  authority control:
- export record
  dblp key:
  - conf/mm/ZhangWLH19
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/mm/ZhangWLH19
Haotian Zhang, Gaoang Wang, Zhichao Lei, Jenq-Neng Hwang:
Eye in the Sky: Drone-Based Object Tracking and 3D Localization. ACM Multimedia 2019: 899-907
[i2]
- view
  - electronic edition @ arxiv.org (open access)
  - details & citations
- export record
  dblp key:
  - journals/corr/abs-1910-08259
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-1910-08259
Haotian Zhang, Gaoang Wang, Zhichao Lei, Jenq-Neng Hwang:
Eye in the Sky: Drone-Based Object Tracking and 3D Localization. CoRR abs/1910.08259 (2019)
2018
[i1]
- view
  - electronic edition @ arxiv.org (open access)
  - details & citations
- export record
  dblp key:
  - journals/corr/abs-1811-07258
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-1811-07258
Gaoang Wang, Yizhou Wang, Haotian Zhang, Renshu Gu, Jenq-Neng Hwang:
Exploit the Connectivity: Multi-Object Tracking with TrackletNet. CoRR abs/1811.07258 (2018)

Coauthor Index

see FAQ

manage site settings

To protect your privacy, all features that rely on external API calls from your browser are turned off by default. You need to opt-in for them to become active. All settings here will be stored as cookies with your web browser. For more information see our F.A.Q.