让AI看图更聪明的"超级翻译器"问世

huanghelou520 · 發表於 2025-7-15 20:20:16

当我们拍下一张照片时，眼睛看到的是丰富多彩的画面，但电脑看到的却是一堆数字。如何让机器真正"理解"图像，一直是人工智能领域的核心挑战之一。最近，香港大学和字节跳动种子实验室的研究团队在这个方向上取得了重大突破，他们开发出了一个名为GigaTok的"超级翻译器"，能够更好地帮助AI理解和生成图像。

这项由香港大学的刘希辉教授和熊天威，以及字节跳动种子实验室的廖俊豪、黄子龙、冯嘉时组成的研究团队，于2025年4月发表了题为"GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation"的研究论文。有兴趣深入了解的读者可以通过arXiv:2504.08736访问完整论文内容。

要理解这项研究的重要性，我们可以把它想象成语言翻译的过程。当你要把中文翻译成英文时，你需要一个懂得两种语言的翻译员。同样地，当AI要理解图像时，也需要一个"翻译员"把图像转换成它能理解的"语言"。这个翻译员在技术上被称为"视觉分词器"，而GigaTok就是迄今为止最强大的视觉分词器，拥有惊人的30亿个参数。51黑料网

數字字畫BBS	Twins	李小璐	墨龍愛導航	鄧麗君	S.H.E墨龍	【論壇】-字畫譚
【墨聯字畫】	『墨龍』畫堂 \|					『墨龍』畫堂 \|
【墨龍字畫】						童驛采
【龍帝字畫】						篁宮字畫BBS
操作系統字畫	張含韻	【鵝廠論壇】	中国洪荒老祖（童驛采）	楊冪時尚	Twinsml墨龍	台灣字畫BBS
墨龍商務	usaxii	楊鈺瑩	宇宙洪荒老祖（童驛采）	伊能靜書院	量子景觀設計師	●腾讯企鹅98
【豐女草字畫】	世界之窗	墨龍電視台	『墨龍』畫堂支付墨龍	墨龍電視台BBS	我啦傳媒	墨龍
墨龍上海論壇	墨龍易雲		墨龍藝術		ioiaa	楊冪量子景觀設計師

		自動登錄	找回密碼
密碼			註冊發言