Posts for: #画像

「Hidden in plain sight： VLMs overlook their visual representations」の論文紹介

2025-07-28

#ディープラーニング #NLP #LLM #大規模言語モデル #VLM #CLIP #画像「Hidden in plain sight： VLMs overlook their visual representations」の論文紹介

今回紹介するのは Hidden in plain sight: VLMs overlook their visual representations です.

テキストの生成というよりも画像が中心となるタスクに対し、オープンソースのVisual Language Modelの性能について調査した論文になっています. DINOやCLIPをLLMに組み込んだマルチモーダルモデルは、単体のViT系のモデルよりも性能が大きく下がることを示しています.

[Read more]

外部知識を活用して効率的に性能向上を達成したYOLO-RD

2025-05-31

#ディープラーニング #物体検出 #YOLO #画像 #RAG #YOLO-RD 外部知識を活用して効率的に性能向上を達成したYOLO-RD

YOLO-RD (Retriever-Dictionary) は、物体検出の分野で定番となっているYOLO（You Only Look Once）シリーズの最新研究です. 今回は、ICLR2025で発表されたYOLO-RD(https://arxiv.org/abs/2410.15346)について解説します.

[Read more]

画像認識モデルの性能をあげるためのTips

2021-03-13

#Deep Learning #深層学習 #画像 #EfficientNet #TensorFlow #PyTorch

画像分類モデルを作っているときに予測精度をあげるのに役に立ったなぁという方法の一覧のメモです。簡単にできるものから順に紹介しているつもりです。

[Read more]

画像と自然言語でのマルチモーダルなImageBERT

2020-02-24

#ImageBERT #BERT #ディープラーニング #画像 #自然言語 #キャプショニング画像と自然言語でのマルチモーダルなImageBERT

本記事はQrunchからの転載です。

最近Microsoftから発表されたImageBERTについて紹介します。
ImageBERTはBERTの入力に自然言語だけではなく、画像も受け付けるようにしたマルチモーダルなモデルです。また論文ではモデルのアーキテクチャだけではなく、学習方法にも新たな提案がされています。
実験ではImage-to-Sentenceでの検索とSentence-to-Imageの検索タスクでSOTAが示されています。

[Read more]