`TorchVisionODAdapter` does not convert `BoxList` to `array`/`tensor` when using torchvision and pytorch lightning #1768

aerotractjack · 2023-04-05T16:50:41Z

aerotractjack
Apr 5, 2023

Hello, I'm back again. Trying to use rastervision object detection datasets with a torchvision object detection model and pytorch lightning training. My guess is that I am not applying the TorchvisionODAdapter correctly or am missing some transform/keyword in my dataset creation. Here is the code for my model

import albumentations as A
from rastervision.core.data import ClassConfig
from rastervision.pytorch_learner import (
    ObjectDetectionRandomWindowGeoDataset,
    ObjectDetectionSlidingWindowGeoDataset,
)
from torch.utils.data import DataLoader
from torchvision.models.detection import fasterrcnn_resnet50_fpn_v2
import pytorch_lightning as pl
import torch
import torch.functional as F
from rastervision.pipeline.file_system import make_dir
from pytorch_lightning.loggers import TensorBoardLogger
from rastervision.pytorch_learner.object_detection_utils import TorchVisionODAdapter

class ObjectDetection(pl.LightningModule):

    def __init__(self, backbone, lr=1e-4):
        super().__init__()
        self.backbone = backbone
        self.lr = lr

    def forward(self, img):
        return self.backbone(img)['out']

    def training_step(self, batch, batch_idx):
        img, mask = batch
        img = img.float()
        mask = mask.long()
        out = self.forward(img)
        loss = F.cross_entropy(out, mask)
        log_dict = {'train_loss': loss}
        self.log_dict(log_dict, on_step=True, on_epoch=True, prog_bar=True, logger=True)
        return loss

    def validation_step(self, batch, batch_idx):
        img, mask = batch
        img = img.float()
        mask = mask.long()
        out = self.forward(img)
        loss = F.cross_entropy(out, mask)
        log_dict = {'validation_loss': loss}
        self.log_dict(log_dict, on_step=True, on_epoch=True, prog_bar=True, logger=True)
        return loss

    def configure_optimizers(self):
        optimizer = torch.optim.Adam(
            self.parameters(), lr=self.lr)
        return optimizer

And here is the code for my training loop

class RVLightning:
    
    def __init__(self, tr_uris, val_uris, pred_uris, output, class_config, kw=None):
        self.train_uris = tr_uris
        self.val_uris = val_uris
        self.pred_uris = pred_uris
        self.cc = ClassConfig(
            names=class_config["names"], 
            colors=class_config["colors"],
            null_class="null")
        self.output_uri = output.get("uri")
        self.bucket = output.get("bucket")
        self.kw = kw
        
    def build_train_ds(self):
        kw = self.kw.get("train_ds_kw", {})
        train_ds = ObjectDetectionRandomWindowGeoDataset.from_uris(
            class_config=self.cc,
            image_uri=self.train_uris[0],
            aoi_uri=self.train_uris[2],
            label_vector_uri=self.train_uris[1],
            label_vector_default_class_id=self.cc.get_class_id('DF'),
            size_lims=kw.get("size_lims", [300,350]),
            out_size=kw.get("out_size", 325),
            max_windows=kw.get("max_windows", 10),
        )
        return train_ds
    
    def build_val_ds(self):
        kw = self.kw.get("val_ds_kw", {})
        val_ds = ObjectDetectionSlidingWindowGeoDataset.from_uris(
            class_config=self.cc,
            image_uri=self.val_uris[0],
            aoi_uri=self.val_uris[2],
            label_vector_uri=self.val_uris[1],
            label_vector_default_class_id=self.cc.get_class_id('DF'),
            size=kw.get("size", 325),
            stride=kw.get("stride", 325))
        return val_ds
    
    def build_train_val_loader(self):
        tds, vds = self.build_train_ds(), self.build_val_ds()
        batch_size = 8
        train = DataLoader(tds, batch_size=batch_size, shuffle=True, num_workers=4)
        val = DataLoader(vds, batch_size=batch_size, num_workers=4)
        return train, val
    
    def train(self):
        kw = self.kw.get("train_kw", {})
        batch_size = kw.get("batch_size", 8)
        lr = float(kw.get("lr", 1e-4))
        epochs = kw.get("epochs", 1)
        output_dir = self.output_uri
        make_dir(output_dir)
        fast_dev_run = False
        # option 1
        backbone = fasterrcnn_resnet50_fpn_v2(num_classes=len(self.cc))
        # option 2
        model = ObjectDetection(backbone, lr=lr)
        tb_logger = TensorBoardLogger(save_dir=output_dir + "/tensorboard", flush_secs=10)
        # option 3
        trainer = pl.Trainer(
            accelerator='auto',
            min_epochs=1,
            max_epochs=epochs+1,
            default_root_dir=output_dir + "/trainer",
            logger=[tb_logger],
            fast_dev_run=fast_dev_run,
            log_every_n_steps=1,
        )
        train_dl, val_dl = self.build_train_val_loader()
        trainer.fit(model, train_dl, val_dl)
        trainer.save_checkpoint(output_dir + "/trainer/final-model.ckpt")

def run(config_path):
    from configreader import yaml2dict
    conf = yaml2dict(config_path)
    obj = RVLightning(
        conf["train_uri"],
        conf["val_uri"],
        conf["pred_uri"],
        conf["output"],
        conf["class_config"],
        conf
    )
    obj.train()

Here is the error message I get after trying to train

... rastervision output ...
43.3 M    Trainable params
0         Non-trainable params
43.3 M    Total params
173.025   Total estimated model params size (MB)
Sanity Checking: 0it [00:00, ?it/s]
TypeError: default_collate: batch must contain tensors, numpy arrays, numbers, dicts or lists; found <class 'rastervision.pytorch_learner.object_detection_utils.BoxList'>

It seems to me I have 3 options for where to apply the ODAdapter.
option 1 is on the backbone, which is the model I've imported from torchvision. This results in the BoxList error.
option 2 is the around the model, and this also results in the BoxList error
option 3 is around the pl.Trainer, but this results in another error

TypeError: `model` must be a `LightningModule`, got `TorchVisionODAdapter`

I can't seem to find an example of rastervision+lightning for object detection, and the only code snippets I've found for the ODAdapter were being used with a different pipeline configuration. Is it possible to use the objectdetection*datasets with lightning?

Answered by AdeelH

Apr 5, 2023

Option 1 is correct. The model doesn't seem to be the problem here though. It's just that you need to pass in a different collate function to the DataLoaders instead of using the default one. This one:

from rastervision.pytorch_learner.object_detection utils import collate_fn

View full answer

AdeelH · 2023-04-05T17:07:16Z

AdeelH
Apr 5, 2023
Maintainer

Option 1 is correct. The model doesn't seem to be the problem here though. It's just that you need to pass in a different collate function to the DataLoaders instead of using the default one. This one:

from rastervision.pytorch_learner.object_detection utils import collate_fn

5 replies

AdeelH Apr 5, 2023
Maintainer

You might also want to be careful about the num_classes. Torchvision models expect class ID = 0 to be a background class. In RV OD examples we don't specify a background class in the class config, but RV automatically adds it when creating the model and TorchVisionODAdapter also helps with this. These might be useful to look at:

https://github.com/azavea/raster-vision/blob/master/rastervision_pytorch_learner/rastervision/pytorch_learner/object_detection_learner_config.py#L203-L215

https://github.com/azavea/raster-vision/blob/master/rastervision_pytorch_learner/rastervision/pytorch_learner/object_detection_utils.py#L292-L389

aerotractjack Apr 5, 2023
Author

You might also want to be careful about the num_classes. Torchvision models expect class ID = 0 to be a background class. In RV OD examples we don't specify a background class in the class config, but RV automatically adds it when creating the model and TorchVisionODAdapter also helps with this. These might be useful to look at:

https://github.com/azavea/raster-vision/blob/master/rastervision_pytorch_learner/rastervision/pytorch_learner/object_detection_learner_config.py#L203-L215

https://github.com/azavea/raster-vision/blob/master/rastervision_pytorch_learner/rastervision/pytorch_learner/object_detection_utils.py#L292-L389

Thank you, I noticed something along those lines last week so since then I have been defining my class with "null" as ID=0

aerotractjack Apr 5, 2023
Author

So, I added in option 1, but cannot get a working training loop. I keep running into issues that are slightly confusing to me. Normally using lightning this is how I would construct a training loop, and the forward/self.backbone(img) call will automatically create the loss dictionary.

Here is my updated training loop:

def train(self):
        kw = self.kw.get("train_kw", {})
        lr = float(kw.get("lr", 1e-4))
        epochs = kw.get("epochs", 1)
        output_dir = self.output_uri
        make_dir(output_dir)
        fast_dev_run = False
        backbone = fasterrcnn_resnet50_fpn_v2(
            num_classes=len(self.cc), pretrained=True)
        # create adapter here
        backbone = TorchVisionODAdapter(backbone)
        model = ObjectDetection(backbone, lr=lr)
        tb_logger = TensorBoardLogger(save_dir=output_dir + "/tensorboard", flush_secs=10)
        trainer = pl.Trainer(
            accelerator='auto',
            min_epochs=1,
            max_epochs=epochs+1,
            default_root_dir=output_dir + "/trainer",
            logger=[tb_logger],
            fast_dev_run=fast_dev_run,
            log_every_n_steps=1,
        )
        train_dl, val_dl = self.build_train_val_loader()
        trainer.fit(model, train_dl, val_dl)
        trainer.save_checkpoint(output_dir + "/trainer/final-model.ckpt")

And here is my current model implementation

class ObjectDetection(pl.LightningModule):

    def __init__(self, backbone, lr=1e-4):
        super().__init__()
        self.backbone = backbone
        self.lr = lr

    def forward(self, img):
        return self.backbone(img)

    def training_step(self, batch, batch_idx):
        image, target = batch
        loss_dict = self.backbone(image, target)
        losses = sum(loss for loss in loss_dict.values())
        batch_size = len(batch[0])
        self.log_dict(loss_dict, batch_size=batch_size)
        self.log("train_loss", losses, batch_size=batch_size)
        return losses 

    def validation_step(self, batch, batch_idx):
        image, target = batch
        loss_dict = self.backbone(image, target)
        losses = sum(loss for loss in loss_dict.values())
        batch_size = len(batch[0])
        self.log_dict(loss_dict, batch_size=batch_size)
        self.log("val_loss", losses, batch_size=batch_size)
        return losses

    def configure_optimizers(self):
        optimizer = torch.optim.Adam(
            self.parameters(), lr=self.lr)
        return optimizer

Here is the error I receive:

Traceback (most recent call last):
  File "/home/aerotract/software/rvml-lightning-pipeline/objdet/rvlightning.py", line 153, in <module>
    run(sys.argv[1])
  File "/home/aerotract/software/rvml-lightning-pipeline/objdet/rvlightning.py", line 149, in run
    obj.train()
  File "/home/aerotract/software/rvml-lightning-pipeline/objdet/rvlightning.py", line 132, in train
    trainer.fit(model, train_dl, val_dl)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/trainer/trainer.py", line 520, in fit
    call._call_and_handle_interrupt(
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/trainer/call.py", line 44, in _call_and_handle_interrupt
    return trainer_fn(*args, **kwargs)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/trainer/trainer.py", line 559, in _fit_impl
    self._run(model, ckpt_path=ckpt_path)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/trainer/trainer.py", line 935, in _run
    results = self._run_stage()
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/trainer/trainer.py", line 976, in _run_stage
    self._run_sanity_check()
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/trainer/trainer.py", line 1005, in _run_sanity_check
    val_loop.run()
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/loops/utilities.py", line 177, in _decorator
    return loop_run(self, *args, **kwargs)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/loops/evaluation_loop.py", line 115, in run
    self._evaluation_step(batch, batch_idx, dataloader_idx)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/loops/evaluation_loop.py", line 375, in _evaluation_step
    output = call._call_strategy_hook(trainer, hook_name, *step_kwargs.values())
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/trainer/call.py", line 288, in _call_strategy_hook
    output = fn(*args, **kwargs)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/strategies/strategy.py", line 378, in validation_step
    return self.model.validation_step(*args, **kwargs)
  File "/home/aerotract/software/rvml-lightning-pipeline/objdet/rvlightning.py", line 45, in validation_step
    loss_dict = self.backbone(image, target)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/torch/nn/modules/module.py", line 1130, in _call_impl
    return forward_call(*input, **kwargs)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/rastervision/pytorch_learner/object_detection_utils.py", line 341, in forward
    loss_dict['total_loss'] = sum(list(loss_dict.values()))
AttributeError: 'list' object has no attribute 'values'

This is all happening within a sanity check done by torchvision by calling my validation_step function. Am I supposed to manually convert the batch and/or model output using the TorchVisionODAdapter?

aerotractjack Apr 5, 2023
Author

Even with a small example like the following, I am getting issues because my ground truth input and model output are predicting different numbers of boxes for an image, and the loss function is complaining about it.

My sanity check:

    def training_step(self, batch, batch_idx):
        print("sanity training")
        image, target = batch
        pred = self.backbone(image, target)
        print(pred)

Error output:

sanity training
Traceback (most recent call last):
  File "/home/aerotract/software/rvml-lightning-pipeline/objdet/rvlightning.py", line 158, in <module>
    run(sys.argv[1])
  File "/home/aerotract/software/rvml-lightning-pipeline/objdet/rvlightning.py", line 154, in run
    obj.train()
  File "/home/aerotract/software/rvml-lightning-pipeline/objdet/rvlightning.py", line 137, in train
    trainer.fit(model, train_dl, val_dl)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/trainer/trainer.py", line 520, in fit
    call._call_and_handle_interrupt(
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/trainer/call.py", line 44, in _call_and_handle_interrupt
    return trainer_fn(*args, **kwargs)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/trainer/trainer.py", line 559, in _fit_impl
    self._run(model, ckpt_path=ckpt_path)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/trainer/trainer.py", line 935, in _run
    results = self._run_stage()
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/trainer/trainer.py", line 978, in _run_stage
    self.fit_loop.run()
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/loops/fit_loop.py", line 201, in run
    self.advance()
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/loops/fit_loop.py", line 354, in advance
    self.epoch_loop.run(self._data_fetcher)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/loops/training_epoch_loop.py", line 133, in run
    self.advance(data_fetcher)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/loops/training_epoch_loop.py", line 218, in advance
    batch_output = self.automatic_optimization.run(trainer.optimizers[0], kwargs)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/loops/optimization/automatic.py", line 185, in run
    self._optimizer_step(kwargs.get("batch_idx", 0), closure)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/loops/optimization/automatic.py", line 261, in _optimizer_step
    call._call_lightning_module_hook(
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/trainer/call.py", line 142, in _call_lightning_module_hook
    output = fn(*args, **kwargs)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/core/module.py", line 1265, in optimizer_step
    optimizer.step(closure=optimizer_closure)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/core/optimizer.py", line 158, in step
    step_output = self._strategy.optimizer_step(self._optimizer, closure, **kwargs)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/strategies/strategy.py", line 224, in optimizer_step
    return self.precision_plugin.optimizer_step(optimizer, model=model, closure=closure, **kwargs)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/plugins/precision/precision_plugin.py", line 114, in optimizer_step
    return optimizer.step(closure=closure, **kwargs)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/torch/optim/optimizer.py", line 113, in wrapper
    return func(*args, **kwargs)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/torch/autograd/grad_mode.py", line 27, in decorate_context
    return func(*args, **kwargs)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/torch/optim/adam.py", line 118, in step
    loss = closure()
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/plugins/precision/precision_plugin.py", line 101, in _wrap_closure
    closure_result = closure()
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/loops/optimization/automatic.py", line 140, in __call__
    self._result = self.closure(*args, **kwargs)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/loops/optimization/automatic.py", line 126, in closure
    step_output = self._step_fn()
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/loops/optimization/automatic.py", line 308, in _training_step
    training_step_output = call._call_strategy_hook(trainer, "training_step", *kwargs.values())
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/trainer/call.py", line 288, in _call_strategy_hook
    output = fn(*args, **kwargs)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/pytorch_lightning/strategies/strategy.py", line 366, in training_step
    return self.model.training_step(*args, **kwargs)
  File "/home/aerotract/software/rvml-lightning-pipeline/objdet/rvlightning.py", line 44, in training_step
    pred = self.backbone(image, target)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/torch/nn/modules/module.py", line 1130, in _call_impl
    return forward_call(*input, **kwargs)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/rastervision/pytorch_learner/object_detection_utils.py", line 340, in forward
    loss_dict = self.model(input, _targets)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/torch/nn/modules/module.py", line 1130, in _call_impl
    return forward_call(*input, **kwargs)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/torchvision/models/detection/generalized_rcnn.py", line 105, in forward
    detections, detector_losses = self.roi_heads(features, proposals, images.image_sizes, targets)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/torch/nn/modules/module.py", line 1130, in _call_impl
    return forward_call(*input, **kwargs)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/torchvision/models/detection/roi_heads.py", line 772, in forward
    loss_classifier, loss_box_reg = fastrcnn_loss(class_logits, box_regression, labels, regression_targets)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/torchvision/models/detection/roi_heads.py", line 31, in fastrcnn_loss
    classification_loss = F.cross_entropy(class_logits, labels)
  File "/home/aerotract/.miniconda3/envs/rv/lib/python3.9/site-packages/torch/nn/functional.py", line 3014, in cross_entropy
    return torch._C._nn.cross_entropy_loss(input, target, weight, _Reduction.get_enum(reduction), ignore_index, label_smoothing)
IndexError: Target 2 is out of bounds.

aerotractjack Apr 5, 2023
Author

Sorry, you answered my original question. I'm going to mark this as answered and move my other question to a new thread. Appreciate the help a ton.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

`TorchVisionODAdapter` does not convert `BoxList` to `array`/`tensor` when using torchvision and pytorch lightning #1768

{{title}}

Replies: 1 comment 5 replies

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

Select a reply

TorchVisionODAdapter does not convert BoxList to array/tensor when using torchvision and pytorch lightning #1768

aerotractjack Apr 5, 2023

Replies: 1 comment · 5 replies

AdeelH Apr 5, 2023 Maintainer

AdeelH Apr 5, 2023 Maintainer

aerotractjack Apr 5, 2023 Author

aerotractjack Apr 5, 2023 Author

aerotractjack Apr 5, 2023 Author

aerotractjack Apr 5, 2023 Author

`TorchVisionODAdapter` does not convert `BoxList` to `array`/`tensor` when using torchvision and pytorch lightning #1768

aerotractjack
Apr 5, 2023

Replies: 1 comment 5 replies

AdeelH
Apr 5, 2023
Maintainer

AdeelH Apr 5, 2023
Maintainer

aerotractjack Apr 5, 2023
Author

aerotractjack Apr 5, 2023
Author

aerotractjack Apr 5, 2023
Author

aerotractjack Apr 5, 2023
Author