Je teste un ResNet-34 formé_model utilisant Pytorch et fastai sur un système Linux avec la dernière anaconda3. Pour l'exécuter comme un travail par lots, j'ai commenté les lignes liées à l'interface graphique. Il a commencé à fonctionner pendant quelques heures, puis s'est arrêté à l'étape de validation, le message d'erreur est le suivant.
...
^M100%|█████████▉| 452/453 [1:07:07<00:08, 8.75s/it,
loss=1.23]^[[A^[[A^[[A
^MValidation: 0%| | 0/40 [00:00<?, ?it/s]^[[A^[[A^[[ATraceback
(most recent call last):
File "./resnet34_pretrained_PNG_nogui_2.py", line 279, in <module>
learner.fit(lr,1,callbacks=[f1_callback])
File "/project/6000192/jemmyhu/resnet_png/fastai/learner.py", line 302,
in fit
return self.fit_gen(self.model, self.data, layer_opt, n_cycle,
**kwargs)
File "/project/6000192/jemmyhu/resnet_png/fastai/learner.py", line 249,
in fit_gen
swa_eval_freq=swa_eval_freq, **kwargs)
File "/project/6000192/jemmyhu/resnet_png/fastai/model.py", line 162, in
fit
vals = validate(model_stepper, cur_data.val_dl, metrics, Epoch,
seq_first=seq_first, validate_skip = validate_skip)
File "/project/6000192/jemmyhu/resnet_png/fastai/model.py", line 241, in
validate
res.append([to_np(f(datafy(preds), datafy(y))) for f in metrics])
File "/project/6000192/jemmyhu/resnet_png/fastai/model.py", line 241, in
<listcomp>
res.append([to_np(f(datafy(preds), datafy(y))) for f in metrics])
File "./resnet34_pretrained_PNG_nogui_2.py", line 237, in __call__
self.TP += (preds*targs).float().sum(dim=0)
TypeError: add(): argument 'other' (position 1) must be Tensor, not
numpy.ndarray
Le lien pour le code d'origine est https://www.kaggle.com/iafoss/pretrained-resnet34-with-rgby-0-460-public-lb
les lignes 279 et 237 de mon exemplaire sont présentées ci-dessous:
226 class F1:
227 __name__ = 'F1 macro'
228 def __init__(self,n=28):
229 self.n = n
230 self.TP = np.zeros(self.n)
231 self.FP = np.zeros(self.n)
232 self.FN = np.zeros(self.n)
233
234 def __call__(self,preds,targs,th=0.0):
235 preds = (preds > th).int()
236 targs = targs.int()
237 self.TP += (preds*targs).float().sum(dim=0)
238 self.FP += (preds > targs).float().sum(dim=0)
239 self.FN += (preds < targs).float().sum(dim=0)
240 score = (2.0*self.TP/(2.0*self.TP + self.FP + self.FN + 1e-6)).mean()
241 return score
276 lr = 0.5e-2
277 with warnings.catch_warnings():
278 warnings.simplefilter("ignore")
279 learner.fit(lr,1,callbacks=[f1_callback])
Quelqu'un pourrait-il avoir une idée du problème?
Merci beaucoup, Jemmy
J'ai eu le même problème avec ce noyau Kaggle. Mes solutions de contournement sont les suivantes:
1ère option: Dans la méthode F1 __call__
Convertissez preds
et targs
de pytorch
tenseurs en tableaux numpy;
2ème option: Initialiser TP/FP/FN avec pytorch
tenseurs au lieu de tableaux numpy, c'est-à-dire remplacer np.zeros(self.n)
par torch.zeros(1, self.n)
.
Fondamentalement, l'idée principale - toutes les variables doivent être du même type.