OverflowError: Python int trop grand pour être converti en C long torchtext.datasets.text_classification.DATASETS ['AG_NEWS'] ()

Question

J'ai un système d'exploitation Windows 10 64 bits que j'ai installé python 3.6.8 J'ai installé torch et torchtext en utilisant pip. Torch version est 1.2.0

J'essaie de charger l'ensemble de données AG_NEWS en utilisant le code ci-dessous:

import torch import torchtext from torchtext.datasets import text_classification NGRAMS = 2 import os if not os.path.isdir('./.data'): os.mkdir('./.data') train_dataset, test_dataset = text_classification.DATASETS['AG_NEWS'](root='./.data', ngrams=NGRAMS, vocab=None)

Sur la dernière instruction du code ci-dessus, j'obtiens en dessous de l'erreur:

--------------------------------------------------------------------------- OverflowError Traceback (most recent call last) <ipython-input-1-7e8544fdaaf6> in <module> 6 if not os.path.isdir('./.data'): 7 os.mkdir('./.data') ----> 8 train_dataset, test_dataset = text_classification.DATASETS['AG_NEWS'](root='./.data', ngrams=NGRAMS, vocab=None) 9 # BATCH_SIZE = 16 10 # device = torch.device("cuda" if torch.cuda.is_available() else "cpu") c:\users\pramodp\appdata\local\programs\python\python36\lib\site-packages	orchtext\datasets	ext_classification.py in AG_NEWS(*args, **kwargs) 168 """ 169 --> 170 return _setup_datasets(*(("AG_NEWS",) + args), **kwargs) 171 172 c:\users\pramodp\appdata\local\programs\python\python36\lib\site-packages	orchtext\datasets	ext_classification.py in _setup_datasets(dataset_name, root, ngrams, vocab, include_unk) 126 if vocab is None: 127 logging.info('Building Vocab based on {}'.format(train_csv_path)) --> 128 vocab = build_vocab_from_iterator(_csv_iterator(train_csv_path, ngrams)) 129 else: 130 if not isinstance(vocab, Vocab): c:\users\pramodp\appdata\local\programs\python\python36\lib\site-packages	orchtext\vocab.py in build_vocab_from_iterator(iterator) 555 counter = Counter() 556 with tqdm(unit_scale=0, unit='lines') as t: --> 557 for tokens in iterator: 558 counter.update(tokens) 559 t.update(1) c:\users\pramodp\appdata\local\programs\python\python36\lib\site-packages	orchtext\datasets	ext_classification.py in _csv_iterator(data_path, ngrams, yield_cls) 33 with io.open(data_path, encoding="utf8") as f: 34 reader = unicode_csv_reader(f) ---> 35 for row in reader: 36 tokens = ' '.join(row[1:]) 37 tokens = tokenizer(tokens) c:\users\pramodp\appdata\local\programs\python\python36\lib\site-packages	orchtext\utils.py in unicode_csv_reader(unicode_csv_data, **kwargs) 128 maxInt = int(maxInt / 10) 129 --> 130 csv.field_size_limit(sys.maxsize) 131 132 if six.PY2: OverflowError: Python int too large to convert to C long

Je pense que le problème est avec Windows OS ou Torchtext car j'obtiens la même erreur pour le code ci-dessous également.

pos = data.TabularDataset( path='data/pos/pos_wsj_train.tsv', format='tsv', fields=[('text', data.Field()), ('labels', data.Field())])

Quelqu'un peut-il m'aider? et surtout je n'ai pas de grandes valeurs numériques dans le fichier.

Nikhil Mehra · Accepted Answer

J'ai également rencontré un problème similaire. J'ai changé une ligne de code dans mon fichier torchtext\utils.py et mon erreur a disparu.

csv.field_size_limit (sys.maxsize) - A changé cela
csv.field_size_limit (maxInt) - À cela

J'espère que cela t'aides.