TypeError: l'objet de type 'octets' n'est pas sérialisable JSON

Question

Je viens de commencer à programmer Python. Je veux utiliser scrapy pour créer un bot et il a montré TypeError: L'objet de type 'octets' n'est pas sérialisable JSON lorsque j'exécute le projet.

import json import codecs class W3SchoolPipeline(object): def __init__(self): self.file = codecs.open('w3school_data_utf8.json', 'wb', encoding='utf-8') def process_item(self, item, spider): line = json.dumps(dict(item)) + '
' # print line self.file.write(line.decode("unicode_escape")) return item

from scrapy.spiders import Spider from scrapy.selector import Selector from w3school.items import W3schoolItem class W3schoolSpider(Spider): name = "w3school" allowed_domains = ["w3school.com.cn"] start_urls = [ "http://www.w3school.com.cn/xml/xml_syntax.asp" ] def parse(self, response): sel = Selector(response) sites = sel.xpath('//div[@id="navsecond"]/div[@id="course"]/ul[1]/li') items = [] for site in sites: item = W3schoolItem() title = site.xpath('a/text()').extract() link = site.xpath('a/@href').extract() desc = site.xpath('a/@title').extract() item['title'] = [t.encode('utf-8') for t in title] item['link'] = [l.encode('utf-8') for l in link] item['desc'] = [d.encode('utf-8') for d in desc] items.append(item) return items

Traceback:

TypeError: Object of type 'bytes' is not JSON serializable 2017-06-23 01:41:15 [scrapy.core.scraper] ERROR: Error processing {'desc': [b'\x e4\xbd\xbf\xe7\x94\xa8 XSLT \xe6\x98\xbe\xe7\xa4\xba XML'], 'link': [b'/xml/xml_xsl.asp'], 'title': [b'XML XSLT']} Traceback (most recent call last): File "c:\users\administrator\appdata\local\programs\python\python36\lib\site-p ackages	wisted\internet\defer.py", line 653, in _runCallbacks current.result = callback(current.result, *args, **kw) File "D:\LZZZZB\w3school\w3school\pipelines.py", line 19, in process_item line = json.dumps(dict(item)) + '
' File "c:\users\administrator\appdata\local\programs\python\python36\lib\json\_ _init__.py", line 231, in dumps return _default_encoder.encode(obj) File "c:\users\administrator\appdata\local\programs\python\python36\lib\json\e ncoder.py", line 199, in encode chunks = self.iterencode(o, _one_shot=True) File "c:\users\administrator\appdata\local\programs\python\python36\lib\json\e ncoder.py", line 257, in iterencode return _iterencode(o, 0) File "c:\users\administrator\appdata\local\programs\python\python36\lib\ json\encoder.py", line 180, in default o.__class__.__name__) TypeError: Object of type 'bytes' is not JSON serializable

Martijn Pieters · Answer

Vous créez vous-même ces objets bytes:

item['title'] = [t.encode('utf-8') for t in title] item['link'] = [l.encode('utf-8') for l in link] item['desc'] = [d.encode('utf-8') for d in desc] items.append(item)

Chacun de ces appels t.encode(), l.encode() et d.encode() crée une chaîne bytes. Ne faites pas cela, laissez au format JSON le soin de les sérialiser.

Ensuite, vous faites plusieurs autres erreurs; vous encodez trop là où il n’est pas nécessaire. Laissez-le au module json et à l'objet fichier standard renvoyé par l'appel open() pour gérer l'encodage.

Vous n'avez pas non plus besoin de convertir votre liste items en dictionnaire; ce sera déjà un objet pouvant être encodé directement en JSON:

class W3SchoolPipeline(object): def __init__(self): self.file = open('w3school_data_utf8.json', 'w', encoding='utf-8') def process_item(self, item, spider): line = json.dumps(item) + '
' self.file.write(line) return item

Je suppose que vous avez suivi un tutoriel qui suppose que Python 2, vous utilisez Python 3 à la place. Je vous suggère fortement de trouver un autre tutoriel; non seulement il a écrit pour une version obsolète de Python, s'il préconise line.decode('unicode_escape'), il enseigne de très mauvaises habitudes qui conduiront à des bogues difficiles à suivre.