Extraire une URL en Python

Question

En ce qui concerne: Trouver des hyperliens dans le texte en utilisant Python (lié à Twitter)

Comment puis-je extraire uniquement l'URL afin de pouvoir la placer dans une liste/tableau?

Éditer

Permettez-moi de clarifier, je ne veux pas analyser l'URL en morceaux. Je veux extraire l'URL du texte de la chaîne pour la mettre dans un tableau. Merci!

Andrew Hare · Accepted Answer

En réponse à la modification de l'OP, j'ai détourné Trouver des hyperliens dans le texte en utilisant Python (lié à Twitter) et j'ai trouvé ceci:

import re myString = "This is my Tweet check it out http://example.com/blah" print(re.search("(?P<url>https?://[^\s]+)", myString).group("url"))

SilentGhost · Answer

Question mal comprise:

>>> from urllib.parse import urlparse >>> urlparse('http://www.ggogle.com/test?t') ParseResult(scheme='http', netloc='www.ggogle.com', path='/test', params='', query='t', fragment='')

ou version py2. * :

>>> from urlparse import urlparse >>> urlparse('http://www.cwi.nl:80/%7Eguido/Python.html') ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', params='', query='', fragment='')

[~ # ~] eta [~ # ~] : les regex sont en effet la meilleure option ici:

>>> s = 'This is my Tweet check it out http://tinyurl.com/blah and http://blabla.com' >>> re.findall(r'(https?://\S+)', s) ['http://tinyurl.com/blah', 'http://blabla.com']

dranxo · Answer

Voici un fichier avec une énorme expression régulière:

#!/usr/bin/python # -*- coding: utf-8 -*- """ the web url matching regex used by markdown http://daringfireball.net/2010/07/improved_regex_for_matching_urls https://Gist.github.com/gruber/8891611 """ URL_REGEX = r"""(?i)\b((?:https?:(?:/{1,3}|[a-z0-9%])|[a-z0-9.\-]+[.](?:com|net|org|edu|gov|mil|aero|asia|biz|cat|coop|info|int|jobs|mobi|museum|name|post|pro|tel|travel|xxx|ac|ad|ae|af|ag|ai|al|am|an|ao|aq|ar|as|at|au|aw|ax|az|ba|bb|bd|be|bf|bg|bh|bi|bj|bm|bn|bo|br|bs|bt|bv|bw|by|bz|ca|cc|cd|cf|cg|ch|ci|ck|cl|cm|cn|co|cr|cs|cu|cv|cx|cy|cz|dd|de|dj|dk|dm|do|dz|ec|ee|eg|eh|er|es|et|eu|fi|fj|fk|fm|fo|fr|ga|gb|Gd|ge|gf|gg|gh|gi|gl|gm|gn|gp|gq|gr|gs|gt|gu|gw|gy|hk|hm|hn|hr|ht|hu|id|ie|il|im|in|io|iq|ir|is|it|je|jm|jo|jp|ke|kg|kh|ki|km|kn|kp|kr|kw|ky|kz|la|lb|lc|li|lk|lr|ls|lt|lu|lv|ly|ma|mc|md|me|mg|mh|mk|ml|mm|mn|mo|mp|mq|mr|ms|mt|mu|mv|mw|mx|my|mz|na|nc|ne|nf|ng|ni|nl|no|np|nr|nu|nz|om|pa|pe|pf|pg|ph|pk|pl|pm|pn|pr|ps|pt|pw|py|qa|re|ro|rs|ru|rw|sa|sb|sc|sd|se|sg|sh|si|sj|Ja|sk|sl|sm|sn|so|sr|ss|st|su|sv|sx|sy|sz|tc|td|tf|tg|th|tj|tk|tl|tm|tn|to|tp|tr|tt|tv|tw|tz|ua|ug|uk|us|uy|uz|va|vc|ve|vg|vi|vn|vu|wf|ws|ye|yt|yu|za|zm|zw)/)(?:[^\s()<>{}]+|$[^\s()]*?\([^\s()]+$[^\s()]*?\)|$[^\s]+?$)+(?:$[^\s()]*?\([^\s()]+$[^\s()]*?\)|$[^\s]+?$|[^\s`!(){};:'".,<>?«»“”‘’])|(?:(?<!@)[a-z0-9]+(?:[.\-][a-z0-9]+)*[.](?:com|net|org|edu|gov|mil|aero|asia|biz|cat|coop|info|int|jobs|mobi|museum|name|post|pro|tel|travel|xxx|ac|ad|ae|af|ag|ai|al|am|an|ao|aq|ar|as|at|au|aw|ax|az|ba|bb|bd|be|bf|bg|bh|bi|bj|bm|bn|bo|br|bs|bt|bv|bw|by|bz|ca|cc|cd|cf|cg|ch|ci|ck|cl|cm|cn|co|cr|cs|cu|cv|cx|cy|cz|dd|de|dj|dk|dm|do|dz|ec|ee|eg|eh|er|es|et|eu|fi|fj|fk|fm|fo|fr|ga|gb|Gd|ge|gf|gg|gh|gi|gl|gm|gn|gp|gq|gr|gs|gt|gu|gw|gy|hk|hm|hn|hr|ht|hu|id|ie|il|im|in|io|iq|ir|is|it|je|jm|jo|jp|ke|kg|kh|ki|km|kn|kp|kr|kw|ky|kz|la|lb|lc|li|lk|lr|ls|lt|lu|lv|ly|ma|mc|md|me|mg|mh|mk|ml|mm|mn|mo|mp|mq|mr|ms|mt|mu|mv|mw|mx|my|mz|na|nc|ne|nf|ng|ni|nl|no|np|nr|nu|nz|om|pa|pe|pf|pg|ph|pk|pl|pm|pn|pr|ps|pt|pw|py|qa|re|ro|rs|ru|rw|sa|sb|sc|sd|se|sg|sh|si|sj|Ja|sk|sl|sm|sn|so|sr|ss|st|su|sv|sx|sy|sz|tc|td|tf|tg|th|tj|tk|tl|tm|tn|to|tp|tr|tt|tv|tw|tz|ua|ug|uk|us|uy|uz|va|vc|ve|vg|vi|vn|vu|wf|ws|ye|yt|yu|za|zm|zw)\b/?(?!@)))"""

J'appelle ce fichier urlmarker.py et quand j'en ai besoin, je l'importe, par exemple.

import urlmarker import re re.findall(urlmarker.URL_REGEX,'some text news.yahoo.com more text')

cf. http://daringfireball.net/2010/07/improved_regex_for_matching_urls et Quelle est la façon la plus propre d'extraire les URL d'une chaîne en utilisant Python?

Adam · Answer

N'oubliez pas de vérifier si la recherche renvoie une valeur de None— J'ai trouvé les messages ci-dessus utiles mais j'ai perdu du temps à traiter un résultat None.

Voir Python Regex "l'objet n'a pas d'attribut" .

c'est à dire.

import re myString = "This is my Tweet check it out http://tinyurl.com/blah" match = re.search("(?P<url>https?://[^\s]+)", myString) if match is not None: print match.group("url")

bogdan · Answer

Concernant ceci:

import re myString = "This is my Tweet check it out http:// tinyurl.com/blah" print re.search("(?P<url>https?://[^\s]+)", myString).group("url")

Cela ne fonctionnera pas bien si vous avez plusieurs URL dans la chaîne. Si la chaîne ressemble à:

myString = "This is my Tweet check it out http:// tinyurl.com/blah and http:// blabla.com"

Vous pouvez faire quelque chose comme ça:

myString_list = [item for item in myString.split(" ")] for item in myString_list: try: print re.search("(?P<url>https?://[^\s]+)", item).group("url") except: pass

Jan Lipovsk&#253; · Answer

Si vous souhaitez extraire des URL de n'importe quel texte, vous pouvez utiliser mon urlextract. Il trouve l'URL basée sur le TLD trouvé dans le texte. Il s'étend des deux côtés de la position TLD et obtient l'URL entière. C'est facile à utiliser. Vérifiez-le: https://github.com/lipoja/URLExtract

 from urlextract import URLExtract extractor = URLExtract() urls = extractor.find_urls("Text with URLs: stackoverflow.com.")

Allan · Answer

Vous pouvez utiliser l'expression régulière monstrueuse suivante:

\b((?:https?://)?(?:(?:www\.)?(?:[\da-z\.-]+)\.(?:[a-z]{2,6})|(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)|(?:(?:[0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|(?:[0-9a-fA-F]{1,4}:){1,7}:|(?:[0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|(?:[0-9a-fA-F]{1,4}:){1,5}(?::[0-9a-fA-F]{1,4}){1,2}|(?:[0-9a-fA-F]{1,4}:){1,4}(?::[0-9a-fA-F]{1,4}){1,3}|(?:[0-9a-fA-F]{1,4}:){1,3}(?::[0-9a-fA-F]{1,4}){1,4}|(?:[0-9a-fA-F]{1,4}:){1,2}(?::[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:(?:(?::[0-9a-fA-F]{1,4}){1,6})|:(?:(?::[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(?::[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(?:ffff(?::0{1,4}){0,1}:){0,1}(?:(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])|(?:[0-9a-fA-F]{1,4}:){1,4}:(?:(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])))(?::[0-9]{1,4}|[1-5][0-9]{4}|6[0-4][0-9]{3}|65[0-4][0-9]{2}|655[0-2][0-9]|6553[0-5])?(?:/[\w\.-]*)*/?)\b

Rege regex101

Cette expression régulière acceptera les URL au format suivant:

ENTRÉE:

add1 http://mit.edu.com abc add2 https://facebook.jp.com.2. abc add3 www.google.be. uvw add4 https://www.google.be. 123 add5 www.website.gov.us test2 Hey bob on www.test.com. another test with ipv4 http://192.168.1.1/test.jpg. toto2 website with different port number www.test.com:8080/test.jpg not port 80 www.website.gov.us/login.html test with ipv4 192.168.1.1/test.jpg. search at google.co.jp/maps. test with ipv6 2001:0db8:0000:85a3:0000:0000:ac1f:8001/test.jpg.

SORTIE:

http://mit.edu.com https://facebook.jp.com www.google.be https://www.google.be www.website.gov.us www.test.com http://192.168.1.1/test.jpg www.test.com:8080/test.jpg www.website.gov.us/login.html 192.168.1.1/test.jpg google.co.jp/maps 2001:0db8:0000:85a3:0000:0000:ac1f:8001/test.jpg

Explications:

\b est utilisé pour la limite de Word pour délimiter l'URL et le reste du texte
(?:https?://)? pour correspondre à http: // ou https // si présent
(?:(?:www\.)?(?:[\da-z\.-]+)\.(?:[a-z]{2,6}) pour correspondre à l'URL standard (qui peut commencer par www. (appelons cela STANDARD_URL)
(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?) pour correspondre à l'Ipv4 standard (appelons-le IPv4)
pour faire correspondre les URL IPv6: (?:(?:[0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|(?:[0-9a-fA-F]{1,4}:){1,7}:|(?:[0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|(?:[0-9a-fA-F]{1,4}:){1,5}(?::[0-9a-fA-F]{1,4}){1,2}|(?:[0-9a-fA-F]{1,4}:){1,4}(?::[0-9a-fA-F]{1,4}){1,3}|(?:[0-9a-fA-F]{1,4}:){1,3}(?::[0-9a-fA-F]{1,4}){1,4}|(?:[0-9a-fA-F]{1,4}:){1,2}(?::[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:(?:(?::[0-9a-fA-F]{1,4}){1,6})|:(?:(?::[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(?::[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(?:ffff(?::0{1,4}){0,1}:){0,1}(?:(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])|(?:[0-9a-fA-F]{1,4}:){1,4}:(?:(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])) (appelons cela IPv6)
pour correspondre à la partie du port (appelons-la PORT) si elle est présente: (?::[0-9]{1,4}|[1-5][0-9]{4}|6[0-4][0-9]{3}|65[0-4][0-9]{2}|655[0-2][0-9]|6553[0-5])
pour correspondre au (?:/[\w\.-]*)*/?) objet cible partie de l'url (fichier html, jpg, ...) (appelons-le RESSOURCE_PATH)

Cela donne l'expression régulière suivante :

\b((?:https?://)?(?:STANDARD_URL|IPv4|IPv6)(?:PORT)?(?:RESSOURCE_PATH)\b

Sources:

IPv6: expression régulière qui correspond aux adresses IPv6 valides

IPv4: https://www.safaribooksonline.com/library/view/regular-expressions-cookbook/9780596802837/ch07s16.html

[~ # ~] port [~ # ~]: https://stackoverflow.com/a/12968117/8794221

Autres sources: https://code.tutsplus.com/tutorials/8-regular-expressions-you-should-know--net-6149

$ more url.py import re inputString = """add1 http://mit.edu.com abc add2 https://facebook.jp.com.2. abc add3 www.google.be. uvw add4 https://www.google.be. 123 add5 www.website.gov.us test2 Hey bob on www.test.com. another test with ipv4 http://192.168.1.1/test.jpg. toto2 website with different port number www.test.com:8080/test.jpg not port 80 www.website.gov.us/login.html test with ipv4 (192.168.1.1/test.jpg). search at google.co.jp/maps. test with ipv6 2001:0db8:0000:85a3:0000:0000:ac1f:8001/test.jpg.""" regex=ur"\b((?:https?://)?(?:(?:www\.)?(?:[\da-z\.-]+)\.(?:[a-z]{2,6})|(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)|(?:(?:[0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|(?:[0-9a-fA-F]{1,4}:){1,7}:|(?:[0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|(?:[0-9a-fA-F]{1,4}:){1,5}(?::[0-9a-fA-F]{1,4}){1,2}|(?:[0-9a-fA-F]{1,4}:){1,4}(?::[0-9a-fA-F]{1,4}){1,3}|(?:[0-9a-fA-F]{1,4}:){1,3}(?::[0-9a-fA-F]{1,4}){1,4}|(?:[0-9a-fA-F]{1,4}:){1,2}(?::[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:(?:(?::[0-9a-fA-F]{1,4}){1,6})|:(?:(?::[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(?::[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(?:ffff(?::0{1,4}){0,1}:){0,1}(?:(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])|(?:[0-9a-fA-F]{1,4}:){1,4}:(?:(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])))(?::[0-9]{1,4}|[1-5][0-9]{4}|6[0-4][0-9]{3}|65[0-4][0-9]{2}|655[0-2][0-9]|6553[0-5])?(?:/[\w\.-]*)*/?)\b" matches = re.findall(regex, inputString) print(matches)

SORTIE:

$ python url.py ['http://mit.edu.com', 'https://facebook.jp.com', 'www.google.be', 'https://www.google.be', 'www.website.gov.us', 'www.test.com', 'http://192.168.1.1/test.jpg', 'www.test.com:8080/test.jpg', 'www.website.gov.us/login.html', '192.168.1.1/test.jpg', 'google.co.jp/maps', '2001:0db8:0000:85a3:0000:0000:ac1f:8001/test.jpg']

kyrenia · Answer

[note: En supposant que vous l'utilisez sur les données Twitter (comme indiqué en question), la façon la plus simple de le faire est d'utiliser leur API, qui renvoie les URL extraites des tweets comme un champ]