數據科學學習手札145 在Python中利用yarl輕松操作url

本文示例代碼已上傳至我的Github倉庫https://github.com/CNFeffery/DataScienceStudyNotes
1 簡介大家好我是費老師,在諸如網絡爬蟲、web應用開發等場景中 , 我們需要利用Python完成大量的url解析、生成等操作 。
而在Python生態中,無論是使用諸如urllib之類的標準庫,還是各種第三方庫,可以用來有效處理url的方法都非常之豐富 。而今天費老師我要給大家介紹的url處理庫,則是我在實際使用中綜合考慮簡單易用性與運算速度后,最為滿意的 。
數據科學學習手札145 在Python中利用yarl輕松操作url

文章插圖
2 在Python中利用yarl高效處理url這個可以用來高效便捷處理url的第三方庫叫做yarl,使用pip install yarl完成安裝后 , 下面我們來快速學習其主要的一些功能方法:
2.1 利用yarl解析url信息基于yarl中的URL() , 我們可以從任意合法的url中解析出下圖所示的各個構成部分:
數據科學學習手札145 在Python中利用yarl輕松操作url

文章插圖
先來看一個簡單的例子,其中對我保管每一篇博客文章附件的github倉庫路徑url進行解析:
from yarl import URLurl = URL('https://github.com/CNFeffery/DataScienceStudyNotes/tree/master/%E5%8E%86%E5%8F%B2%E6%96%87%E7%AB%A0%E9%99%84%E4%BB%B6%E5%88%97%E8%A1%A8')原始的網址由于包含了中文等非ASCII字符,所以粘貼到代碼中后變成了

    推薦閱讀