十年網(wǎng)站開發(fā)經(jīng)驗(yàn) + 多家企業(yè)客戶 + 靠譜的建站團(tuán)隊(duì)
量身定制 + 運(yùn)營維護(hù)+專業(yè)推廣+無憂售后,網(wǎng)站問題一站解決

創(chuàng)新互聯(lián)建站是一家集網(wǎng)站建設(shè),農(nóng)安企業(yè)網(wǎng)站建設(shè),農(nóng)安品牌網(wǎng)站建設(shè),網(wǎng)站定制,農(nóng)安網(wǎng)站建設(shè)報(bào)價(jià),網(wǎng)絡(luò)營銷,網(wǎng)絡(luò)優(yōu)化,農(nóng)安網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè),幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強(qiáng)企業(yè)競爭力??沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時(shí)我們時(shí)刻保持專業(yè)、時(shí)尚、前沿,時(shí)刻以成就客戶成長自我,堅(jiān)持不斷學(xué)習(xí)、思考、沉淀、凈化自己,讓我們?yōu)楦嗟钠髽I(yè)打造出實(shí)用型網(wǎng)站。
點(diǎn)擊上方 "Python人工智能技術(shù)" 關(guān)注,星標(biāo)或者置頂
22點(diǎn)24分準(zhǔn)時(shí)推送,第一時(shí)間送達(dá)
后臺回復(fù)“大禮包”,送你特別福利
編輯:樂樂 | 來自:pypypypy
上一篇:
正文
大家好,我是Pythn人工智能技術(shù)。
內(nèi)置函數(shù)就是Python給你提供的,拿來直接用的函數(shù),比如print.,input等。
截止到python版本3.6.2 ,python一共提供了68個內(nèi)置函數(shù),具體如下
abs() dict() help() min() setattr()
all() dir() hex() next() slice()
any() divmod() id() object() sorted()
ascii() enumerate() input() oct() staticmethod()
bin() eval() int() open() str()
bool() exec() isinstance() ord() sum()
bytearray() ?lter() issubclass() pow() super()
bytes() ?oat() iter() print() tuple()
callable() format() len() property() type()
chr() frozenset() list() range() vars()
classmethod() getattr() locals() repr() zip()
compile() globals() map() reversed() __import__()
complex() hasattr() max() round()
delattr() hash() memoryview() set()
本文將這68個內(nèi)置函數(shù)綜合整理為12大類,正在學(xué)習(xí)Python基礎(chǔ)的讀者一定不要錯過,建議收藏學(xué)習(xí)!
和數(shù)字相關(guān) 1. 數(shù)據(jù)類型
bool : 布爾型(True,False)
int : 整型(整數(shù))
float : 浮點(diǎn)型(小數(shù))
complex : 復(fù)數(shù)
2. 進(jìn)制轉(zhuǎn)換
bin() 將給的參數(shù)轉(zhuǎn)換成二進(jìn)制
otc() 將給的參數(shù)轉(zhuǎn)換成八進(jìn)制
hex() 將給的參數(shù)轉(zhuǎn)換成十六進(jìn)制
print(bin(10)) # 二進(jìn)制:0b1010
print(hex(10)) # 十六進(jìn)制:0xa
print(oct(10)) # 八進(jìn)制:0o12
3. 數(shù)學(xué)運(yùn)算
abs() 返回絕對值
divmode() 返回商和余數(shù)
round() 四舍五入
pow(a, b) 求a的b次冪, 如果有三個參數(shù). 則求完次冪后對第三個數(shù)取余
sum() 求和
min() 求最小值
max() 求最大值
print(abs(-2)) # 絕對值:2
print(divmod(20,3)) # 求商和余數(shù):(6,2)
print(round(4.50)) # 五舍六入:4
print(round(4.51)) #5
print(pow(10,2,3)) # 如果給了第三個參數(shù). 表示最后取余:1
print(sum([1,2,3,4,5,6,7,8,9,10])) # 求和:55
print(min(5,3,9,12,7,2)) #求最小值:2
print(max(7,3,15,9,4,13)) #求最大值:15
和數(shù)據(jù)結(jié)構(gòu)相關(guān) 1. 序列
(1)列表和元組
list() 將一個可迭代對象轉(zhuǎn)換成列表
tuple() 將一個可迭代對象轉(zhuǎn)換成元組
print(list((1,2,3,4,5,6))) #[1, 2, 3, 4, 5, 6]
print(tuple([1,2,3,4,5,6])) #(1, 2, 3, 4, 5, 6)
(2)相關(guān)內(nèi)置函數(shù)
reversed() 將一個序列翻轉(zhuǎn), 返回翻轉(zhuǎn)序列的迭代器
slice() 列表的切片
lst = "你好啊"
it = reversed(lst) # 不會改變原列表. 返回一個迭代器, 設(shè)計(jì)上的一個規(guī)則
print(list(it)) #['啊', '好', '你']
lst = [1, 2, 3, 4, 5, 6, 7]
print(lst[1:3:1]) #[2,3]
s = slice(1, 3, 1) # 切片用的
print(lst[s]) #[2,3]
(3)字符串
str() 將數(shù)據(jù)轉(zhuǎn)化成字符串
print(str(123)+'456') #123456
format() 與具體數(shù)據(jù)相關(guān), 用于計(jì)算各種小數(shù), 精算等.
s = "hello world!"
print(format(s, "^20")) #劇中
print(format(s, "20")) #左對齊
print(format(s, "20")) #右對齊
# hello world!
# hello world!
# hello world!
print(format(3, 'b' )) # 二進(jìn)制:11
print(format(97, 'c' )) # 轉(zhuǎn)換成unicode字符:a
print(format(11, 'd' )) # ?進(jìn)制:11
print(format(11, 'o' )) # 八進(jìn)制:13
print(format(11, 'x' )) # 十六進(jìn)制(?寫字母):b
print(format(11, 'X' )) # 十六進(jìn)制(大寫字母):B
print(format(11, 'n' )) # 和d?樣:11
print(format(11)) # 和d?樣:11
print(format(123456789, 'e' )) # 科學(xué)計(jì)數(shù)法. 默認(rèn)保留6位小數(shù):1.234568e+08
print(format(123456789, '0.2e' )) # 科學(xué)計(jì)數(shù)法. 保留2位小數(shù)(小寫):1.23e+08
print(format(123456789, '0.2E' )) # 科學(xué)計(jì)數(shù)法. 保留2位小數(shù)(大寫):1.23E+08
print(format(1.23456789, 'f' )) # 小數(shù)點(diǎn)計(jì)數(shù)法. 保留6位小數(shù):1.234568
print(format(1.23456789, '0.2f' )) # 小數(shù)點(diǎn)計(jì)數(shù)法. 保留2位小數(shù):1.23
print(format(1.23456789, '0.10f')) # 小數(shù)點(diǎn)計(jì)數(shù)法. 保留10位小數(shù):1.2345678900
print(format(1.23456789e+3, 'F')) # 小數(shù)點(diǎn)計(jì)數(shù)法. 很大的時(shí)候輸出INF:1234.567890
bytes() 把字符串轉(zhuǎn)化成bytes類型
bs = bytes("今天吃飯了嗎", encoding="utf-8")
print(bs) #b'\xe4\xbb\x8a\xe5\xa4\xa9\xe5\x90\x83\xe9\xa5\xad\xe4\xba\x86\xe5\x90\x97'
bytearray() 返回一個新字節(jié)數(shù)組. 這個數(shù)字的元素是可變的, 并且每個元素的值得范圍是[0,256)
ret = bytearray("alex" ,encoding ='utf-8')
print(ret[0]) #97
print(ret) #bytearray(b'alex')
ret[0] = 65 #把65的位置A賦值給ret[0]
print(str(ret)) #bytearray(b'Alex')
ord() 輸入字符找?guī)ё址幋a的位置
chr() 輸入位置數(shù)字找出對應(yīng)的字符
ascii() 是ascii碼中的返回該值 不是就返回u
print(ord('a')) # 字母a在編碼表中的碼位:97
print(ord('中')) # '中'字在編碼表中的位置:20013
print(chr(65)) # 已知碼位,求字符是什么:A
print(chr(19999)) #丟
for i in range(65536): #打印出0到65535的字符
print(chr(i), end=" ")
print(ascii("@")) #'@'
repr() 返回一個對象的string形式
s = "今天\n吃了%s頓\t飯" % 3
print(s)#今天# 吃了3頓 飯
print(repr(s)) # 原樣輸出,過濾掉轉(zhuǎn)義字符 \n \t \r 不管百分號%
#'今天\n吃了3頓\t飯'
2. 數(shù)據(jù)集合
字典:dict 創(chuàng)建一個字典
集合:set 創(chuàng)建一個集合
frozenset() 創(chuàng)建一個凍結(jié)的集合,凍結(jié)的集合不能進(jìn)行添加和刪除操作。
3. 相關(guān)內(nèi)置函數(shù)
len() 返回一個對象中的元素的個數(shù)
sorted() 對可迭代對象進(jìn)行排序操作 (lamda)
語法:sorted(Iterable, key=函數(shù)(排序規(guī)則), reverse=False)
Iterable: 可迭代對象
key: 排序規(guī)則(排序函數(shù)), 在sorted內(nèi)部會將可迭代對象中的每一個元素傳遞給這個函數(shù)的參數(shù). 根據(jù)函數(shù)運(yùn)算的結(jié)果進(jìn)行排序
reverse: 是否是倒敘. True: 倒敘, False: 正序
lst = [5,7,6,12,1,13,9,18,5]
lst.sort() # sort是list里面的一個方法
print(lst) #[1, 5, 5, 6, 7, 9, 12, 13, 18]
ll = sorted(lst) # 內(nèi)置函數(shù). 返回給你一個新列表 新列表是被排序的
print(ll) #[1, 5, 5, 6, 7, 9, 12, 13, 18]
l2 = sorted(lst,reverse=True) #倒序
print(l2) #[18, 13, 12, 9, 7, 6, 5, 5, 1]
#根據(jù)字符串長度給列表排序
lst = ['one', 'two', 'three', 'four', 'five', 'six']
def f(s):
return len(s)
l1 = sorted(lst, key=f, )
print(l1) #['one', 'two', 'six', 'four', 'five', 'three']
enumerate() 獲取集合的枚舉對象
lst = ['one','two','three','four','five']
for index, el in enumerate(lst,1): # 把索引和元素一起獲取,索引默認(rèn)從0開始. 可以更改
print(index)
print(el)
# 1
# one
# 2
# two
# 3
# three
# 4
# four
# 5
# five
all() 可迭代對象中全部是True, 結(jié)果才是True
any() 可迭代對象中有一個是True, 結(jié)果就是True
print(all([1,'hello',True,9])) #True
print(any([0,0,0,False,1,'good'])) #True
zip() 函數(shù)用于將可迭代的對象作為參數(shù), 將對象中對應(yīng)的元素打包成一個元組, 然后返回由這些元組組成的列表. 如果各個迭代器的元素個數(shù)不一致, 則返回列表長度與最短的對象相同
lst1 = [1, 2, 3, 4, 5, 6]
lst2 = ['醉鄉(xiāng)民謠', '驢得水', '放牛班的春天', '美麗人生', '辯護(hù)人', '被嫌棄的松子的一生']
lst3 = ['美國', '中國', '法國', '意大利', '韓國', '日本']
print(zip(lst1, lst1, lst3)) #
for el in zip(lst1, lst2, lst3):
print(el)
# (1, '醉鄉(xiāng)民謠', '美國')
# (2, '驢得水', '中國')
# (3, '放牛班的春天', '法國')
# (4, '美麗人生', '意大利')
# (5, '辯護(hù)人', '韓國')
# (6, '被嫌棄的松子的一生', '日本')
fiter() 過濾 (lamda)
語法:fiter(function. Iterable)
function: 用來篩選的函數(shù). 在?lter中會自動的把iterable中的元素傳遞給function. 然后根據(jù)function返回的True或者False來判斷是否保留留此項(xiàng)數(shù)據(jù) , Iterable: 可迭代對象
搜索公眾號頂級架構(gòu)師后臺回復(fù)“面試”,送你一份驚喜禮包。
def func(i): # 判斷奇數(shù)
return i % 2 == 1
lst = [1,2,3,4,5,6,7,8,9]
l1 = filter(func, lst) #l1是迭代器
print(l1) #
print(list(l1)) #[1, 3, 5, 7, 9]
map() 會根據(jù)提供的函數(shù)對指定序列列做映射(lamda)
語法 : map(function, iterable)
可以對可迭代對象中的每一個元素進(jìn)行映射. 分別去執(zhí)行 function
def f(i): return i
lst = [1,2,3,4,5,6,7,]
it = map(f, lst) # 把可迭代對象中的每一個元素傳遞給前面的函數(shù)進(jìn)行處理. 處理的結(jié)果會返回成迭代器print(list(it)) #[1, 2, 3, 4, 5, 6, 7]
和作用域相關(guān)
locals() 返回當(dāng)前作用域中的名字
globals() 返回全局作用域中的名字
def func():
a = 10
print(locals()) # 當(dāng)前作用域中的內(nèi)容
print(globals()) # 全局作用域中的內(nèi)容
print("今天內(nèi)容很多")
func()
# {'a': 10}
# {'__name__': '__main__', '__doc__': None, '__package__': None, '__loader__':
# _frozen_importlib_external.SourceFileLoader object at 0x0000026F8D566080,
# '__spec__': None, '__annotations__': {}, '__builtins__':
# (built-in), '__file__': 'D:/pycharm/練習(xí)/week03/new14.py', '__cached__': None,
# 'func': }
# 今天內(nèi)容很多
和迭代器生成器相關(guān)
range() 生成數(shù)據(jù)
next() 迭代器向下執(zhí)行一次, 內(nèi)部實(shí)際使?用了__ next__()?方法返回迭代器的下一個項(xiàng)目
iter() 獲取迭代器, 內(nèi)部實(shí)際使用的是__ iter__()?方法來獲取迭代器
for i in range(15,-1,-5):
print(i)
# 15
# 10
# 5
# 0
lst = [1,2,3,4,5]
it = iter(lst) # __iter__()獲得迭代器
print(it.__next__()) #1
print(next(it)) #2 __next__()
print(next(it)) #3
print(next(it)) #4
字符串類型代碼的執(zhí)行
eval() 執(zhí)行字符串類型的代碼. 并返回最終結(jié)果
exec() 執(zhí)行字符串類型的代碼
compile() 將字符串類型的代碼編碼. 代碼對象能夠通過exec語句來執(zhí)行或者eval()進(jìn)行求值
s1 = input("請輸入a+b:") #輸入:8+9
print(eval(s1)) # 17 可以動態(tài)的執(zhí)行代碼. 代碼必須有返回值
s2 = "for i in range(5): print(i)"
a = exec(s2) # exec 執(zhí)行代碼不返回任何內(nèi)容
# 0
# 1
# 2
# 3
# 4
print(a) #None
# 動態(tài)執(zhí)行代碼
exec("""
def func():
print(" 我是周杰倫")
""" )
func() #我是周杰倫
code1 = "for i in range(3): print(i)"
com = compile(code1, "", mode="exec") # compile并不會執(zhí)行你的代碼.只是編譯
exec(com) # 執(zhí)行編譯的結(jié)果
# 0
# 1
# 2
code2 = "5+6+7"
com2 = compile(code2, "", mode="eval")
print(eval(com2)) # 18
code3 = "name = input('請輸入你的名字:')" #輸入:hello
com3 = compile(code3, "", mode="single")
exec(com3)
print(name) #hello
輸入輸出
print() : 打印輸出
input() : 獲取用戶輸出的內(nèi)容
print("hello", "world", sep="*", end="@") # sep:打印出的內(nèi)容用什么連接,end:以什么為結(jié)尾
#hello*world@
內(nèi)存相關(guān)
hash() : 獲取到對象的哈希值(int, str, bool, tuple). hash算法:(1) 目的是唯一性 (2) dict 查找效率非常高, hash表.用空間換的時(shí)間 比較耗費(fèi)內(nèi)存
s = 'alex'print(hash(s)) #-168324845050430382lst = [1, 2, 3, 4, 5]print(hash(lst)) #報(bào)錯,列表是不可哈希的 id() : 獲取到對象的內(nèi)存地址s = 'alex'print(id(s)) #2278345368944
文件操作相關(guān)
open() : 用于打開一個文件, 創(chuàng)建一個文件句柄
f = open('file',mode='r',encoding='utf-8')
f.read()
f.close()
模塊相關(guān)
__ import__() : 用于動態(tài)加載類和函數(shù)
# 讓用戶輸入一個要導(dǎo)入的模塊
import os
name = input("請輸入你要導(dǎo)入的模塊:")
__import__(name) # 可以動態(tài)導(dǎo)入模塊
幫 助
help() : 函數(shù)用于查看函數(shù)或模塊用途的詳細(xì)說明
print(help(str)) #查看字符串的用途
調(diào)用相關(guān)
callable() : 用于檢查一個對象是否是可調(diào)用的. 如果返回True, object有可能調(diào)用失敗, 但如果返回False. 那調(diào)用絕對不會成功
a = 10
print(callable(a)) #False 變量a不能被調(diào)用
def f():
print("hello")
print(callable(f)) # True 函數(shù)是可以被調(diào)用的
查看內(nèi)置屬性
dir() : 查看對象的內(nèi)置屬性, 訪問的是對象中的__dir__()方法
print(dir(tuple)) #查看元組的方法
你還有什么想要補(bǔ)充的嗎?
免責(zé)聲明:本文內(nèi)容來源于網(wǎng)絡(luò),文章版權(quán)歸原作者所有,意在傳播相關(guān)技術(shù)知識行業(yè)趨勢,供大家學(xué)習(xí)交流,若涉及作品版權(quán)問題,請聯(lián)系刪除或授權(quán)事宜。
技術(shù)君個人微信
添加技術(shù)君個人微信即送一份驚喜大禮包
→ 技術(shù)資料共享
→ 技術(shù)交流社群
--END--
往日熱文:
Python程序員深度學(xué)習(xí)的“四大名著”:
這四本書著實(shí)很不錯!我們都知道現(xiàn)在機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的資料太多了,面對海量資源,往往陷入到“無從下手”的困惑出境。而且并非所有的書籍都是優(yōu)質(zhì)資源,浪費(fèi)大量的時(shí)間是得不償失的。給大家推薦這幾本好書并做簡單介紹。
獲得方式:
2.后臺回復(fù)關(guān)鍵詞:名著
在if 里只需要yield "" + item_url.attrs['href']
然后Lsit(最好改可名,在python規(guī)范里,函數(shù)命名是全小寫,而list又是保留字,比如改為display_hrefs)只需要循環(huán)輸出getUrl的結(jié)果就好:
def getUrl(url: str):
....html = urlopen(url)
....for item_url in BeautifulSoup((html.read()).find ('div' , class_='AAA').findAll ("a"):
........if 'href' in item_url.attrs:
............yield "" + item_url.attrs['href']
def display_hrefs(url: str):
....for href in getUrl(url):
........print(href)
if __name__ == '__main__':
....display_hrefs("")
稍微說一下背景,當(dāng)時(shí)我想研究蛋白質(zhì)與小分子的復(fù)合物在空間三維結(jié)構(gòu)上的一些規(guī)律,首先得有數(shù)據(jù)啊,數(shù)據(jù)從哪里來?就是從一個涵蓋所有已經(jīng)解析三維結(jié)構(gòu)的蛋白質(zhì)-小分子復(fù)合物的數(shù)據(jù)庫里面下載。這時(shí)候,手動一個個去下顯然是不可取的,我們需要寫個腳本,能從特定的網(wǎng)站選擇性得批量下載需要的信息。python是不錯的選擇。
import urllib #python中用于獲取網(wǎng)站的模塊
import urllib2, cookielib
有些網(wǎng)站訪問時(shí)需要cookie的,python處理cookie代碼如下:
cj = ***.cookiejar ( )
opener = ***.build_opener( ***.httpcookieprocessor(cj) )
***.install_opener (opener)
通常我們需要在網(wǎng)站中搜索得到我們需要的信息,這里分為二種情況:
1. 第一種,直接改變網(wǎng)址就可以得到你想要搜索的頁面:
def GetWebPage( x ): #我們定義一個獲取頁面的函數(shù),x 是用于呈遞你在頁面中搜索的內(nèi)容的參數(shù)
url = '***.cgi?' + ‘你想要搜索的參數(shù)’ # 結(jié)合自己頁面情況適當(dāng)修改
page = ***.urlopen(url)
pageContent = ***.read( )
return pageContent #返回的是HTML格式的頁面信息
2.第二種,你需要用到post方法,將你搜索的內(nèi)容放在postdata里面,然后返回你需要的頁面
def GetWebPage( x ): #我們定義一個獲取頁面的函數(shù),x 是用于呈遞你在頁面中搜索的內(nèi)容的參數(shù)
url = '' #這個網(wǎng)址是你進(jìn)入搜索界面的網(wǎng)址
postData = ***.urlencode( { 各種‘post’參數(shù)輸入 } ) #這里面的post參數(shù)輸入需要自己去查
req= ***.request (url, postData)
pageContent = ***.urlopen (req). read( )
return pageContent #返回的是HTML格式的頁面信息
在獲取了我們需要的網(wǎng)頁信息之后,我們需要從獲得的網(wǎng)頁中進(jìn)一步獲取我們需要的信息,這里我推薦使用 BeautifulSoup 這個模塊, python自帶的沒有,可以自行百度谷歌下載安裝。 BeautifulSoup 翻譯就是‘美味的湯’,你需要做的是從一鍋湯里面找到你喜歡吃的東西。
import re # 正則表達(dá)式,用于匹配字符
from bs4 import BeautifulSoup # 導(dǎo)入BeautifulSoup 模塊
soup = BeautifulSoup(pageContent) #pageContent就是上面我們搜索得到的頁面
soup就是 HTML 中所有的標(biāo)簽(tag)BeautifulSoup處理格式化后的字符串,一個標(biāo)準(zhǔn)的tag形式為:
hwkobe24
通過一些過濾方法,我們可以從soup中獲取我們需要的信息:
(1) find_all ( name , attrs , recursive , text , **kwargs)
這里面,我們通過添加對標(biāo)簽的約束來獲取需要的標(biāo)簽列表, 比如 ***.find_all ('p') 就是尋找名字為‘p’的 標(biāo)簽,而***.find_all (class = "tittle") 就是找到所有class屬性為"tittle" 的標(biāo)簽,以及***.find_all ( class = ***.compile('lass')) 表示 class屬性中包含‘lass’的所有標(biāo)簽,這里用到了正則表達(dá)式(可以自己學(xué)習(xí)一下,非常有用滴)
當(dāng)我們獲取了所有想要標(biāo)簽的列表之后,遍歷這個列表,再獲取標(biāo)簽中你需要的內(nèi)容,通常我們需要標(biāo)簽中的文字部分,也就是網(wǎng)頁中顯示出來的文字,代碼如下:
tagList = ***.find_all (class="tittle") #如果標(biāo)簽比較復(fù)雜,可以用多個過濾條件使過濾更加嚴(yán)格
for tag in tagList:
print ***.text
***.write ( str(***.text) ) #將這些信息寫入本地文件中以后使用
(2)find( name , attrs , recursive , text , **kwargs )
它與 find_all( ) 方法唯一的區(qū)別是 find_all() 方法的返回結(jié)果是值包含一個元素的列表,而 find() 方法直接返回結(jié)果
(3)find_parents( ) find_parent( )
find_all() 和 find() 只搜索當(dāng)前節(jié)點(diǎn)的所有子節(jié)點(diǎn),孫子節(jié)點(diǎn)等. find_parents() 和 find_parent() 用來搜索當(dāng)前節(jié)點(diǎn)的父輩節(jié)點(diǎn),搜索方法與普通tag的搜索方法相同,搜索文檔搜索文檔包含的內(nèi)容
(4)find_next_siblings() find_next_sibling()
這2個方法通過 .next_siblings 屬性對當(dāng) tag 的所有后面解析的兄弟 tag 節(jié)點(diǎn)進(jìn)代, find_next_siblings() 方法返回所有符合條件的后面的兄弟節(jié)點(diǎn),find_next_sibling() 只返回符合條件的后面的第一個tag節(jié)點(diǎn)
(5)find_previous_siblings() find_previous_sibling()
這2個方法通過 .previous_siblings 屬性對當(dāng)前 tag 的前面解析的兄弟 tag 節(jié)點(diǎn)進(jìn)行迭代, find_previous_siblings()方法返回所有符合條件的前面的兄弟節(jié)點(diǎn), find_previous_sibling() 方法返回第一個符合條件的前面的兄弟節(jié)點(diǎn)
(6)find_all_next() find_next()
這2個方法通過 .next_elements 屬性對當(dāng)前 tag 的之后的 tag 和字符串進(jìn)行迭代, find_all_next() 方法返回所有符合條件的節(jié)點(diǎn), find_next() 方法返回第一個符合條件的節(jié)點(diǎn)
(7)find_all_previous() 和 find_previous()
這2個方法通過 .previous_elements 屬性對當(dāng)前節(jié)點(diǎn)前面的 tag 和字符串進(jìn)行迭代, find_all_previous() 方法返回所有符合條件的節(jié)點(diǎn), find_previous()方法返回第一個符合條件的節(jié)點(diǎn)
具體的使用方法還有很多,用到這里你應(yīng)該可以解決大部分問題了,如果要更深入了解可以參考官方的使用說明哈!
html_doc = """
html
head
titleThe Dormouse's story/title
/head
body
p class="title aq"
b
The Dormouse's story
/b
/p
p class="story"Once upon a time there were three little sisters; and their names were
a href="" class="sister" id="link1"Elsie/a,
a href="" class="sister" id="link2"Lacie/a
and
a href="" class="sister" id="link3"Tillie/a;
and they lived at the bottom of a well.
./p
p class="story".../p
"""
html字符串創(chuàng)建BeautifulSoup對象 :
soup = BeautifulSoup(html_doc, 'html.parser', from_encoding='utf-8')
輸出第一個 title 標(biāo)簽 :
print soup.title
輸出第一個 title 標(biāo)簽的標(biāo)簽名稱 :
print soup.title.name
輸出第一個 title 標(biāo)簽的包含內(nèi)容 :
print soup.title.string
輸出第一個 title 標(biāo)簽的父標(biāo)簽的標(biāo)簽名稱 :
print soup.title.parent.name
輸出第一個 p 標(biāo)簽
print soup.p
輸出第一個 p 標(biāo)簽的 class 屬性內(nèi)容 :
print soup.p['class']
輸出第一個 a 標(biāo)簽的 href 屬性內(nèi)容 :
print soup.a['href']
'''''
soup的屬性可以被添加,刪除或修改. 再說一次, soup的屬性操作方法與字典一樣
'''
修改第一個 a 標(biāo)簽的href屬性為
soup.a['href'] = ' '
給第一個 a 標(biāo)簽添加 name 屬性 :
soup.a['name'] = u'百度'
刪除第一個 a 標(biāo)簽的 class 屬性為 :
del soup.a['class']
輸出第一個 p 標(biāo)簽的所有子節(jié)點(diǎn) :
print soup.p.contents
輸出第一個 a 標(biāo)簽 :
print soup.a
輸出所有的 a 標(biāo)簽,以列表形式顯示 :
print soup.find_all('a')
輸出第一個 id 屬性等于 link3 的 a 標(biāo)簽 :
print soup.find(id="link3")
獲取所有文字內(nèi)容 :
print(soup.get_text())
輸出第一個 a 標(biāo)簽的所有屬性信息 :
print soup.a.attrs
for link in soup.find_all('a'):
獲取 link 的 href 屬性內(nèi)容
print(link.get('href'))
對soup.p的子節(jié)點(diǎn)進(jìn)行循環(huán)輸出 :
for child in soup.p.children:
print(child)
正則匹配,名字中帶有b的標(biāo)簽 :
for tag in soup.find_all(re.compile("b")):
print(tag.name)
import bs4#導(dǎo)入BeautifulSoup庫
Soup = BeautifulSoup(html)#其中html 可以是字符串,也可以是句柄
需要注意的是,BeautifulSoup會自動檢測傳入文件的編碼格式,然后轉(zhuǎn)化為Unicode格式
通過如上兩句話,BS自動把文檔生成為如上圖中的解析樹。