日本电影一区二区_日本va欧美va精品发布_日本黄h兄妹h动漫一区二区三区_日本欧美黄色

「低代碼爬蟲系列二」Automa實(shí)現(xiàn)一個(gè)自動展開微博的爬蟲(微博爬蟲工具)

Automa是一款開源的圖形化&低代碼爬蟲工具,讓用戶在不懂代碼的情況下,通過拖拽方式做一些實(shí)用的爬蟲。例如爬取微博信息、批量搜索百度、解除某些網(wǎng)站不可復(fù)制限制、下載抖音視頻、免費(fèi)看VIP視頻等等。

本系列教程將先介紹它的基本使用,然后基于它做一些有趣的項(xiàng)目實(shí)踐(包括但不限于上述所舉的例子)。本文是該系列的第二篇文章,實(shí)現(xiàn)一個(gè)自動展開微博的爬蟲。

第一篇文章參見「低代碼爬蟲系列一」Automa實(shí)現(xiàn)一個(gè)天氣預(yù)報(bào)爬蟲

一、自動展開微博的爬蟲背景

當(dāng)我們在pc上刷微博時(shí),微博頁面會自動對長內(nèi)容進(jìn)行折疊。如果想要查看去全文,需要我們一一點(diǎn)擊“展開”按鈕來查看全文。那能不能實(shí)現(xiàn)一個(gè)爬蟲,打開想要查看的微博頁面,自動點(diǎn)擊“展開”按鈕呢?

「低代碼爬蟲系列二」Automa實(shí)現(xiàn)一個(gè)自動展開微博的爬蟲(微博爬蟲工具)

二、實(shí)現(xiàn)方案

了解了上述背景后,我們使用Automa來實(shí)現(xiàn)對應(yīng)效果。

先給出整個(gè)項(xiàng)目的工作流,如下所示,然后我們再一一介紹對應(yīng)的組件及其參數(shù)。

「低代碼爬蟲系列二」Automa實(shí)現(xiàn)一個(gè)自動展開微博的爬蟲(微博爬蟲工具)

1、觸發(fā)器

整個(gè)工作流的開始節(jié)點(diǎn)。每條工作流都有這個(gè)觸發(fā)器組件,默認(rèn)是手動觸發(fā)模式。

2、新建標(biāo)簽頁

該組件是用于在瀏覽器中打開一個(gè)新的頁面,雙擊該組件,在左側(cè)參數(shù)欄填入對應(yīng)博主的微博頁面地址。

「低代碼爬蟲系列二」Automa實(shí)現(xiàn)一個(gè)自動展開微博的爬蟲(微博爬蟲工具)

3、點(diǎn)擊元素

模擬點(diǎn)擊頁面對應(yīng)元素。這里我們需要點(diǎn)擊每條博文中的“展開”按鈕。Automa支持通過css選擇器或者xpath來定位元素,通過開發(fā)者模式,不難得到“展開”按鈕的css選擇器為span.expand。在參數(shù)設(shè)置中勾選多選、等待選擇器。

「低代碼爬蟲系列二」Automa實(shí)現(xiàn)一個(gè)自動展開微博的爬蟲(微博爬蟲工具)

4、滾動元素

模擬頁面左右滾動或者上下滾動的效果。由于微博是采用下拉異步加載的方式來實(shí)現(xiàn)之前的博文的,所以如果想要看之前的博文,就需要模擬下拉的功能,設(shè)置垂直滾動為10000即可。

「低代碼爬蟲系列二」Automa實(shí)現(xiàn)一個(gè)自動展開微博的爬蟲(微博爬蟲工具)

5、延時(shí)

由于頁面需要一定的加載時(shí)間,這里我們加入一個(gè)延時(shí)操作。即每次滾動下滑后,等待1000ms;

6、再次點(diǎn)擊元素

和步驟3完全相同,對新加載的微博,再次點(diǎn)擊“展開”按鈕。

7、循環(huán)

類似程序設(shè)計(jì)中的循環(huán)功能。這個(gè)組件接口略微有點(diǎn)復(fù)雜,我們介紹下它的連線接口:

  • 左邊接口,連接每次循環(huán)的最后一個(gè)組件;
  • 右邊第一個(gè)接口,連接整個(gè)循環(huán)執(zhí)行結(jié)束后的下一個(gè)組件;
  • 右邊第二個(gè)接口,連接每次循環(huán)開始的第一個(gè)組件;

還需要設(shè)置對應(yīng)的循環(huán)次數(shù),這里我們設(shè)為3,表示將第4、5、6的步驟重復(fù)三次;

「低代碼爬蟲系列二」Automa實(shí)現(xiàn)一個(gè)自動展開微博的爬蟲(微博爬蟲工具)

8、回到頁面最上方

使用滾動組件,將垂直滾動參數(shù)設(shè)為-10000,如圖所示:

「低代碼爬蟲系列二」Automa實(shí)現(xiàn)一個(gè)自動展開微博的爬蟲(微博爬蟲工具)

到此,自動展開微博內(nèi)容的爬蟲就已經(jīng)實(shí)現(xiàn)了。我們點(diǎn)擊右上角的運(yùn)行按鈕來看下效果。

「低代碼爬蟲系列二」Automa實(shí)現(xiàn)一個(gè)自動展開微博的爬蟲(微博爬蟲工具)

有朋友可能不僅想要自動展開內(nèi)容,而且要自動抓取對應(yīng)微博到excel,這應(yīng)該如何實(shí)現(xiàn)呢?欲知后事如何,請聽下回分解~

(如果需要完整例子項(xiàng)目文件、或者對步驟還存在疑問的朋友,可以在評論區(qū)留言或者私信)

后面文章會做一些更復(fù)雜、更有趣的例子,敬請期待~

如果你有什么想做的爬蟲,也可以在評論區(qū)留言哦~

相關(guān)新聞

聯(lián)系我們
聯(lián)系我們
公眾號
公眾號
在線咨詢
分享本頁
返回頂部
楚雄市| 舟曲县| 怀柔区| 辽宁省| 精河县| 明水县| 温宿县| 沙田区| 温州市| 安阳市| 循化| 宝兴县| 河间市| 弋阳县| 宣恩县| 遵义市| 英吉沙县| 嘉善县| 松原市| 太康县| 封开县| 乐昌市| 汝阳县| 武汉市| 安福县| 金溪县| 泗洪县| 克什克腾旗| 嘉荫县| 乡宁县| 漠河县| 凯里市| 平凉市| 岳池县| 宜宾市| 桂阳县| 广德县| 女性| 灵武市| 德昌县| 浦县|