玩轉C#之【爬蟲】

一代軍師

更新於 2024/10/09發佈於 2022/10/10閱讀時間約 18 分鐘

介紹

基礎概念

爬蟲其實就是一個自動提取網頁的程式

程式基本運作:Url開始-->分析獲取數據&找到Url-->遞迴下去-->結束

分析獲取數據運作:下載html--解析獲取數據--數據保存

爬蟲可以做哪些事情?

數據為王：抓小說數據，做個內容站；
電影/動漫下載站
抓圖片
政府的公開招標數據，每天匯集這些數據

爬蟲的攻防

爬蟲的正義性問題：不違法、不問自取謂之偷

robots協議:君子的協定(360流氓)，道德防線
每個網站會堤供robots.txt，來說明自己的哪些路徑允許爬資料
📷

防=>請求檢測header
攻=>爬蟲去都模擬一下
📷
防=>用戶登入
攻=>請求的時候帶上cookie

防:因為爬蟲的訪問頻率會很高，因此可以將訪問頻率高的IP加入黑名單，或者返回驗證碼

攻:可以透過以下方式產生多個ip(ADSL撥號/168偽裝IP/代理IP)

攻:破解驗證碼，有開源的圖片識別程式(OCR/打碼平台)

防：數據透過JS動態加載；將資料轉成圖片；透過JS收集用戶操作訊息，然後回傳伺服器；用戶控件(可以收集更多信息)

以上都是可以搞定的，道高一尺魔高一丈

手機板的請求抓取:裝模擬器=>電腦抓包Fiddler

下載html(HttpWebRequest)

語法產生器:http://tool.sufeinet.com/HttpHelper.aspx

string html = string.Empty;

HttpWebRequest request = HttpWebRequest.Create(url) as HttpWebRequest;//模擬請求
request.Timeout = 30 * 1000;//設置30s超時
request.UserAgent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36";//pc瀏覽器
//request.UserAgent = "Ruanmou Crawler";
//request.UserAgent = "Mozilla / 5.0(iPhone; CPU iPhone OS 7_1_2 like Mac OS X) App leWebKit/ 537.51.2(KHTML, like Gecko) Version / 7.0 Mobile / 11D257 Safari / 9537.53";//手機板瀏覽器
request.ContentType = "text/html; charset=utf-8";// "text/html;charset=gbk";// 
request.Host = "www.jd.com";

request.Headers.Add("Cookie", @"newUserFlag=1; guid=YFT7C9E6TMFU93FKFVEN7TEA5HTCF5DQ26HZ; gray=959782; cid=av9kKvNkAPJ10JGqM_rB_vDhKxKM62PfyjkB4kdFgFY5y5VO; abtest=31; _ga=GA1.2.334889819.1425524072; grouponAreaId=37; provinceId=20; search_showFreeShipping=1; rURL=http%3A%2F%2Fsearch.yhd.com%2Fc0-0%2Fkiphone%2F20%2F%3Ftp%3D1.1.12.0.73.Ko3mjRR-11-FH7eo; aut=5GTM45VFJZ3RCTU21MHT4YCG1QTYXERWBBUFS4; ac=57265177%40qq.com; msessionid=H5ACCUBNPHMJY3HCK4DRF5VD5VA9MYQW; gc=84358431%2C102362736%2C20001585%2C73387122; tma=40580330.95741028.1425524063040.1430288358914.1430790348439.9; tmd=23.40580330.95741028.1425524063040.; search_browse_history=998435%2C1092925%2C32116683%2C1013204%2C6486125%2C38022757%2C36224528%2C24281304%2C22691497%2C26029325; detail_yhdareas=""; cart_cookie_uuid=b64b04b6-fca7-423b-b2d1-ff091d17e5e5; gla=20.237_0_0; JSESSIONID=14F1F4D714C4EE1DD9E11D11DDCD8EBA; wide_screen=1; linkPosition=search");

//request.Headers.Add("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8");
//request.Headers.Add("Accept-Encoding", "gzip, deflate, sdch");
//request.Headers.Add("Referer", "http://list.yhd.com/c0-0/b/a-s1-v0-p1-price-d0-f0-m1-rt0-pid-mid0-kiphone/");
request.Method = "GET";
//Encoding enc = Encoding.GetEncoding("GB2312"); // 如果是亂碼就改成 utf-8 / GB2312

#region Post
//int sort = 2;//人數
//string dataString = string.Format("k={0}&n=24&st={1}&iso=0&src=1&v=4093&p={2}&isRecommend=false&city_id=0&from=1&ldw=1361580739", keyword, sort, 1);
//Encoding encoding = Encoding.UTF8;//根據網站編碼自訂義
//byte[] postData = encoding.GetBytes(dataString);
//request.ContentLength = postData.Length;
//Stream requestStream = request.GetRequestStream();
//requestStream.Write(postData, 0, postData.Length);
#endregion

Encoding enc = Encoding.UTF8;//.GetEncoding("GB2312");
using (HttpWebResponse response = request.GetResponse() as HttpWebResponse)//發起請求
{
    if (response.StatusCode != HttpStatusCode.OK)
    {
        logger.Warn(string.Format("抓取{0}地址返回失敗,response.StatusCode為{1}", url, response.StatusCode));
    }
    else
    {
        try
        {
            StreamReader sr = new StreamReader(response.GetResponseStream(), enc);
            html = sr.ReadToEnd();//讀取數據
            sr.Close();
        }
        catch (Exception ex)
        {
            logger.Error(string.Format($"DownloadHtml抓取{url}失敗"), ex);
            html = null;
        }
    }
}
return html

日誌紀錄(Log4Net)

參考資料
參考資料2

log4net.cfg設定檔

<?xml version="1.0" encoding="utf-8"?>
<log4net>
  <!-- Define some output appenders -->
  <appender name="rollingAppender" type="log4net.Appender.RollingFileAppender">
    <file value="log\log.txt" />

    <!--追加日誌內容-->
    <appendToFile value="true" />

    <!--防止多線程時不能寫Log,官方說線程非安全-->
    <lockingModel type="log4net.Appender.FileAppender+MinimalLock" />

    <!--可以為:Once|Size|Date|Composite-->
    <!--Composite為=為Size和Date的組合-->
    <rollingStyle value="Composite" />

    <!--當備份文件時,為文件名加的後綴-->
    <datePattern value="yyyyMMdd.TXT" />

    <!--日誌最大個數,都是最新的-->
    <!--rollingStyle節點為Size時,只能有value個日誌-->
    <!--rollingStyle節點為Composite時,每天有value個日誌-->
    <maxSizeRollBackups value="20" />

    <!--可用的單位:KB|MB|GB-->
    <maximumFileSize value="3MB" />

    <!--設置為true,當前最新日誌文件名永遠為file節中的名字-->
    <staticLogFileName value="true" />

    <!--輸出級別在INFO和ERROR之間的日誌-->
    <filter type="log4net.Filter.LevelRangeFilter">
      <param name="LevelMin" value="INFO" />
      <param name="LevelMax" value="FATAL" />
    </filter>

    <layout type="log4net.Layout.PatternLayout">
      <conversionPattern value="%date [%thread] %-5level %logger - %message%newline"/>
    </layout>
  </appender>

  <!-- levels: OFF > FATAL > ERROR > WARN > INFO > DEBUG  > ALL -->
  <root>
    <priority value="ALL"/>
    <level value="ALL"/>
    <appender-ref ref="rollingAppender" />
  </root>
</log4net>

Log Level的等級
OFF > FATAL > ERROR > WARN > INFO > DEBUG > ALL

初始化

static Logger()
{
    XmlConfigurator.Configure(new FileInfo(Path.Combine(AppDomain.CurrentDomain.BaseDirectory, "CfgFiles\\log4net.cfg.xml")));
    ILog Log = LogManager.GetLogger(typeof(Logger));
    Log.Info("系統初始化Logger模塊");
}

private ILog loger = null;
public Logger(Type type)
{
    loger = LogManager.GetLogger(type);
}

紀錄log的方式
使用log選擇要紀錄的等級

loger.Error(msg, ex);
loger.Warn(msg);
loger.Info(msg);
loger.Debug(msg);

解析HTML資料(HtmlAgiliytyPack)

通常在解析HttpWebRequest下載回來的HTML資料有兩種方式:

透過正則表達式搭配Substring/indexof/replace
HtmlAgiliytyPack；基於Xpath解析

Xpath

參考資料

什麼是XPath
XPath (XML Path Language) 是一種用來尋找XML文件中某個節點(node)位置的查詢語言。

XPath使用類似路徑的語法來尋找節點。

XPath一共有七種節點：element, attribute, text, namespace, processing-instruction, comment, document

XML文件是由許多節點組成的樹狀結構，最上層的結點稱作root element

假設要找這段文字的Xpath，先找到它的HTML位置
📷
再對它的位置點右鍵=>Copy => CopyXPath
📷
再透過XPath Helper 套件，可以驗證剛剛複製的XPath的路徑，是否正確
📷

HtmlAgiliytyPack用法

新增HtmlDocument物件
使用LoadHtml存進HtmlDocument物件
使用SelectNodes找尋Xpath節點內容

public void Crawl()
{
    //下載HTML
    string html = HttpHelper.DownloadHtml("https://www.jd.com/allSort.aspx");
    if (string.IsNullOrEmpty(html))
    {
        //需要重試。記錄下來
    }
    HtmlDocument document = new HtmlDocument();
    document.LoadHtml(html);
    {
        //Xpath路徑
        string secondPath = "//dl/dt/a";
        HtmlNodeCollection nodeList = document.DocumentNode.SelectNodes(secondPath);//找多個節點
        if (nodeList != null)
        {
            foreach (HtmlNode node in nodeList)
            {
                string url = node.Attributes["href"].Value;
                string name = node.InnerText;
            }
        }
    }          
}

參考資料

XPath 套件介紹

[爬蟲]看臉時代下載器-爬蟲篇

本篇已同步發表至個人部落格
https://moushih.com/2022ithome26/

鐵人賽文章

https://ithelp.ithome.com.tw/articles/10298693

為什麼會看到廣告

8會員

39內容數

我是這個部落格的作者，喜歡分享有關投資 💰、軟體開發 💻、占卜 🔮 和虛擬貨幣 🚀 的知識和經驗。

留言

留言分享你的想法！

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

一代軍師的其他內容

玩轉C#之【單元測試】

介紹通常我們程式寫完之後，要確保程式沒問題我們就會進行測試在這裡我們將測試分兩大類: 單元測試(Unit Test,UT):對程式碼的最小單位所進行的測試整合測試(Integration Test):系統/模組之間的測試，通常會接觸到真實系統在這裡只會簡單介紹一下單元測試的概念這裡在將單元

#IT鐵人賽 #單元測試

玩轉C#之【CLR】

介紹原始碼(source code)→編譯器→中繼語言(MSIL)→CLR→電腦看得懂的語言(Native code) 所以我們可以知道，CLR( Common Language Runtime ):是 .NET Framework 的虛擬機器元件 (virtual machine compone

#IT鐵人賽 #CLR

玩轉C#之【設計模式-Design Pattern】

小心設計模式別亂用 📷 介紹設計模式就是過去的人，根據常見的軟體設計的問題，提出的解決方案。設計模式總共有23種，根據情境分成三大類型，建立型、結構型、行為型。建立型模式（Creational Patterns）簡單工廠(Simple Factory) 工廠方法(Factory) 抽象工廠

#IT鐵人賽 #DesignPattern #設計模式

玩轉C#之【SOLID】

介紹何謂原則(Principle) A principle is a concept or value that is a guide for behavior or evaluation 所謂【原則】(Principle)就是一種【概念】或【價值】，用來導引你產生適切的行為與價值評量方法白話文

#IT鐵人賽 #Csharp #SOLID

玩轉C#之【非同步程式設】

介紹非同步程式設計模式(Asynchronous Programming Patterns) APM 非同步程式設計模型 EAP 事件架構非同步模式 TAP 以工作為基礎的非同步模式先在主要以TAP APM (Asynchronous Programming Model) 非同步程式設計模型.N

#IT鐵人賽 #非同步程式設計

玩轉C#之【執行序-執行緒安全】

介紹委派的非同步方法可以透過BeginInvoke執行委派的非同步方法 Action<T>.BeginInvoke(<T> obj,AsyncCallback callback,Object @object) 第一個內容的 obj，只的是要傳入acction委派的參數第二個AsyncCallb

玩轉C#之【設計模式-Design Pattern】

#IT鐵人賽 #DesignPattern #設計模式

玩轉C#之【SOLID】

#IT鐵人賽 #Csharp #SOLID

你可能也想看

網路爬蟲（Web Scraping）簡介與實作

本篇文章介紹網路爬蟲的基本概念和操作流程，適合初學者瞭解爬蟲的功能與合法使用方式。文章說明爬蟲如何自動蒐集資料及 API 的重要角色，同時提醒用戶注意指南與網站規範。作者也自己嘗試網路爬蟲。也期許自己可以在未來學習到網頁時，能成功操作 LinkedIn 的爬蟲

#爬蟲 #網路 #程式

科技奶蓋的沙龍

2024/07/17

駭客網路攻擊：現代數位社會的安全隱憂與防範策略

在數位化日益深入的今天，駭客網路攻擊成為了各種組織和個人面臨的嚴重挑戰。本文將探討駭客網路攻擊的種類、影響及其防範策略，幫助讀者更好地理解和應對這一重要的安全問題。什麼是駭客網路攻擊？駭客網路攻擊是指未經授權的個人或組織通過技術手段，針對計算機系統、網路基礎設施或數據進行的攻擊行為。攻擊者可

普普文創

2024/07/03

【文創漫談】瀏覽量爬蟲介紹 | 方格子 | UDN | 兩者的不同

網路爬蟲的由來網路爬蟲，也叫網路蜘蛛（spider），是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。網路搜尋引擎等站點通過爬蟲軟體更新自身的網站內容或其對其他網站的索引。網路爬蟲可以將自己所訪問的頁面儲存下來，以便搜尋引擎事後生成索引供使用者搜尋。網路爬蟲的原理

#文創漫談 #瀏覽量爬蟲介紹 #方格子

性感雞塊男爵

2024/07/01

【數位行銷】SEO 大揭密！網路爬蟲是什麼？能吃嗎？

你知道嗎？網路爬蟲其實是整個搜尋世界的起點。爬蟲將所有上線的網頁快速瀏覽後並整理重點做索引，這樣搜尋引擎才能快速檢索相關內容。今天本男爵就來跟大家好好聊一下，在網路世界中無所不在，但你可能卻從未察覺到的這條「蟲」。

#SEO #數位行銷 #GoogleSEO

郭欣玫的沙龍

2024/05/30

xhr/fetch/axios串api

xhr 在下面的例子裡，我們首先建立了一個 XMLHttpRequest 物件，並使用 .open() 開啟一個 URL，最後使用 .send() 發出 request。具體來說步驟有四個：建立XMLHttpReque 開啟一個請求。送出請求。拿到回應後去處理畫面要如何呈現。

Amber hh的沙龍

2024/03/03

什麼是網址 URL？如何取得網址的參數？

之前分享過【網路請求帶參數的方式】，開發者可以透過 URL 代入參數，來向伺服器請求特定的資源，我們當然也可以擷取 URL 的內容，來做為後續開發的判斷條件，這篇就來記錄一下，網址(URL) 和域名(Domain) 是什麼，以及如何取得網址的參數吧！我們常說的網址連結 URL 完整名稱是 U

#開發 #地址 #資源

Amber hh的沙龍

2024/02/11

學習筆記 | 什麼是 API ?

先前幾篇筆記介紹了網路請求，瀏覽器儲存資料的方式，那麼實務上，前端最常需要發送網路請求的時候，就是透過呼叫 API，去向後端工程師發送/請求資料，所以今天來記錄什麼是 API吧！

#開發 #應用程式 #軟體

奧莉薇走在成為後端工程師之路上

2024/01/22

後端技術考古題- Web Operations 下篇

描述我所瞭解的 Web 攻擊技術何謂網路攻擊？駭客透過各種系統漏洞或惡意程式，搭配許多技術和工具進行攻擊。目標是要在企業或個人電腦網路中損害、取得控制權或存取重要的文件和系統。例如： XSS（Cross-Site Scripting，跨站腳本攻擊/跨網站指令碼）：指網路罪犯透過存在安全

越南放大鏡 X 下班資工系

2024/12/11

網路爬蟲（Web Scraping）簡介與實作

#爬蟲 #網路 #程式

科技奶蓋的沙龍

2024/07/17

駭客網路攻擊：現代數位社會的安全隱憂與防範策略

普普文創

2024/07/03

【文創漫談】瀏覽量爬蟲介紹 | 方格子 | UDN | 兩者的不同

#文創漫談 #瀏覽量爬蟲介紹 #方格子

性感雞塊男爵

2024/07/01

【數位行銷】SEO 大揭密！網路爬蟲是什麼？能吃嗎？

#SEO #數位行銷 #GoogleSEO

#開發 #地址 #資源

後端技術考古題- Web Operations 下篇