玩轉C#之【爬蟲】

一代軍師

2024/10/09 更新2022/10/10 發佈閱讀 18 分鐘

介紹

基礎概念

爬蟲其實就是一個自動提取網頁的程式

程式基本運作:Url開始-->分析獲取數據&找到Url-->遞迴下去-->結束

分析獲取數據運作:下載html--解析獲取數據--數據保存

爬蟲可以做哪些事情?

數據為王：抓小說數據，做個內容站；
電影/動漫下載站
抓圖片
政府的公開招標數據，每天匯集這些數據

爬蟲的攻防

爬蟲的正義性問題：不違法、不問自取謂之偷

防:因為爬蟲的訪問頻率會很高，因此可以將訪問頻率高的IP加入黑名單，或者返回驗證碼

攻:可以透過以下方式產生多個ip(ADSL撥號/168偽裝IP/代理IP)

攻:破解驗證碼，有開源的圖片識別程式(OCR/打碼平台)

防：數據透過JS動態加載；將資料轉成圖片；透過JS收集用戶操作訊息，然後回傳伺服器；用戶控件(可以收集更多信息)

以上都是可以搞定的，道高一尺魔高一丈

手機板的請求抓取:裝模擬器=>電腦抓包Fiddler

下載html(HttpWebRequest)

語法產生器:http://tool.sufeinet.com/HttpHelper.aspx

string html = string.Empty;

HttpWebRequest request = HttpWebRequest.Create(url) as HttpWebRequest;//模擬請求
request.Timeout = 30 * 1000;//設置30s超時
request.UserAgent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36";//pc瀏覽器
//request.UserAgent = "Ruanmou Crawler";
//request.UserAgent = "Mozilla / 5.0(iPhone; CPU iPhone OS 7_1_2 like Mac OS X) App leWebKit/ 537.51.2(KHTML, like Gecko) Version / 7.0 Mobile / 11D257 Safari / 9537.53";//手機板瀏覽器
request.ContentType = "text/html; charset=utf-8";// "text/html;charset=gbk";// 
request.Host = "www.jd.com";

request.Headers.Add("Cookie", @"newUserFlag=1; guid=YFT7C9E6TMFU93FKFVEN7TEA5HTCF5DQ26HZ; gray=959782; cid=av9kKvNkAPJ10JGqM_rB_vDhKxKM62PfyjkB4kdFgFY5y5VO; abtest=31; _ga=GA1.2.334889819.1425524072; grouponAreaId=37; provinceId=20; search_showFreeShipping=1; rURL=http%3A%2F%2Fsearch.yhd.com%2Fc0-0%2Fkiphone%2F20%2F%3Ftp%3D1.1.12.0.73.Ko3mjRR-11-FH7eo; aut=5GTM45VFJZ3RCTU21MHT4YCG1QTYXERWBBUFS4; ac=57265177%40qq.com; msessionid=H5ACCUBNPHMJY3HCK4DRF5VD5VA9MYQW; gc=84358431%2C102362736%2C20001585%2C73387122; tma=40580330.95741028.1425524063040.1430288358914.1430790348439.9; tmd=23.40580330.95741028.1425524063040.; search_browse_history=998435%2C1092925%2C32116683%2C1013204%2C6486125%2C38022757%2C36224528%2C24281304%2C22691497%2C26029325; detail_yhdareas=""; cart_cookie_uuid=b64b04b6-fca7-423b-b2d1-ff091d17e5e5; gla=20.237_0_0; JSESSIONID=14F1F4D714C4EE1DD9E11D11DDCD8EBA; wide_screen=1; linkPosition=search");

//request.Headers.Add("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8");
//request.Headers.Add("Accept-Encoding", "gzip, deflate, sdch");
//request.Headers.Add("Referer", "http://list.yhd.com/c0-0/b/a-s1-v0-p1-price-d0-f0-m1-rt0-pid-mid0-kiphone/");
request.Method = "GET";
//Encoding enc = Encoding.GetEncoding("GB2312"); // 如果是亂碼就改成 utf-8 / GB2312

#region Post
//int sort = 2;//人數
//string dataString = string.Format("k={0}&n=24&st={1}&iso=0&src=1&v=4093&p={2}&isRecommend=false&city_id=0&from=1&ldw=1361580739", keyword, sort, 1);
//Encoding encoding = Encoding.UTF8;//根據網站編碼自訂義
//byte[] postData = encoding.GetBytes(dataString);
//request.ContentLength = postData.Length;
//Stream requestStream = request.GetRequestStream();
//requestStream.Write(postData, 0, postData.Length);
#endregion

Encoding enc = Encoding.UTF8;//.GetEncoding("GB2312");
using (HttpWebResponse response = request.GetResponse() as HttpWebResponse)//發起請求
{
    if (response.StatusCode != HttpStatusCode.OK)
    {
        logger.Warn(string.Format("抓取{0}地址返回失敗,response.StatusCode為{1}", url, response.StatusCode));
    }
    else
    {
        try
        {
            StreamReader sr = new StreamReader(response.GetResponseStream(), enc);
            html = sr.ReadToEnd();//讀取數據
            sr.Close();
        }
        catch (Exception ex)
        {
            logger.Error(string.Format($"DownloadHtml抓取{url}失敗"), ex);
            html = null;
        }
    }
}
return html

日誌紀錄(Log4Net)

參考資料
 參考資料2

log4net.cfg設定檔

<?xml version="1.0" encoding="utf-8"?>
<log4net>
  <!-- Define some output appenders -->
  <appender name="rollingAppender" type="log4net.Appender.RollingFileAppender">
    <file value="log\log.txt" />

    <!--追加日誌內容-->
    <appendToFile value="true" />

    <!--防止多線程時不能寫Log,官方說線程非安全-->
    <lockingModel type="log4net.Appender.FileAppender+MinimalLock" />

    <!--可以為:Once|Size|Date|Composite-->
    <!--Composite為=為Size和Date的組合-->
    <rollingStyle value="Composite" />

    <!--當備份文件時,為文件名加的後綴-->
    <datePattern value="yyyyMMdd.TXT" />

    <!--日誌最大個數,都是最新的-->
    <!--rollingStyle節點為Size時,只能有value個日誌-->
    <!--rollingStyle節點為Composite時,每天有value個日誌-->
    <maxSizeRollBackups value="20" />

    <!--可用的單位:KB|MB|GB-->
    <maximumFileSize value="3MB" />

    <!--設置為true,當前最新日誌文件名永遠為file節中的名字-->
    <staticLogFileName value="true" />

    <!--輸出級別在INFO和ERROR之間的日誌-->
    <filter type="log4net.Filter.LevelRangeFilter">
      <param name="LevelMin" value="INFO" />
      <param name="LevelMax" value="FATAL" />
    </filter>

    <layout type="log4net.Layout.PatternLayout">
      <conversionPattern value="%date [%thread] %-5level %logger - %message%newline"/>
    </layout>
  </appender>

  <!-- levels: OFF > FATAL > ERROR > WARN > INFO > DEBUG  > ALL -->
  <root>
    <priority value="ALL"/>
    <level value="ALL"/>
    <appender-ref ref="rollingAppender" />
  </root>
</log4net>

Log Level的等級
OFF > FATAL > ERROR > WARN > INFO > DEBUG > ALL

初始化

static Logger()
{
    XmlConfigurator.Configure(new FileInfo(Path.Combine(AppDomain.CurrentDomain.BaseDirectory, "CfgFiles\\log4net.cfg.xml")));
    ILog Log = LogManager.GetLogger(typeof(Logger));
    Log.Info("系統初始化Logger模塊");
}

private ILog loger = null;
public Logger(Type type)
{
    loger = LogManager.GetLogger(type);
}

紀錄log的方式
使用log選擇要紀錄的等級

loger.Error(msg, ex);
loger.Warn(msg);
loger.Info(msg);
loger.Debug(msg);

解析HTML資料(HtmlAgiliytyPack)

通常在解析HttpWebRequest下載回來的HTML資料有兩種方式:

透過正則表達式搭配Substring/indexof/replace
HtmlAgiliytyPack；基於Xpath解析

Xpath

參考資料

什麼是XPath
XPath (XML Path Language) 是一種用來尋找XML文件中某個節點(node)位置的查詢語言。

XPath使用類似路徑的語法來尋找節點。

XPath一共有七種節點：element, attribute, text, namespace, processing-instruction, comment, document

XML文件是由許多節點組成的樹狀結構，最上層的結點稱作root element

再透過XPath Helper 套件，可以驗證剛剛複製的XPath的路徑，是否正確
📷

HtmlAgiliytyPack用法

新增HtmlDocument物件
使用LoadHtml存進HtmlDocument物件
使用SelectNodes找尋Xpath節點內容

public void Crawl()
{
    //下載HTML
    string html = HttpHelper.DownloadHtml("https://www.jd.com/allSort.aspx");
    if (string.IsNullOrEmpty(html))
    {
        //需要重試。記錄下來
    }
    HtmlDocument document = new HtmlDocument();
    document.LoadHtml(html);
    {
        //Xpath路徑
        string secondPath = "//dl/dt/a";
        HtmlNodeCollection nodeList = document.DocumentNode.SelectNodes(secondPath);//找多個節點
        if (nodeList != null)
        {
            foreach (HtmlNode node in nodeList)
            {
                string url = node.Attributes["href"].Value;
                string name = node.InnerText;
            }
        }
    }          
}

參考資料

XPath 套件介紹

[爬蟲]看臉時代下載器-爬蟲篇

本篇已同步發表至個人部落格
https://moushih.com/2022ithome26/

鐵人賽文章

https://ithelp.ithome.com.tw/articles/10298693

#IT鐵人賽

#爬蟲

#Chsarp

留言

一代軍師

8會員

39內容數

我是這個部落格的作者，喜歡分享有關投資 💰、軟體開發 💻、占卜 🔮 和虛擬貨幣 🚀 的知識和經驗。

一代軍師的其他內容

2024/02/12

「教學」奇門遁甲盤面解析：掌握其基礎要素

盤面基本組成要素十天干：甲乙丙丁戊己庚辛壬癸十二地支：子丑寅卯辰巳午未申酉戌亥五行：木、火、土、金、水八門：休、生、傷、杜、景、死、驚、開八神：符、蛇、陰、合、虎、武、九、天九星：蓬、任、沖、輔、英、芮、柱、心、禽八卦：坎、艮、震、兌、離、坤、乾六個旬首：甲子戊、甲戊

2024/02/12

「教學」奇門遁甲盤面解析：掌握其基礎要素

2023/10/22

Drawmind 畫鏡｜從畫中看到內在｜成為自己的療癒師，公益平台

Drawmind 畫鏡主要目的是透過藝術治療，幫助個人減輕情感壓力、提升心理健康，並提供一個具有專業指導的平台，讓用戶進行情感表達、自我探索和康復。

2023/10/22

Drawmind 畫鏡｜從畫中看到內在｜成為自己的療癒師，公益平台

2023/08/14

八字、紫微斗數、奇門遁甲，差異解析

原理八字八字不等於出生時間八字是根據每個兩小時為一個單位的時辰來劃分的。它包括年、月、日和時這四個要素，其中年、月、日分別對應天干地支。即使缺少具體出生時刻，也仍然可以排出命盤進行分析。紫微斗數需要精確的出生的小時數，因為出生時間的稍微差異呈現出來的命盤會有天差地別，從而

2023/08/14

八字、紫微斗數、奇門遁甲，差異解析

看更多

你可能也想看

方格子 vocus 官方沙龍

新成員登場 ✨「野格團」持續召募中，歡迎加入創作的集體派對 .ᐟ.ᐟ.ᐟ

創作不只是個人戰，在 vocus ，也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」，現在有了更強大的新夥伴加入！除了大家熟悉的「官方主題沙龍」，這次我們徵召了 8 位領域各異的「個人主題專家」，將再度嘗試創作的各種可能，和格友們激發出更多未知的火花。

#創作#創作者推薦#靈感

2026/03/24

方格子 vocus 官方沙龍

新成員登場 ✨「野格團」持續召募中，歡迎加入創作的集體派對 .ᐟ.ᐟ.ᐟ

#創作#創作者推薦#靈感

2026/03/24

方格子 vocus 官方沙龍

【野格團開箱｜下篇】新血全線集結！5 題靈魂拷問，解鎖「個人主題專家」的創作原力💫

看完上篇 4 位新成員的靈魂拷問，是不是意猶未盡？別急，野格團新血的驚喜正接著登場！今天下篇接力的另外 4 位「個人主題專家」，戰力同樣驚人──領域從旅行美食、運動、商業投資到自我成長；這些人如何維持長跑般的創作動力？在爆紅的文章背後，又藏著哪些不為人知的洞察？5 大靈魂拷問繼續出擊

#創作#創作者推薦#靈感

2026/03/25

方格子 vocus 官方沙龍

【野格團開箱｜下篇】新血全線集結！5 題靈魂拷問，解鎖「個人主題專家」的創作原力💫

#創作#創作者推薦#靈感

2026/03/25

月染墨江的情事花園

抓到盜文是從哪裡流出了

　　自從之前發現被對岸網站盜文，就決定在文章中間或末端加上一些文字聲明。由於我連載的平台有好幾個，所以花了一些時間，把每一個平台的每一篇文全都加上聲明，想藉此查看盜文都是從哪個連載平台盜的﹙雖然本來我心裡就有底了，但總要有證據嘛﹚。　　而且，因為怕盜文時設有自動屏蔽、替換功能，我還特地將文字聲明

2024/07/22

2024/07/22

筆者最近和同行討論，關於駭客找尋目標的方法。其實近十年駭客對於選擇目標的方式其實已經變得很難猜測。一般人會想到，駭客一定是會選擇一些利潤大的目標，如銀行、虛擬資產平台等等。但是不要忘記，這些財力雄厚的公司當然也知道自己是很容易成為目標，所以他們的防線也不是容易擊破的。

2024/01/29

2024/01/29

在使用網頁爬蟲之前，首先確定爬下來的資料，是否符合著作權法的合理使用規範；其次，如果爬下來的資料涉及他人個資，最好是取得同意後再使用；再者，如果爬下來的資料是事業競爭對手的資料，則是能免則免。

2023/02/12

2023/02/12

【爬蟲系列】Facebook 爬蟲：Facebook scraper 套件介紹

Facebook 時常改版、限制多，要找到一個適合、好用且簡單上手的工具相當困難，否則就要自己寫龐大的程式爬蟲。本篇介紹簡單好用的 facebook-scraper 套件幫助你順利爬蟲。

#facebook#scraper#程式學習

2023/01/22

【爬蟲系列】Facebook 爬蟲：Facebook scraper 套件介紹

#facebook#scraper#程式學習

2023/01/22

一代軍師

玩轉C#之【爬蟲】

介紹基礎概念爬蟲其實就是一個自動提取網頁的程式程式基本運作:Url開始-->分析獲取數據&找到Url-->遞迴下去-->結束分析獲取數據運作:下載html--解析獲取數據--數據保存爬蟲可以做哪些事情? 數據為王：抓小說數據，做個內容站；電影/動漫下載站抓圖片政府的公開招標數據，每天

2022/10/10

2022/10/10

在資訊性的時代，幾乎每個企業都有自己的網站，提供最大價值及免費的資訊吸引受眾及潛在客戶，從而提高曝光率及點擊率，有助將其轉換成銷量。若資訊安全的預防措施不足，容易受到網絡攻擊及內部安全問題。在這情況下更顯得網站漏洞掃描對企業的重要性，下文會為大家一一講解網站漏洞掃描。為什麼企業需要網站漏洞掃描？

#Cybersecuritysolutions #Websitevulnerabilityscan #信息安全

2022/06/09

christy tsang的沙龍

網站漏洞掃描對企業的重要性

#Cybersecuritysolutions #Websitevulnerabilityscan #信息安全

2022/06/09

2022/05/28

2022/05/28

你的資料如何被偷走？ Web安全篇 - 跨站請求偽造(CSRF )

互聯網的時代中我們幾乎都離不開網路，那如果能夠對於Web具備基礎的知識，就能夠讓我們在使用網路的過程中提升風險意識，以減少被竊取、盜用的風險，進而保護個人資產，因此多一份知識在身上也就等於多了一份防身的武器，一天學一點，透過微習慣讓我們享受複利的效應。 CRSF攻擊示意圖如何防範CSRF？

#web

2022/02/26

阿Han的沙龍

你的資料如何被偷走？ Web安全篇 - 跨站請求偽造(CSRF )

#web

2022/02/26

張維元的沙龍

爬蟲又被擋了怎麼辦？常見的反爬蟲處理策略

資料爬蟲是資料分析的起手式，必須有好的、可用的資料才得以進行高品質的資料科學專案，爬蟲也是資料科學領域開發者的第一項挑戰。但是當你學完爬蟲的技術之後，開始真的跳入爬蟲世界之後會發現有網站其實沒有想像中好爬。當自動

2021/09/12

張維元的沙龍

爬蟲又被擋了怎麼辦？常見的反爬蟲處理策略

2021/09/12

Vic Lin的沙龍

Cross-Site Scripting 攻擊

Cross-Site Scripting簡稱XSS，它指的是駭客在網頁裡插入惡意程式碼，當其他user瀏覽該網頁時，惡意網頁程式碼就會被執行。

#CrossSiteScripting#XSS

2020/10/11

Vic Lin的沙龍

Cross-Site Scripting 攻擊

Cross-Site Scripting簡稱XSS，它指的是駭客在網頁裡插入惡意程式碼，當其他user瀏覽該網頁時，惡意網頁程式碼就會被執行。

#CrossSiteScripting#XSS

2020/10/11

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News