基于C#.NET+PhantomJS+Sellenium的高级网络爬虫程序。可执行Javascript代码、触发各类事件、操纵页面Dom结构、甚至可以移除不喜欢的CSS样式。

很多网站都用Ajax动态加载、翻页，比如携程网的评论数据。如果是用之前那个简单的爬虫，是很难直接抓取到所有评论数据的，我们需要去分析那漫天的Javascript代码寻找API数据接口，还要时刻提防对方增加数据陷阱或修改API接口地。

如果通过高级爬虫，就可以完全无视这些问题，无论他们如何加密Javascript代码来隐藏API接口，最终的数据都必要呈现在网站页面上的Dom结构中，不然普通用户也就没法看到了。所以我们可以完全不分析API数据接口，直接从Dom中提取数据，甚至都不需要写那复杂的正则表达式。

主要特性

支持Ajax请求事件的触发及捕获；
支持异步并发抓取；
支持自动事件通知；
支持代理切换;
支持操作Cookies；

运行截图

抓取酒店数据

抓取评论数据

示例代码

 /// 
    /// 抓取酒店评论
    /// 
	static void Main(string[] args)
    {
        var hotelUrl = "http://hotels.ctrip.com/hotel/434938.html";
        var hotelCrawler = new StrongCrawler();
        hotelCrawler.OnStart += (s, e) =>
        {
            Console.WriteLine("爬虫开始抓取地址：" + e.Uri.ToString());
        };
        hotelCrawler.OnError += (s, e) =>
        {
            Console.WriteLine("爬虫抓取出现错误：" + e.Uri.ToString() + "，异常消息：" + e.Exception.ToString());
        };
        hotelCrawler.OnCompleted += (s, e) =>
        {
            HotelCrawler(e);
        };
        var operation = new Operation
        {
            Action = (x) => {
                //通过Selenium驱动点击页面的“酒店评论”
                x.FindElement(By.XPath("//*[@id='commentTab']")).Click();
            },
            Condition = (x) => {
                //判断Ajax评论内容是否已经加载成功
                return x.FindElement(By.XPath("//*[@id='commentList']")).Displayed && x.FindElement(By.XPath("//*[@id='hotel_info_comment']/div[@id='commentList']")).Displayed && !x.FindElement(By.XPath("//*[@id='hotel_info_comment']/div[@id='commentList']")).Text.Contains("点评载入中");
            },
            Timeout = 5000
        };

        hotelCrawler.Start(new Uri(hotelUrl), null, operation);//不操作JS先将参数设置为NULL

        Console.ReadKey();
    }

github：https://github.com/microfisher/Strong-Web-Crawler

正文

c#打开浏览器并全屏（设置ie浏览器打开全屏）

主要特性

运行截图

示例代码

相关阅读

吉林三代试管婴儿价格明细详解,详细费用清单助您合理规划!

西安三代试管医院有哪些(正规助孕机构地址查询攻略)

呼和浩特试管助孕医院全攻略(权威机构推荐与费用解析)

合肥三代试管助孕机构口碑排名,三代试管婴儿选择自己的合适机构

目录[+]