利用IronPython做更灵活的网页爬虫

开发 后端
对于哪些经常要在网站上采集信息的人来说,有一个灵活的网页爬虫是非常必要的,本篇文章将介绍如何用IronPython在.NET中做一个更灵活的网页爬虫。

  我们经常需要去别的网站采集一些信息,.NET下所有相关的技术都已经非常成熟,用Webrequest抓取页面,虽然支持自定义Reference头,又支持cookie,解析页面一般都是用正则,但是对方网站结构一变,还得重新改代码,重新编译,发布。有了IronPython,可以把抓取和分析的逻辑做成Python脚本,如果对方页面结构变了,只需修改脚本就行了,不需重新编译软件,这样可以用c#做交互和界面部分,用Python封装预期经常变化的部分。

如何利用IronPython把抓取和分析的逻辑做成Python脚本
  安装好IronPython和vs.net 2010后,还需要下载一个SGMLReader(见参考链接),这个组件可以把格式不是很严格的HTML转换成格式良好的XML文件,甚至还能增加DTD的验证  
  我们以抓取百度贴吧页面为例,新建一个Console项目,引用IronPython,Microsoft.Dynamic,Microsoft.Scripting,SgmlReaderDll这些组件,把SGMLReader里的Html.dtd复制到项目目录下,如果没有这个,它会根据doctype去网络上找dtd,然后新建baidu.py的文件,最后在项目属性的生成事件里写上如下代码,把这两个文件拷贝到目标目录里。

  1. copy $(ProjectDir)\*.py $(TargetDir)  
  2. copy $(ProjectDir)\*.dtd $(TargetDir) 

  在baidu.py里首先引用必要的.net程序集。
  1. import clr, sys  
  2. clr.AddReference("SgmlReaderDll")  
  3. clr.AddReference("System.Xml")  

  完了导入我们需要的类
  1. from Sgml import *  
  2. from System.Net import *  
  3. from System.IO import TextReader,StreamReader  
  4. from System.Xml import *  
  5. from System.Text.UnicodeEncoding import UTF8  

  利用SgmlReader写一个把html转换成xml的函数,注意SystemLiteral属性必须设置,否则就会去网上找dtd了,浪费时间
  1. def fromHtml(textReader):      
  2. sgmlReader = SgmlReader()      
  3. sgmlReader.SystemLiteral = "html.dtd"    sgmlReader.WhitespaceHandling =WhitespaceHandling.All      
  4. sgmlReader.CaseFolding = CaseFolding.ToLower    sgmlReader.InputStream = textReader          
  5.  
  6.  
  7. doc = XmlDocument()      
  8. doc.PreserveWhitespace = True      
  9. doc.XmlResolver = None      
  10. doc.Load(sgmlReader)      
  11. eturn doc  

  利用webrequest写一个支持cookie和网页编码的抓网页方法
  1. def getWebData(url, method, data = None, cookie = None, encoding = "UTF-8"):      
  2.    req = WebRequest.Create(url)      
  3.    req.Method = method          
  4.    if cookie != None:          
  5.       req.CookieContainer = cookie          
  6.    if data != None:          
  7.       stream = req.GetRequestStream()          
  8.       stream.Write(data, 0, data.Length)              
  9.    rsp = req.GetResponse()      
  10.    reader = StreamReader(rsp.GetResponseStre(),            
  11.    UTF8.GetEncoding(encoding))            
  12.    return reader  

  写一个类来定义抓取结果,这个类不需要在c#项目里定义,到时候直接用c# 4.0的dynamic关键字就可以使用
  1. class Post:  
  2.     def __init__(self, hit, comments, title, link, author):  
  3.         self.hit = hit  
  4.         self.comments = comments   
  5.         self.title = title  
  6.         self.link = link  
  7.         self.author = author  

  定义主要工作的类,__init__大概相当于构造函数,我们传入编码参数,并初始化cookie容器和解析结果,[]是python里的列表,大约相当于c#的List
  1. class BaiDu:  
  2.     def __init__(self,encoding):  
  3.         self.cc = self.cc = CookieContainer()  
  4.              self.encoding = encoding 
  5.             self.posts = []     

  接下来定义抓取方法,调用getWebData抓网页,然后用fromHtml转换成xml,剩下的就是xml操作,和.net里一样,一看便知
  1. def getPosts(self, url):  
  2.         reader = getWebData(url, "GET", None, self.cc, self.encoding)  
  3.         doc = fromHtml(reader)  
  4.         trs = doc.SelectNodes("html//table[@id='thread_list_table']/tbody/tr")       
  5.         self.parsePosts(trs)  
  6.  
  7. def parsePosts(self, trs):  
  8.         for tr in trs:  
  9.             tds = tr.SelectNodes("td")  
  10.             hit = tds[0].InnerText  
  11.             comments = tds[1].InnerText  
  12.             title = tds[2].ChildNodes[1].InnerText  
  13.             link = tds[2].ChildNodes[1].Attributes["href"]   
  14.             author = tds[3].InnerText  
  15.  
  16.             post = Post(hit, comments, title, link, author)  
  17.             self.posts.append(post)  

  c#代码要创建一个脚本运行环境,设置允许调试,然后执行baidu.py,最后创建一个Baidu的类的实例,并用dynamic关键字引用这个实例
  1. Dictionary<stringobject> options = new Dictionary<stringobject>();      
  2.   options["Debug"] = true;            
  3.   ScriptEngine engine = Python.CreateEngine(options);            
  4.   ScriptScope scope = engine.ExecuteFile("baidu.py");            
  5.   dynamic baidu = engine.Operations.Invoke(scope.GetVariable("BaiDu"), "GBK");  

  接下来调用BaiDu这个python类的方法获取网页抓取结果,然后输出就可以了
  1. baidu.getPosts("http://tieba.baidu.com/f?kw=seo");             
  2.    dynamic posts = baidu.posts;          
  3.    foreach (dynamic post in posts)            
  4.  {                   
  5.      Console.WriteLine("{0} (回复数:{1})(点击数:{2})[作者:{3}]",                      
  6.      post.title,                  
  7.  post.comments,                     
  8.   post.hit,                   
  9.  post.author);           
  10.  }  
参考链接:

 【编辑推荐】

  1. 高性能ASP.NET站点构建之细节决定成败
  2. Mono 2010 跨平台的.NET运行环境发布了
  3. ASP.NET MVC 3 新特性全解析
  4. 手把手教你实现.NET程序打包
责任编辑:佚名 来源: 博客园
相关推荐

2011-02-23 09:48:00

Python.NET

2009-05-18 09:12:00

ASON自动交换光网络

2023-06-06 19:24:06

KubernetesSpark

2009-06-03 09:08:20

ScalaJava类型

2020-09-14 09:33:02

网络

2015-05-04 14:12:43

2017-07-18 06:08:41

2023-11-27 08:21:49

Camera2API,

2017-02-14 15:37:32

KappaLambda

2015-10-10 10:01:39

VMware数据中心

2023-12-05 10:25:24

Python类型注解

2020-10-28 15:17:08

Go服务超时net

2009-08-04 15:55:56

OracleEPMBI

2017-08-09 15:27:33

python爬虫开发工具

2009-10-15 09:32:39

什么是IronPythPython.NET

2020-11-11 10:58:59

Scrapy

2013-12-20 17:38:37

华为统一通信铁路

2021-06-14 07:39:13

比特币区块链加密货币

2013-07-22 14:10:46

点赞
收藏

51CTO技术栈公众号