–>

使用Scrapy将数据写入MySQL数据库

在网站爬取中，我们往往需要将所爬取到的数据存储到数据库中，以方便管理、统计及后续应用。MySQL是一款常用的关系型数据库，而Scrapy是一款强大的网络爬虫框架。在这篇文章中，我们将探讨如何使用Scrapy将数据存储到MySQL数据库中。

阅读更多：

安装MySQL驱动

在使用Scrapy的时候，需要使用Python支持MySQL的驱动。这里推荐使用PyMySQL，它是一个纯Python实现的MySQL驱动，安装方便，使用也很简单。

(adsbygoogle = window.adsbygoogle || []).push({});

在命令行中输入以下命令安装PyMySQL：

pip install pymysql

设置MySQL连接信息

在爬虫代码中，需要先设置MySQL的连接信息。例如下面这段代码，在settings.py文件中设置MySQL连接信息：

MYSQL_HOST = 'localhost'
MYSQL_PORT = 3306
MYSQL_USER = 'root'
MYSQL_PASSWORD = '123456'
MYSQL_DBNAME = 'mydatabase'

定义数据模型

在将数据存储到MySQL中之前，需要先定义好数据模型。一般来说，数据模型包括表名及各个字段的名称、类型及约束条件等。

下面这段代码是一个简单的数据模型定义示例：

class Product(Item):
    name = Field()
    price = Field()
    desc = Field()

其中，Product代表表名，name、price和desc是字段名称，Field()代表字段类型，可以是字符串、数字或日期等。

编写MySQL Pipeline

Pipeline是Scrapy的一个重要概念，它定义了一系列的数据处理操作，包括对数据的清洗、存储、过滤等。在这里，我们定义 Pipeline来存储所爬取的数据。

(adsbygoogle = window.adsbygoogle || []).push({});

下面这段代码是一个 Pipeline定义示例：

class MySQLPipeline(object):

    def __init__(self, host, port, username, password, database):
        self.host = host
        self.port = port
        self.username = username
        self.password = password
        self.database = database

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            host=crawler.settings.get('MYSQL_HOST'),
            port=crawler.settings.get('MYSQL_PORT'),
            username=crawler.settings.get('MYSQL_USER'),
            password=crawler.settings.get('MYSQL_PASSWORD'),
            database=crawler.settings.get('MYSQL_DBNAME')
        )

    def open_spider(self, spider):
        self.conn = pymysql.connect(
            host=self.host,
            port=self.port,
            user=self.username,
            password=self.password,
            db=self.database,
            charset='utf8'
        )
        self.cursor = self.conn.cursor()

    def close_spider(self, spider):
        self.conn.close()

    def process_item(self, item, spider):

         = 'INSERT INTO product (name, price, desc) VALUES (%s, %s, %s)'
        self.cursor.execute(, (item['name'], item['price'], item['desc']))
        self.conn.commit()

        return item

其中，MySQLPipeline继承自object，包含了以下4个方法：

init()：初始化函数，用于设置MySQL连接信息；
from_crawler()：从settings.py中获取MySQL连接信息；
open_spider()：爬虫启动时执行，建立数据库连接；
process_item()：处理item对象，将数据存储到MySQL数据库中；
close_spider()：爬虫关闭时执行，断开数据库连接。

启用Pipeline

在Spider中启用MySQL Pipeline很简单，只需要在settings.py文件中配置一下即可。如下：

ITEM_PIPELINES = {
    'myproject.pipelines.MySQLPipeline': 300,
}

这里的myproject.pipelines.MySQLPipeline是指MySQL Pipeline的路径，300是指处理优先级。需要注意的是，数字越小，处理优先级越高。

使用MySQL Pipeline

最后，在Spider中使用MySQL Pipeline的方式如下：

class MySpider(scrapy.Spider):
    name = "myspider"
   def start_requests(self):
        yield scrapy.Request(url='http://www.example.com', callback=self.parse)

    def parse(self, response):
        item = Product()
        item['name'] = 'Product 1'
        item['price'] = 100
        item['desc'] = 'This is product 1'

        yield item

这里我们只是简单地定义了一个Product对象，并将其存储到了MySQL数据库中。在实际场景中，我们需要通过爬虫从网站中获取数据，并将其存储到数据库中。

(adsbygoogle = window.adsbygoogle || []).push({});

总结

本文介绍了如何使用Scrapy将数据存储到MySQL数据库中，主要内容包括安装MySQL驱动、设置MySQL连接信息、定义数据模型、编写MySQL Pipeline、启用Pipeline以及使用MySQL Pipeline等。同时，还给出了相应的代码示例，供大家参考。希望这篇文章能对初学者的Scrapy爬虫编写有所帮助。