scrapy数据存储在mysql数据库的两种方式(同步和异步)-kb88凯时官网登录

时间：2020-02-24

阅读：

方法一：同步操作

1.pipelines.py文件（处理数据的python文件）

import pymysql
 
class lvyoupipeline(object):
  def __init__(self):
    # connection database
    self.connect = pymysql.connect(host='xxx', user='root', passwd='xxx', db='scrapy_test') # 后面三个依次是数据库连接名、数据库密码、数据库名称
    # get cursor
    self.cursor = self.connect.cursor()
    print("连接数据库成功")
 
  def process_item(self, item, spider):
    # sql语句
    insert_sql = """
    insert into lvyou(name1, address, grade, score, price) values (%s,%s,%s,%s,%s)
    """
    # 执行插入数据到数据库操作
    self.cursor.execute(insert_sql, (item['name'], item['address'], item['grade'], item['score'],
                     item['price']))
    # 提交，不进行提交无法保存到数据库
    self.connect.commit()
 
  def close_spider(self, spider):
    # 关闭游标和连接
    self.cursor.close()
    self.connect.close()

2.配置文件中

方式二异步储存

pipelines.py文件：

通过twisted实现数据库异步插入，twisted模块提供了 twisted.enterprise.adbapi

　　1. 导入adbapi

　　2. 生成数据库连接池

　　3. 执行数据数据库插入操作

　　4. 打印错误信息，并排错

import pymysql
from twisted.enterprise import adbapi
# 异步更新操作
class lvyoupipeline(object):
  def __init__(self, dbpool):
    self.dbpool = dbpool
 
  @classmethod
  def from_settings(cls, settings): # 函数名固定，会被scrapy调用，直接可用settings的值
    """
    数据库建立连接
    :param settings: 配置参数
    :return: 实例化参数
    """
    adbparams = dict(
      host=settings['mysql_host'],
      db=settings['mysql_dbname'],
      user=settings['mysql_user'],
      password=settings['mysql_password'],
      cursorclass=pymysql.cursors.dictcursor  # 指定cursor类型
    )
 
    # 连接数据池connectionpool，使用pymysql或者mysqldb连接
    dbpool = adbapi.connectionpool('pymysql', **adbparams)
    # 返回实例化参数
    return cls(dbpool)
 
  def process_item(self, item, spider):
    """
    使用twisted将mysql插入变成异步执行。通过连接池执行具体的sql操作，返回一个对象
    """
    query = self.dbpool.runinteraction(self.do_insert, item) # 指定操作方法和操作数据
    # 添加异常处理
    query.addcallback(self.handle_error) # 处理异常
 
  def do_insert(self, cursor, item):
    # 对数据库进行插入操作，并不需要commit，twisted会自动commit
    insert_sql = """
    insert into lvyou(name1, address, grade, score, price) values (%s,%s,%s,%s,%s)
    """
    self.cursor.execute(insert_sql, (item['name'], item['address'], item['grade'], item['score'],
                         item['price']))
 
  def handle_error(self, failure):
    if failure:
      # 打印错误信息
      print(failure)

注意：

1、python 3.x 不再支持mysqldb，它在py3的替代品是： import pymysql。

2、报错pymysql.err.programmingerror: (1064, ……

原因：当item['quotes']里面含有引号时，可能会报上述错误

解决办法：使用pymysql.escape_string()方法

例如：

sql = """insert into video_info(video_id, title) values("%s","%s")""" % (video_info["id"],pymysql.escape_string(video_info["title"]))

3、存在中文的时候，连接需要添加charset='utf8'，否则中文显示乱码。

4、每执行一次爬虫，就会将数据追加到数据库中，如果多次的测试爬虫，就会导致相同的数据不断累积，怎么实现增量爬取？

scrapy-deltafetch
scrapy-crawl-once（与1不同的是存储的数据库不同）
scrapy-redis
scrapy-redis-bloomfilter(3的增强版，存储更多的url,查询更快)

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

mysql

安装mysql报错[note] rsa private key file not found: /db/mysql5.6/data//private_key.pem. some authentication plugins will not work.[note] rsa public key file not

2023-05-28 10:38:29

　mysql 浮点型数据类型　　浮点型声明:float(m,d) double(m,d)　　decimal(m,d) m:总位数 d:小数位数　mysql>create table stu(　　num1 float(5,2),　　num2 double(6,1)

2023-05-28 10:37:41

一、背景我是在anaconda notebook中进行连接实验的，环境python3.6，当然也可以在python shell里面进行操作。最常用也最稳定的用于连接mysql数据库的python库是pymysql。二、基

2023-05-26 15:19:21

redis三种集群方式：主从复制，哨兵模式，cluster集群。主从复制基本原理当新建立一个从服务器时，从服务器将向主服务器发送sync命令，接收到sync命令后的主服务器会进行一次bgsave命

2023-05-26 15:19:06

mysql存储函数（自定义函数），函数一般用于计算和返回一个值，可以将经常需要使用的计算或功能写成一个函数。存储函数和存储过程一样，都是在数据库中定义一些 sql 语句的集合。存储

2023-05-26 15:18:53

mysql常用函数一、数字函数附加：ceil(x) 如ceil(1.23) 值为2 可以写成ceiling(x)二、字符串函数划线就是常用的(取字节数)附加：char_length字符（查询名字后三位数的）如：char_le

2023-05-26 15:18:38

hour(time)select hour(‘11:22:33') select hour(‘2016-01-16 11:22:33')-> 11-> 11返回该date或者time的hour值，值范围（0-23）

2023-05-26 15:18:27

为什么redis要设置密码？内网环境可以不设置密码，但是个人服务器，以及线上公网服务器就有必要设置密码了。昨天我检查了一下minio在redis中的事件通知，当我查看redis的key时，发现

2023-05-26 15:18:09

一、基本概念（查询语句）①基本语句1、“select * from 表名;”，—可查询表中全部数据；
2、“select 字段名 from 表名;”，—可查询表中指定字段的

2023-05-26 15:17:48

本文redis试验代码基于如下环境：操作系统：mac os 64位版本：redis 5.0.7 64 bit运行模式：standalone moderedis位操作reids位操作也叫位数组操作、bitmap，它提供了setbit、getbit

2023-05-26 15:17:33

1.概述在应用系统开发过程中，由于初期数据量小，开发人员写sql语句时更重视功能上的实现，但是当应用系统正式上线后，随着生产数据量的急剧增长，很多sql语句开始逐渐显露出性能问题

2023-05-26 15:17:18

1、配置主数据库主master : 192.168.1.132从slave : 192.168.1.1331)授权给从数据库grant replication slave on *.* to 'repl'@'192.168.1.132' identifie

2023-05-26 15:17:02

一、功能概览键空间通知使得客户端可以通过订阅频道或模式，来接收那些以某种方式改动了 redis key变化的事件。所有修改key键的命令。所有接收到 lpush key value [value &

2023-05-26 15:16:46

1 问题描述docker启动mysql容器后，创建一个localhost访问的用户：create user test@localhost identified by 'test';但是在宿主机中无法通过该用户登录：mycli -u test2

2023-05-26 15:16:31

1、表锁表锁是指锁定时锁定整个表，下一个事务访问该表时，必须等到上一个事务解除锁定后再访问表特点为粒度大，锁定简单，容易冲突。2、行锁是指锁定时锁定的是表的某行或多行记录

2023-05-26 15:16:19

1.查看原先路径◼ 打开 mysql 8.0 command line client◼ 输入 show variables like '�tadir%'; （分号不能丢）2.停止mysql(1)方法1：◼ 以管理员身份运行命令提示符wi

2023-05-26 15:16:01

结论（具体测试数据请往下看）1、start—end总体保持着顺序就没问题2、按照顺序，即便start < -n或者end > n-1也能查询出数据3、特殊用法：通过stringredistemplate.opsforlis

2023-05-26 15:15:44

mysql连接数是指数据库最多能够同时接受的客户连接数。mysql连接数是一个必须要考虑到的组件，它可以在帮助数据库能够安全运行的同时，最大化数据库当前的性能；mysql连接数是一

2023-05-26 15:15:29

count 作用count(expression)：返回查询的记录总数，expression 参数是一个字段或者 * 号。测试mysql版本：5.7.29创建一张用户表，并插入一百万条数据，其中gender字段有五十万行是为

2023-05-26 15:15:13

一、手动搭建1. 准备节点centos7 安装 redis节点数量至少为 6 个才能保证组成完整高可用的集群(1) 目录结构cluster├── 9001│ ├── data│ │ ├── appendonl

2023-05-26 15:14:57

在使用此类之前，可以普及两点知识：php中使用静态的调用，不同于其他编程语言，它的静态调用为：类名::$静态属性类名::静态方法()而java、c#等编程语言都是通过：类名.静态属性类名.静

2023-05-26 15:14:42

一、创建一个maven项目二、导入坐标在pom.xml加入如下坐标，并且点击右上角刷新。 org.springframework

2023-05-26 15:14:26

说明1、mysql中的逻辑备份是将数据库中的数据备份为一个文本文件，备份的文件可以被查看和编辑。2、可以使用mysqldump工具来完成逻辑备份。如果没有指定数据库中的任何表，默认

2023-05-26 15:14:13

什么是redis内存碎片？操作系统的剩余空间总量足够，但申请一块n字节连续地址的空间时，剩余内存空间中没有大小为n字节的连续空间，那么这些剩余内存空间中，小于n字节的连续内存空间

2023-05-26 15:14:00

本文基于社区版redis 4.0.81、命令解析redis服务器接收到的命令请求首先存储在客户端对象的querybuf输入缓冲区，然后解析命令请求的各个参数，并存储在客户端对象的argv和argc

2023-05-26 15:13:42

引言mysql数据库读写分离，是提高服务质量的常用手段之一，而对于技术方案，有很多成熟开源框架或方案，例如：sharding-jdbc、spring中的abstractroutingdatasource、mysql-router等，

2023-05-26 15:13:25

一、mysql时间戳介绍mysql中的时间戳（timestamp）是一种数据类型，用于表示某个事件发生的精确时间。它经常被用来记录数据的创造时间和更新时间，以及其他与时间有关的操作。mysql

2023-05-26 15:13:13

1.下载redisdesktopmanager直接去d88尊龙官网手机app官网或者csdn上搜就行2.安装redisdesktopmanager傻瓜式安装，一直点next就行安装完成后就是这样3.建立远程连接开始连接之前需要以下准备工作

2023-05-26 15:12:55

前言特点：在双主配置中，两台mysql互为主从节点。节点a和节点b互为主节点。安装mysql步骤略过一、mysql配置文件（1）节点a配置# 设置server-id，两节点必须不一样server-id = 100 #

2023-05-26 15:12:39

一、连接mysql以java开发常用的intellij idea为例，ide开发工具中也可以使用mysql。1. 打开idea，右上角有数据库侧边栏，打开侧边栏点击加号->数据源，可以看到支持很多数据库，选择m

2023-05-26 15:12:15

d88尊龙官网手机app官网下载安装包：mysql-8.0.19-linux-glibc2.12-x86_64.tar.xz安装环境：centos linux release 7.5.1804 (core)解压安装包：xz -d mysql-8.0.19-linux-glibc2.12-x86_64.tar.xzta

2020-02-24 20:33:40

本文实例讲述了centos7环境下源码安装mysql5.7.16的方法。分享给大家供大家参考，具体如下：一、下载源码包下载mysql源码包http://mirrors.sohu.com/mysql/mysql-5.7/mysql-5.7

2020-02-24 20:31:57

本文实例讲述了centos7环境下二进制安装包安装 mysql5.6的方法。分享给大家供大家参考，具体如下：centos7 二进制安装包安装 mysql5.6一、下载mysql5.6二进制安装包http://mirr

2020-02-24 20:31:13

mysql创建表的sql语句mysql建表常用sql语句：连接：mysql -h主机地址 -u用户名－p用户密码（注:u与root可以不用加空格，其它也一样）断开：exit （回车）创建授权：grant select on 数据库.*

2020-02-24 15:52:37

mysql是主流的开源关系型数据库，提供高性能的数据存储服务。在做后端开发时，有时会遇到性能瓶颈，这些瓶颈有时并不是来自应用本身，而是来自数据库层面。所以所以掌握mysql的一些

2020-02-24 15:51:38

mysql中批量替换某个字段的部分数据，具体介绍如下所示：1.修改字段里的所有含有指定字符串的文字update 表a set 字段b = replace(字段b, 'aaa', 'bbb') examp

2020-02-24 12:25:11

[mysql]replace的用法（替换某字段部分内容）[mysql]replace的用法1.replace into replace into table (id,name) values('1','aa'),('2',

2020-02-24 12:24:36

下面我建两个表，并执行一系列sql语句，仔细观察sql执行后表中数据的变化，很容易就能理解多表联合更新的用法student表 class表1. 执行 update student s , class c set s.class_

2020-02-24 12:23:06

因为双十一购买了新的服务器，配置从原先的1c1g1m，升级到现在的2c4g5m，所以在搬家后也用上了更高版本的环境：linux 7.6 64位nginx 1.16.1php 7.3.1mysql 8.0也正因为高版本的mysq

2020-02-22 22:42:56

mysql like 子句我们知道在 mysql 中使用 sql select 命令来读取数据，同时我们可以在 select 语句中使用 where 子句来获取指定的记录。where 子句中可以使用等号 = 来设定

2020-02-22 22:02:20

2018-08-19

2020-03-22

2020-12-17

2020-03-22

2020-10-15

2020-03-22

2021-01-28

2021-01-21

2020-10-28

scrapy数据存储在mysql数据库的两种方式(同步和异步)-kb88凯时官网登录

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道