4000-618-418

教你使用Python玩转MySQL数据库,大数据导入不再是难题!

2020年03月31日

数据分析离不开数据库,如何使用python连接MySQL数据库,并进行增删改查操作呢?

我们还会遇到需要将大批量数据导入数据库的情况,又该如何使用Python进行大数据的高效导入呢?

本文会一一讲解,并配合代码和实例。

一、背景

我是在Anaconda notebook中进行连接实验的,环境Python3.6,当然也可以在Python Shell里面进行操作。

最常用也最稳定的用于连接MySQL数据库的python库是PyMySQL。

所以本文讨论的是利用PyMySQL连接MySQL数据库,进行增删改查操作,以及存储大批量数据。

方法参考PyMySQL官方文档和《python数据采集》关于数据存储的部分。

欢迎大家去阅读原文档,相信会理解的更加透彻。

二、基本操作

1、安装PyMySQL库

最简单的方式:

在命令行输入 pip install pymysql

或者:

下载whl文件[1]进行安装,安装过程自行百度。

2、安装MySQL数据库

MySQL数据库有两种:

MySQLMariaDB

我用的是MariaDB,它是MySQL的一个分支。

两者在绝大部分性能上是兼容的,使用起来感觉不到啥区别。

给出下载地址:MySQL[2]MariaDB[3],安装过程很简单,一路Next Step,不过要记好密码。

有个小插曲,MySQL和MariaDB相当于姐姐妹妹的关系,两者由同一个人(Widenius)创建的。

MySQL被Oracle收购后,Widenius先生觉得不爽,于是搞了个MariaDB,可以完全替代MySQL。

大牛就是任性。

3、SQL基本语法

下面要用SQL的表创建、查询、数据插入等功能,这里简要介绍一下SQL语言的基本语句。

4、连接数据库

安装好必要得文件和库后,接下来正式开始连接数据库吧,虽然神秘却不难哦!

#首先导入PyMySQL库importpymysql#连接数据库,创建连接对象connection#连接对象作用是:连接数据库、发送数据库信息、处理回滚操作(查询中断时,数据库回到最初状态)、创建新的光标对象connection=pymysql.connect(host='localhost'#host属性user='root'#用户名password='******'#此处填登录数据库的密码db='mysql'#数据库名)

执行这段代码就连接好了!

5、增删改查操作

首先来查看一下有哪些数据库:

#创建光标对象,一个连接可以有很多光标,一个光标跟踪一种数据状态。#光标对象作用是:、创建、删除、写入、查询等等cur=connection.cursor()#查看有哪些数据库,通过cur.fetchall()获取查询所有结果print(cur.fetchall())

打印出所有数据库:

(('information_schema',),('law',),('mysql',),('performance_schema',),('test',))

在test数据库里创建表:

#使用数据库testcur.execute('USEtest')#在test数据库里创建表student,有name列和age列cur.execute('CREATETABLEstudent(nameVARCHAR(20),ageTINYINT(3))')

向数据表student中插入一条数据:

sql='INSERTINTOstudent(name,age)VALUES(%s,%s)'cur.execute(sql,('XiaoMing',23))

查看数据表student内容:

cur.execute('SELECT*FROMstudent')print(cur.fetchone())

打印输出为:('XiaoMing', 23)

Bingo!是我们刚刚插入的一条数据

最后,要记得关闭光标和连接:

#关闭连接对象,否则会导致连接泄漏,消耗数据库资源connection.close()#关闭光标cur.close()

OK了,整个流程大致如此。

当然这里都是很基础的操作,更多的使用方法需要在PyMySQL官方文档[4]里去寻找。

三、导入大数据文件

以csv文件为例,csv文件导入数据库一般有两种方法:

1、通过SQL的insert方法一条一条导入,适合数据量小的CSV文件,这里不做赘述。

2、通过load data方法导入,速度快,适合大数据文件,也是本文的重点。

样本CSV文件如下:

q82zgsyfxo.png

总体工作分为3步:

1、用python连接mysql数据库;

2、基于CSV文件表格字段创建表;

3、使用load data方法导入CSV文件内容。

sql的load data语法简介:

LOADDATALOCALINFILE'csv_file_path'INTOTABLEtable_nameFIELDSTERMINATEDBY','LINESTERMINATEDBY'\\r\\n'IGNORE1LINES

csv_file_path 指文件绝对路径
table_name指表名称
FIELDS TERMINATED BY ','指以逗号分隔
LINES TERMINATED BY '\\r\\n'指换行
IGNORE 1 LINES指跳过第一行,因为第一行是表的字段名

下面给出全部代码:

#导入pymysql方法importpymysql#连接数据库config={'host':'','port':3306,'user':'username','passwd':'password','charset':'utf8mb4','local_infile':1}conn=pymysql.connect(**config)cur=conn.cursor()#load_csv函数,参数分别为csv文件路径,表名称,数据库名称defload_csv(csv_file_path,table_name,database='evdata'):#打开csv文件file=open(csv_file_path,'r',encoding='utf-8')#读取csv文件第一行字段名,创建表reader=file.readline()b=reader.split(',')colum=''forainb:colum=colum+a+'varchar(255),'colum=colum[:-1]#编写sql,create_sql负责创建表,data_sql负责导入数据create_sql='createtableifnotexists'+table_name+''+'('+colum+')'+'DEFAULTCHARSET=utf8'data_sql="LOADDATALOCALINFILE'%s'INTOTABLE%sFIELDSTERMINATEDBY','LINESTERMINATEDBY'\\r\\n'IGNORE1LINES"%(csv_filename,table_name)#使用数据库cur.execute('use%s'%database)#设置编码格式cur.execute('SETNAMESutf8;')cur.execute('SETcharacter_set_connection=utf8;')#执行create_sql,创建表cur.execute(create_sql)#执行data_sql,导入数据cur.execute(data_sql)conn.commit()#关闭连接conn.close()cur.close()

参考资料

[1]whl文件: https://link.zhihu.com/?target=https%3A//pypi.org/project/PyMySQL/

[2]MySQL: https://link.zhihu.com/?target=https%3A//www.mysql.com/downloads/

[3]MariaDB: https://link.zhihu.com/?target=https%3A//downloads.mariadb.org/

[4]PyMySQL官方文档: https://link.zhihu.com/?target=http%3A//pymysql.readthedocs.io/en/latest/

-END-


上一篇:网站安装SSL证书对SEO有哪些影响

下一篇:SSL证书是什么?SSL证书有什么作用?