1.背景

用2个mysql表连接简单查询,表1数据量有8000,表2是20万。之前显示正常,现在查询很慢,尝试将left join语句写成2条,同样很慢,甚至会502挂掉。又尝试用云主机来执行语句,同样挂了。

2.解决方案

20万数据,话说应该轻松应对,为何会挂掉呢?发现表中没有索引,加上后,速度飞快,执行时间小于1秒。我惊讶差别这么大,那到底何时要加索引呢?

3.索引原理

索引用来快速地寻找那些具有特定值的记录,所有MySQL索引都以B-树的形式保存。如果没有索引,执行查询时MySQL必须从第一个记录开始扫描整个表的所有记录,直至找到符合要求的记录。表里面的记录数量越多,这个操作的代价就越高。如果作为搜索条件的列上已经创建了索引,MySQL无需扫描任何记录即可迅速得到目标记录所在的位置。如果表有1000个记录,通过索引查找记录至少要比顺序扫描记录快100倍。

假设创建了名为people的表:

CREATE TABLE people ( peopleid SMALLINT NOT NULL, name CHAR(50) NOT NULL );

然后,随机把1000个不同name值插入到people表。

可以看到,在数据文件中name列没有任何明确的次序。如果创建了name列的索引,MySQL将在索引中排序name列:

对于索引中的每一项,mysql在内部为它保存一个数据文件中实际记录所在位置的“指针”。因此,如果要查找name等于“Mike”记录的 peopleid,MySQL能够在name的索引中查找“Mike”值,然后直接转到数据文件中相应的行,准确地返回该行的 peopleid(999)。在这个过程中,MySQL只需处理一个行就可以返回结果。如果没有“name”列的索引,MySQL要扫描数据文件中的所有记录,即1000个记录!显然,需要MySQL处理的记录数量越少,则它完成任务的速度就越快。

4.什么时候加索引

频繁作为where条件后面的字段;

需要对字段进行 group by , order by;

DISTINCT需要创建索引;

多表连接时需要创建索引,注意,不要超过3张因为相当于n 个for循环,每多连接一次相当于加一次for循环,多表连接是需要类型一致(否则会自动类型转换导致索引失效) , 需要添加where过滤条件,否则数据量非常庞大;

使用类型长度小的创建索引;

使用字符串前缀创建索引;

区分度高(散列性高)的列适合作为索引;

使用最频繁的列放到联合索引的左侧;

多个where条件,联合索引优于单个索引, 只能使用一个索引查询B+Tree;

在varchar字段上建立索引时,必须指定索引长度,没必要对全字段建索引,根据实际文本区分度决定索引长度; 索引的长度与区分度是一对矛盾体,一般对字符串类型数据,长度为20的索引,区分度会高达90%以上 ,可以使用 count(distinct left(列名, 索引长度))/count(*)的区分度来确定。 此值越接近1 越好。

5.什么时候不加索引

在where中使用不到的字段,不要设置索引;

数据量小的表最好不要使用索引会拖慢查询速度或者优化器直接优化掉了;

有大量重复数据的列上不要建立索引,数据重复度大,比如高于10%的时候,也不需要对这个字段使用索引;

避免对经常更新的表创建过多的索引;

不建议用无序的值作为索引,插入数据会导致索引页分裂重新排序等;

删除不再使用或者很少使用的索引;

不要定义冗余或重复的索引。

6.缺点

索引会影响增删改操作的性能。一般情况下,一个表的索引,5个左右,具体的数量,可以进行实际的测试,如果索引多了,觉得插入慢,可以减少,或者合并索引。

6.1insert操作

insert的过程是,先把数据插入到表中,然后再把数据插入到相关索引中,如果这个表有5个索引,那么就得维护这5个索引,不管这个插入的数据是否为NULL值。

所以,索引个数越多,对于insert操作来说,维护的成本就越大,插入一条数据的速度也就越慢。

如果发现插入速度很慢,可以检查一下是否这个表的索引太多了。

把数据插入索引的过程中,为了维护索引中字段的顺序,会先在索引中查找这个值,如果能找到,就把这个值查到后面空闲的地方,如果没有找到,就先把值加入到叶子节点,然后在分支节点中新增这个值和指向叶子节点的指针(就是一个地址)。

在这个过程中,如果某个页满了,还要新申请一个空的页,把满的页拆分开,把一半的索引数据放到空闲页中,而且为了保证数据的一致性(这个插入操作是并发的,可能有几十上百个线程同时进行),会给相关的索引页加上闩锁(一种更低级别的内存锁)。

如此看来,这个过程的开销是很大的。

6.2delete操作

delete操作刚好和isnert相反,当删除一条数据时,会把这条数据涉及到的多个索引中的数据删除。

比如:A表包含字段 ID,name,age,memo,biz_date,storeID,employeeID,update_date等字段,在name、age、biz_date、storeID、employeeID字段上分别创建了索引,也就是总共有5个索引。

现在运行 delete from A where ID = 100

就得把ID=100的这条数据,在各个索引中删掉,开销要比insert小。

6.3update操作

不同于insert,delete,只有当update的这个字段,涉及到索引时,才需要维护索引,相对来说开销要小一些。

比如:update A set memo=‘备注信息’ where ID = 100,因为更新的memo字段上并没有索引,所以不需要维护索引,

而update A set storeID=12345 where ID = 100,只需要更新storeID字段的索引,其他4个索引不需要维护。