count
的基本作用是有两个:
用来获取满足条件的数据的数量。但是其中有一些与使用中印象不同的情况,比如当count作用一列、多列、以及使用*
来表达整行产生的效果是不同的。
CREATE TABLE `counttest` (
`id` int(11) DEFAULT NULL,
`name` varchar(30) DEFAULT NULL,
`country` varchar(50) DEFAULT NULL,
`province` varchar(30) DEFAULT NULL,
`city` varchar(30) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
1 不计算NULL
的值
SELECT count(province) FROM `counttest`; 结果:5
SELECT count(name) FROM `counttest`; 结果:6
SELECT count(*) FROM `counttest`; 结果:7
count(*)
的处理是有点不同的,它会返回所有数据的数量,但是不会过滤其中的NULL值,它也并不是相当于展开成所有的列,而是直接会忽略所有的列而直接统计所有的行数
问题来了:想要返回所有的数据的数量的时候,但是又不想包括全部是NULL的列,
使用count(*)是不可能做到的,count作用于列的时候会过滤NULL,那么直接这么写是不是对?
select count(id, `name`, country, province, city) from counttest;
那就错了,count只能作用于单列,不能作用于多列 ,所以上面的写法是错误的。
另外针对count(*)语句,在MyISAM存储引擎中做了优化,每个表的数据行数都会存储在存储引擎中,可以很快拿到;但是在事务性的存储引擎InnoDB中,因为会涉及到多个事务,不能直接拿到数据表的行数
实例:
新建MyISAM 表:
CREATE TABLE `counttest2` (
`id` int(11) DEFAULT NULL,
`name` varchar(30) DEFAULT NULL,
`country` varchar(50) DEFAULT NULL,
`province` varchar(30) DEFAULT NULL,
`city` varchar(30) DEFAULT NULL
) ENGINE=MyISAM DEFAULT CHARSET=utf8;
- 区分(不同的count使用方式)
- count(主键 id)
- InnoDB 引擎会遍历整张表,把每一行的 id 值都取出来,返回给 server 层。server 层拿到 id 后,判断是不可能为空的,就按行累加。
- count(1)
- InnoDB 引擎遍历整张表,但不取值。server 层对于返回的每一行,放一个数字“1”进去,判断是不可能为空的,按行累加。
- count(1) 执行得要比 count(主键 id) 快。因为从引擎返回 id 会涉及到解析数据行,以及拷贝字段值的操作。
- count(字段)
- 如果这个“字段”是定义为 not null 的话,一行行地从记录里面读出这个字段,判断不能为 null,按行累加;
- 如果这个“字段”定义允许为 null,那么执行的时候,判断到有可能是 null,还要把值取出来再判断一下,不是 null 才累加。
- 但是 count(*) 是例外
- 并不会把全部字段取出来,而是专门做了优化,不取值。count(*) 肯定不是 null,按行累加。
- 所以结论是:按照效率排序的话,count(字段)<count(主键 id)<count(1)≈count(*),建议尽量使用 count(*)。
解决 count 性能问题
- 缓存记录条数 (注意缓存和数据库的一致性问题)
- 数据库记录条数(类型汇总表,开启事务,保证一致性问题)
- 使用 explain / show table status 等近似值(不准确)