WHERE中有很多IN判断怎么提速?_成都千锋IT培训

千锋教育-做有情怀、有良心、有品质的职业教育机构

400-811-9990

手机站

千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站

首页课程

HTML5

Java

Python

云计算

软件测试

网络安全

大数据

物联网

Unity

UI/UE设计

全媒体营销

影视剪辑

游戏原画

区块链

产品经理

商业插画

PMP认证

红帽RHCE

软考认证

华为认证

教程
HTML5视频教程 Java视频教程 Python视频教程 UI视频教程云计算视频教程软件测试视频教程大数据视频教程物联网视频教程 Unity视频教程网络安全视频教程全媒体视频教程影视剪辑视频教程
教研
教研院师资团队项目大赛
服务
企业内训高校合作学科共建
就业
就业服务双选会上门招聘人才定制
问答资讯技术干货 IT培训机构零基础学IT 关于千锋
千锋简介联系我们锋益公益大赛组织品牌活动

上海

北京
郑州
武汉
成都
西安
沈阳

广州
南京
深圳
大连
青岛
杭州
重庆

当前位置：成都千锋IT培训 > 技术干货 > WHERE中有很多IN判断怎么提速?

WHERE中有很多IN判断怎么提速?

来源：千锋教育

发布人：xqq

时间： 2023-10-17 21:04:10

一、WHERE中有很多IN判断怎么提速

WHERE 中的 IN 是要过滤出某字段值包含在给定枚举值集合中的记录，比如：查出某几个城市的客户、某些类型的订单等等。

数据库做 IN 过滤时，要用字段值和值集合的成员作比较计算。若采用顺序查找，要比较 1 到 n 次（n 是值集合大小）。即使在值集合有序的情况下用二分法查找，也要比较数次。数据量较大时比较次数会非常多，IN 的速度就会很慢，而且值集合越大速度越慢。

如果在过滤时不再做比较计算，性能就能得到大幅提高！

首先，确定 IN 可能取值的列表。可能值通常不会太多，一般都保存在一个选项表中。如果没有现成的选项表，要遍历原数据得到所有可能值，保存成一个选项表。然后转换原数据，把 IN 字段值替换为选项表中对应记录的序号（位置），另存成一份新数据。

对替换后的新数据做 IN 判断时，先生成一个与选项表等长的布尔值集合，其第 i 个值由选项表的第 i 个成员是否在 IN 的值集合中决定，在就是 true，不在就是 false。

然后遍历新数据，用 IN 字段值（也就是选项表的序号）去取布尔值集合中的成员，是 true 就符合过滤条件，否则就不符合。

这种方法本质上是将“集合值比较”转换为“序号引用”，省去了比较计算，性能会大幅提升。而且计算时间和值集合大小无关，不会随着 IN 枚举值的增多而增加。

但是，SQL 不支持通过序号（位置）直接取集合中的成员，无法实现这种优化方法。

集算器 SPL 支持序号引用，可以很方便的实现这个优化方法。

1、数据预处理，转换为序号。

=cs.run(dim1.pos@b(f1):f1)，遍历原数据，使用 pos 函数查到原数据 f1 字段在选项表 dim1 中对应记录的序号，用这个序号代替原来的 f1 字段值，另存一份新数据。dim1 预先按照 f1 对应值排好序了，所以这里采用二分法查找，预处理的速度更快。

2、对预处理好的新数据做 IN 过滤计算。

假设传入值集合为 arg_F1，生成布尔值集合的代码是：

b1=dim1.(arg_F1.contain@b(~))，arg_F1 有序，所以这里也是二分法查找。

然后就可以用新方法过滤新数据了：

=file(“T.ctx”).open().cursor(…;b1(f1) && …)，用 f1 中的序号，直接去取布尔值集合中的成员，成员是 true 则满足过滤条件，否则就不满足。这时不需要再做比较计算，性能会大幅提高。

实测表明，在同等硬件环境下，用 SPL 实现的这种方案比 Spark 上的 SQL 快了上百倍。

延伸阅读：

二、联合索引 (a,b,c)

联合索引 (a,b,c) 实际建立了 (a)、(a,b)、(a,b,c) 三个索引。

我们可以将组合索引想成书的一级目录、二级目录、三级目录，如index(a,b,c)，相当于a是一级目录，b是一级目录下的二级目录，c是二级目录下的三级目录。要使用某一目录，必须先使用其上级目录，一级目录除外。

联合索引的优势

1）减少开销

建一个联合索引 (a,b,c) ，实际相当于建了 (a)、(a,b)、(a,b,c) 三个索引。每多一个索引，都会增加写操作的开销和磁盘空间的开销。对于大量数据的表，使用联合索引会大大的减少开销！

2）覆盖索引

对联合索引 (a,b,c)，如果有如下 sql 的，

SELECT a,b,c from table where a=’xx’ and b = ‘xx’;

那么 MySQL 可以直接通过遍历索引取得数据，而无需回表，这减少了很多的随机 io 操作。减少 io 操作，特别是随机 io 其实是 DBA 主要的优化策略。所以，在真正的实际应用中，覆盖索引是主要的提升性能的优化手段之一。

3）效率高

索引列多，通过联合索引筛选出的数据越少。比如有 1000W 条数据的表，有如下SQL:

select col1,col2,col3 from table where col1=1 and col2=2 and col3=3;

复制

假设：假设每个条件可以筛选出 10% 的数据。

A. 如果只有单列索引，那么通过该索引能筛选出 1000W10%=100w 条数据，然后再回表从 100w 条数据中找到符合 col2=2 and col3= 3 的数据，然后再排序，再分页，以此类推（递归）；B. 如果是（col1,col2,col3）联合索引，通过三列索引筛选出 1000w10% 10% *10%=1w，效率提升可想而知。

声明：本站稿件版权均属千锋教育所有，未经许可不得擅自转载。

上一篇

软件开发要遵循哪些事项?

下一篇

mysql怎么查看连接池是否已满?

猜你喜欢LIKE

sql server2012r2所在服务器做端口限制，需要开放什么端口才能继续访问数据库?

Oracle有什么优势和劣势?

CSS 隐藏页面元素有哪些方法?

最新文章NEW

数据库聚集索引非聚集索引实现上有哪些区别?

开发web应用，好的开发流程是怎么样的?

为什么说Gradle是Android进阶绕不去的坎?

相关推荐HOT

更多>>

mysql怎么查看连接池是否已满?

一、mysql怎么查看连接池是否已满1.查看连接数配置（MySQL服务器允许的最大连接数16384）show variables like ‘%max_connections%’2.查看当前...详情>>

2023-10-17 21:20:19

什么是职场情商，如何提高?

什么是情商？情商是一个 20 世纪 90 年代作为学术话题出现的概念，并迅速成为商业心理学和职场动态研究的重要组成部分。它通常被称为 EQ（情商...详情>>

2023-10-17 20:16:30

vector, list, map等容器使用场合是什么?

一、vector, list, map等容器使用场合vector适用于对象简单，变化较小，并且频繁随机访问的场景。list适用经常进行插入和删除并且不经常随机访...详情>>

2023-10-17 19:45:03

数据挖掘中涉及的关联规则在实际生活中的应用有哪些?

一、数据挖掘中涉及的关联规则在实际生活中的应用关于关联规则分析，这篇文章可以认真学习一下，讲的比较全面，关联规则分析还在零售、快消、电...详情>>

2023-10-17 18:40:06

热门推荐

sql server2012r2所在服务器做端口限制，需要开放什么端口才能继续访问数据库?

Oracle有什么优势和劣势?

数据库聚集索引非聚集索引实现上有哪些区别?

数据库（如oracle、mysql）及编程语言（php、python、perl、lisp）的区别?

CSS 隐藏页面元素有哪些方法?

除了cx_Oracle，python还可以通过什么方式访问Oracle数据库?

SQL开启事务处理的语句 START TRANSACTION 和BEGIN TRAN的区别?

Android适配你需要学习哪些?

开发web应用，好的开发流程是怎么样的?

为什么说Gradle是Android进阶绕不去的坎?

mysql怎么查看连接池是否已满?

WHERE中有很多IN判断怎么提速?

软件开发要遵循哪些事项?

有了innodb buffer pool为什么要有redis?

行业资讯 更多>>

成都如何选择Java培训机构

广州如何选择Java培训机构

成都怎么选择靠谱的Java培训机构

广州怎么选择靠谱的Java培训机构

技术干货

sql server2012r2所在服务器做端口限制，需要开放什么端口才能继续访问数据库?

sql server2012r2所在服务器做端口限制，需要开放什么端口才能继续访问数据库?

Oracle有什么优势和劣势?

Oracle有什么优势和劣势?

数据库聚集索引非聚集索引实现上有哪些区别?

数据库聚集索引非聚集索引实现上有哪些区别?

数据库（如oracle、mysql）及编程语言（php、python、perl、lisp）的区别?

数据库（如oracle、mysql）及编程语言（php、python、perl、lisp）的区别?

CSS 隐藏页面元素有哪些方法?

CSS 隐藏页面元素有哪些方法?

除了cx_Oracle，python还可以通过什么方式访问Oracle数据库?

除了cx_Oracle，python还可以通过什么方式访问Oracle数据库?

SQL开启事务处理的语句 START TRANSACTION 和BEGIN TRAN的区别?

SQL开启事务处理的语句 START TRANSACTION 和BEGIN TRAN的区别?

技术问答 在线提问>>

张同学在线提问

unity状态机具体怎么调出来

确保你的游戏对象上有一个Animator组件。如果...详情

刘同学在线提问

Linux安装nginx的方法

在Ubuntu上安装Nginx是一个相对简单的过程，...详情

师资团队 更多>>

陆神

原去哪儿网高级架构师

北京大学计算机系毕业

HTML5学科教研总监

千锋威哥

OCP认证专家

15年以上开发经验

Java学科首席技术官

宋宋

原阿里后端架构师

北京邮电大学硕士

Python学科首席技术官

卢老师

北京大学博士后

北京科技大学博士

人工智能学科总监

索尔

原阿里后端架构师

浙工大计算机系毕业

Java学科高级讲师

jackfrued

曾任职华为成都研究所

计算机应用技术博士

Python学科教学主管

快速通道 更多>>

课程介绍
点击获取大纲
就业前景
查看就业薪资
学习费用
了解课程价格
优惠活动
领取优惠券
学习资源
领3000G教程
师资团队
了解师资团队
实战项目
获取项目源码
开班地区
查看来校路线

最新开班信息更多>>

网友热搜更多>>

IT行业年龄有限制吗女生学IT Java薪资待遇零基础Web培训 Python就业如何学UI设计大数据学习路线 java培训学费软件测试培训转行学Linux 网络安全基础知识网络营销培训 unity培训 30岁还能学it吗大数据技术学什么 python培训费

千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站