'LEFT JOIN'vs'LEFT OUTER JOIN'

25-02-19 13

针对'LEFTJOIN'vs'LEFTOUTERJOIN'这个问题，本篇文章进行了详细的解答，同时本文还将给你拓展(转载)Mysql----Join用法(Innerjoin,Leftjoin,Righ

针对'LEFT JOIN'vs'LEFT OUTER JOIN'这个问题，本篇文章进行了详细的解答，同时本文还将给你拓展(转载) Mysql----Join用法(Inner join,Left join,Right join, Cross join, Union模拟Full join)及---性能优化、Apache beam Join.leftOuterJoin，如何传递空白TableRow？、Hive_LEFT SEMI JOIN / LEFT OUTER JOIN 与 (IN / NOT IN), (EXISTS / NOT EXISTS ) 分析、Hive的join操作，left join,right join,inner join等相关知识，希望可以帮助到你。

本文目录一览：

'LEFT JOIN'vs'LEFT OUTER JOIN'
(转载) Mysql----Join用法(Inner join,Left join,Right join, Cross join, Union模拟Full join)及---性能优化
Apache beam Join.leftOuterJoin，如何传递空白TableRow？
Hive_LEFT SEMI JOIN / LEFT OUTER JOIN 与 (IN / NOT IN), (EXISTS / NOT EXISTS ) 分析
Hive的join操作，left join,right join,inner join

'LEFT JOIN'vs'LEFT OUTER JOIN'

我知道确实没有什么区别，但是“ LEFT JOIN”是ANSI形式，还是有任何RDBMS都将导致“ LEFT JOIN”失败并需要“ LEFT OUTER
JOIN”。[我在这里问是为了节省一些点击次数，填写表格等，以获取正确的ANSI标准！]

答案1

小编典典

根据ANSI规范，[OUTER]是可选的（92，但是我敢肯定以后的版本也会覆盖它）。

当然，您假设每个SQL产品都是ANSI兼容的。对于联接，它们可能是..

(转载) Mysql----Join用法(Inner join,Left join,Right join, Cross join, Union模拟Full join)及---性能优化

http://blog.csdn.net/ochangwen/article/details/52346610

前期数据准备

CREATE TABLE atable(
aID int( 1 ) AUTO_INCREMENT PRIMARY KEY ,
aNum char( 20 ));

CREATE TABLE btable(
bID int( 1 ) NOT NULL AUTO_INCREMENT PRIMARY KEY ,
bName char( 20 ) );

INSERT INTO atable
VALUES ( 1, ''a20050111'' ) , ( 2, ''a20050112'' ) , ( 3, ''a20050113'' ) , ( 4, ''a20050114'' ) , ( 5, ''a20050115'' ) ;

INSERT INTO btable
VALUES ( 1, '' 2006032401'' ) , ( 2, ''2006032402'' ) , ( 3, ''2006032403'' ) , ( 4, ''2006032404'' ) , ( 8, ''2006032408'' ) ;

-------------------------------------------------------------------------------------------

atable:左表；btable:右表。
JOIN 按照功能大致分为如下三类：
1).inner join(内连接,或等值连接)：取得两个表中存在连接匹配关系的记录。
2).left join(左连接)：取得左表（atable）完全记录，即是右表（btable）并无对应匹配记录。
3).right join(右连接)：与 LEFT JOIN 相反，取得右表（btable）完全记录，即是左表（atable）并无匹配对应记录。
注意：mysql不支持Full join,不过可以通过 union 关键字来合并 left join 与 right join来模拟full join.

一、Inner join

内连接，也叫等值连接，inner join产生同时符合A和B的一组数据。
接下来给出一个列子用于解释下面几种分类。如下两个表(A,B)

mysql> select * from atable inner join btable on atable.aid=btable.bid;
+-----+-----------+-----+-------------+
| aID | aNum | bID | bName |
+-----+-----------+-----+-------------+
| 1 | a20050111 | 1 | 2006032401 |
| 2 | a20050112 | 2 | 2006032402 |
| 3 | a20050113 | 3 | 2006032403 |
| 4 | a20050114 | 4 | 2006032404 |
+-----+-----------+-----+-------------+

二、Left join

left join,（或left outer join:在Mysql中两者等价，推荐使用left join.）左连接从左表(A)产生一套完整的记录,与匹配的记录(右表(B)) .如果没有匹配,右侧将包含null。

mysql> select * from atable left join btable on atable.aid=btable.bid;
+-----+-----------+------+-------------+
| aID | aNum | bID | bName |
+-----+-----------+------+-------------+
| 1 | a20050111 | 1 | 2006032401 |
| 2 | a20050112 | 2 | 2006032402 |
| 3 | a20050113 | 3 | 2006032403 |
| 4 | a20050114 | 4 | 2006032404 |
| 5 | a20050115 | NULL | NULL |
+-----+-----------+------+-------------+

------------------------------------------------------------------------------------------------------------

2).如果想只从左表(A)中产生一套记录，但不包含右表(B)的记录，可以通过设置where语句来执行，如下

mysql> select * from atable left join btable on atable.aid=btable.bid
-> where atable.aid is null or btable.bid is null;
+-----+-----------+------+-------+
| aID | aNum | bID | bName |
+-----+-----------+------+-------+
| 5 | a20050115 | NULL | NULL |
+-----+-----------+------+-------+

-----------------------------------------------------------------------------------------

同理，还可以模拟inner join. 如下：

mysql> select * from atable left join btable on atable.aid=btable.bid where atable.aid is not null and btable.bid is not null;
+-----+-----------+------+-------------+
| aID | aNum | bID | bName |
+-----+-----------+------+-------------+
| 1 | a20050111 | 1 | 2006032401 |
| 2 | a20050112 | 2 | 2006032402 |
| 3 | a20050113 | 3 | 2006032403 |
| 4 | a20050114 | 4 | 2006032404 |
+-----+-----------+------+-------------+

------------------------------------------------------------------------------------------

三、Right join

同Left join

mysql> select * from atable right join btable on atable.aid=btable.bid;
+------+-----------+-----+-------------+
| aID | aNum | bID | bName |
+------+-----------+-----+-------------+
| 1 | a20050111 | 1 | 2006032401 |
| 2 | a20050112 | 2 | 2006032402 |
| 3 | a20050113 | 3 | 2006032403 |
| 4 | a20050114 | 4 | 2006032404 |
| NULL | NULL | 8 | 2006032408 |
+------+-----------+-----+-------------+

四、差集

mysql> select * from atable left join btable on atable.aid=btable.bid
-> where btable.bid is null
-> union
-> select * from atable right join btable on atable.aid=btable.bid
-> where atable.aid is null;
+------+-----------+------+------------+
| aID | aNum | bID | bName |
+------+-----------+------+------------+
| 5 | a20050115 | NULL | NULL |
| NULL | NULL | 8 | 2006032408 |
+------+-----------+------+------------+

-----------------------------------------------------------------------------------

五.Cross join

交叉连接，得到的结果是两个表的乘积，即笛卡尔积

笛卡尔（Descartes）乘积又叫直积。假设集合A={a,b}，集合B={0,1,2}，则两个集合的笛卡尔积为{(a,0),(a,1),(a,2),(b,0),(b,1), (b,2)}。可以扩展到多个集合的情况。类似的例子有，如果A表示某学校学生的集合，B表示该学校所有课程的集合，则A与B的笛卡尔积表示所有可能的选课情况。

mysql> select * from atable cross join btable;
+-----+-----------+-----+-------------+
| aID | aNum | bID | bName |
+-----+-----------+-----+-------------+
| 1 | a20050111 | 1 | 2006032401 |
| 2 | a20050112 | 1 | 2006032401 |
| 3 | a20050113 | 1 | 2006032401 |
| 4 | a20050114 | 1 | 2006032401 |
| 5 | a20050115 | 1 | 2006032401 |
| 1 | a20050111 | 2 | 2006032402 |
| 2 | a20050112 | 2 | 2006032402 |
| 3 | a20050113 | 2 | 2006032402 |
| 4 | a20050114 | 2 | 2006032402 |
| 5 | a20050115 | 2 | 2006032402 |
| 1 | a20050111 | 3 | 2006032403 |
| 2 | a20050112 | 3 | 2006032403 |
| 3 | a20050113 | 3 | 2006032403 |
| 4 | a20050114 | 3 | 2006032403 |
| 5 | a20050115 | 3 | 2006032403 |
| 1 | a20050111 | 4 | 2006032404 |
| 2 | a20050112 | 4 | 2006032404 |
| 3 | a20050113 | 4 | 2006032404 |
| 4 | a20050114 | 4 | 2006032404 |
| 5 | a20050115 | 4 | 2006032404 |
| 1 | a20050111 | 8 | 2006032408 |
| 2 | a20050112 | 8 | 2006032408 |
| 3 | a20050113 | 8 | 2006032408 |
| 4 | a20050114 | 8 | 2006032408 |
| 5 | a20050115 | 8 | 2006032408 |
+-----+-----------+-----+-------------+
25 rows in set (0.00 sec)
<pre><code class="hljs cs">#再执行：mysql> select * from A inner join B; 试一试 (与上面的结果一样)
#在执行mysql> select * from A cross join B on A.name = B.name; 试一试</code>

实际上，在 MySQL 中（仅限于 MySQL） CROSS JOIN 与 INNER JOIN 的表现是一样的，在不指定 ON 条件得到的结果都是笛卡尔积，反之取得两个表完全匹配的结果。 inner join 与 cross join 可以省略 inner 或 cross关键字，因此下面的 SQL 效果是一样的：

... FROM table1 INNER JOIN table2
... FROM table1 CROSS JOIN table2
... FROM table1 JOIN table2

六.union实现Full join

全连接产生的所有记录（双方匹配记录）在表A和表B。如果没有匹配,则对面将包含null。与差集类似。

mysql> select * from atable left join btable on atable.aid=btable.bid
-> union
-> select * from atable right join btable on atable.aid=btable.bid;
+------+-----------+------+-------------+
| aID | aNum | bID | bName |
+------+-----------+------+-------------+
| 1 | a20050111 | 1 | 2006032401 |
| 2 | a20050112 | 2 | 2006032402 |
| 3 | a20050113 | 3 | 2006032403 |
| 4 | a20050114 | 4 | 2006032404 |
| 5 | a20050115 | NULL | NULL |
| NULL | NULL | 8 | 2006032408 |
+------+-----------+------+-------------+

--------------------------------------------------------------------------------------------------------

七.性能优化

1.显示(explicit) inner join VS 隐式(implicit) inner join

select * from
table a inner join table b
on a.id = b.id;

select a.*, b.*
from table a, table b
where a.id = b.id;

数据库中比较(10w数据)得之，它们用时几乎相同，第一个是显示的inner join，后一个是隐式的inner join。
2.left join/right join VS inner join
尽量用inner join.避免 left join 和 null.

在使用left join（或right join）时，应该清楚的知道以下几点：

(1). on与 where的执行顺序
ON 条件（“A LEFT JOIN B ON 条件表达式”中的ON）用来决定如何从 B 表中检索数据行。如果 B 表中没有任何一行数据匹配 ON 的条件,将会额外生成一行所有列为 NULL 的数据,在匹配阶段 WHERE 子句的条件都不会被使用。仅在匹配阶段完成以后，WHERE 子句条件才会被使用。它将从匹配阶段产生的数据中检索过滤。
所以我们要注意：在使用Left (right) join的时候，一定要在先给出尽可能多的匹配满足条件，减少Where的执行。如：

select * from A
inner join B on B.name = A.name
left join C on C.name = B.name
left join D on D.id = C.id
where C.status>1 and D.status=1;

下面这种写法更省时

[sql] view plain copy

select * from A
inner join B on B.name = A.name
left join C on C.name = B.name and C.status>1
left join D on D.id = C.id and D.status=1

(2).注意ON 子句和 WHERE 子句的不同

[sql] view plain copy

mysql> SELECT * FROM product LEFT JOIN product_details
ON (product.id = product_details.id)
AND product_details.id=2;
+----+--------+------+--------+-------+
| id | amount | id | weight | exist |
+----+--------+------+--------+-------+
| 1 | 100 | NULL | NULL | NULL |
| 2 | 200 | 2 | 22 | 0 |
| 3 | 300 | NULL | NULL | NULL |
| 4 | 400 | NULL | NULL | NULL |
+----+--------+------+--------+-------+
4 rows in set (0.00 sec)
mysql> SELECT * FROM product LEFT JOIN product_details
ON (product.id = product_details.id)
WHERE product_details.id=2;
+----+--------+----+--------+-------+
| id | amount | id | weight | exist |
+----+--------+----+--------+-------+
| 2 | 200 | 2 | 22 | 0 |
+----+--------+----+--------+-------+
1 row in set (0.01 sec)

从上可知，第一条查询使用 ON 条件决定了从 LEFT JOIN的 product_details表中检索符合的所有数据行。第二条查询做了简单的LEFT JOIN，然后使用 WHERE 子句从 LEFT JOIN的数据中过滤掉不符合条件的数据行。
(3).尽量避免子查询，而用join
往往性能这玩意儿，更多时候体现在数据量比较大的时候，此时，我们应该避免复杂的子查询。如下：

insert into t1(a1) select b1 from t2
where not exists(select 1 from t1 where t1.id = t2.r_id);

下面这个更好

insert into t1(a1)
select b1 from t2
left join (select distinct t1.id from t1 ) t1 on t1.id = t2.r_id
where t1.id is null;

Apache beam Join.leftOuterJoin，如何传递空白TableRow？

如何解决Apache beam Join.leftOuterJoin，如何传递空白TableRow？？

我想在 Apache Beam (JAVA Sdk) 中对 2 个 BigQuery 表执行 leftOuterJoin。

我阅读了表格 (leftTableCollection & rightTableCollection) 并且属于 PCollection<TableRow> 类型。
将它们转换为 PCollection<KV<String,TableRow>> 形式，即
我正在使用来自 Join.leftOuterJoin
的 org.apache.beam.sdk.extensions.joinlibrary.Join

PCollection<KV<String,TableRow>> leftTableKVCollection =
    leftTableCollection.apply(ParDo.of(new ExtractLeftTableDoFn()));
PCollection<KV<String,TableRow>> rightTableKVCollection =
    rightTableCollection.apply(ParDo.of(new ExtractRightTableDoFn()));

TableRow rightTableNullValues = ???

PCollection<KV<String,KV<TableRow,TableRow>>> joinKvResults =
    Join.leftOuterJoin(leftTableKVCollection,rightTableKVCollection,rightTableNullValues);

我不知道要为 rightTableNullValues 传递什么？

尝试使用 new TableRow() 抛出 unable to serialize 错误。

任何建议都会非常有帮助。 TIA

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

Hive_LEFT SEMI JOIN / LEFT OUTER JOIN 与 (IN / NOT IN), (EXISTS / NOT EXISTS ) 分析

参考文章： https://blog.csdn.net/happyrocking/article/details/79885071

本篇文章，我们主要就 Hive 中的 LEFT SEMI JOIN 和 (IN / NOT IN), (EXISTS / NOT EXISTS ) 子句查询做一个了解。

LEFT SEMI JOIN 基本认识

首先，我们先要了解下什么是 LEFT SEMI JOIN.

特点

1、left semi join 的限制是， JOIN 子句中右边的表只能在 ON 子句中设置过滤条件，在 WHERE 子句、SELECT 子句或其他地方过滤都不行。

2、left semi join 是只传递表的 join key 给 map 阶段，因此left semi join 中最后 select 的结果只许出现左表。

3、因为 left semi join 是 in(keySet) 的关系，遇到右表重复记录，左表会跳过，而 join 则会一直遍历。这就导致右表有重复值得情况下 left semi join 只产生一条，join 会产生多条，也会导致 left semi join 的性能更高。

比如以下A表和B表进行 join 或 left semi join，然后 select 出所有字段，结果区别如下：

注意：蓝色叉的那一列实际是不存在left semi join中的，因为最后 select 的结果只许出现左表。

其实可以这么认为 LEFT SEMI JOIN 就是子查询形式的 (IN / NOT IN), (EXISTS / NOT EXISTS ) 的替代方案。

因为 HIVE 0.13 版本之前，是不支持 (IN / NOT IN), (EXISTS / NOT EXISTS ) 中存在子查询语句的，此时我们需要使用 LEFT SEMI JOIN

文档如下：

构建基础的测试数据

DROP TABLE IF EXISTS data_semi_a;

+----------------------+---------------------+ | data_semi_a.user_id | data_semi_a.sex_id | +----------------------+---------------------+ | NULL | 0 | | 1 | 1 | | 1 | 0 | | 2 | 1 | | 3 | 0 | | 4 | 1 | +----------------------+---------------------+

+----------------------+---------------------+------------------+ | data_semi_b.user_id | data_semi_b.sex_id | data_semi_b.age | +----------------------+---------------------+------------------+ | NULL | 0 | 3 | | 1 | 0 | 12 | | 2 | 1 | 14 | +----------------------+---------------------+------------------+

INFO : Hadoop job information for Stage-1: number of mappers: 2; number of reducers: 1 INFO : 2020-04-12 10:53:09,591 Stage-1 map = 0%, reduce = 0% INFO : 2020-04-12 10:53:17,849 Stage-1 map = 50%, reduce = 0%, Cumulative CPU 3.12 sec INFO : 2020-04-12 10:53:22,975 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 5.84 sec INFO : 2020-04-12 10:53:29,141 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 7.77 sec INFO : MapReduce Total cumulative CPU time: 7 seconds 770 msec INFO : Ended Job = job_1586423165261_0087 INFO : MapReduce Jobs Launched: INFO : Stage-Stage-1: Map: 2 Reduce: 1 Cumulative CPU: 7.77 sec HDFS Read: 16677 HDFS Write: 135 SUCCESS INFO : Total MapReduce CPU Time Spent: 7 seconds 770 msec INFO : Completed executing command(queryId=hive_20200412105301_9f643e42-c966-4140-8c72-330be6bdd73c); Time taken: 28.939 seconds INFO : OK +------------+-----------+ | a.user_id | a.sex_id | +------------+-----------+ | 1 | 0 | | 1 | 1 | | 2 | 1 | +------------+-----------+ 3 rows selected (29.073 seconds)

INFO : Hadoop job information for Stage-1: number of mappers: 2; number of reducers: 1 INFO : 2020-04-12 10:37:26,143 Stage-1 map = 0%, reduce = 0% INFO : 2020-04-12 10:37:33,376 Stage-1 map = 50%, reduce = 0%, Cumulative CPU 2.71 sec INFO : 2020-04-12 10:37:39,510 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 5.6 sec INFO : 2020-04-12 10:37:44,680 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 7.41 sec INFO : MapReduce Total cumulative CPU time: 7 seconds 410 msec INFO : Ended Job = job_1586423165261_0085 INFO : MapReduce Jobs Launched: INFO : Stage-Stage-1: Map: 2 Reduce: 1 Cumulative CPU: 7.41 sec HDFS Read: 16726 HDFS Write: 135 SUCCESS INFO : Total MapReduce CPU Time Spent: 7 seconds 410 msec INFO : Completed executing command(queryId=hive_20200412103717_2ab604da-f301-4fee-b9bd-9c22ad6e65a1); Time taken: 27.796 seconds INFO : OK +------------+-----------+ | a.user_id | a.sex_id | +------------+-----------+ | 1 | 0 | | 1 | 1 | | 2 | 1 | +------------+-----------+ 3 rows selected (27.902 seconds)

INFO : Hadoop job information for Stage-2: number of mappers: 2; number of reducers: 1 INFO : 2020-04-12 23:02:26,751 Stage-2 map = 0%, reduce = 0% INFO : 2020-04-12 23:02:33,938 Stage-2 map = 50%, reduce = 0%, Cumulative CPU 1.76 sec INFO : 2020-04-12 23:02:39,172 Stage-2 map = 100%, reduce = 0%, Cumulative CPU 3.35 sec INFO : 2020-04-12 23:02:47,688 Stage-2 map = 100%, reduce = 100%, Cumulative CPU 7.88 sec INFO : MapReduce Total cumulative CPU time: 7 seconds 880 msec INFO : Ended Job = job_1586423165261_0106 INFO : MapReduce Jobs Launched: INFO : Stage-Stage-4: Map: 1 Reduce: 1 Cumulative CPU: 6.49 sec HDFS Read: 8372 HDFS Write: 96 SUCCESS INFO : Stage-Stage-1: Map: 2 Reduce: 1 Cumulative CPU: 5.65 sec HDFS Read: 11974 HDFS Write: 96 SUCCESS INFO : Stage-Stage-2: Map: 2 Reduce: 1 Cumulative CPU: 7.88 sec HDFS Read: 14131 HDFS Write: 87 SUCCESS INFO : Total MapReduce CPU Time Spent: 20 seconds 20 msec INFO : Completed executing command(queryId=hive_20200412230117_fef818dc-e433-4880-9c8d-f6a9d28a08a9); Time taken: 91.471 seconds INFO : OK +------------+-----------+ | a.user_id | a.sex_id | +------------+-----------+ +------------+-----------+ No rows selected (91.674 seconds)

INFO : Hadoop job information for Stage-1: number of mappers: 2; number of reducers: 1 INFO : 2020-04-12 23:04:47,896 Stage-1 map = 0%, reduce = 0% INFO : 2020-04-12 23:04:55,176 Stage-1 map = 50%, reduce = 0%, Cumulative CPU 2.91 sec INFO : 2020-04-12 23:05:00,288 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 5.53 sec INFO : 2020-04-12 23:05:06,449 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 8.45 sec INFO : MapReduce Total cumulative CPU time: 8 seconds 450 msec INFO : Ended Job = job_1586423165261_0107 INFO : MapReduce Jobs Launched: INFO : Stage-Stage-1: Map: 2 Reduce: 1 Cumulative CPU: 8.45 sec HDFS Read: 16358 HDFS Write: 87 SUCCESS INFO : Total MapReduce CPU Time Spent: 8 seconds 450 msec INFO : Completed executing command(queryId=hive_20200412230438_62ce326e-1b03-4c5a-a842-6816dc6feda3); Time taken: 28.871 seconds INFO : OK +------------+-----------+ | a.user_id | a.sex_id | +------------+-----------+ +------------+-----------+ No rows selected (28.979 seconds)

INFO : Hadoop job information for Stage-1: number of mappers: 2; number of reducers: 1 INFO : 2020-04-12 23:46:16,157 Stage-1 map = 0%, reduce = 0% INFO : 2020-04-12 23:46:24,375 Stage-1 map = 50%, reduce = 0%, Cumulative CPU 3.04 sec INFO : 2020-04-12 23:46:28,545 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 5.84 sec INFO : 2020-04-12 23:46:35,732 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 7.85 sec INFO : MapReduce Total cumulative CPU time: 7 seconds 850 msec INFO : Ended Job = job_1586423165261_0110 INFO : MapReduce Jobs Launched: INFO : Stage-Stage-1: Map: 2 Reduce: 1 Cumulative CPU: 7.85 sec HDFS Read: 17951 HDFS Write: 119 SUCCESS INFO : Total MapReduce CPU Time Spent: 7 seconds 850 msec INFO : Completed executing command(queryId=hive_20200412234607_8b6acba0-54bb-420f-80df-a5efd5dc9ae5); Time taken: 29.286 seconds INFO : OK +------------+-----------+ | a.user_id | a.sex_id | +------------+-----------+ | 1 | 0 | | 2 | 1 | +------------+-----------+ 2 rows selected (29.379 seconds)