「基础」SQL-Hive中的Select From 解析

大数据
今天我们来讲讲Hive中最常用的 select from 语句知识要点。Hive系列文章预计10-20篇,主要讲数据分析中最基础的SQL技能。

[[396975]]

你好,我是巡山猫!

今天我们来讲讲Hive中最常用的 select from 语句知识要点。

Hive系列文章预计10-20篇,主要讲数据分析中最基础的SQL技能。

01-查询表中的内容

查询指定的某一列或某几列,命令如下:

  1. SELECT 列名1,列名2,…… FROM 表名; 

查询表中的所有字段时,可以使用*代表所有字段。星号(*)是选取所有列的快捷方式。命令如下:

  1. SELECT * FROM 表名; 

如果我们想查询表 t_od_use_cnt 中的所有的user_id和use_cnt,具体命令如下:

  1. SELECT user_id 
  2.       ,use_cnt 
  3. FROM app.t_od_use_cnt; 

备注:app是数据库名,如果当前查询表与当前使用数据库一致,可以省略不写

02-Hive严格模式

在Hive中这样写虽然语法正确(不加分区),但在实际工作中这样写很可能会报错。

因为Hive中的表一般数据量极大,为了防止用户误操作进行全表扫描,可以设置为查询分区表时必须加入分区限制。比如这里我们的分区字段是date_8这个日期字段,工作中的表会要求我们必须限定查询哪几天的分区数据。这里我们可以输入设置参数进行模拟,命令如下:

  1. hive (app)> set hive.mapred.mode; 
  2. hive.mapred.mode=nonstrict 
  3. hive (app)> set hive.mapred.mode=strict; 
  4. hive (app)> set hive.mapred.mode; 
  5. hive.mapred.mode=strict 

然后我们重新执行上面的查询语句,报错如下:

  1. hive (app)> SELECT user_id 
  2.           >       ,use_cnt 
  3.           > FROM app.t_od_use_cnt; 
  4. FAILED: SemanticException [Error 10041]: No partition predicate found for Alias "t_od_use_cnt" Table "t_od_use_cnt" 
  5. hive (app)>  

如下使用where语句限定分区即可解决这个问题:

  1. SELECT user_id 
  2.       ,use_cnt 
  3. FROM app.t_od_use_cnt 
  4. WHERE date_8 = '20210420'

03-limit限制查询返回行数

上面的查询语句会返回查询到的所有数据,但有时候我们只是要确认一下表中的数据内容,或者要指定行数据,比如只要100行,这时只需要在查询语句后加上(limit 数字)即可。

查询表t_od_use_cnt中前5行数据,命令如下:

  1. SELECT user_id 
  2.       ,use_cnt 
  3. FROM app.t_od_use_cnt 
  4. WHERE date_8 = 20190101 Limit 5; 

运行结果如下:

  1. hive (app)> SELECT user_id 
  2.           >       ,use_cnt 
  3.           > FROM app.t_od_use_cnt 
  4.           > WHERE date_8 = 20210420 Limit 5; 
  5. OK 
  6. user_id  use_cnt 
  7. 10000  6 
  8. 10001  49 
  9. 10002  23 
  10. 10003  1 
  11. 10004  29 
  12. Time taken: 0.829 seconds, Fetched: 5 row(s) 
  13. hive (app)> 

04-列四则运算

在查询时可以对数值类型的字段进行加减乘除和取余等四则运算

下面我们将表t_od_use_cnt中use_cnt列和is_active列相乘得到一个新列,其他用法依次类推。

  1. hive (app)> SELECT user_id 
  2.           >       ,use_cnt 
  3.           >       ,is_active 
  4.           >       ,use_cnt * is_active 
  5.           > FROM app.t_od_use_cnt 
  6.           > WHERE date_8 = 20210420 Limit 5; 
  7. OK 
  8. user_id  use_cnt  is_active  _c3 
  9. 10000  6  1  6 
  10. 10001  49  1  49 
  11. 10002  23  1  23 
  12. 10003  1  0  0 
  13. 10004  29  1  29 
  14. Time taken: 0.124 seconds, Fetched: 5 row(s) 
  15. hive (app)> 

05-列别名

可以看到上面的例子中我们通过两个列相乘人为制造出一个新列,系统默认将其列名起为_c3。通常有必要给这些新产生的列起一个别名。已有列的列名如果含义不清晰也可以通过起别名的方式进行更改。不过别名只在本条SQL语句中生效,不影响原表中的字段名。

这里顺便介绍一下字段命名规则:

1.不能和已有字段重复

2.只能包括小写字母(a-z)、数字(0-9)、下划线(_)

3.以字母开头

4.单词之间用下划线_分割

这里我们将别名起为active_use_cnt,在列后面加 AS active_use_cnt即可。另AS可以省略,只用空格分隔别名也可以生效

  1. hive (app)> SELECT user_id 
  2.           >       ,use_cnt 
  3.           >       ,is_active 
  4.           >       ,use_cnt * is_active AS active_use_cnt 
  5.           > FROM app.t_od_use_cnt 
  6.           > WHERE date_8 = 20210420 Limit 5; 
  7. OK 
  8. user_id  use_cnt  is_active  active_use_cnt 
  9. 10000  6  1  6 
  10. 10001  49  1  49 
  11. 10002  23  1  23 
  12. 10003  1  0  0 
  13. 10004  29  1  29 
  14. Time taken: 0.239 seconds, Fetched: 5 row(s) 
  15. hive (app)> 

 

责任编辑:武晓燕 来源: 巡山猫说数据
相关推荐

2021-05-28 07:36:18

MySQLWhereHive

2021-04-18 18:13:42

SQLHive表格

2023-03-30 09:10:06

SQLSELECTFROM

2010-09-03 15:27:02

SQLSELECT语句

2010-11-11 10:18:59

select into

2010-11-11 11:37:22

SQL SELECT语

2011-01-13 08:47:49

SQL Server数

2010-09-03 14:56:12

SQLSELECT语句

2010-11-09 10:10:08

SQL Server

2010-09-07 16:38:36

SQL语句SELECT DIST

2010-11-11 11:49:02

SQL嵌套SELECT

2010-09-07 15:54:47

SQL语句LIKE

2010-09-03 15:08:03

SQLselect语句

2021-04-30 08:11:55

SQLSQL Server 数据库

2010-09-14 16:00:34

sql select语

2010-05-26 13:30:18

MySQL SELEC

2021-05-28 07:40:08

selectcount(?)from t

2010-09-06 09:03:17

SQLselect语句

2010-09-03 14:31:31

SQLSELECT语句

2010-09-03 14:39:15

SQLSELECT语句
点赞
收藏

51CTO技术栈公众号