有一个项目需要存储ios的表情(emoji表情)
这种表情虽然是utf8编码,但是一个字符需要占用4个字节,而mysql utf8编码只能存放3字节的字符。
在mysql 5.6中,可以设置编码为utf8mb4,这个字符集是utf8的超集。
实验环境
mysql 5.6.14
jdbc 5.1.31
测试表 create table test( content varchar(50) )engine=innodb,charset=utf8mb4;
测试程序:
import java.io.ioexception;
import java.net.urldecoder;
import java.net.urlencoder;
import java.sql.connection;
import java.sql.drivermanager;
import java.sql.preparedstatement;
import javax.servlet.servletexception;
import javax.servlet.annotation.webservlet;
import javax.servlet.http.httpservlet;
import javax.servlet.http.httpservletrequest;
import javax.servlet.http.httpservletresponse;
/**
* servlet implementation class charsettest
*/
@webservlet(/charsettest)
public class charsettest extends httpservlet {
protected void doget(httpservletrequest request, httpservletresponse response) throws servletexception, ioexception {
string str = request.getparameter(content);
str = urldecoder.decode(str, utf8);
system.out.println(urlencoder.encode(str, utf8));
try {
save(str);
} catch (exception e) {
e.printstacktrace();
}
}
protected void dopost(httpservletrequest request, httpservletresponse response) throws servletexception, ioexception {
doget(request, response);
}
private static void save(string content) throws exception {
/**
* create table test( content varchar(50) )engine=innodb,charset=utf8mb4
*/
class.forname(com.mysql.jdbc.driver);
connection connection = drivermanager.getconnection(jdbc:mysql://127.0.0.1:3306/xx, xx, xx);
connection.setautocommit(true);
//通过查询运行设置字符集的命令
//connection.preparestatement(set names utf8mb4).executequery();
preparedstatement cmd = connection.preparestatement(insert into test values(?));
cmd.setstring(1, content);
cmd.executeupdate();
cmd.close();
connection.close();
}
}
测试链接:
两次编码后的ios表情:
http://127.0.0.1:8080/web/charsettest?content=%25f0%259f%2598%2584
两次编码后的中文:http://127.0.0.1:8080/web/charsettest?content=%25e4%25b8%25ad%25e6%2596%2587
关于两次编码参见:http://www.linuxidc.com/linux/2014-07/104232.htm
首先,修改mysql的配置文件
character_set_server=utf8mb4
然后重启数据库和中间件.
点击两个测试的链接,查看数据库,发现数据成功插入。
这个过程理论上是不需要重启数据库的。但是实际测试中发现,如果不重启数据库,则插入会报错。
如果运气好,直接修改character_set_server参数,重启数据库,一切正常,就ok了。
运气不好(比如我),就很悲剧了。
我在生产库上修改了配置,并且重启了数据库。
居然发现ios的表情插入数据库都是乱码(全是问号 )
更悲剧的是,过了几分钟突然发现线上新插入的数据都是乱码(也都是问号)。
幸亏发现的早,还原了数据库的配置,否则运行几天之后发现,估计就得收拾小包袱走人了。
后来排查到这个问题是jdbc驱动造成的,线上jdbc驱动的版本是mysql-connector-java-5.1.6-bin
如果mysql服务器设置为utf8mb4 高版本的jdbc驱动没有关系,但是低版本的驱动插入之后,就是下面这个样子。
所有输入的非英文字符都是乱码了。
因为jdbc驱动并不支持utf8mb4字符集,所以不能设置jdbc url的characterencoding
不过还有三种方式可以设置字符集1.不显式设置字符集,继承服务器的配置
2.在执行sql之前,运行set names 的查询 (query方式)
3.设置mysql init_connect参数
经过测试各种因素的结果如下所示:
jdbc版本 普通中文 苹果表情
服务器utf8编码 5.1.6 正常 插入报错
5.1.6 query 正常 正常
5.1.6 init_connect
正常 插入报错
5.1.31 正常 插入报错
5.1.31 query 正常 正常
5.1.31 init_connect
正常 插入报错
服务器utf8mb4编码
5.1.6 乱码 乱码
5.1.6 query 乱码 乱码
5.1.6 init_connect
乱码 乱码
5.1.31 正常 正常
5.1.31 query 正常 正常
5.1.31 init_connect
正常 正常
总结:
1.修改了character_set_server参数,需要重启数据库
2.使用高版本的jdbc