1.直接上代码结论
import javax.imageio.ImageIO; import java.awt.*; import java.awt.image.BufferedImage; import java.io.ByteArrayInputStream; import java.io.ByteArrayOutputStream; import java.io.IOException; import java.io.InputStream; import java.net.URL;public class SlideDistanceCalculator {public static void main(String[] args) {// 这个是缺口图片的地址String urlString = "https://p16-rc-captcha-sg.ibyteimg.com/tos-alisg-i-749px8mig0-sg/273f160eeef34cfdbe232da3c3a90690~tplv-749px8mig0-2.jpeg";// 其中的 340跟212 这个值具体填多少,要看你爬的那个网站的验证码的高度跟宽度// 这个4 是偏移量,因为每次算出来的结果跟我要爬的那个网站的距离总是多了 4个px 所以我在这就减了4PXchangeImageGray(convertImageToByteArray(urlString,340,212),4);}/*** 获取移动距离* @param imgByte 图片字节数组* @param offset 偏移量* @return*/public static int changeImageGray(byte[] imgByte,Integer offset) {try {// 读取图片BufferedImage image = ImageIO.read(new ByteArrayInputStream(imgByte));// 获取图片的宽度和高度int width = image.getWidth();int height = image.getHeight();int[][] lightArray = new int[height][width];// 遍历图片的像素点,将其转换为黑白for (int y = 0; y < height; y++) {for (int x = 0; x < width; x++) {// 获取像素点的颜色Color color = new Color(image.getRGB(x, y));// 计算灰度值int gray = Double.valueOf((color.getRed() * 0.2126 + color.getGreen() * 0.7152 + color.getBlue() * 0.0722)).intValue();// 将像素点的颜色设置为非黑即白if (gray > 100) {gray = 255;} else {gray = 0;}lightArray[y][x] = gray;}}int maxChangeCount = 0;int index = 0;for (int w = 1; w < width; w++) {int changeCount = 0;for (int h = 0; h < height; h++) {if (lightArray[h][w] == 0 && lightArray[h][w - 1] == 255) {changeCount++;}}if (changeCount > maxChangeCount) {maxChangeCount = changeCount;index = w;}}System.out.println(index - (offset == null ? 0 :offset));return index - (offset == null ? 0 :offset);} catch (Exception e) {e.printStackTrace();}return 0;}/*** 返回图片的字节数组* @param imageUrl 图片url地址* @param width 图片宽度* @param height 图片高度*/public static byte[] convertImageToByteArray(String imageUrl, int width, int height) {try {// 从 URL 加载图片URL url = new URL(imageUrl);InputStream inputStream = url.openStream();// 读取图片数据到 BufferedImageBufferedImage originalImage = ImageIO.read(inputStream);// 创建目标尺寸的 BufferedImageBufferedImage resizedImage = new BufferedImage(width, height, BufferedImage.TYPE_INT_RGB);// 使用 Graphics2D 进行图片缩放Graphics2D graphics2D = resizedImage.createGraphics();graphics2D.drawImage(originalImage, 0, 0, width, height, null);graphics2D.dispose();// 将 BufferedImage 转换为字节数组ByteArrayOutputStream outputStream = new ByteArrayOutputStream();ImageIO.write(resizedImage, "jpg", outputStream);// 关闭输入流和输出流inputStream.close();outputStream.close();// 返回字节数组return outputStream.toByteArray();} catch (IOException e) {e.printStackTrace();}return null;} }
2.示例
我是爬国外抖音的数据,经常会出现滑动验证码,就比如说,我要计算这个图片的缺口距离:
然后上面的代码算出来的距离:
结果只是相差了1px,但这个误差是可以接受的
代码上面 340,212 是这个网页的验证码的div的高度跟宽带,例如这个的验证码:
那就要变成 260 跟 160 了,然后代码里面的 “4” 这个值是由你们自己调的,多练几次,这个值就很好确认了
3.原理
如何破解滑动验证码? | 未读代码
这篇文章要梯子才能访问
4.爬虫思路
有人会说如果算出来的结果跟实际上移动的距离差几PX怎么办?
我的解决方案是:在通过代码来定位要滑动的div来进行滑动验证,如果验证不正确,那就监听这个网页是否发起获取新的验证图片的请求,如果有,那就在监听器里面重复尝试破解,总会有成功的