小沉御笔 – 聊技术、做游戏、以及优雅的装逼

Windows获取硬件ID的坑——SetupDiGetDeviceRegistryPropertyA这个接口不太可靠

最近在搞PCVR相关的东西，需要读取设备的硬件ID，偶然发现了一个微软API的坑。

示例代码如下：

#include <iostream>

#include <windows.h>
#include <setupapi.h>
#include <tchar.h>

#pragma comment(lib, "setupapi.lib")

int main()
{
    // 获取所有设备信息集合
    HDEVINFO hDevInfo = SetupDiGetClassDevsA(NULL, NULL, NULL, DIGCF_ALLCLASSES | DIGCF_PRESENT);
    if (hDevInfo == INVALID_HANDLE_VALUE) {
        std::cerr << "SetupDiGetClassDevsA failed: " << GetLastError() << std::endl;
        return 1;
    }

    // 遍历设备信息集合
    SP_DEVINFO_DATA deviceInfoData = { 0 };
    deviceInfoData.cbSize = sizeof(SP_DEVINFO_DATA);
    for (DWORD i = 0; SetupDiEnumDeviceInfo(hDevInfo, i, &deviceInfoData); i++) {
        // 获取设备
        char buffer[MAX_PATH];
        DWORD requiredSize = 0;
        if (!SetupDiGetDeviceRegistryPropertyA(hDevInfo, &deviceInfoData, SPDRP_HARDWAREID, NULL, (PBYTE)buffer, sizeof(buffer), &requiredSize)) {
            if (GetLastError() != ERROR_INSUFFICIENT_BUFFER) {
                std::cerr << "SetupDiGetDeviceRegistryPropertyA failed: " << GetLastError() << std::endl;
            }
        }
        else {

            uint32_t len = strlen(buffer);
            if (requiredSize != len + 1)
            {
                std::cout << "!!!!!!!!!!!";
            }

            std::cout << "Device " << i << " Hardware ID: " << buffer << std::endl;
        }
    }

    // 关闭设备信息集合句柄
    SetupDiDestroyDeviceInfoList(hDevInfo);
    return 0;
}

按道理requiredSize应该是ID字符串的长度加一（一个’\0’），但是我惊喜的发现，实际上并不是这样。虽然我调用的是A结尾版本的函数，但是会看到buffer里边的数据是以两个’\0’结尾的（有时中间还会有0），而requiredSize是包含所有数据的buffer的大小，所以并不能用requiredSize作为字符串长度来使用。

这会造成什么问题呢？我把这个buffer直接当字符串去做base64编码，输出的数据与其他工具计算的不一样。最后只能手动操作做一次去0来解决这个问题。

Google Colab 运行 CUDA 代码 —— 解决 kernel 函数不执行的问题

听说可以免费薅 colab 的 GPU 运行 CUDA 代码，这两天试了一下，还真是可以。但是要顺利的用起来还是遇到了一些问题，今天这篇博客就是分享一下我遇到的问题，以及如何正确的用起来。

首先，按照其他教程里边的用法把 GPU 选好（写这篇博客的时候 GPU 是 T4），把 hello world 代码写好，这部分其他教程分享得很多了，我就不多废话了。

!nvcc --version

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2024 NVIDIA Corporation
Built on Thu_Jun__6_02:18:23_PDT_2024
Cuda compilation tools, release 12.5, V12.5.82
Build cuda_12.5.r12.5/compiler.34385749_0

!pip install nvcc4jupyter

Collecting nvcc4jupyter
  Downloading nvcc4jupyter-1.2.1-py3-none-any.whl.metadata (5.1 kB)
Downloading nvcc4jupyter-1.2.1-py3-none-any.whl (10 kB)
Installing collected packages: nvcc4jupyter
Successfully installed nvcc4jupyter-1.2.1

%load_ext nvcc4jupyter

Detected platform "Colab". Running its setup...
Source files will be saved in "/tmp/tmppm3c_j8h".

%%cuda
#include <stdio.h>

__global__ void hellocuda() {
    printf("hello cuda \n");
}

int main() {
    hellocuda<<<1, 32>>>();
    cudaDeviceSynchronize();

    return 0;
}

这里在运行的时候就出问题了，在我的版本是没有任何输出的。

然后我就加了一句代码尝试获取一下 cuda 的报错：

int main() {
    hellocuda<<<1, 32>>>();
    cudaDeviceSynchronize();

    printf("%s\n", cudaGetErrorString(cudaGetLastError()));

    return 0;
}

再运行，就看到了下面的错误信息：

the provided PTX was compiled with an unsupported toolchain.

经过了一些调查，发现可能当前 GPU 架构与当前 CUDA 的版本不匹配。

修改方法就是：CUDA 代码写到 .cu 文件里，然后用 nvcc 手动指定 sm 版本，再运行就可以正常执行了。

%%writefile test.cu
#include <stdio.h>

__global__ void hellocuda() {
    printf("hello cuda \n");
}

int main() {
    hellocuda<<<1, 32>>>();
    cudaDeviceSynchronize();

    printf("%s\n", cudaGetErrorString(cudaGetLastError()));

    return 0;
}

!nvcc test.cu -arch=sm_75
!./a.out

hello cuda 
hello cuda 
hello cuda 
hello cuda 
hello cuda 
hello cuda 
hello cuda 
……

那么还有一个问题需要解决一下，如何确定 sm 的版本是多少呢？

首先要根据 GPU 的型号确定 GPU 的架构，比如 T4 GPU 是 Turing 架构，然后去查一下 Turing 架构对应的 sm 版本就可以了。可以在这个地址查（https://arnon.dk/matching-sm-architectures-arch-and-gencode-for-various-nvidia-cards/），也可以去问问 AI。

最后 AI 给了我一段代码，也可以用来确定 sm 版本：

from tensorflow.python.client import device_lib
print(device_lib.list_local_devices())

运行这段代码的输出中会有这样一句：

physical_device_desc: "device: 0, name: Tesla T4, pci bus id: 0000:00:04.0, compute capability: 7.5"

这里的 7.5 就是当前设备的 sm 版本。

参考资料：

https://stackoverflow.com/questions/63675040/cuda-11-kernel-doesnt-run

https://arnon.dk/matching-sm-architectures-arch-and-gencode-for-various-nvidia-cards/

https://chat.deepseek.com

WordPress垃圾评论治理经验分享

WordPress这玩意最令人诟病的一个问题应该就是垃圾评论了，玩Wordpress的朋友应该都有体会。所以针对垃圾评论的防护方案也有不少，比如官方主推的插件Akismet。我之前也是一直在用这个插件，直到有一天，发现待审核评论里边躺着十几万条，Akismet告诉我超过了免费版的额度。

无奈当时为了快速处理掉，就付费订阅了，36刀一年，一用就是三四年，后来才发现，原来费用也可以调低到3刀一年，当了好几年大冤种。当然付费之后的防护效果还是不错的，绝大部分垃圾评论直接进了垃圾箱。不过进到垃圾箱的评论依然是要写数据库的，像我这种5刀一个月的VPS，在面对自动化饱和式倒垃圾的时候，还是有可能会被干挂的（不知道这种攻击到服务器挂掉的目的是啥）。

最近有了些空闲时间，重新思考了一下这个问题。
● 我只需要保留真人的留言
● 机器人自动评论没有必要在垃圾箱保存
基于以上需求，可以在插件市场找到一些验证码方案的插件，或者reCAPTCHA 这种方案的插件，都是在留言的过程中增加操作来做验证，判断留言者是不是一个真实的人。不过对于我这种几乎没有啥量的小站来说，似乎是有点过重了，还严重拉低了用户体验。

所以我开始琢磨自己在代码上动动手脚，让机器人找不到真正发表评论的入口。

我发现Wordpress 本身在评论这块只使用了最基础的HTML表单，对于机器人来说，只要读到表单，按照表单的action地址发送表单数据就可以了，这个门槛着实有点太低了。

于是我开始动手改造这部分的代码：
● 首先在原来“提交评论”按钮（按钮A）后边再放一个按钮（按钮B），作为真正提交评论的按钮，用css将原来的按钮A隐藏；
● 然后用一段js代码监听按钮B的点击状态，来发送POST请求；
● 最后将原来的接收表单的API改成直接返回成功，按钮B发送的数据到一个新的API正常评论。
如此修改后运行了几天，目前还没有一个垃圾评论进入数据库。至少比之前一天至少几百条的情况好太多了，终于可以把Akismet的钱省下来了。

对于我这种流量极低的站点来说，这个方案应该是比较稳的了，除非针对我专门制作攻击方案，我觉得目前我还不配，如果攻击我立马投降就是。

最后，分享一下做这种修改需要接触到哪些代码：
wp-comments-post.php 接收评论表单的API
wp-includes/comment-template.php 生成评论部分的前端代码
对于有一些前端经验的同学，这些应该没啥难度，无非照猫画葫芦。
只是我发现对于jQuery的使用要注意一下，$符号似乎不能用，必须显示的使用jQuery（比如：jQuery.post）。
另外，发表评论后，php会返回字符串形式的html，自己通过js发送的POST请求需要再处理一下返回数据，否则可能会让用户感觉什么都没发生。

从6分钟到20秒-做照片编辑软件时的性能优化经验

前几天手搓了一个照片调色的小 App，还发了个视频出来。虽然这个视频没有人感兴趣，不过这个开发的过程中有一些点我觉得还是值得分享出来的。[视频链接]

这个 App 大致的功能就是：
这个主要的功能在开发的过程中也是遇到了一些坑，最终效果呢距离预期也有那么一点点差距。这个事儿之后找机会再分享吧。总之，做到了现在这个——效果上将将可以接受的程度。

我遇到的问题是什么呢？
说起来挺简单的哈，做的时候其实也不是特别难，没花多少时间就撸出来了。跑起来一看，妈耶～，我都惊呆了！！
跑起来之后这个功能是正常的，但是呢，一张普通的 4K 图片，四千乘三千那种，跑了有6分多钟。对，我没说错，是6分钟，超过360秒。

虽然时间是挺长的，但是至少它是自动化的对不对？比一直用手扒拉（bu lu）那小滑块也还是方便了不少的，是吧？

我当然是不会就这样善罢甘休的，就开始了一些小小的优化。最终，达到了一张 4K 图片可以在 20秒左右处理完成，这基本上就达到了一个可以接受的程度。最终效果可以看我之前发的那个[视频]，就是那个样子。

接下来就是比较技术的内容了，稍微分享一下这次优化的思路和技术实现。

我首先做的一件事就是把可以预处理的部分提取出来，我用来传给模型的参数里有一些是通过对原图片的颜色和直方图进行运算得出的数据，所以这些对原图的运算是可以提前到图片载入的时候就提前进行运算的。当然，这个操作只是给运算压力换一个位置，并没有解决问题。然而通过遍历图片所有像素来做这些运算是非常非常耗时的。

然后我就跟 GPT 沟通了一下，怹给了我一些建议，可以试试 Accelerate 这个库。
Accelerate 这个是非常强大的，专门为大规模数学运算和图像运算设计的一个库。而且苹果的文档也是很给力的，有针对具体使用场景提供的文档。

我对预处理部分由该后的代码片段：

分离 RGB 各个通道
vImageConvert_ARGB8888toPlanar8

var sourceBuffer = try! vImage_Buffer(cgImage: cgImage)
var rChannel = [UInt8] (repeating: 0, count: pixelCount)
var gChannel = [UInt8] (repeating: 0, count: pixelCount)
var bChannel = [UInt8] (repeating: 0, count: pixelCount)
var aChannel = [UInt8] (repeating: 0, count: pixelCount)

rChannel.withUnsafeMutableBytes { rChannelPointer in
   gChannel.withUnsafeMutableBytes { gChannelPointer in
       bChannel.withUnsafeMutableBytes { bChannelPointer in
           aChannel.withUnsafeMutableBytes { aChannelPointer in
               var redBuffer = vImage_Buffer(data: rChannelPointer.baseAddress, height: vImagePixelCount(height), width: vImagePixelCount(width), rowBytes: Int(width))
               var greenBuffer = vImage_Buffer(data: gChannelPointer.baseAddress, height: vImagePixelCount(height), width: vImagePixelCount(width), rowBytes: Int(width))
               var blueBuffer = vImage_Buffer(data: bChannelPointer.baseAddress, height: vImagePixelCount(height), width: vImagePixelCount(width), rowBytes: Int(width))
               var alphaBuffer = vImage_Buffer(data: aChannelPointer.baseAddress, height: vImagePixelCount(height), width: vImagePixelCount(width), rowBytes: Int(width))

               // 分离 RGB 通道
               vImageConvert_ARGB8888toPlanar8(&sourceBuffer, &redBuffer, &greenBuffer, &blueBuffer, &alphaBuffer, vImage_Flags(kvImageNoFlags))
           }
       }
   }
}

计算各个通道的直方图
vImageHistogramCalculation_ARGB8888

var buffer = try! vImage_Buffer(cgImage: image)
        
var histogramRed = [vImagePixelCount](repeating: 0, count: 256)
var histogramGreen = [vImagePixelCount](repeating: 0, count: 256)
var histogramBlue = [vImagePixelCount](repeating: 0, count: 256)
var histogramAlpha = [vImagePixelCount](repeating: 0, count: 256)

histogramRed.withUnsafeMutableBufferPointer { zeroPtr in
   histogramGreen.withUnsafeMutableBufferPointer { onePtr in
       histogramBlue.withUnsafeMutableBufferPointer { twoPtr in
           histogramAlpha.withUnsafeMutableBufferPointer { threePtr in
               
               var histogramBins = [zeroPtr.baseAddress, onePtr.baseAddress,
                                    twoPtr.baseAddress, threePtr.baseAddress]
               
               histogramBins.withUnsafeMutableBufferPointer { histogramBinsPtr in
                   // `buffer` is a `vImage_Buffer` structure.
                   _ = vImageHistogramCalculation_ARGB8888(&buffer,
                                                           histogramBinsPtr.baseAddress!,
                                                           vImage_Flags(kvImageNoFlags))
               }
           }
       }
   }
}

数据归一化
vDSP_normalize

let floatChannelData = channel.map { Float($0) }
        
// 计算均值和标准差
var mean: Float = 0
var stdDev: Float = 0
vDSP_normalize(floatChannelData, 1, nil, 1, &mean, &stdDev, vDSP_Length(floatChannelData.count))

用了这个工具，直接让我的数据预处理部分的耗时从分钟级下降到了毫秒级。

接下来就到了重新组织数据的部分，这部分也是所有环节中最耗时的一个。之前用的是传统的方法，把像素数据放到数据数组里之后，遍历之前预处理的数据，一个一个复制到这个数据数组里。这无疑就是在逐像素遍历的基础上又在每个图块都又遍历了一遍额外的数据，这个预处理数据也有上百个元素呢，就是一个相当沉重的负担了。

这部分的优化主要做了两件事，一个是隐性的，把像素写入数据数组的代码尽量写成对并行友好的形式，这样的话，一方面编译器的优化能力可以发挥一些作用，能在一定程度上提高多核的并行度；另一方面以后可以再用多线程去进一步优化。

nonisolated func copyBlockDataToMLArray(pixelData: [UInt8], mlArray: MLMultiArray, blockX: Int, blockY: Int, blockSize: Int, blockIndex: Int, width: Int, height: Int, bytesPerPixel: Int) {
        
   for ih in 0..<blockSize {
      for iw in 0..<blockSize {
          let x = blockX * blockSize + iw
          let y = blockY * blockSize + ih
          
          let isOut = x >= width || y >= height
          
          let pixelIndex = MyHelper.getIndexFromXY(x: x, y: y, width: width) * bytesPerPixel
          
          let r = isOut ? -1 : Double(pixelData[pixelIndex])
          let g = isOut ? -1 : Double(pixelData[pixelIndex + 1])
          let b = isOut ? -1 : Double(pixelData[pixelIndex + 2])
          
          let di = MyHelper.getIndexFromXY(x: iw, y: ih, width: blockSize)
          let batchIndex = blockIndex * inputWidth + di
          
          mlArray[batchIndex    ] = NSNumber(value: r)
          mlArray[batchIndex + 1 * blockSize * blockSize] = NSNumber(value: g)
          mlArray[batchIndex + 2 * blockSize * blockSize] = NSNumber(value: b)
          
      }
   }
}

另外一件事，是用 Swift 的指针操作直接将预处理数据拷贝到数据数组，时间复杂度直接从O(N) 变成 O(1) 。

当然，Swift 的指针没有 C++ 那么自由，写起来也需要适应一下。但是至少它可以用，并且是好用的。

for ibh in 0..<bh {
   for ibw in 0..<bw {

       copyBlockDataToMLArray(pixelData: pixelData, mlArray: inputArr, blockX: ibw, blockY: ibh, blockSize: blockSize, blockIndex: blockedCount, width: width, height: height, bytesPerPixel: bytesPerPixel)
       
       // 将遍历赋值改为整块内存拷贝，速度大幅提升，4K图片从6分钟缩短为20秒
       let extraDataHeadIndex = blockedCount * inputWidth + blockSize * blockSize * 3
       inputArr.withUnsafeMutableBufferPointer(ofType: Double.self) { inputArrPtr, _ in
           extraDatas.withUnsafeBufferPointer { extraDataPtr in
               inputArrPtr.baseAddress!
                   .advanced(by: extraDataHeadIndex)
                   .update(from: extraDatas, count: extraDatas.count)
           }
       }
       
       blockedCount += 1

       // .......
       // 其他代码
   }
}

最后的部分就是将模型输出的数据重新拼接成图片，这里的思路是，每一个图块写到图片的像素缓存里可以没有固定的顺序，完全是可以并行执行的。

所以我就用了一个线程池，（所谓的线程池就是一个 OperationQueue），让每一个图块的写入任务并行起来，这块儿最终也提升了一些运行时间。

let fullOutputQueue = OperationQueue()
fullOutputQueue.maxConcurrentOperationCount = 10

// ......
// 其他代码

fullOutputQueue.addOperation {
   // outPixelData 应该保持弱引用，暂时不管警告
   self.copyMLArrayToOutputArray(input: result, output: &outPixelData, width: width, height: height, blockSize: self.blockSize, blockWidthCount: bw, blockedCount: _blockedCount, blockStartIndex: blockStartIndex, bytesPerPixel: bytesPerPixel)
}

最终，效果就像我之前发的[视频]里的那样，可以在20秒左右的时间处理完成一张 4K 的照片。达到了一个基本可用的状态。

最后总结一下关键点：
1. 使用 Accelerate 库优化大规模运算
2. 整块拷贝内存
3. 多线程并行处理

Xcode 16.1
Swift 5

视频版

Gitlab 配置自定义 clone 地址

前情提要

我是通过 docker 安装的 gitlab_ce ，版本 14.4.2。因为机器还要跑其他服务，所以不能使用 80、22 等端口，需要映射到其他端口。
通过 gitlab.rb 配置文件配置的 external_url 只能配置在 clone 标签下得 host，不能带有端口号。

Clone with HTTP

首先必须是 Admin 账号。
进入 Admin Area。
在 Settings 的 General 中选择 Visibility and access controls。
往下拉，有一个标题为 Custom Git clone URL for HTTP(S) 的输入框。
可以在输入框中输入带端口号的 url。
然后保存就 OK 了。

Clone with SSH

需要在 gitlab.rb 中配置。

搜索 gitlab_ssh_host。

// 配置主机地址 
gitlab_rails['gitlab_ssh_host'] = '192.168.72.90'

然后搜索 ssh_port。

// 配置主机的 ssh 端口 
gitlab_rails['gitlab_shell_ssh_port'] = 40022

然后保存，重启 gitlab，就完成了。

Windows 编译 AOSP 趟坑笔记

首先 AOSP 是不支持在 windows 系统下直接编译的，目前官方也不再支持 Mac OS ，所以只能搞个 Ubuntu 环境。
我首先尝试了 wsl ，安装 Microsoft Store 官方的 Ubuntu 。这条路实际上并没有走通，不过我还是分享一些关键点。

首先，要保证代码所在文件夹必须是大小写敏感的。使用管理员模式运行命令行，执行下面命令，开启文件夹的大小写敏感。

fsutil.exe file setCaseSensitiveInfo E:\xxx\aosp enable

这里要注意一点，建议先处理好文件夹再下载代码，因为这条命令只能操作一层文件夹，如果已经下载完的代码，再想改变所有文件夹的大小写敏感状态就需要写脚本去处理了，会很慢。

其次，Ubuntu 要切换到 wsl2 ，具体方法可以搜索。

然后按照官方文档的方法安装环境和同步代码，如果访问官方代码库速度不理想也可以用国内清华或者科大的镜像，具体操作在他们镜像站都有。

访问 windows 文件夹的话，盘符在 /mnt 文件夹下。

我因为代码下载到了 windows 路径中，导致无法启动编译。会一直报系统不支持的错误：

Failed to listen for path logs: listen unix 
out/.path_interposer_log: bind: operation not supported

已经提 issue
https://github.com/microsoft/WSL/issues/7283

现在切回到主线，我后来尝试了使用 docker 。可以成功的启动编译了，但是访问 windows 路径会及其慢，一次编译用了10几个小时（配置：i7 + 32G 内存）。

windows 下不论是 wsl 直接安装的 Ubuntu 还是用 docker，都不建议直接访问 windows 路径。
在 Ubuntu 下直接同步代码，按照官方文档进行编译，可以很顺利的完成。
不过如何从 docker 启动模拟器我目前还没找到好办法，可能会考虑电脑直接装双系统了。

解决 iOS 的 SSH 连接不上的问题

要用 SSH 连接 iPhone 手机，当然要越狱才行。当然越狱不是这篇的重点，就不多说了。
然后手机需要装有 OpenSSH ，通过 Cydia 就可以安装，很简单。
然后就遇到问题了，用的是一个 iPhone 6，系统 10.3.3 。发现即使都安装好了，使用 SSH 还是无法连接。

查资料的过程就不介绍了，解决方案如下：
首先需要在手机上安装一个命令行 App ，自己找 Cydia 的源就好了，只要能用就行。
使用命令行先停掉 sshd 的 plist

launchctl unload /Library/LaunchDaemons/com.openssh.sshd.plist

然后用如下命令启动 sshd

/usr/libexec/sshd-keygen-wrapper

之后就可以在电脑上使用 ssh 操作我的苹果手机了。
没有在其他设备和系统测试过，不知道能不能解决所有问题，希望对看到这篇博文的你能有一点帮助。

Unity3D Custom Render Texture Shader 编译到低版本 Shader model 环境

写好的 Custom Render Texture 的 shader 在打包的时候报出了一个错误：

[Unity] Player export failed. Reason: Shader error in 'Hidden/MyCustomRenderTextureShader': 'asuint' : no matching overloaded function found at ***/CGIncludes/UnityCustomRenderTexture.cginc(189) (on gles)

查资料发现 asuint 这个函数是在 Shader Model 4 (SM4) 才开始支持。
然后稍微看了一下 cginc 里边的代码，发现只有一个地方用到了这个函数——是把浮点类型的 primitive ID 转成 uint 类型。

OUT.primitiveID = asuint(CustomRenderTexturePrimitiveIDs[primitiveID]);

这个 primitiveID 是 update zone 的当前正在处理的索引，而我目前并没有使用很多 update zone 来实现效果的需求，所以决定尝试一下，直接将 float 类型强转成 uint 。

OUT.primitiveID = (uint)(CustomRenderTexturePrimitiveIDs[primitiveID]);

操作步骤：

在自己的工作目录下创建一个自己的 CustomRenderTexture 的 cginc ，也就是新建个文本文件，把后缀改成 .cginc。
把 UnityCustomRenderTexture.cginc 中的代码全部复制到自己新建的 cginc 中，并且按照上面代码修改。
别忘了修改一下头部的宏定义名称 #ifndef UNITY_CUSTOM_TEXTURE_INCLUDED 跟默认的做一个区分。
在 shader 代码中引用我们自己的 cginc ，就可以用了。

Unity3D UGUI 基础布局

1. 轴点 (Pivot)
作为控件的“轴”，在控件状态改变时对最终布局产生影响。比如，旋转的时候控件就以轴点为中心旋转，调整尺寸或缩放的时候轴点会固定在原位置。

2. 锚点 (Anchor)
Anchor 看起来的样子是四个相对的三角形。Anchor 决定了当前控件与父控件的位置关系。控件的 Rect Transform 的坐标 Pos X 和 Pox Y 就以 Anchor 为原点。也就是 Pivot 会放在 Anchor + (Pos X, Pox Y) 的位置上。当父控件状态（旋转、缩放、移动等）发生变化时，控件会保持这个关系跟随父控件。
在 Anchor 选择面板，按住 Shift 选择会同时将 Pivot 设置在 Anchor 选择的相同的位置；按住 Alt 选择会将控件位置同时停靠在 Anchor 位置。如果要同时将 Pivot 和位置放在 Anchor 点，就同时按住 Shift 和 Alt。

3. 尺寸自适应
也可以选择自动伸展的 Anchor 比如，全屏或者 X 轴或 Y 轴方向自动伸展。这个时候在 Rect Transform 中的坐标或（和）尺寸设置会变成 Left Right Top Bottom 。这些值是相对 Anchor 自动伸展方向的距离。这个概念是非常有用的，可以实现控件相对父控件同比例缩放。具体效果看我撸的视频会比较清楚一点。

Unity3D 解决默认碰撞检测的缺陷 —— 实现理想的匀速直线运动

首先介绍一下默认碰撞检测存在的问题。先不提【我只想要你丫告诉我碰撞盒撞上了，却非得要我挂个钢体组件，还得接受重力，阻尼，角速度的影响。不是在逗我？】，那么我们手动勾选上钢体的 Is Kinematic 属性，自己来控制。

我们看下边的图：

当这个圆走到实线圆圈位置的时候，就会触发碰撞检测回调。当然，如果是在虚线圆圈的位置，回调是不会被触发的。那么问题来了，如果一帧的移动距离刚好是从虚线位置移动到实线位置，情况就是这样的，移动前一帧不会触发碰撞回调，而后一帧两个碰撞体已经嵌到一起了。

当然，如果只是小小的插入一下，也并没有什么问题，接下来看下面的图：

当一帧的移动距离超过碰撞目标的时候，奇迹发生了，这时碰撞检测的回调根本不会触发。也就是说在速度足够快的情况下，你的墙是挡不住你的球的。

为了实现一个在理想条件下的匀速直线运动，我就用 Unity 本身的射线检测功能来解决这个问题。

首先取出自己的碰撞盒

var selfCollider = GetComponent<Collider2D>();

Collider 中有 Raycast 和 Cast 两个方法，参数差不多，具体的区别，还得画两张图：

图一

图二

图三

图一、图二中蓝色的线就是 Raycast 的结果，是从自己的中心射到目标碰撞盒上，如果按照这个射线的距离运动，结果就是图二的样子。

图三种的蓝色线是 Cast 方法的结果，射到目标碰撞盒上的是自己碰撞盒与目标碰撞盒的交点。这个距离就是从当前点移动到发生碰撞的点的距离。

简单一点就用 Cast 方法就够了，Raycast 比 Cast 提供了更多细节操作，比如专门针对某一层的检测等，如果需要做更细节的优化，就得自己用 Raycast 方法来处理。

RaycastHit2D[] casthits = new RaycastHit2D[maxRaycastCache]; 
int num = selfCollider.Cast(forward, casthits);

RaycastHit 中比较重要的属性：

collider —— 目标碰撞盒

distance —— 到碰撞点的距离（上面图3中蓝线的长度）

normal —— 碰撞点的法线

point —— 目标碰撞点

接下来的逻辑就是：

比较本帧移动距离和 distance ，如果本帧移动距离比较小，就直接移动。

float stepDistance = speed * Time.fixedDeltaTime; 
if (stepDistance < distance) 
{ 
   gameObject.transform.Translate(forward * stepDistance); distance -= stepDistance; 
}

当然之后要把总距离减去这步的移动距离。

如果这一帧的距离大于剩余的距离了，就需要处理反射了。

先移动到碰撞点→方向向量反射→继续移动完。

while (stepDistance > nextDistance) 
{ 
    gameObject.transform.Translate(forward * nextDistance); 
    stepDistance -= nextDistance;

    forward = Vector2.Reflect(forward, normal); 
    /* 找下一个碰撞目标 */ 
    …… 
}

打完收工。

当然这只是简单的描述，实际上还会遇到一些坑，比如当前自己和一个碰撞盒有重叠的时候，取到的第一个 RaycastHit 永远是有接触的这个碰撞盒，此时与方向向量无关，所以需要根据自己的逻辑处理。还有同时碰撞两个或多个碰撞盒等，都要小心处理。