나는 Gemini의 심층 연구와 Chatgpt의 심층 연구에 대해 새로운 Perplexity Deep Research를 배치했습니다. 아래 전체 결과
저는 위의 모든 서비스에 대해 20달러를 구독하고 있습니다(예, 최대/울트라 등급이 아닌 프로 구독입니다). Perplexity는 Sonnet 4.5를 기반으로 한 최신 심층 연구인 이 기능을 현재 프로 사용자에게 배포하고 있는 것 같습니다(선택 모드에서 DR의 최신 버전으로 표시됨). 나는 위의 두 가지에 대해 어떻게 수행되는지 확인하기로 결정했습니다. 내가 준 프롬프트는 링크에 있습니다.
계속하기 전에 탐색한 소스/출력 길이에 대한 일부 데이터는 다음과 같습니다.
Chatgpt 심층 연구 - 18개 소스, 89개 검색, 11분, 대략 1,100개가 조금 넘는 토큰
Gemini Deep 연구 - 대략 3500개 토큰, 약 100개 소스
Perplexity Deep 연구 - 대략 5555개 토큰, 98개 소스 검색됨
내 말을 받아들이고 싶지 않고 직접 평가하고 싶지 않은 경우를 대비해 답변 링크
Chatgpt 심층 연구 보고서 - https://chatgpt.com/share/69878a57-e1cc-8012-80b1-5faf5a39d4b2
Gemini Deep 연구 보고서 - https://gemini.google.com/share/a6201a2acf9a
당혹감 - https://www.perplexity.ai/search/deep-research-task-android-fla-sTIHXB.OTAaC4fvbYREINA?preview=1#0
이제 다른 축에서 얻은 결과의 순위를 매기겠습니다.
첫째, 정확성/품질 기준(가장 중요)
이제 Antutu/Geekbench 점수에 대해 너무 가혹하게 설명하지는 않겠습니다. 이러한 벤치마크 결과는 다양할 수 있고 어느 정도의 차이가 예상되기 때문입니다. 신뢰할 수 있는 여러 소스가 보여주는 범위에 있다면 허용됩니다. 비디오 게임 FPS 벤치마크/화면 시간 수치와 같은 항목에도 마찬가지입니다. 이를 너무 복잡하게 만들지 않기 위해 gsmarena/phonearena와 같은 소스를 적절한 테스트 데이터가 있는 최고 품질의 소스로 고려해 보겠습니다.
Chatgpt - MKBHD에서 실시한 블라인드 카메라 테스트에 대한 내용을 명확하게 구성합니다. 그가 마지막으로 수행한 카메라 테스트는 2023년 말이었습니다. 해당 오래된 소스를 잘못 검색하여 픽셀 7a 및 oneplus 11(2026년 남성)과 같은 오래된 모델에 대한 ELO 점수를 얻은 다음 이를 최신 모델에 대한 결과로 표시합니다. 이 수준의 환각은 허용되지 않습니다. oneplus 13에 대해 잘못된 PWM 값이 표시됩니다(4160hz가 아니라 2160Hz가 정확함). Pixel 10 pro, 10 pro에 대해 잘못된 충전 전력량이 30W로 제한되어 있습니다. 37-40W가 아닙니다. 답변 품질은 확실히 최고가 아니며 11분 동안 작동했으며 2개의 전화기만 비교했습니다.
쌍둥이자리(Gemini) - 쌍둥이자리는 다음 지침(아래에서 논의할 것임)에서 큰 실패를 겪었고 결과적으로 답변에도 영향을 미쳤습니다. Gemini가 chatgpt와 마찬가지로 큰 실수를 저지른 곳은 MKBHD가 2025/2026년에 블라인드 카메라 테스트를 실시했다고 잘못 표시합니까? 그리고 우리가 확인할 수 없는 카메라 성능에 대한 일부 ELO 점수를 표시하고 있습니까? 사람들이 그것을 확인할 수 있다면 아래에 의견을 남겨주세요. 그러나 전체적인 품질을 보면 Gemini는 어디에나 있습니다. Antutu 벤치마크의 경우 S26 Ultra(출시되지도 않았으며 지난 몇 달 동안 출시된 휴대폰을 분명히 언급했습니다)와 Pixel 10 pro Xl을 비교했습니다. 그런 다음 밝기/PWM을 비교하는 동안 위의 두 가지 휴대폰을 믹스에 추가했으며 Xiaomi 17 Ultra에 대해 잘못된 PWM 값이 표시되었습니다. Gemini는 또한 10 pro XL이 사용 가능한 밝기에 대해 업계 기록을 보유하고 있음을 보여줍니다. 나는 최대 밝기에서 더 많은 니트를 가진 여러 다른 전화기를 보았습니다. 의심(검색 결과 현재 모토로라 시그니처인 6200니트 피크가 표시됨). 다음으로, 카메라 비교를 위해 제가 특별히 안드로이드만 요청했을 때 iPhone 17 pro를 믹스에 추가했습니다. 단지 일련의 휴대폰을 선택하고 비교 중에 계속 변경해서는 안 됩니다.
Perplexity - Pixel 10 pro의 GPU 스트레스 테스트가 잘못 표시되었습니다. GSM에 따르면 Pixel 10 pro는 이 벤치마크에서 괜찮은 성능을 발휘하여 약 70%를 기록했습니다. Perplexity는 어떤 이유에서인지 40%로 표시합니다. Perplexity는 또한 동일하지 않은 자동 밝기와 별도의 최고 밝기 범주를 표시합니다(혼란하지 않도록 주의하세요). Pixel 10 pro와 s25 Ultra의 밝기 비교에 대해 논쟁의 여지가 있으며 어떤 사람들은 픽셀이라고 말하고 다른 사람들은 s25 Ultra라고 말하므로 여기서 점수를 차감하지 않을 것입니다. 그러나 여기서 주목해야 할 중요한 점은 적어도 다른 두 가지 심층 연구와 같은 가상 테스트를 기반으로 가짜 ELO 점수를 구성하지 않는다는 것입니다. MKBHD 카메라 블라인드 테스트는 2023년에 마지막으로 이루어졌으며 대신 웹에서 얻은 진실한 정보를 제공했음을 분명히 밝혔습니다. 여기서 당혹감을 지적하면 다른 두 가지보다 확실히 더 정확하다고 생각합니다.
Genshin/Antutu/Geekbench/SOT 테스트는 다양한 소스에서 컴파일되었으며, 각각의 모든 숫자를 수동으로 확인했으며 세 가지 DR 모두에 대해 어느 정도 합법적인 값의 야구장에 있습니다. 댓글로 바로잡아주세요
이제 다음 지침/더 나은 UI-UX를 기반으로 결과를 비교해 보겠습니다.
나는 인라인 이미지와 소스가 필수라는 점을 프롬프트에서 분명히 언급했습니다. 그리고 해당 휴대폰은 지난 6개월 이내에 출시된 것이어야 합니다(미출시 휴대폰 제외) + 안드로이드 전용
쌍둥이자리 - 지시를 따르는 것이 최악입니다. 나는 이 DR을 이전에 조금 사용해 본 적이 있지만 그렇게 많이 사용하지는 않았습니다. 인라인 이미지/인라인 인용을 지원하는지 잘 모르겠습니다(다른 두 개가 지원하기 때문에 확실히 열악한 UX입니다. 인라인 인용이 필요한 것은 빠른 사실 확인을 위해 필수입니다). 하지만 가장 중요한 부분은 이미 출시된 휴대폰만 요청했는데 S26 Ultra가 계속 혼합된다는 점입니다. S26 ultra는 이번 달에 출시될 예정이므로 이 보고서에 포함되어서는 안 됩니다. 예, S26 ultra에 대해 보고된 벤치마크 값이 있다는 것을 알고 있습니다(geekbench에서 발견된 것과 같은). 하지만 약간의 소금과 함께 사용하는 것이 가장 좋습니다. 팔로우하지 않으면 포인트가 차감되며, 심지어 아이폰과 안드로이드폰을 비교한다는 사실도 고려했습니다. 좋지 않다.
Chatgpt - Gemini보다 낫습니다. 인라인 이미지 + 테이블 값에 대한 인용이 표시됩니다. 내 필터에 따라 Android 휴대폰만 표시되었습니다.
당혹감(Perplexity) - 지침을 가장 잘 따랐으며 내 필터, 인라인 이미지 및 인용(더 쉬운 번호 확인을 위해)에 따라 휴대폰을 표시했습니다. 하지만 Perplexity에 1위를 준 뒤 지침을 주어야 합니다. Perplexity에 주요 브랜드를 비교하라고 구체적으로 요청했는데 여러 휴대폰이 표시되었기 때문입니다. Chatgpt는 괜찮게 시작하여 여러 전화기를 조사하고 중간에 전환했으며 방금 2개의 전화기에 대한 결과를 표시했습니다. 훌륭한 지침은 아니지만 소문난 S26 울트라 데이터/iPhone 비교를 보여주지 않았고 Perplexity도 보여주지 않았기 때문에 Gemini보다 확실히 낫습니다.
종합 순위
#1 - Perplexity는 확실히 사실적 부정확성이 적습니다(100% 오류가 없다고 말하는 것은 아닙니다. 최신 모델에 여전히 경고 슬라이더가 있는 oneplus에 대한 오래된 정보를 표시하는 것과 같이 정보가 오래되거나 부정확한 곳이 있습니다). 그러나 이는 최소한 진실이며 가상의 ELO 점수를 구성하지 않습니다. 탐색을 통해 얻은 내용을 표시합니다. 다른 두 가지보다 훨씬 더 내 지시를 따릅니다. 시각적이고 포괄적인 보고서 내에 훨씬 더 흥미로운 벤치마크 데이터도 표시되었습니다. 예, 출력 길이만으로는 품질을 결정할 수 없다는 것을 알고 있지만 사실적으로도 이것이 더 나았습니다. 그래도 더 많은 RAM 데이터를 표시할 수 있었습니다.
#2 - Chatgpt. 작업이 매우 게으른 작업임에도 불구하고 Gemini에 비해 휴대폰 2대만 비교했을 때 더 나은 지침을 따르고 인라인 이미지/인용을 표시했습니다. 둘 다 조금 더 환각을 보였지만 이것을 chatgpt 심층 연구에 제공했습니다.
#3 - 쌍둥이자리. 내 지시를 따르지 않았으며 훨씬 더 환각적이거나 잘못된 정보를 보여줍니다. 잘못된 내용이 표시된다는 점에서 chatgpt와 비슷할 수도 있지만 이 답변은 내가 찾던 답변이 아니었습니다.
아래에서 자유롭게 조사하고 의견을 적어보세요.