GEEK HAUS
소스 목록으로

VentureBeat 모음

기사 8건

·VentureBeat

Kimi K2.7-Code cuts thinking tokens 30% — but practitioners say the benchmarks don't check out

Moonshot AI가 K2 코딩 모델군의 오픈소스 업데이트인 Kimi K2.7-Code를 공개하며 K2.6 대비 thinking-token 사용량을 30% 줄였다고 밝혔습니다. 이 모델은 기존과 같은 1조 파라미터급 mixture-of-experts 구조를 쓰며 OpenAI-compatible API, vLLM, SGL...

Kimi K2.7-Code cuts thinking tokens 30% — but practitioners say the benchmarks don't check out
읽기
·VentureBeat

Google researchers introduce 'faithful uncertainty,' allowing LLMs to offer best guesses instead of hallucinations

Google 연구진은 LLM의 내부 신뢰도와 응답 방식을 정렬하는 faithful uncertainty 개념을 제안했습니다. 이 접근법은 모델이 모르는 사안에서 무리하게 단정하거나 단순히 답변을 거부하는 대신, “최선의 추정”처럼 적절히 유보된 가설을 제시하도록 합니다.

Google researchers introduce 'faithful uncertainty,' allowing LLMs to offer best guesses instead of hallucinations
읽기
·VentureBeat

Microsoft’s open-source SkillOpt automatically upgrades AI agent skills without touching model weights

Microsoft가 AI agent의 skill 문서를 성능 피드백 기반으로 자동 개선하는 오픈소스 프레임워크 SkillOpt를 공개했습니다. SkillOpt는 markdown 기반 지시문을 학습 가능한 대상으로 취급해 수정 조합을 탐색하며, 기반 모델의 가중치는 변경하지 않습니다. 벤치마크에서는 GPT-5.5와 Qwen...

Microsoft’s open-source SkillOpt automatically upgrades AI agent skills without touching model weights
읽기
·VentureBeat

Xiaomi's new open source, agentic AI coding harness MiMo Code beats Claude Code at ultra-long, 200+ step tasks

Xiaomi MiMo AI 팀이 terminal-native AI 코딩 assistant MiMo Code V0.1.0을 MIT license로 GitHub에 공개했습니다. Xiaomi는 내부 beta와 576명 개발자 survey를 근거로, MiMo Code가 200단계 이상 장기 agentic coding benchm...

Xiaomi's new open source, agentic AI coding harness MiMo Code beats Claude Code at ultra-long, 200+ step tasks
읽기
·VentureBeat

Surprise upset: GPT-5.5 beats Claude Fable 5 on brutal new Agents’ Last Exam benchmark

UC Berkeley RDI와 300명 이상의 분야별 전문가 자문단이 장기 전문 업무 수행 능력을 측정하는 새 벤치마크 Agents’ Last Exam을 공개했습니다. OpenAI의 4월 GPT-5.5는 Codex harness 기반 평가에서 24.0% 합격률로 1위를 차지했으며, 전날 공개된 Anthropic의 Clau...

Surprise upset: GPT-5.5 beats Claude Fable 5 on brutal new Agents’ Last Exam benchmark
읽기
·VentureBeat

Researchers say they trained a foundation model from scratch for about $1,500

Sapient 연구진은 표준 Transformer를 대체하는 Hierarchical Recurrent Model 기반 HRM-Text를 통해 1B parameter 모델을 처음부터 약 1,500달러에 학습했다고 밝혔습니다. HRM-Text는 대규모 웹 텍스트의 next-token prediction 대신 instructi...

Researchers say they trained a foundation model from scratch for about $1,500
읽기
·VentureBeat

Apple’s new Siri AI is more than just a smarter assistant — it's a new enterprise app layer

Apple은 WWDC 2026에서 새 Siri AI를 단순한 음성 비서가 아니라 iPhone, iPad, Mac, Apple Watch, Vision Pro 전반에서 앱·데이터·업무 액션을 연결하는 시스템 인터페이스로 제시했습니다. 기업 개발자는 App Entities, Spotlight semantic index, Ap...

Apple’s new Siri AI is more than just a smarter assistant — it's a new enterprise app layer
읽기
·VentureBeat

Cohere open-sources a coding agent that runs on a single H100

Cohere는 단일 H100 GPU에서 실행 가능한 300억 파라미터 MoE 코딩 에이전트 North Mini Code를 Apache 2.0 라이선스로 Hugging Face에 공개했습니다. 이 모델은 토큰당 30억 파라미터만 활성화하며, 256,000 토큰 컨텍스트 창과 64,000 토큰 최대 생성 길이를 지원해 age...

Cohere open-sources a coding agent that runs on a single H100
읽기